Электронный научно-практический журнал «Современные научные исследования и инновации» » случайный лес

Прогнозирование урожайности дикой черники с использованием методов машинного обучения

Абраев Айдар Фаритович — Tue, 22 Apr 2025 09:24:42 +0000

Введение

Прогнозирование урожайности сельскохозяйственных культур является одной из ключевых задач агроаналитики. Особую актуальность приобретает оценка урожайности дикорастущих ягод, таких как черника, которая обладает высокой пищевой и лекарственной ценностью. В рамках соревнования на платформе Kaggle [1] участникам предлагалось спрогнозировать урожайность дикой черники по множеству природных и климатических факторов.

Методология

Обработка данных

Были использованы данные из файлов train.csv и test.csv, содержащих характеристики окружающей среды: температура, влажность, кислотность почвы и др. После исключения неинформативных столбцов и идентификаторов была проведена стандартизация признаков.

Таблица 1. Основные этапы обработки данных

Этап обработки	Описание
Импорт данных	Загрузка из файлов train.csv и test.csv
Определение признаков	Исключение столбца id, выбор числовых признаков
Масштабирование	Стандартизация признаков по среднему и стандартному отклонению
Разделение выборки	Обучающая и тестовая выборка разделены по принципу задания

Визуализация данных

Для лучшего понимания распределения и взаимосвязей между признаками на этапе анализа данных были построены графики распределения, тепловые карты корреляции и диаграммы рассеяния. Это позволило выявить потенциальные зависимости между климатическими переменными и уровнем урожайности.

Рисунок 1. Тепловая карта корреляции признаков

Такие визуализации не только помогают в интерпретации данных, но и позволяют лучше понять значимость отдельных признаков при построении модели.

Выбор модели и настройка гиперпараметров

На этапе выбора модели было протестировано несколько алгоритмов: линейная регрессия, градиентный бустинг и случайный лес. Последний показал наилучшие результаты при разумном времени обучения. Гиперпараметры модели (число деревьев, глубина, случайное состояние) подбирались эмпирически с использованием кросс-валидации, что позволило избежать переобучения и повысить стабильность модели.

Модель и обучение

В качестве модели использовался алгоритм Random Forest Regressor [2], реализованный в библиотеке scikit-learn. Параметры модели:
- число деревьев: 490
- максимальная глубина: 7
- случайное зерно: 42
- количество параллельных потоков: -1

После обучения модель была применена к тестовому набору для получения предсказаний урожайности, которые были сохранены в формате csv для последующей отправки на Kaggle.

Результаты

Модель показала устойчивость к переобучению и высокую точность предсказаний на основе валидированных метрик: средняя абсолютная ошибка (MAE) и коэффициент детерминации (R²). Хотя точные оценки производительности были недоступны из-за отсутствия меток в тестовой выборке, модель успешно прошла конкурсную валидацию Kaggle.

Возможности и перспективы развития

Разработанная модель может быть интегрирована в геоинформационные системы (ГИС) для визуального отображения прогнозов урожайности в различных регионах. Также модель может быть адаптирована для других культур, что позволит расширить область её применения. С дальнейшим накоплением данных возможно применение более сложных нейросетевых архитектур, таких как LSTM или трансформеры, для учёта временных изменений и предсказаний на будущие сезоны.

Заключение

Использование алгоритма случайного леса для задачи прогнозирования урожайности дикой черники показало свою практическую состоятельность. Предложенный подход может быть расширен на другие дикорастущие культуры, учитывая доступность климатических и почвенных данных. Конкурсы подобного рода способствуют развитию аналитических навыков у студентов и специалистов, а также способствуют интеграции науки и практики в области агропромышленного комплекса.

Разбор по косточкам: как случайный лес принимает решения на примере медицинской диагностики

Пальгова Полина Павловна — Wed, 05 Nov 2025 05:33:31 +0000

Научный руководитель: Вильданов Алмаз Нафкатович
к.ф.-м.н., Уфимский университет науки и технологий, Нефтекамский филиал

1. Задача (Постановка проблемы)

В задачах бинарной классификации, таких как медицинская диагностика, критически важна не только точность, но и устойчивость прогноза. Одно дерево решений может быть неустойчивым и сильно зависеть от шума в данных. Как создать модель, которая была бы более надежной и точной? Решением этой проблемы является использование ансамблей — комитета моделей, которые совместно принимают решение.

Конкретная задача: Имея данные пациента (ИМТ = 28, Возраст = 60) и структуру обученного случайного леса из трех деревьев, необходимо:

Определить индивидуальный прогноз каждого дерева.
Вывести итоговый прогноз леса по правилу большинства голосов.
Выявить дерево, прогноз которого отличается от остальных.

2. Теория

Случайный лес (Random Forest) — это алгоритм машинного обучения, относящийся к группе ансамблевых методов. Его основная идея — бэггинг (Bootstrap Aggregating) и случайность.

Ансамблирование: Принцип «один за всех, и все за одного». Вместо одного сложного дерева строится множество (лес) более простых. Каждое дерево в лесе «голосует» за тот или иной класс.
Бэггинг: Каждое дерево обучается на своем, случайном подмножестве исходных данных. Это позволяет деревьям быть разнообразными и не повторять ошибки друг друга.
Случайность признаков: При построении каждого узла дерева рассматривается не все множество признаков, а лишь их случайное подмножество. Это заставляет деревья быть еще более независимыми.

Преимущества подхода:

Высокая точность: Коллективное решение обычно лучше индивидуального.
Устойчивость к переобучению: Разные деревья компенсируют переобучение друг друга.
Робастность: Устойчив к выбросам и шуму в данных.

3. Решение (Практическая реализация)

Проведем пациента с данными (ИМТ=28, Возраст=60) через каждое из трех деревьев.

Дерево 1:

Правило: ИМТ ≤ 30? Да, 28 ≤ 30.
Следуем по левой ветке и сразу попадаем в лист с ответом: «нет» (0).

Дерево 2:

Правило: Возраст ≤ 50? Нет, 60 > 50.
Следуем по правой ветке.
Следующее правило: ИМТ ≤ 28? Да, 28 ≤ 28.
Следуем по левой ветке и попадаем в лист с ответом: «да» (1).

Дерево 3:

Правило: ИМТ ≤ 27? Нет, 28 > 27.
Следуем по правой ветке.
Следующее правило: Возраст ≤ 45? Нет, 60 > 45.
Следуем по правой ветке и попадаем в лист с ответом: «да» (1).

Анализ голосования:

Дерево 1: 0 («нет»)
Дерево 2: 1 («да»)
Дерево 3: 1 («да»)

Итоговое решение по правилу большинства: Победил класс 1 («да») с двумя голосами против одного.

Ответы на вопросы задачи:

Итоговый прогноз: У пациента есть диабет (класс 1).
Дерево с другим результатом: Дерево 1 предсказало отсутствие диабета, в то время как Дерево 2 и Дерево 3 предсказали его наличие.

4. Вывод

Данный пример наглядно демонстрирует мощь ансамблирования в машинном обучении. Даже несмотря на то, что одно из деревьев (Дерево 1) дало ошибочный, с точки зрения большинства, прогноз, совокупное решение леса оказалось другим и, вероятно, более точным. Это произошло потому, что Дерево 1, ориентированное в первую очередь на ИМТ, «не учло» важность возраста для данного конкретного пациента, которую смогли уловить другие деревья. Таким образом, случайный лес повышает надежность прогноза, агрегируя мнения множества слабых, но разнообразных моделей, что делает его незаменимым инструментом для решения сложных задач классификации.

Бинарное кодирование категориальных признаков: теория и практика на примере признака «Служба в армии»

Пальгова Полина Павловна — Wed, 03 Dec 2025 05:44:30 +0000

В области машинного обучения и анализа данных большинство алгоритмов (такие как линейная регрессия, логистическая регрессия, деревья решений и нейронные сети) работают исключительно с числовыми данными. Однако на практике исходные наборы данных часто содержат категориальные (номинальные) признаки. Примером такого признака в вашем задании является столбец «Служил» со значениями «да» и «нет».

Задача: Преобразовать категориальный текстовый признак «Служил» в числовой формат, пригодный для обработки алгоритмами машинного обучения, без потери его логического смысла.

2. Теория

Категориальные признаки — это переменные, которые принимают значение из ограниченного набора возможных вариантов (категорий). Они бывают:

Номинальные: Категории не имеют порядка (например, «красный», «синий», «зеленый»; «да»/«нет»).
Порядковые: Категории имеют内在ний порядок (например, «младший», «средний», «старший»).

Проблема «наивного» присвоения чисел: Прямое присвоение чисел (например, «да» = 1, «нет» = 2) для номинальных признаков может ввести алгоритм в заблуждение. Модель может ошибочно интерпретировать, что «нет» (2) больше, чем «да» (1), или что расстояние между «да» и «нет» равно 1, что лишено смысла.

Решение: Бинарное кодирование (Label Encoding для бинарных признаков)
Для признаков, имеющих ровно две категории (бинарных), применяется простой и эффективный метод — прямое сопоставление с числами 0 и 1. Этот частный случай более общего метода Label Encoding является безопасным, так как между двумя состояниями действительно существует лишь одно логическое «расстояние».

«да» → 1
«нет» → 0

Такой подход полностью сохраняет информативность признака, преобразуя его в удобный для вычислений формат.

3. Решение (Практическая реализация)

Решение задачи состоит из двух этапов: ручного преобразования (для понимания сути) и программной реализации.

3.1. Ручное преобразование (Ответ на ваше задание)
Мы проходим по каждой строке Таблицы 1 и в соответствии с правилом «да» → 1, «нет» → 0 заполняем Таблицу 2.

Таблица 2. Кодировка (результат)

№	Возраст	Служба
1	44	1
2	41	0
3	39	0
4	17	1
5	33	1
6	47	0

3.2. Программная реализация на Python с использованием библиотеки Pandas
На практике преобразования выполняются автоматически. Вот пример кода:

python

Копировать

Скачать
import pandas as pd

# Создаем DataFrame из исходных данных
data = {
    ‘№’: [1, 2, 3, 4, 5, 6],
    ‘Возраст’: [44, 41, 39, 17, 33, 47],
    ‘Служил’: ['да', 'нет', 'нет', 'да', 'да', 'нет']
}
df = pd.DataFrame(data)

# Преобразуем признак “Служил” в числовой формат
df['Служба'] = df['Служил'].map({‘да’: 1, ‘нет’: 0})

# Выводим результат
print(df[['№', 'Возраст', 'Служба']])

# Сохраняем в CSV-файл (как в вашем задании)
df[['№', 'Возраст', 'Служба']].to_csv(‘my_submission.csv’, index=False)
Результат выполнения кода будет в точности соответствовать заполненной вами Таблице 2.

4. Вывод

Преобразование категориальных признаков в числовые — это критически важный и обязательный этап предобработки данных перед построением моделей машинного обучения. Для бинарных признаков, таких как «Служил», наиболее простым и корректным методом является прямое отображение значений «да»/«нет» на 1/0. Этот подход устраняет барьер между данными, понятными человеку, и данными, пригодными для машинной обработки, не искажая при этом исходную информацию и не внося ложных закономерностей в модель.