Электронный научно-практический журнал «Современные научные исследования и инновации» » машина опорных векторов

Разбор по косточкам: как случайный лес принимает решения на примере медицинской диагностики

Пальгова Полина Павловна — Wed, 05 Nov 2025 05:33:31 +0000

Научный руководитель: Вильданов Алмаз Нафкатович
к.ф.-м.н., Уфимский университет науки и технологий, Нефтекамский филиал

1. Задача (Постановка проблемы)

В задачах бинарной классификации, таких как медицинская диагностика, критически важна не только точность, но и устойчивость прогноза. Одно дерево решений может быть неустойчивым и сильно зависеть от шума в данных. Как создать модель, которая была бы более надежной и точной? Решением этой проблемы является использование ансамблей — комитета моделей, которые совместно принимают решение.

Конкретная задача: Имея данные пациента (ИМТ = 28, Возраст = 60) и структуру обученного случайного леса из трех деревьев, необходимо:

Определить индивидуальный прогноз каждого дерева.
Вывести итоговый прогноз леса по правилу большинства голосов.
Выявить дерево, прогноз которого отличается от остальных.

2. Теория

Случайный лес (Random Forest) — это алгоритм машинного обучения, относящийся к группе ансамблевых методов. Его основная идея — бэггинг (Bootstrap Aggregating) и случайность.

Ансамблирование: Принцип «один за всех, и все за одного». Вместо одного сложного дерева строится множество (лес) более простых. Каждое дерево в лесе «голосует» за тот или иной класс.
Бэггинг: Каждое дерево обучается на своем, случайном подмножестве исходных данных. Это позволяет деревьям быть разнообразными и не повторять ошибки друг друга.
Случайность признаков: При построении каждого узла дерева рассматривается не все множество признаков, а лишь их случайное подмножество. Это заставляет деревья быть еще более независимыми.

Преимущества подхода:

Высокая точность: Коллективное решение обычно лучше индивидуального.
Устойчивость к переобучению: Разные деревья компенсируют переобучение друг друга.
Робастность: Устойчив к выбросам и шуму в данных.

3. Решение (Практическая реализация)

Проведем пациента с данными (ИМТ=28, Возраст=60) через каждое из трех деревьев.

Дерево 1:

Правило: ИМТ ≤ 30? Да, 28 ≤ 30.
Следуем по левой ветке и сразу попадаем в лист с ответом: «нет» (0).

Дерево 2:

Правило: Возраст ≤ 50? Нет, 60 > 50.
Следуем по правой ветке.
Следующее правило: ИМТ ≤ 28? Да, 28 ≤ 28.
Следуем по левой ветке и попадаем в лист с ответом: «да» (1).

Дерево 3:

Правило: ИМТ ≤ 27? Нет, 28 > 27.
Следуем по правой ветке.
Следующее правило: Возраст ≤ 45? Нет, 60 > 45.
Следуем по правой ветке и попадаем в лист с ответом: «да» (1).

Анализ голосования:

Дерево 1: 0 («нет»)
Дерево 2: 1 («да»)
Дерево 3: 1 («да»)

Итоговое решение по правилу большинства: Победил класс 1 («да») с двумя голосами против одного.

Ответы на вопросы задачи:

Итоговый прогноз: У пациента есть диабет (класс 1).
Дерево с другим результатом: Дерево 1 предсказало отсутствие диабета, в то время как Дерево 2 и Дерево 3 предсказали его наличие.

4. Вывод

Данный пример наглядно демонстрирует мощь ансамблирования в машинном обучении. Даже несмотря на то, что одно из деревьев (Дерево 1) дало ошибочный, с точки зрения большинства, прогноз, совокупное решение леса оказалось другим и, вероятно, более точным. Это произошло потому, что Дерево 1, ориентированное в первую очередь на ИМТ, «не учло» важность возраста для данного конкретного пациента, которую смогли уловить другие деревья. Таким образом, случайный лес повышает надежность прогноза, агрегируя мнения множества слабых, но разнообразных моделей, что делает его незаменимым инструментом для решения сложных задач классификации.

Бинарное кодирование категориальных признаков: теория и практика на примере признака «Служба в армии»

Пальгова Полина Павловна — Wed, 03 Dec 2025 05:44:30 +0000

В области машинного обучения и анализа данных большинство алгоритмов (такие как линейная регрессия, логистическая регрессия, деревья решений и нейронные сети) работают исключительно с числовыми данными. Однако на практике исходные наборы данных часто содержат категориальные (номинальные) признаки. Примером такого признака в вашем задании является столбец «Служил» со значениями «да» и «нет».

Задача: Преобразовать категориальный текстовый признак «Служил» в числовой формат, пригодный для обработки алгоритмами машинного обучения, без потери его логического смысла.

2. Теория

Категориальные признаки — это переменные, которые принимают значение из ограниченного набора возможных вариантов (категорий). Они бывают:

Номинальные: Категории не имеют порядка (например, «красный», «синий», «зеленый»; «да»/«нет»).
Порядковые: Категории имеют内在ний порядок (например, «младший», «средний», «старший»).

Проблема «наивного» присвоения чисел: Прямое присвоение чисел (например, «да» = 1, «нет» = 2) для номинальных признаков может ввести алгоритм в заблуждение. Модель может ошибочно интерпретировать, что «нет» (2) больше, чем «да» (1), или что расстояние между «да» и «нет» равно 1, что лишено смысла.

Решение: Бинарное кодирование (Label Encoding для бинарных признаков)
Для признаков, имеющих ровно две категории (бинарных), применяется простой и эффективный метод — прямое сопоставление с числами 0 и 1. Этот частный случай более общего метода Label Encoding является безопасным, так как между двумя состояниями действительно существует лишь одно логическое «расстояние».

«да» → 1
«нет» → 0

Такой подход полностью сохраняет информативность признака, преобразуя его в удобный для вычислений формат.

3. Решение (Практическая реализация)

Решение задачи состоит из двух этапов: ручного преобразования (для понимания сути) и программной реализации.

3.1. Ручное преобразование (Ответ на ваше задание)
Мы проходим по каждой строке Таблицы 1 и в соответствии с правилом «да» → 1, «нет» → 0 заполняем Таблицу 2.

Таблица 2. Кодировка (результат)

№	Возраст	Служба
1	44	1
2	41	0
3	39	0
4	17	1
5	33	1
6	47	0

3.2. Программная реализация на Python с использованием библиотеки Pandas
На практике преобразования выполняются автоматически. Вот пример кода:

python

Копировать

Скачать
import pandas as pd

# Создаем DataFrame из исходных данных
data = {
    ‘№’: [1, 2, 3, 4, 5, 6],
    ‘Возраст’: [44, 41, 39, 17, 33, 47],
    ‘Служил’: ['да', 'нет', 'нет', 'да', 'да', 'нет']
}
df = pd.DataFrame(data)

# Преобразуем признак “Служил” в числовой формат
df['Служба'] = df['Служил'].map({‘да’: 1, ‘нет’: 0})

# Выводим результат
print(df[['№', 'Возраст', 'Служба']])

# Сохраняем в CSV-файл (как в вашем задании)
df[['№', 'Возраст', 'Служба']].to_csv(‘my_submission.csv’, index=False)
Результат выполнения кода будет в точности соответствовать заполненной вами Таблице 2.

4. Вывод

Преобразование категориальных признаков в числовые — это критически важный и обязательный этап предобработки данных перед построением моделей машинного обучения. Для бинарных признаков, таких как «Служил», наиболее простым и корректным методом является прямое отображение значений «да»/«нет» на 1/0. Этот подход устраняет барьер между данными, понятными человеку, и данными, пригодными для машинной обработки, не искажая при этом исходную информацию и не внося ложных закономерностей в модель.