Электронный научно-практический журнал «Современные научные исследования и инновации» » сверточные нейронные сети

Исследование и разработка автоматической системы выделения характерных точек лица на базе сверточные нейронные сети

Кураева Елена Сергеевна — Fri, 27 Apr 2018 09:56:33 +0000

1. Введение

На данный момент большая часть компаний, специализированных на распознавании лиц, создают свои системы на базе нейронных сетей. И это не случайно, результаты тестирования действительно неплохие. Такие показатели связаны с тем, что искусственные нейронные сети аналогичны биологическим нейронным сетям.
Тема автоматического распознавания лиц актуальна на данный момент, так как ее развитие защищает персональные данные, улучшает распознавание в местах массового скопления (аэропортах, вокзалах, подземных переходах и т. д.), улучшает сервис компаний, упрощает поиск преступников и многое другое.
Системы распознавания лиц – важный инструмент защиты людей и способ избавления от повседневной рутины. Системы на базе нейронных сетей на данный момент самые действенные. И данное направление стремительно развивается и будет развиваться.

2. Постановка задачи

В данной работе рассматриваются сверточные нейронные сети. На базе исследования алгоритма, будет получена система, выделяющая характерные точки лиц. На этом основывается распознавание людей. После получения теоретических знаний, будут установлены и импортированы необходимые библиотеки для Python: Keras, TensorFlow, NumPy, OpenCV, Math, PIL Для обучения сети выборка будет состоять из 440 примеров, для тестирования – 3400 примеров.

3. Основная часть

Системы распознавании лиц могут применяться для многих случаев:
- подтверждения присутствия студента на лекции, семинаре экзамене;
- поиска преступников в местах массового скопления, используя базу данных местной полиции;
- оплаты товаров и услуг;
- замены человека на предприятиях, где человеческий фактор может мешать производству;
- контроля доступа.
Подобные системы уже входят в нашу жизнь. Их развитие стремительное, но еще много чего предстоит изучить. Важным элементов в распознавании лиц является выделение характерных точек лица человека.
Поэтому, целью данной работы является создание системы выделения характерных точек лица, реализованное на базе сверточных нейронных сетей.
Для достижения поставленной цели, необходимо выполнить следующие задачи:
1. Изучить компьютерное зрение.
2. Изучить нейронные сети, в частности сверточные нейронные сети.
3. Создать сверточную нейронную сеть для распознавания ключевых точек лица, используя язык программирования – Python.
Компьютерное зрение – набор методов, с помощью которых компьютеры способны видеть интересующие объекты. На первом этапе изображение проходит регистрацию, то есть если сенсорный элемент (датчик) среагировал на объект, то полученный аналоговый сигнал преобразовывается в цифровой. Это нужно для дальнейшего преобразования изображения. Важно понимать, что изображение можно представить в виде функции от двух переменных, соответствующих координатам в пространстве на полученном изображении. Данная функция определяет интенсивность (яркость) пикселя с данными координатами. В итоге получается матрица, с которой уже удобно выполнять дальнейшие действия на компьютере [1].
Для определения лица на изображении и распознавании человека, требуются не только знания компьютерного зрения, но и алгоритмов, которые отвечают за распознавание. Самые лучшие результаты для решения данной проблемы показывают нейронные сети. Нейронные сети – это сети, которые могут обучаться, подобно ребенку. Искусственные нейронные сети аналогичны биологическим нейронным сетям. Поэтому важно понимать, как устроен и работает наш мозг при получении и обработке информации. На рисунке 1 представлена простейшая нейронная сеть, где x – входные данные, W – веса, Y – выходные данные.

Рисунок 1 – Простейшая схема нейронной сети

Рисунок 1 можно представить в виде уравнения (1), где знак умножения – сложные математические действия. Для человека W отвечает за запоминание признаков предмета.

X = W * Y (1)

Обучение нейронных сетей состоит в том, что нужно найти W, если известны входные и выходные данные [2].

Существует огромное количество видов нейронных сетей:
- нейронные сети прямого распространения (feed forward neural networks, FF или FFNN) и персептроны (perceptrons, P) - базовые модели, комбинирую которые получают новые виды;
- нейронная сеть Хопфилда (Hopfield network, HN) – однослойная сеть, в которой выход каждого нейрона связан со входами остальных нейронов;
- глубокие сети доверия (Deep belief networks, DBN) в своей схеме имеют несколько скрытых слоев, причем, каждая сеть обучает предыдущую;
- сверточные нейронные сети (convolutional neural networks, CNN) и глубокие сверточные нейронные сети (deep convolutional neural networks, DCNN) обычно применяются для обработки изображений.
Это лишь малая часть всех видов архитектур нейросетей.
CNN обычно применяются для обработки изображений. Схема представлена на рисунке 2.

Рисунок 2 – Схема сверточных нейронных сетей

Название такого алгоритма означает, что метод основывается на свертке. Свертка получается в результате линейной фильтрации. Исходные данные: x – положение объекта в данный момент времени t, w(a) – весовая функция, а – возраст изменения. Если применять в каждый момент времени средневзвешенную оценку (2), то полученная функция s обеспечивает сглаженную оценку.

(2)

Результат такой операции и называется сверткой.

Типичный слой сверточной сети состоит из 3 этапов:
- выполнение нескольких сверток одновременно для получения набора линейных активаций;
- каждая полученная линейная активация проходит через нелинейную активационную функцию, этот этап называют детектор;
- использование пулинга (pooling) объединяет результаты в статистику для улучшения сети [3].
При создании системы, которая может выделять ключевые точки после обучения, использовались следующие библиотеки для Python: Keras (нейронная библиотека, является надстройкой над фрейворком TensorFlow), TensorFlow (библиотека для машинного обучения), NumPy (библиотека для работы с массивами и матрицами), OpenCV (библиотека для машинного зрения), Math (библиотека с математическими и логарифмическими функциями), PIL (библиотек для работы с растровой графикой).
Для обучения сети необходимо выборку разбить на две части: тестовая выборка состояла из 3400 примеров, обучающая – 440 примеров. В результате полученная система показывает следующие значения, представленные на рисунке 3, где loss – функция ошибки, acc – точность на обучающей выборке, val_loss и val_acc – на тестовой выборке, Learning rate – скорость обучения, Epooch – эпоха. Пример выделения ключевых точек показан на рисунке 4, где всего получается 15 точек – по 3 точки на выделение глаза, 1 на нос, по 2 на брови и 4 на губы.

Рисунок 3 – Результаты обучения CNN

Рисунок 4 – пример выделения характерных черт лица

Заключение
В ходе данной работы изучены принципы машинного обучения, изучены алгоритм сверточных нейронных сетей и метод обучения ее, также создана система, выделяющая главные точки лица человека на базе CNN.

Исследование алгоритмов и методов обнаружения и распознавания на основе нейросетевых систем

Дзюба Виктор Алексеевич — Thu, 23 Dec 2021 11:56:01 +0000

В настоящее время, в таких областях и сферах жизнедеятельности людей, как медицина, робототехника, безопасность, производство и т.д. большое развитие получили системы для обнаружения и распознавания различных объектов. В основном, подобные системы нацелены на повышение качества, надежности, контроля, точности анализируемых данных или объектов, а также исключение человеческого фактора в различных процессах.

Особенностью развития систем для обнаружения и распознавания, является применение в них искусственных нейронных сетей (ИНС, НС), а также алгоритмов и методов, работающих на основе ИНС. Существует большое множество подобных алгоритмов, решающих широкий спектр задач в области обнаружения и распознавания, следовательно, будет правильным задаться конкретной задачей:

Необходимо разработать систему технического зрения (СТЗ) для обнаружения и распознавания объектов небольшого размера (например, болты и гайки), двигающихся по производственной конвейерной линии с манипуляторами.

Конечной целью может выступать, например, подсчёт объектов, обнаружение дефектов или сортировка по каким-либо критериям.

В общем случае, СТЗ представляют собой аппаратно-программный комплекс, состоящий из оптической системы, системы освещения и микроконтроллера (МК) [1]. Внутри МК организуются различные методы, в том числе и на основе ИНС, для обнаружения, распознавания объектов и обработки их изображений, в зависимости от поставленной задачи. Структурная схема СТЗ представлена на рисунке 1.

Рисунок 1. Структурная схема СТЗ

Из поставленной задачи можно выделить несколько критериев для поиска необходимого алгоритма:

обнаружение и распознавание объектов должно производиться в режиме реального времени, без задержек (непрерывное производство);
алгоритм должен учитывать размер объектов и то, что они могут располагаться хаотично на линии (под разными углами к оптической системе, близко друг к другу, частично закрывать друг друга и т.п.);
обеспечивать наилучшую скорость (повышение скорости производства).

Для задач, связанных с обнаружением и классификацией объектов на фотографии, видео или в режиме реального времени, вместо классических полносвязных НС (ПНС), принято использовать свёрточные НС (СНС) [2]. Это обуславливается тем, что ПНС, при решении подобных задач имеют следующие недостатки:

являются вычислительно сложными;
неустойчивы к разному роду инвариантности изображений (сдвиги, разный масштаб, углы поворота);
потери взаимосвязи частей изображения (топологии) при преобразовании от слоя к слою.

В СНС эти недостатки отсутствуют. Обобщенная архитектура СНС представлена на рисунке 2.

Рисунок 2. Архитектура свёрточной нейронной сети

Все слои СНС представляют собой набор плоскостей. Нейроны одной плоскости имеют одинаковые весовые коэффициенты, ведущие ко всем локальным участкам предыдущего слоя. Каждый нейрон слоя получает входы от некоторой области предыдущего слоя, т.е. входное изображения предыдущего слоя получает входное изображение предыдущего слоя сканируется небольшим окном и пропускается сквозь набор весовых коэффициентов, а результат отображается на соответствующий нейрон текущего слоя. Таким образом, набор плоскостей представляется собой карты характеристик, и каждая плоскость находит конкретные участки изображения в любом месте предыдущего слоя [3].

Ключевое отличие СНС сетей от ПНС состоит в наличии соединения каждого нейрона строго с определенным количеством нейронов из предыдущего слоя.

Существующие архитектуры НС, использующие различные алгоритмы для обнаружения и классификации объектов, в основном разделяются на два вида: одноуровневые («YOLO») и двухуровневые («RCNN», «fast RCNN» и «faster RCNN»). Модель НС faster RCNN, базирующаяся на алгоритме region-proposal-function, самое быстрое решение из перечисленных двухуровневых НС. Данный алгоритм состоит из следующих этапов:

Исходное изображение подается на вход СНС, для формирования карты признаков на его основе;
Выполняется генерация областей интереса, в которых может находится объект;
Выполняется преобразование вектора признаков области интереса (произвольного прямоугольника) из исходного изображения в вектор признаков фиксированной размерности, с помощью слоя RoI pooling;
С помощью регрессионной модели (Bounding Box Regression), уточняются границы области интереса;
Классификация объектов на исходном изображении.

Данное решение имеет два недостатка:

модель основывается на рассмотрении отдельных регионов, а не всего изображения в целом;
является относительно медленным.

Архитектура YOLO не имеет таких недостатков. Данная архитектура относится к one stage detector – детектирующим сетям, главная идея которых заключается в том, что задачи поиска регионов, предположительно содержащих объекты, и задача классификации этих объектов, выполняются одновременно и сводятся в одну, рассматриваемую, как задача регрессии [4, 5].

В общем виде, модель архитектуры подразделяется на две части (рисунок 3) [6]:

базовая СНС с классической архитектурой, применяющаяся для классификации входного изображения;
два полносвязных (fully connected) слоя, в которых формируются предсказания ограничивающих рамок (bounding boxes), потенциально содержащих объекты и вероятности, что эти объекты принадлежат определенным классам.

Рисунок 3. Общая модель архитектуры YOLO

Основной алгоритм работы YOLO представлен в следующих этапах:

Изображение на входе попадает на базовую СНС [7], которая классифицирует входные изображения. На полученное изображение накладывается сетка размером S × S. Ячейка, в которую попадает центр объекта будет указывать на предварительное обнаружение этого объекта. Каждая ячейка предсказывает показатель достоверности, местоположение ограничивающих рамок и вероятность класса объекта, при условии попадания объекта в ограничивающую рамку, обычно это квадрат или прямоугольник (рисунок 4).

Величина достоверности показывает вероятность того, что ячейка содержит объект. Эта величина умножается на его IoU. IoU – это степень пересечения областей на изображении. Эта величина используется для определения процента перекрытия истинной области объекта, предсказанной областью.

Местоположение ограничивающей рамки представляется координатами, которые определяются четырьмя значениями (x, y – координаты центра, ширина – w, h – высота), где x и y задаются со смещением местоположение ячейки. Все четыре значения нормализуются по высоте и ширине оригинального изображения и лежат в интервале от 0 до 1.

Ячейка, содержащая объект, предсказывает вероятность того, что этот объект принадлежит каждому классу, c_i,i=1,k. На данном шаге модель предсказывает только один набор вероятностей классов на ячейку, независимо от количества ограничивающих рамок.

На каждом изображении содержатся ограничивающие рамки S×S×B, каждая из которых соответствует четырём координатам местоположения, одному значению достоверности и K условных вероятностей для классификации объектов. Суммарные значения прогнозирования для одного изображения составляют S×S×(5B+K), так называемая тензорная форма конечного сверточного слоя.

Рисунок 5 – Принцип работы YOLO

Последний этап заключается в фильтровании ограничительных рамок с помощью техники NMS (non-max suppression или подавление не максимумов). После этого этапа, на исходном изображении будут отображаться ограничительные рамки вокруг каждого обнаруженного объекта (по одной на каждый).

YOLOv3 последняя версия архитектуры YOLO [8]. Модель этой версии содержит 106 сверточных слоев. Её отличительной особенностью является то, что детектирование объектов производится в трех масштабах, то есть на входное изображение может накладываться сетка из 64, 256 или 1024 клеток. Последнее позволяет архитектуре детектировать достаточно маленькие объекты.

В YOLOv3 детектирование объектов производится при помощи применения ядер обнаружения, размером 1×1 на картах признаков в трех разных точках архитектуры (рисунок 6). Размер ядра обнаружения составляет 1×1×(B×(5+C)). Здесь B – количество якорей, которые может предсказать ячейка на карте признаков, 5 – для четырёх координат ограничивающей рамки и значения достоверности, C – количество классов. Так на обученном наборе данных COCO, B = 3 и C = 80, поэтому размер ядра равен 1×1×255.

На первых 81 сверточном слое, входное изображение сжимается, таким образом, что на 81 слое шаг сжатия будет равен 32. Например, если взять изображение с разрешением 416 х 416, то результирующая карта признаков будет иметь размер 13 х 13. Первое детектирование производится на 82 слое, что даст карту признаков размером 13 х 13 х 255.

Затем карта признаков из слоя 79 проходит через несколько сверточных слоев, далее она будет увеличена в 2 раза, до размеров 26 х 26. Дальше, полученная карта будет объединена по глубине с картой признаков из слоя 61 и комбинированные карты признаков снова проходят через несколько сверточных слоев размером 1×1, чтобы объединить признаки раннего 61 слоя. Следующее детектирование производится на 94 слое. В результате, получается карта признаков размеров 26 х 26 х255.

Аналогичная процедура повторяется снова, когда карта признаков из слоя 91 проходит далее по сверточным слоям, и объединяется с картой признаков из слоя 36. Как и раньше, несколько сверточных слоев размером 1×1 следуют друг за другом, чтобы слить информацию с предыдущего 36 слоя. Финальное детектирование происходит на 106-м слое с конечной картой признаков 52 х 52 х255.

Также в YOLOv3 были внесены следующие изменения:

предсказание оценки достоверности для каждой ограничивающей рамки происходит при помощи логистической регрессии в то время, как YOLO и YOLOv2 используют сумму квадратов ошибок. Линейная регрессия прогноза смещения приводит к уменьшению mAP.
Для прогнозирования вероятности класса, вместо одного слоя softmax, используется несколько, независимых друг от друга классификаторов для каждого класса.

Также, ещё одной особенностью YOLOv3 является её урезанная версия – архитектура Yolov3-tiny. Данная версия отличается меньшим количеством слоев и делает предсказания только в двух размерах 13×13 и 26×26. Yolov3-tiny обладает меньшей точностью и хуже подходит для детектирования маленьких объектов, однако имеет большую производительность и способна выдавать большие значения обработки кадров в секунду. Урезанная версия отлично подходит для использования на «слабых» компьютерах и мобильных устройствах.

В заключении, можно сделать вывод о том, что архитектура СНС YOLOv3 отлично подходит для решения поставленной в начале статьи задачи. Данная модель может легко обеспечить устойчивую работу СТЗ в реальном времени с достаточно хорошей скоростью. На официальном сайте приведены результаты исследований скорости детектирования при различном размере НС и наборах данных – в среднем, скорость обработки 50-60 кадров в секунду. Также в сети можно найти множество примеров обучения данной архитектуры, для применения её в специализированных задачах.

Технологии искусственного интеллекта для распознавания изображений согласных букв

author20348 — Tue, 11 Jun 2024 15:21:19 +0000

Научный руководитель: Вильданов Алмаз Нафкатович
Уфимский университет науки и технологий, Нефтекамский филиал, к.ф.-м.н.

Современные технологии искусственного интеллекта (ИИ) и машинного обучения (МО) приобретают все большую популярность и находят применение в различных сферах деятельности. Одним из наиболее перспективных направлений является использование нейронных сетей для решения задач распознавания и классификации. В данной статье рассматриваются возможности и методы применения нейронных сетей для распознавания согласных букв.

История машинного обучения начинается с середины XX века. В 1952 году Артур Самуэль разработал первую самообучающуюся программу для игры в шашки, что стало отправной точкой в развитии МО. Позже, в 1959 году, он начал работу над методами МО для нейронных сетей. С тех пор технологии существенно эволюционировали и получили широкое распространение.

Нейронные сети являются ключевым элементом систем машинного обучения. Они состоят из множества взаимосвязанных нейронов, организованных в слои. Каждый нейрон получает входные данные, обрабатывает их с помощью весовых коэффициентов и передает результат на выход.

Для разработки и обучения нейронных сетей широко используется библиотека TensorFlow, предоставляемая Google. Она обеспечивает высокую производительность и гибкость при создании сложных моделей МО. TensorFlow поддерживает работу как на CPU, так и на GPU, что позволяет значительно ускорить процесс обучения нейронных сетей.

Google Colab предоставляет удобную среду для разработки и обучения моделей машинного обучения. Это облачный сервис, который позволяет использовать мощные вычислительные ресурсы Google без необходимости установки дополнительного программного обеспечения. Colab поддерживает работу с Jupyter Notebook и позволяет совместно работать над проектами в реальном времени.

Первым шагом в создании системы распознавания является сбор и подготовка данных. Для обучения нейронной сети необходим большой объем данных, содержащий изображения согласных букв. Эти данные проходят этапы предобработки, включая нормализацию и аугментацию, что улучшает качество модели и её способность к обобщению.

Формат данных выборки для обучения train.csv выглядит следующим образом: каждая строка представляет собой описание одного изображения; первый столбец содержит метки классов, к которым принадлежит изображение; оставшиеся столбцы содержат пиксельные значения изображения, например, в виде плоского вектора, где каждое значение соответствует яркости соответствующего пикселя на изображении [1].

У нас будут следующие классы согласных букв:

classes = ["к","л","м","н","п","р","с","т"]

Загрузим и посмотрим на датасет (рисунок 1):

Рисунок 1. Датасет согласных букв

После подготовки данных, создаются и обучаются модели нейронных сетей. Используются различные архитектуры, такие как сверточные нейронные сети (CNN), которые особенно эффективны в задачах распознавания образов. Обучение модели проводится на обучающем наборе данных с последующей проверкой на валидационном наборе для оценки её производительности.

Работа нейронной сети рассматривается в трех моделях.

1. Двухслойная нейронная сеть.

На первом шаге рассматривается сеть из двух нейронных слоев [2]. Для создания модели используется класс Sequential. На входном слое находятся 700 нейронов. Функция активации (запуска) relu, размер входных данных равен 400 (у нас картинки 20 на 20). На последнем слое должно быть 8 нейронов, так как это количество должно совпадать с количеством классификаций изображений [3] (у нас согласные буквы “к”,”л”,”м”,”н”,”п”,”р”,”с”,”т”). Модель нейронной сети строится с помощью класса Sequential [4].

N = 8

model = Sequential()

model.add(Dense(700, input_dim=400, activation=”relu”))

model.add(Dense( N, activation=”softmax”))

Приступаем к обучению модели с помощью метода fit модели (рисунок 2).

Рисунок 2. Ход обучения нейронной сети

Можно посмотреть, как нейронная сеть делает предсказание на тестовых данных. Для этого применяется метод predict:

Рисунок 3. Валидация нейронной сети

2. Трехслойная нейронная сеть.

Усложним нейронную сеть, сделав 3 слоя. Рассматривается сеть из трех нейронных слоев:

model = Sequential()

model.add(Dense(700, input_dim=400, activation=”relu”))

model.add(Dense(100, activation=”relu”))

model.add(Dense( N, activation=”softmax”))

Остальные шаги проделываются аналогично.

3. Сверточная нейронная сеть.

Полносвязная нейронная сеть недостаточно качественно выполняет работу с изображениями. Прогресс обучения двуслойной нейронной сети и трехслойной нейронной сети растет достаточно медленно, за счет увеличения количества слоев. Более качественный результат можно получить, построив сверточную нейронную сеть:

model = Sequential()

model.add(Conv2D(32, (3, 3),

input_shape=(img_width, img_height, 1), activation=’relu’))

model.add(MaxPooling2D(pool_size=(2,2)))

model.add(Conv2D(64, (3, 3), activation=’relu’))

model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Flatten())

model.add( Dense( 700, activation = ‘relu’))

model.add( Dense( N, activation=’softmax’))

Обучение проводится аналогично. По итогам распознавания собственных изображений можно сделать следующий вывод (таблица 1):

Таблица 1 – Качество распознавания изображений нейронными сетями

Структура НС	Качество распознавания
Полносвязная нейронная сеть из двух слоев	97.75 %
Полносвязная нейронная сеть из трех слоев	98.25 %
Сверточная нейронная сеть с двумя сверточными слоями	99.65 %

Подготовим также в Paint собственные изображения и загрузим их на гугл-диск (рисунок 4).

Рисунок 4. Собственные изображения для проверки

работы нейронной сети

Обученная нейронная сеть используется для распознавания согласных букв на новых данных. Модель анализирует входное изображение и выдает прогнозируемую букву с определенной вероятностью. Точность распознавания оценивается на тестовом наборе данных, который не использовался в процессе обучения, что позволяет объективно оценить её эффективность.

Рисунок 5. Распознавание и предсказание нейронной сети

Сверточная нейронная сеть будет, как и ожидалось, давать наилучшее предсказание.

Заключение. Разработка и использование нейронных сетей для распознавания согласных букв демонстрирует высокую эффективность и перспективность данного подхода. Применение библиотек TensorFlow и сервисов, таких как Google Colab, значительно упрощает процесс создания и обучения моделей машинного обучения. Эти технологии открывают новые возможности для автоматизации процессов и повышения точности распознавания в различных приложениях.

Сверточные нейронные сети: как машина учится видеть

Салихов Салават Зульфатович — Wed, 03 Dec 2025 15:24:57 +0000

Научный руководитель: Вильданов Алмаз Нафкатович
к.ф.-м.н., Уфимский университет науки и технологий, Нефтекамский филиал

Современные технологии все чаще наделяют машины способностью видеть и понимать визуальную информацию. Компьютерное зрение стало неотъемлемой частью нашей повседневности — от распознавания лиц в смартфонах до медицинской диагностики и автономных транспортных средств. В основе этих достижений лежат сверточные нейронные сети, которые представляют собой специальный архитектурный тип нейронных сетей, особенно эффективный для работы с изображениями. Эти сети успешно справляются с задачами классификации, обнаружения объектов и сегментации изображений. Цель данной статьи — избегая сложного математического аппарата, наглядно разобрать архитектуру сверточной нейронной сети на конкретном примере кода, чтобы понять, как именно организованы и взаимодействуют ее основные компоненты.

Параметр input_shape играет ключевую роль в определении структуры входных данных для нейронной сети. В данном конкретном случае input_shape=(39, 30, 1) указывает на то, что нейросеть ожидает на вход изображения высотой 39 пикселей и шириной 30 пикселей. Третья цифра в кортеже обозначает количество цветовых каналов изображения. Значение 1 соответствует черно-белому изображению, где каждый пиксель описывается единственным числом, определяющим его яркость. В случае цветного изображения использовалось бы значение 3, что соответствует трем каналам: красному, зеленому и синему. Таким образом, вся входная информация представляется в виде трехмерного массива чисел размерностью 39 на 30 на 1, где первые два измерения отвечают за пространственные координаты пикселей, а третье – за их цветовые характеристики.

Сверточные слои служат основными детекторами признаков в нейронной сети. Их можно представить как набор специализированных фильтров, которые последовательно сканируют изображение в поиске характерных особенностей. Каждый фильтр работает как детектор определенных шаблонов — на первом уровне это могут быть простые элементы вроде горизонтальных или вертикальных линий, границ и углов. Размер ядра свертки, в данном случае составляющий 3 на 3 пикселя, определяет область изображения, которую фильтр анализирует в каждый момент времени. Такой размер является компромиссом между способностью улавливать значимые паттерны и вычислительной эффективностью. После операции свертки полученные значения пропускаются через функцию активации ReLU, которая обнуляет все отрицательные значения и сохраняет положительные. Эта нелинейная операция критически важна, поскольку позволяет сети обучаться сложным зависимостям, не ограничиваясь линейными преобразованиями. Без ReLU нейронная сеть не смогла бы эффективно описывать иерархические представления данных, независимо от количества слоев в ее архитектуре.
Слои пулинга выполняют важнейшую функцию сжатия информации в сверточных нейронных сетях. Операция MaxPooling2D с размером окна 2 на 2 проходит по всем участкам входного изображения с заданным шагом, выбирая максимальное значение в каждой области 2×2 пикселя. Этот процесс уменьшает пространственные размеры карты признаков в два раза по каждой оси, что существенно снижает вычислительную нагрузку на последующие слои сети. Но уменьшение размерности – не единственная цель пулинга. Выбирая максимальное значение в каждой области, операция максимума подчеркивает наиболее выраженные признаки и обеспечивает небольшую инвариантность к смещениям изображения. Если какой-то признак активировался сильно в пределах окна 2×2, он сохраняется, а слабые активации отфильтровываются. Такой подход позволяет сети сосредоточиться на самых важных особенностях изображения, игнорируя незначительные вариации и шумы, что в конечном счете улучшает ее обобщающую способность и предотвращает переобучение. По сути, пулинг оставляет только самые сильные “сигналы” из извлеченных сверточными слоями признаков, создавая более абстрактное и емкое представление исходных данных.

Рассматриваемая нейронная сеть построена по последовательной архитектуре с использованием модели Sequential. Данный подход предполагает линейное расположение слоев, где выход каждого предыдущего слоя последовательно передается на вход следующего. Архитектура начинается с входного слоя, принимающего изображения заданного размера. Затем следует первый сверточный блок, состоящий из слоя свертки и слоя пулинга, который выполняет первичную обработку изображения и выделение простых признаков. Далее подключен второй сверточный блок аналогичной структуры, но с увеличенным количеством фильтров, что позволяет выявлять более сложные и абстрактные особенности обрабатываемых данных. После завершения сверточной части архитектуры выполняется преобразование multidimensionalных данных в одномерный вектор с помощью операции вытягивания. Затем подключаются полносвязные слои, которые осуществляют финальный этап обработки признаков и классификацию. Такая поэтапная организация преобразования информации от простых признаков к сложным абстракциям является характерной чертой глубинных нейронных сетей и позволяет эффективно решать задачи компьютерного зрения.

Первый сверточный блок выполняет фундаментальную задачу извлечения базовых признаков из исходного изображения. На этом начальном этапе обработки сеть учится выделять простейшие элементы визуальной информации: границы объектов, переходы яркости, углы и элементарные текстуры. Конфигурация слоя Conv2D с параметрами 32 фильтра размером 3×3 означает, что сеть одновременно применяет тридцать два различных ядра свертки к входному изображению. Каждый из этих фильтров настраивается в процессе обучения для реагирования на определенный тип визуальных паттернов. Фильтры работают как детекторы особенностей, скользя по всему изображению и создавая тридцать две отдельные карты признаков. Эти карты активации представляют собой отклики сети на различные элементарные шаблоны в разных участках изображения. Такой подход позволяет сети сформировать многогранное представление входных данных, где каждый фильтр отвечает за обнаружение своего типа признаков, создавая тем самым богатое и разнообразное описание обрабатываемого изображения на самом низком уровне абстракции.

Второй сверточный блок выполняет принципиально иную задачу по сравнению с первым, работая с уже предобработанными данными. Если первый блок обнаруживал элементарные паттерны, то здесь происходит их комбинаторное объединение в более сложные и абстрактные структуры. На этом уровне формируются составные признаки: из простых линий и градиентов собираются углы, пересечения, простые геометрические формы и текстуры. Параметры слоя Conv2D с 39 фильтрами размером 3×3 демонстрируют усложнение архитектуры: увеличение количества фильтров до 39 означает, что сеть теперь способна детектировать больше разнообразных комбинаций признаков, извлеченных на предыдущем этапе. Каждый из этих 39 фильтров работает уже не с исходным изображением, а с картами признаков, полученными после первого блока, что позволяет анализировать более сложные пространственные взаимосвязи. Такой каскадный принцип обработки, когда каждый последующий слой оперирует выходами предыдущего, создает иерархическое представление информации, где сложность обнаруживаемых паттернов постепенно нарастает от слоя к слою, имитируя принципы работы зрительной системы живых организмов.

Слой Flatten выполняет критически важную функцию преобразования данных в архитектуре нейронной сети. После завершения работы сверточных и пулинг-слоев информация сохраняется в виде многомерных карт признаков, которые представляют собой набор двумерных матриц. Однако последующие полносвязные слои требуют подачи данных в формате одномерного вектора. Именно здесь вступает в операция вытягивания, которая последовательно преобразует все элементы многомерных массивов в длинный одномерный вектор. Этот процесс можно представить как разворачивание всех карт признаков в единую строку, где сохраняется вся извлеченная ранее информация, но меняется ее структурная организация. Такой подход позволяет совместить преимущества сверточных слоев, эффективно работающих с пространственными данными, и полносвязных слоев, способных к сложным нелинейным преобразованиям и классификации. Важно отметить, что операция вытягивания не приводит к потере информации, а лишь изменяет форму ее представления, подготавливая данные для финальных этапов обработки в плотных слоях нейронной сети.

Финальные слои нейронной сети выполняют ключевую задачу интерпретации извлеченных признаков и формирования итогового решения. Предпоследний полносвязный слой с 171 нейроном служит своеобразным аналитическим центром, где происходит комплексная обработка всех признаков, полученных после сверточных операций и преобразования в вектор. Количество нейронов в этом слое определяется архитектурными соображениями и представляет собой баланс между вычислительной эффективностью и способностью модели к обучению сложным зависимостям. Этот слой осуществляет нелинейные преобразования данных, выявляя сложные комбинации признаков, необходимые для точной классификации. Выходной слой с 9 нейронами и функцией активации softmax выполняет роль финального классификатора. Количество нейронов соответствует числу распознаваемых категорий, где каждый нейрон вычисляет вероятность принадлежности входного изображения к одному из девяти классов. Функция softmax обеспечивает нормализацию выходных значений, преобразуя произвольные числа в вероятностное распределение, где сумма выходов всех нейронов равна единице, что позволяет интерпретировать результат как уверенность сети в каждой из возможных категорий.

Процесс преобразования данных в сверточной нейронной сети представляет собой последовательную цепочку вычислений. Исходное черно-белое изображение размером 30 на 39 пикселей поступает на вход сети в виде числовой матрицы. Первый сверточный слой с 32 фильтрами анализирует фрагменты изображения размером 3×3 пикселя, выделяя базовые признаки и создавая 32 карты активации. Слой максимального пулинга уменьшает размерность этих карт в два раза, оставляя только наиболее значимые активации. Затем второй сверточный слой с 39 фильтрами применяется к уже обработанным данным, выявляя более сложные комбинации признаков. После повторного пулинга полученные многомерные данные преобразуются в одномерный вектор путем вытягивания, что позволяет подключить полносвязные слои. Слой с 171 нейроном анализирует извлеченные признаки и формирует промежуточное представление, на основе которого выходной слой с 9 нейронами вычисляет вероятности принадлежности к каждому из классов с помощью функции softmax. Таким образом, архитектура модели включает два сверточных слоя с 32 и 39 фильтрами соответственно и два полносвязных слоя с 171 и 9 нейронами, что образует законченную систему для классификации изображений.

Рассмотренная архитектура наглядно демонстрирует, как последовательность относительно простых слоев позволяет компьютеру эффективно анализировать визуальную информацию. Путем поэтапного преобразования от пикселей к простым признакам, а затем к сложным абстракциям, сверточная нейронная сеть формирует иерархическое представление данных, необходимое для осмысленного понимания изображений. Важно подчеркнуть, что разобранная модель представляет собой лишь базовый пример — современные архитектуры, такие как ResNet, VGG или Inception, обладают значительно большей глубиной и сложностью, используя механизмы skip-connections, батч-нормализацию и другие усовершенствования. Сфера применения сверточных сетей давно вышла за рамки статичной классификации изображений, охватывая обработку видео, системы компьютерного зрения для беспилотных автомобилей, медицинскую диагностику, генерацию и стилизацию изображений, а также анализ спутниковых снимков. Принципы иерархического представления признаков, реализованные в CNN, продолжают оставаться фундаментальной основой для большинства современных систем компьютерного зрения, постоянно находя новые применения в различных областях искусственного интеллекта.

Распознавание рукописных цифр с помощью сверточных нейронных сетей на Python

Мухаяров Дильназ Данисович — Fri, 05 Dec 2025 14:40:16 +0000

Введение

Автоматическое распознавание рукописных цифр — одна из классических задач машинного обучения, которая широко применяется в системах обработки документов и автоматической сортировке почты. Для её решения используют современные методы глубокого обучения, например, сверточные нейронные сети.

Рисунок 1. Архитектура сверточной нейронной сети

Алгоритм решения задачи

- импортируем библиотеки `tensorflow.keras`, `pandas`, `numpy`, `matplotlib` и инструменты для аугментации;

- загружаем и проверяем структуру данных через `pd.read_csv()`;

- извлекаем метки и изображения, нормализуем их и преобразуем форму для подачи в модель;

- создаем сверточную модель с помощью `Sequential()`, добавляя слои Conv2D, MaxPooling2D, Dropout;

- компилируем модель, указывая функцию потерь и оптимизатор;

- задаем коллбеки для ранней остановки и снижения скорости обучения;

- делим данные на обучающую и валидационную выборки;

- применяем аугментацию данных через `ImageDataGenerator`;

- обучаем модель с помощью метода `fit()`, использующего генератор и коллбеки;

- визуализируем процесс обучения, строя графики точности и потерь;

- делаем предсказания на тестовом наборе и сохраняем их в CSV файл.

Рисунок 2. Схема процесса обучения

Код:

python

# Создаем модель

model = Sequential()

model.add(Conv2D(32, (3,3), activation=’relu’, padding=’same’, input_shape=(28,28,1)))

model.add(BatchNormalization())

model.add(MaxPooling2D(pool_size=(2,2)))

model.add(Dropout(0.25))

# (добавляем дополнительные слои)

model.add(Dense(10, activation=’softmax’))

# Компиляция модели

model.compile(loss=’categorical_crossentropy’, optimizer=’adam’, metrics=['accuracy'])

…

# Обучение модели с аугментацией

history = model.fit(

datagen.flow(x_train_part, y_train_part, batch_size=128),

epochs=100,

validation_data=(x_val, y_val),

callbacks=[early_stop, reduce_lr, lr_scheduler],

verbose=1

)

…

python

# Визуализация результатов

plt.plot(history.history['accuracy'], label=’Train Accuracy’)

plt.plot(history.history['val_accuracy'], label=’Validation Accuracy’)

plt.legend()

…

Вывод:

В статье рассмотрена реализация сверточной нейронной сети для распознавания рукописных цифр. Использование методов аугментации и коллбеков позволяет повысить точность модели и избежать переобучения. Визуализация процесса обучения помогает контролировать качество модели. Правильная подготовка данных и архитектуры — залог успешного решения задачи. Такой подход широко применяется в системах автоматической обработки изображений.