ПРИМЕНЕНИЕ СИСТЕМ РАСПОЗНАВАНИЯ ГОЛОСА ДЛЯ ПРЕДОТВРАЩЕНИЯ НЕСАНКЦИОНИРОВАННОГО ДОСТУПА

Кротов Андрей Вячеславович¹, Кутузов Александр Викторович¹
¹Академия ФСО России

Аннотация
Настоящий момент, когда все важные данные о человеке хранятся в цифровом виде в различных базах данных, крайне важно обеспечить защиту от несанкционированного доступа к этим базам данных. Одной из перспективных технологий является система распознавания голоса, поскольку эта технология интуитивно понятна, проста в использовании, но при этом может обеспечивать достаточно высокую степень надёжности.

Ключевые слова: защита информации, многофакторная аутентификация, несанкционированный доступ, распознавание речи

Рубрика: 05.00.00 ТЕХНИЧЕСКИЕ НАУКИ

Библиографическая ссылка на статью:
Кротов А.В., Кутузов А.В. Применение систем распознавания голоса для предотвращения несанкционированного доступа // Современные научные исследования и инновации. 2021. № 3 [Электронный ресурс]. URL: https://web.snauka.ru/issues/2021/03/94882 (дата обращения: 30.07.2026).

Распознавание речи — автоматический процесс преобразования речевого сигнала в цифровую информацию (например, текстовые данные). Система распознавания голоса, помимо преобразования речи в цифровую информацию должна производить идентификацию человека, произносящего речь [1].

Индустрия обеспечения безопасности создает всё новые решения для оптимизации процесса аутентификации, при этом технологии становятся все более интуитивными по мере их развития. Одним из факторов аутентификации является фактор свойства, он включает в себя физическую особенность субъекта. Это могут быть биометрические данные лица, сетчатки глаза, отпечатки пальцев. По мере развития технологий он сможет также включать голосовой идентификатор или другие поведенческие входные данные, например, показатели нажатия клавиш. Поскольку факторы свойства надежно уникальны, всегда присутствуют и безопасны, эта категория демонстрирует многообещающие перспективы.

Из всех типов биометрических факторов, аутентификация, основанная на распознавании голоса, пользуется большим спросом у потребителей, поскольку распознавание голоса – бесконтактная и простая в использовании технология.

Система распознавания голоса включает в себя биометрическую технологию. Эта технология становится очень популярной в целях обеспечения безопасности. С её помощью можно легко идентифицировать людей и снизить вероятность несанкционированного доступа. С помощью биометрической системы распознавания голоса можно распознать уникальные голосовые характеристики человека. Эта система безопасности имеет широкий спектр применений и используется как для производителей банкоматов, автомобильных производителей, так и в системе безопасности доступа к сотовым телефонам для предотвращения любого вида кражи или мошенничества с целью доступа к личным данным.

Основной задачей данной технологии является аутентификация пользователя и понимание произносимых инструкций. При использовании микрофона используется АЦП (аналогово-цифровой преобразователь), который преобразует изменяющиеся аналоговые речевые сигналы в цифровые импульсы или цифровые сигналы, которые легко воспринимаются компьютером. На жестком диске уже хранятся форма речи пользователя. Голосовой сигнал декодируется и сверяется с сохраненной формой [2].

Чтобы преобразовать речь или произнесенные слова в форму, воспринимаемую компьютером, необходимо выполнить несколько сложных шагов. Аналого-цифровой преобразователь преобразует речевой сигнал в цифровой сигнал. Этот оцифрованный звук затем фильтруется для удаления шума. Это также делается для разделения звука в разных диапазонах частот (определения формант). Поскольку у разных людей разная скорость речи, звук обрабатывается таким образом, чтобы он соответствовал скорости сохраненного звукового шаблона в памяти системы.

Следующий шаг состоит в том, чтобы разделить сигнал на более мелкие сегменты в несколько сотых или тысячных долей секунды. Эти сигналы затем сопоставляются с известными фонемами. Известно, что минимальная смыслоразличительная единица любого языка является фонема. В английском языке насчитывается 5 гласных и 37 согласных фонем.

Далее следует самый сложный шаг в распознавании речи. Фонемы рассматриваются в контексте других фонем, которые находятся вокруг них. Сложная статистическая модель исследует контекстуальный фонемный сюжет и сравнивает его с большой библиотекой слов, предложений и фраз. Затем программа окончательно определяет слова, произносимые пользователем, и делает вывод в виде текста или команды.

Современные системы распознавания речи предполагают использование сложных и мощных систем статистического моделирования. Для определения правильного слова или предложения используются различные математические функции и вероятностные методы. На данный момент имеются две модели распознавания голоса [3]:

1. Скрытая Марковская модель

2. Нейронные Сети

Более интересна скрытая Марковская модель. Согласно этой модели, фонема рассматривается как звено в цепи, а завершенная цепь представляет собой слово. Чтобы определить следующую фонему, цепочка образует ветви различных звуков, которые могут прийти к следующим, оценка вероятности дается каждой разветвленной фонеме на основе встроенного словаря. Таким образом, полное слово окончательно определено.

Рисунок 1. Пример Скрытой Марковской модели

Аппаратная конструкция системы аутентификации на основе распознавания голоса включает в себя три основных элемента [1]:

1. Микрофон

2. Микроконтроллер

3. ЖК-дисплей

Рисунок 2. Обобщённая структурная схема распознавания голоса

Схема микрофона подключена к АЦП микроконтроллера. Набор слов и фраз хранится в памяти микроконтроллера. Как только произносится слово, АЦП микрофона преобразует его в цифровые сигналы, которые проходят через цифровые фильтры, и, наконец, ЖК-дисплей, подключенный к микроконтроллеру, отображает произнесенные слова.

Ультразвуковая обработка похожа на радар. Сверхвысокочастотный акустический тон посылается на движущийся объект, производимые отражения регистрируются приемником. Эффект Доплера управляет частотой отраженного тона, уравнение для него можно выразить как:

где, – частота испускаемого тона, – частота отражённого тона, – скорость отражающей поверхности по направлению к излучателю, – скорость звука.

Таким образом, можно сделать вывод, что если отражающая поверхность движется далеко от излучателя, то регистрируемый частотный тон будет ниже и наоборот. Отраженный сигнал будет состоять из суммы синусоид, имеющих различные силы и частоты. В случае, когда человек говорит, движение артикулятора во время произнесения речи вызовет рефлексию.

Системы распознавания голоса можно классифицировать следующим образом [3]:

1. Изолированная система распознавания голоса: требует короткого промежутка времени между произносимыми словами.

2. Непрерывная система распознавания голоса: как следует из названия, эта система не требует никаких промежутков между словами.

3. Система распознавания голоса, независящая от диктора: система может идентифицировать речь любого человека.

4. Система распознавания голоса, зависящая от диктора: система идентифицирует речь только от одного диктора (пользователя). Это означает, что только речь определенного пользователя может быть идентифицируема.

Применение технологии распознавания голоса для предотвращения несанкционированного доступа возможно после создания цифровой модели человеческого голоса, которая будет служить «резервным профилем» или образцом. Слова и фразы будут разбиты на различные виды отдельных частот, собранные вместе, для характеристики уникальных речевых способностей отдельного человека. Для согласования, образцы хранятся в базе данных, как и другая биометрическая информация.

Такие системы либо зависят от текста сообщения, либо нет, и используются, например, для контроля доступом. В первом случае, слова или фразы выступают в качестве пароля, который сравнивается с образцом. Во втором случае не требуется произносить конкретные фразы, поскольку система анализирует уникальные характеристики голоса.

Большим плюсом систем распознавания речи является ее удобность для пользователей и относительно недорогая цена по сравнению с другими биометрическими функциями.

Выводы
Исходя из всех достоинств систем распознавания голоса, можно сделать вывод о том, что применение данной технологии для предотвращения несанкционированного доступа к системам, хранящим личные данные граждан либо сведения, содержащие коммерческую тайну, в большинстве случаев является целесообразным.

Библиографический список

Тамбель И.Б., Карпов А.А. Автоматическое распознавание речи: учебное пособие/ И.Б. Тамбель, А.А. Карпов − СПб: Университет ИТМО., 2016. – 138 с.
Burger S., Sloane Z., Yang. J. Competitive Evaluation of Commercially Available Speech Recognizers in Multiple Languages / S. Burger, Z. Sloane, J. Yang. – Pittsburgh: Carnegie Mellon University., 2006. – 89 p.
Xuedong H. Spoken Language Processing: A Guide to Theory, Algorithm and System Development / H. Xuedong. – New Jersey: Prentice., 2001. – 154 p.

Все статьи автора «Кротов Андрей Вячеславович»