К ВОПРОСУ О РАСПОЗНАВАНИИ БУКВ В СЛИТНОЙ РУССКОЙ РЕЧИ

Антипин Андрей Федорович
Стерлитамакский филиал Башкирского государственного университета
кандидат технических наук, доцент кафедры прикладной информатики и программирования

Аннотация
Статья посвящена вопросам компьютерного распознавания букв в слитной русской речи и способам их решения.

Ключевые слова: звук, многомерный интервально-логический регулятор, программное обеспечение, распознавание речи


ABOUT THE RECOGNITION OF LETTERS IN CONTINUOUS RUSSIAN SPEECH

Antipin Andrey Fedorovich
Sterlitamak branch of the Bashkir state University
candidate of technical sciences, associate Professor of the Department of applied informatics and programming

Abstract
The article is devoted to the questions of computer recognition of letters in continuous Russian speech and ways to solve them.

Keywords: multidimensional interval-logic regulator, software, sound, speech recognition


Рубрика: 05.00.00 ТЕХНИЧЕСКИЕ НАУКИ

Библиографическая ссылка на статью:
Антипин А.Ф. К вопросу о распознавании букв в слитной русской речи // Современные научные исследования и инновации. 2015. № 5. Ч. 1 [Электронный ресурс]. URL: https://web.snauka.ru/issues/2015/05/45760 (дата обращения: 29.03.2024).

В современном обществе использование речевых технологий в качестве альтернативного средства взаимодействия между человеком и различными электронными устройствами уже не является чем-то необычным. Речевые средства взаимодействия дают возможность разрабатывать более дружественные пользовательские интерфейсы, а также максимально миниатюризировать современные средства связи и управления.

С момента появления первых компьютеров ученые работают над решением проблемы автоматического распознавания речи. За эти годы были разработаны различные методы распознавания, созданы работоспособные системы для английского, китайского и целого ряда европейских языков, дающие достаточно высокий процент распознавания. Однако в настоящее время не существует коммерчески успешных систем для распознавания слитной русской речи.

С целью стимулирования исследований в области речевых технологий в России и СНГ международной компанией «Центр речевых технологий» и Санкт-Петербургским национальным исследовательским университетом информационных технологий, механики и оптики в 2013 г. был объявлен конкурс «Родная речь – 2013» с главным призом в сто тысяч рублей. Задача конкурсантов заключалась в разработке прототипа системы распознавания слитной русской речи за один месяц. Подобные конкурсы еще больше подчеркивают важность исследований в этом направлении.

Большинство известных методов распознавания слитной русской речи основаны на применении акустических и языковых моделей в распознавании фраз и отдельных участков речи, в то время как цифровая (битовая) составляющая сигнала остается без внимания. Звук в цифровом виде представляет собой некоторую последовательность нулей и единиц, или битов, проанализировав которую можно составить аналитические выражения и математическую модель для его распознавания. Так в любом звуковом файле T можно выделить: минимальный Tmin и максимальный Tmax элементы, наиболее часто встречающийся элемент Tч, среднее значение Tср элементов последовательности и т. д.

При цифровом анализе записей отдельных букв также возникает ряд проблем. Во-первых, необходимо согласовать распределение битов со скоростью произнесения той или иной буквы, т. е. перед проведением анализа файлов необходимо нормировать их по скорости, либо выявлять закономерности в очередности следования битов, независящие от скорости произнесения звуков. Второй проблемой является влияние эмоциональной окраски на цифровой состав файла. Очевидно, что записи одних и тех же звуков, произнесенных под влиянием разных эмоций, будут иметь различный битовый состав. Таким образом, предстоит вычленить отдельные биты или последовательности битов, которые не зависят от эмоциональной окраски речи. Кроме того, нужно учитывать наличие индивидуальных особенностей речи каждого диктора [1, 2].

В связи с вышесказанным, предлагается следующий способ распознавания гласных букв в слитной русской речи, который основан на использовании возможностей многомерного нечеткого интервально-логического регулятора, разработанного автором, принцип работы которого приведен в статьях [3, 4].

Схема системы распознавания речи приведена на рис. 1.


Рисунок 1 – Схема системы распознавания речи

Для подготовки файлов, содержащих гласные звуки, предлагается проведение следующего эксперимента.

В помещении с допустимым уровнем шума и стандартной акустикой производится запись гласных звуков русского языка, произносимых несколькими дикторами. Каждый гласный звук произносится диктором несколько раз, при этом варьируется скорость произнесения, громкость и эмоциональная окраска. Таким образом, создается банк записей, которые предстоит проанализировать с помощью разрабатываемой программы. По результатам анализа полученные последовательности битов сравниваются между собой и выводится некий усредненный цифровой код каждого гласного звука.

Порядок анализа файла, содержащего звуковой фрагмент, имеет вид:

1. Производим интервализацию файла, то есть делим файл на n равных частей, отсекая оставшиеся байты с начала и конца файла, в предположении, что данные байты содержат шум.

Алгоритм интервализации файлов следующий:

а) получаем количество интервалов разбивки n;

б) разбиваем файл на n равных частей. В случае, если размер файла в байтах не делится нацело на n, находим число байт, которые требуется отсечь, это остаток от деления на n. Например, если размер файла – 75 байт, а число интервалов – 7, то остаток от деления равен 5. Далее делим полученный остаток на 2, частное будет равным 2, остаток 1. Тогда

Начало файла = частное + остаток + 1,

Конец файла = размер файла – частное.

Затем разбиваем усеченный файл на n частей.

2. Производим различные методы анализа [5, 6]. Так автором предлагается следующий метод интерпретации файлов, содержащих звуки, в виде последовательности байтов:

– внутри каждого интервала разбивки находим наиболее часто встречающийся байт;

– представляем звук в виде последовательности этих байтов;

– на основании ряда экспериментов находим в каких диапазонах лежат байты внутри каждого интервала для каждого звука, представляющего определенную букву русского алфавита.

Схема интервализации звукового файла представлена на рис. 2, где m – размер звукового файла в байтах; T (1), T (2), …, T (n)n интервалов разбивки; Tч(1), Tч(2), …, Tч(n) – наиболее часто встречающиеся байты внутри интервалов разбивки T (1), T (2), …, T (n); Tч и Tч – наиболее часто встречающиеся байты в звуковом файле и в последовательности Tч(1), Tч(2), …, Tч(n) соответственно.


Рисунок 2 – Схема интервализации звукового файла в многомерном интервально-логическом регуляторе

На рисунке 3 представлено окно программного обеспечения для анализа звуковых файлов, разработанного автором.


Рисунок 3 – Скриншот системы для анализа звуковых файлов

На данном этапе разработки анализатор гласных букв позволяет варьировать количество интервалов разбивки, выявлять часто встречающиеся байты как в целом файле, так и в каждом отдельном интервале, и получать цифровой код звука в виде последовательности байтов, согласно установленному числу интервалов. На следующем этапе предполагается реализовать механизм сравнения цифровых кодов одного и того же гласного звука, полученных в результате анализа записей разных дикторов.

В результате эксперимента гласный звук “а”, записанный одним диктором 10 раз, но c разной скоростью произнесения и эмоциональной окраской, и разбитый на 10 интервалов имеет коды, приведенные в табл. 1.

Таблица 1 – Цифровые коды гласного звука “а”

Наиболее часто встречающиеся байты внутри интервалов разбивки (код звука)

1

2

3

4

5

6

7

8

9

10

1

255

249

248

251

251

250

254

253

255

32

2

0

251

251

250

252

251

255

0

255

32

3

82

0

251

250

252

252

251

251

255

255

4

0

252

249

252

252

0

255

255

255

32

5

0

252

253

251

251

251

0

255

255

32

6

255

254

253

253

254

254

254

254

255

32

7

82

255

253

252

248

249

251

255

1

255

8

82

0

250

5

243

248

248

250

0

255

9

255

251

251

250

251

251

251

0

255

32

10

255

251

255

248

251

249

1

0

255

32

Из таблицы 1 видно, что байты гласного звука “а” внутри десятого интервала разбивки принимают всего два значения – 32 и 255; внутри третьего и пятого интервалов лежат в диапазоне значений [248; 255] и [243; 254] соответственно. Значения внутри остальных интервалов колеблются в диапазоне значений целого байта.

Это говорит о том, что необходим более детальный анализ цифровой структуры файлов с увеличением числа интервалов разбивки, как в целом файле, так и внутри отдельных интервалов. Так для описанного выше эксперимента необходима разбивка третьего и пятого интервалов с целью выявления более точных диапазонов значений байтов или для их подтверждения.

Таблицы, полученные в ходе экспериментов, в перспективе позволят получить цифровые коды гласных звуков для русского языка в виде последовательности байтов (или битов).


Библиографический список
  1. Антипин А.Ф., Шишкина А.Ф. Об одном пути решения проблемы автоматического распознавания речи // Информационные технологии. Радиоэлектроника. Телекоммуникации. 2012. № 2. Т. 1. С. 48–53.
  2. Шишкина А.Ф., Антипин А.Ф. Способ цифрового анализа гласных звуков русского языка // Информационные технологии. Радиоэлектроника. Телекоммуникации. 2013. № 3. С. 369–372.
  3. Антипин А.Ф. Особенности программной реализации многомерных логических регуляторов с переменными в виде совокупности аргументов двузначной логики // Автоматизация и современные технологии. 2014. № 2. С. 30–36.
  4. Антипин А.Ф. О повышении быстродействия систем интеллектуального управления на базе нечеткой логики // Автоматизация, телемеханизация и связь в нефтяной промышленности. 2013. № 5. С. 22–26.
  5. Антипин А.Ф. Способ фаззификации значений непрерывных величин с предсказанием термов в многомерном четком логическом регуляторе // Автоматизация в промышленности. 2013. № 9. С. 65–68.
  6. Степашина Е.В., Мустафина Е.А. Численный алгоритм уточнения механизма химической реакции DRGEP-методом // Журнал Средневолжского математического общества. 2011. Т. 12. № 3. С. 122.


Количество просмотров публикации: Please wait

Все статьи автора «Антипин Андрей Федорович»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться:
  • Регистрация