Форматный анализ речи получил распространения с 1960-х годов, с его помощью пытаются произвести синтез и распознавание речи, например в работе Фланагана [1, стр.170]. Выделение формантных частот позволил провести реализацию синтеза речи с помощью частотных резонаторов и электронных устройств.
Для четкого понимания систем синтеза и распознавания речи необходимо предоставить возможность анализа речи с помощью элементарных функций и компьютерного моделирования.
Пакет MathCAD позволяет моделировать радиотехнические сигналы [2], оптическую обработки информации [3] и многое другое. Данный пакет очень удобно использовать именно для расчетов, отделив сами расчеты от инженерной реализации, что помогает сосредоточиться именно на самом преобразовании.
Для получения звукового файла используются бесплатная программа Audacity[4], которое распространяет по лицензии freeware, то есть свободно. Эта программа позволяет записывать и редактировать многодорожечные звуки. В данной программе происходить предварительная обработка звука. Необходимо записать звук с нужной фонемой, например слово «атака». Пользователь выделяет часть файла с гласным звуком, например в данном слове фонему «а». При записи фрагмента речи указывается каталог, где находиться рабочие файлы. В случае нахождения фрагмента речи в другой каталог, необходимо исправить путь к файлу в программе.
Записанный звук считывается через функцию READWAV, которая получает массив данных в переменную. Для получения данных о количестве каналов, частоте дискретизации звука, разрядности и скорости передач данных можно использовать функцию GETWAVINFO, которая создает массив из четырех элементов, в которых записываются указанные данные. Используя полученные данные можно изменять частоту дискретизацию и точность расчета спектрограммы.
Рис.1. Подпрограмма для создания мгновенных спектров.
На рисунке 1 приведена подпрограмма для создания мгновенных спектров с окном равным 8192 элементов, в данном случае отсчет будет идти от позиции х+8192, что удобно только в случае создания кода подпрограммы. Из данной спектра выделяет часть спектра, где находится большая часть энергии звука, в данном случае это данные до 1024 элемента. Обычно для анализа применяют логарифмирование масштаба, чтобы выделить часть спектра где находиться максимальная мощность сигнала, но его можно заменить и отбрасыванием части спектра с высокими частотами.
Рис.2. Подпрограмма для создания ряда мгновенных спектров.
На рисунке 2 приведена подпрограмма для создания так называемого спектра в виде «водопада», что наглядно демонстрирует наличие основных частот.
Рис.3. Спектрограмма в 3D виде.
На рисунке 3 приведена спектрограмма звукового файла, полученная средствами пакета MathCAD. На рисунке четко видны резонансные частоты, основной тон, первая и вторая форманта. Таким образом применение трехмерного вида спектрограммы четко показывает нужные частоты.
Расчет данных частот из числовой размерности массива: частота основного тона равен соответственно числу 20, что равно 107 Герц, частота первой форманты соответствует числу 125, что равно 670 Герц. Частота второй форманты соответствует числу 190, что равно 1023 Герц.
Таблица 1.
Фонема |
F1 |
F2 |
F3 |
И |
390 |
1990 |
2550 |
А |
730 |
1090 |
2440 |
Е |
530 |
1840 |
2480 |
У |
440 |
1020 |
2240 |
По таблице 1, где сопоставлены фонемы и частоты формантов гласных для русского языка[5] находим соответствующие формантные частоты.
По таблице 1 видно, что полученные частоты соответствуют двум первым формантам фонемы «А».
Рис.4. Спектрограмма сбоку.
На рисунке 4 хорошо видны основные частоты, где имеется накопление энергии звукового сигнала.
Рис. 5. Спектрограмма сверху.
Используя программный пакет MathCAD можно исследовать и анализировать спектрограмму звука и выделять форманты характерные для записанной звуковой фонемы. Данные форманты необходимы для задач синтеза и распознавания речи.
Библиографический список
- Джеймс Л.Фланаган. Анализ, синтез и восприятие речи. Издательство Связь, М. 1968, 392 стр.
- Газизов Т.Р., Полуэктов С.В., Леонтьев Н.А. Дальняя перекрёстная помеха в многопроводных микрополосковых линиях. VI-я Международная научно-практическая конференция студентов, аспирантов и молодых ученых “Современные техника и технологии (СТТ’2000)”.
- Леонтьев Н.А. Использование среды MathCAD для моделирования оптической обработки информации. Журнал Педагогическая информатика 5/2012. стр. 28-34.
- http://audacity.sourceforge.net/ (Дата обращения: 13.03.14)
- Рабинер Л., Гоулд Б. Теория и применение цифровой обработки сигналов. М: Мир, 1978.
Количество просмотров публикации: Please wait