ПРИМЕНЕНИЕ ПАКЕТА MATHCAD ДЛЯ ОБНАРУЖЕНИЯ ЗВУКОВЫХ ФОРМАНТ В ЗАДАЧАХ СИНТЕЗА И РАСПОЗНАВАНИЕ РЕЧИ

Леонтьев Ньургун Анатольевич
Северо-Восточный федеральный университет им.М.К.Аммосова
к.т.н., доцент кафедры радиотехники и информационных технологий

Аннотация
В данной статье описывается применение пакета MathCAD для анализа устной речи. Показан метод обнаружения звуковых формант используя преобразование Фурье и динамические спектры.

Ключевые слова: анализ речи, преобразование Фурье, форманты


USING OF MATHCAD FOR DETECTION FORMANTS OF SOUND IN SPEECH SYNTHESIS AND RECOGNITION

Leontiev Nyurgun Anatolievich
M.K.Ammosov North-Eastern Federal University
PhD, Associate Professor

Abstract
This paper describes the application of MathCAD for analysis of speech. Shown method for detect formant of speech using the Fourier transform and waterfall spectrum.

Keywords: MathCAD


Рубрика: 05.00.00 ТЕХНИЧЕСКИЕ НАУКИ

Библиографическая ссылка на статью:
Леонтьев Н.А. Применение пакета Mathcad для обнаружения звуковых формант в задачах синтеза и распознавание речи // Современные научные исследования и инновации. 2014. № 4. Ч. 1 [Электронный ресурс]. URL: https://web.snauka.ru/issues/2014/04/33556 (дата обращения: 20.04.2024).

Форматный анализ речи получил распространения с 1960-х годов, с его помощью пытаются произвести синтез и распознавание речи, например в работе Фланагана [1, стр.170]. Выделение формантных частот позволил провести реализацию синтеза речи с помощью частотных резонаторов и электронных устройств.

Для четкого понимания систем синтеза и распознавания речи необходимо предоставить возможность анализа речи с помощью элементарных функций и компьютерного моделирования.

Пакет MathCAD позволяет моделировать радиотехнические сигналы [2], оптическую обработки информации [3] и многое другое. Данный пакет очень удобно использовать именно для расчетов, отделив сами расчеты от инженерной реализации, что помогает сосредоточиться именно на самом преобразовании.

Для получения звукового файла используются бесплатная программа Audacity[4], которое распространяет по лицензии freeware, то есть свободно. Эта программа позволяет записывать и редактировать многодорожечные звуки. В данной программе происходить предварительная обработка звука. Необходимо записать звук с нужной фонемой, например слово «атака». Пользователь выделяет часть файла с гласным звуком, например в данном слове фонему «а». При записи фрагмента речи указывается каталог, где находиться рабочие файлы. В случае нахождения фрагмента речи в другой каталог, необходимо исправить путь к файлу в программе.

Записанный звук считывается через функцию READWAV, которая получает массив данных в переменную. Для получения данных о количестве каналов, частоте дискретизации звука, разрядности и скорости передач данных можно использовать функцию GETWAVINFO, которая создает массив из четырех элементов, в которых записываются указанные данные. Используя полученные данные можно изменять частоту дискретизацию и точность расчета спектрограммы.

Подпрограмма для создания мгновенных спектров

Рис.1. Подпрограмма для создания мгновенных спектров.

На рисунке 1 приведена подпрограмма для создания мгновенных спектров с окном равным 8192 элементов, в данном случае отсчет будет идти от позиции х+8192, что удобно только в случае создания кода подпрограммы. Из данной спектра выделяет часть спектра, где находится большая часть энергии звука, в данном случае это данные до 1024 элемента. Обычно для анализа применяют логарифмирование масштаба, чтобы выделить часть спектра где находиться максимальная мощность сигнала, но его можно заменить и отбрасыванием части спектра с высокими частотами.

Подпрограмма для создания ряда мгновенных спектров Рис.2. Подпрограмма для создания ряда мгновенных спектров.

На рисунке 2 приведена подпрограмма для создания так называемого спектра в виде «водопада», что наглядно демонстрирует наличие основных частот.

Спектрограмма в 3D виде

Рис.3. Спектрограмма в 3D виде.

На рисунке 3 приведена спектрограмма звукового файла, полученная средствами пакета MathCAD. На рисунке четко видны резонансные частоты, основной тон, первая и вторая форманта. Таким образом применение трехмерного вида спектрограммы четко показывает нужные частоты.

Расчет данных частот из числовой размерности массива: частота основного тона равен соответственно числу 20, что равно 107 Герц, частота первой форманты соответствует числу 125, что равно 670 Герц. Частота второй форманты соответствует числу 190, что равно 1023 Герц.

Таблица 1.

Фонема

F1

F2

F3

И

390

1990

2550

А

730

1090

2440

Е

530

1840

2480

У

440

1020

2240

По таблице 1, где сопоставлены фонемы и частоты формантов гласных для русского языка[5] находим соответствующие формантные частоты.

По таблице 1 видно, что полученные частоты соответствуют двум первым формантам фонемы «А».

 

Спектрограмма сбоку

Рис.4. Спектрограмма сбоку.

На рисунке 4 хорошо видны основные частоты, где имеется накопление энергии звукового сигнала.

 Спектрограмма сверху

Рис. 5. Спектрограмма сверху.

Используя программный пакет MathCAD можно исследовать и анализировать спектрограмму звука и выделять форманты характерные для записанной звуковой фонемы. Данные форманты необходимы для задач синтеза и распознавания речи.


Библиографический список
  1. Джеймс Л.Фланаган. Анализ, синтез и восприятие речи. Издательство Связь, М. 1968, 392 стр.
  2. Газизов Т.Р., Полуэктов С.В., Леонтьев Н.А. Дальняя перекрёстная помеха в многопроводных микрополосковых линиях. VI-я Международная научно-практическая конференция студентов, аспирантов и молодых ученых “Современные техника и технологии (СТТ’2000)”.
  3. Леонтьев Н.А. Использование среды MathCAD для моделирования оптической обработки информации. Журнал Педагогическая информатика 5/2012. стр. 28-34.
  4. http://audacity.sourceforge.net/ (Дата обращения: 13.03.14)
  5. Рабинер Л., Гоулд Б. Теория и применение цифровой обработки сигналов. М: Мир, 1978.


Количество просмотров публикации: Please wait

Все статьи автора «Леонтьев Ньургун Анатольевич»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться:
  • Регистрация