Синтез речи представляет собой процесс преобразования напечатанного текста в речевой сигнал.
В настоящее время системы синтеза речи применяются в различных сферах. Синтезированная речь может быть использована в информационно-справочных системах, для помощи слепым и немым, для управления человеком со стороны автомата. При объявлениях о маршрутах поездов, самолетов, автобусах. А также для такого специализированного программного обеспечения как ассистент литератора, используемого писателями в процессе своего творчества [1,2].
Понимание и восприятие речи зависит от характера речевого сообщения, который определяется языковыми особенностями и логико-смысловой структурой текста сообщения. Чем сложнее составлена фраза, тем хуже восприятие.
Физические характеристики речевого сигнала представляют собой основную частоту, скорость речи, интонация, речевой акцент, тип голоса и фонетическая точность синтезированной речи [3].
Понятность синтезированной речи зависит от таких факторов как пол говорящего субъекта. Женская речь, закодированная с помощью линейных алгоритмов предиктивного кодирования, более чувствительна к ошибкам, чем речь мужчины, закодированная тем же самым способом.
Так же голоса могут изменяться по высоте. В качестве индикатора срочного сообщения возможно использование высоты голоса, меняя частоту основного тона при возрастании степени срочности.
Разница в высоте голоса может помочь пользователю следить за несколькими передаваемыми сообщениями одновременно.
Так же важнейшим фактором является расстановка ударений в тексте.
На рисунке 1 приведен результат с расставленными ударениями для повествовательного типа высказывания.
Рисунок 1. Повествовательный тип высказывания, расставленные ударения
При правильной расстановке ударения, текст воспринимается слушателем в большей степени. Пользователь не устает от монотонного чтения и понимает смысл [3].
Для сравнения приведем пример случая с нерасставленными ударениями в словах, результат представлен на рисунке 2.
Рисунок 2. Повествовательный тип высказывания, все слова без ударения
Информация сливается в одно единое целое, нет акцента на главные слова. Пользователь быстро устанет от такого чтения, а так же может не понять суть доносимой до него информации.
На рисунке 3 приведен график для вопросительного типа высказывания.
Рисунок 3. Вопросительный тип высказывания, расставленные ударения
Правильная расстановка ударений в синтезированной речи оказывает большое влияние на восприятие каждого этапа преобразования печатного текста в речевой сигнал.
Еще одним фактором влияющих на восприятие синтезированной речи является расстановка пауз [4].
Временные интервалы, которые создаются паузами, облегчают процесс восприятия и обработки информации, что требуется учитывать при озвучивании текста синтезатором.
Исходя из выше изложенного, можно сделать вывод, что на восприятие синтезированной речи влияет большое количество факторов.
Интонационное разделение и использование пауз для определения его границ мотивировано семантически, синтаксически и фонетически, а также определяется когнитивными и физиологическими причинами.
Расстановка ударения позволяет пользователю воспринимать и понимать синтезированную речь в полном объеме, не утомляясь при этом.
Библиографический список
- Синтез речи [Электронный ресурс] – Режим доступа: http://dic.academic.ru/dic.nsf/ruwiki/98952 (дата обращения 29.03.2016)
- Такташкин Д.В., Масенко И.А. Модель вариантов использования программы для писателей «Сюжет» // Современные научные исследования и инновации. 2016. № 3 [Электронный ресурс]. URL: http://web.snauka.ru/issues/2016/03/64882 (дата обращения: 03.04.2016).
- Модель системы синтеза параметров речи по печатному тексту с использованием информационных представлений [Электронный ресурс] – Режим доступа: http://elib.altstu.ru/elib/books/Files/pa1999_2/pages/08/pap_08.html (дата обращения: 03.04.2016).
- Паузирование при автоматическом синтезе речи [Электронный ресурс] – Режим доступа: http://nature.web.ru/db/msg.html?mid=1154156&s (дата обращения: 02.04.2016)