<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Электронный научно-практический журнал «Современные научные исследования и инновации» &#187; вейвлет</title>
	<atom:link href="http://web.snauka.ru/issues/tag/veyvlet/feed" rel="self" type="application/rss+xml" />
	<link>https://web.snauka.ru</link>
	<description></description>
	<lastBuildDate>Fri, 17 Apr 2026 07:29:22 +0000</lastBuildDate>
	<language>ru</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
		<item>
		<title>Применение вейвлет-преобразования в задачах идентификации по голосу</title>
		<link>https://web.snauka.ru/issues/2013/05/24295</link>
		<comments>https://web.snauka.ru/issues/2013/05/24295#comments</comments>
		<pubDate>Tue, 14 May 2013 17:23:57 +0000</pubDate>
		<dc:creator>frolovgo</dc:creator>
				<category><![CDATA[01.00.00 ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ]]></category>
		<category><![CDATA[вейвлет]]></category>
		<category><![CDATA[вейвлет-анализ]]></category>
		<category><![CDATA[идентификация по голосу]]></category>
		<category><![CDATA[пакетное вейвлет преобразование]]></category>
		<category><![CDATA[текстонезависимая идентификация.]]></category>
		<category><![CDATA[фурье-анализ]]></category>
		<category><![CDATA[цифровая обработка сигналов]]></category>

		<guid isPermaLink="false">https://web.snauka.ru/?p=24295</guid>
		<description><![CDATA[Введение Вейвлет-преобразование – современное обобщение спектрального анализа, которое, в отличие от традиционно применяемого для анализа сигналов Фурье-преобразования, обеспечивает двумерную развертку исследуемого одномерного сигнала. При этом частота и координата рассматриваются как независимые переменные. Основная проблема в задаче идентификации по голосу заключается в поиске такого метода параметризации исходных образцов голоса, который позволил бы выделить из исходного сигнала [...]]]></description>
			<content:encoded><![CDATA[<p><strong>Введение<br />
</strong></p>
<p>Вейвлет-преобразование – современное обобщение спектрального анализа, которое, в отличие от традиционно применяемого для анализа сигналов Фурье-преобразования, обеспечивает двумерную развертку исследуемого одномерного сигнала. При этом частота и координата рассматриваются как независимые переменные.</p>
<p>Основная проблема в задаче идентификации по голосу заключается в поиске такого метода параметризации исходных образцов голоса, который позволил бы выделить из исходного сигнала индивидуальные особенности говорящего. При этом обладающий не слишком высокой вычислительной сложностью и формирующий максимально компактные характеристические векторы образцов голоса.</p>
<p>Большая часть подобных методов (MFCC, LPCC) основана на преобразовании Фурье и предположении о квазистационарности речевого сигнала на коротких промежутках времени (10-30 мс), что является всего лишь допущением.</p>
<p>Эта статья посвящена анализу применимости в задачах текстонезависмой идентификации ряда методов параметризации основанных на вейвлет-преобразованиях с различными базисами и более популярных методов, использующих для параметризации мэл-частотные кепстральные коэффициенты и кепстральные коэффициенты на основе линейного предсказания.</p>
<p><strong>Описание конкурирующих методик<br />
</strong></p>
<p>Задача параметризации речевого сигнала стоит наиболее остро и до сих пор не решена в полной мере. К наиболее популярным методам параметризации можно отнести кепстральный анализ и анализ спектра модуляции.</p>
<p>Большинство современных алгоритмов параметризации сосредотачивают усилия на извлечении частотной характеристики речевого тракта человека, отбрасывая при этом характеристики сигнала возбуждения.</p>
<p>Для отделения сигнала возбуждения от сигнала речевого тракта прибегают к кепстральному анализу. Схематически этот метод представлен на рисунке 1.</p>
<p style="text-align: center;"><img src="https://web.snauka.ru/wp-content/uploads/2013/05/051413_1723_16.png" alt="" /></p>
<p style="text-align: center;">Рисунок 1 – Схема вычисления кепста</p>
<p>где FFT – блок быстрого преобразования Фурье сигнала (БПФ), LOG – блок логарифмирования спектра, IFFT – блок обратного быстрого преобразования Фурье (ОБПФ).</p>
<p>После параметризации сигнала такими алгоритмами формируется K n-мерных характеристических векторов, где K равно числу фреймов, а n – числу используемых кепстральных коэффициентов (обычно от 10 до 40), которые передаются используемому в системе классификатору.</p>
<p><strong>Методика параметризации образцов<br />
</strong></p>
<p>В задаче текстонезависимой идентификации по голосу характер и длительность высказывания, по которому требуется идентифицировать диктора, априори неизвестны. Поэтому при параметризации на первый план выходит выделение артикуляционных особенностей говорящего в моменты межфонемных переходов в его речи. Преобразование Фурье плохо подходит для параметризации нестационарных сигналов подобного рода, поэтому нами было принято решение проанализировать перспективы применения дискретного вейвлет-преобразования для этой задачи.</p>
<p>В исследовательских целях нами был разработан метод, основанный на пакетном вейлвет-преобразовании, схема которого представлена на рисунке 2.</p>
<p style="text-align: center;"><img src="https://web.snauka.ru/wp-content/uploads/2013/05/051413_1723_21.png" alt="" /></p>
<p style="text-align: center;">Рисунок 2 – Схема пакетного вейвлет-преобразования</p>
<p>Схематически реализованный метод представлен ниже:</p>
<p style="text-align: center;"><img src="https://web.snauka.ru/wp-content/uploads/2013/05/051413_1723_31.png" alt="" /></p>
<p style="text-align: center;">Рисунок 3 &#8211; Схема метода</p>
<p>Где ПБВП – пакетное вейвлет-преобразование (в исследовании использовались вейвлет-базисы Добеши, Simlet и Coiflet различных порядков) с числом уровней декомпозиции от 2 до 8.</p>
<p>ТKЕО (Teager Kaiser Energy Operator ) &#8211;  <img src="https://web.snauka.ru/wp-content/uploads/2013/05/051413_1723_41.png" alt="" /></p>
<p>где: N = Len/2^n</p>
<p>где: Len – длина кадра в отсчетах сигнала, а n – число уровней декомпозиции</p>
<p>применяемый для каждого из 2^n полученных поддиапазонов, чтобы сформировать характеристический вектор размерностью 2^n, где n – число уровней декомпозиции сигнала.</p>
<p>Перед обработкой сигнала проводилось предусиление (pre-emphasis), нормализация <img src="http://latex.codecogs.com/gif.latex?y(n)&amp;space;=&amp;space;(x(n)-mu)/sigma" alt="y(n) = (x(n)-mu)/sigma" align="absmiddle" /></p>
<p>Где: µ &#8211; среднее арифметическое</p>
<p>ơ &#8211; среднеквадратичное отклонение</p>
<p>и разбиение на непересекающиеся кадры длиной от 256 до 4096 отсчетов сигнала.</p>
<p>Сформированные векторы признаков передавались классификатору, работающему по алгоритму «K ближайших соседей»[4], где K выбрано равным 36, в качестве меры расстояния используется Евклидова метрика.</p>
<p>Для проведения исследования использовались образцы голосов из бесплатного корпуса Chains (CHAracterizing Individual Speakers)[], содержащего образцы голосов 36 дикторов записанных в два этапа с разницей в два месяца в различном окружении. Формат: mono, 16000Гц, 16 бит PCM Всего 1332 образца общей длительностью около 360 минут.</p>
<p><strong>Результаты исследования<br />
</strong></p>
<p>Первый этап исследования заключался в определении оптимального вейлвет-базиса для разложения сигнала. При этом использовались кадры длиной 512 отсчетов и 5 уровней разложения. В качестве классификатора использовался алгоритм ближайшего соседа. Для обучения системы были использованы фрагменты длиной ~2,5 минуты для каждого диктора. В качестве тестовых образцов использовались все остальные доступные в корпусе Chains фрагменты. Всего в количестве 1296 образцов голоса для 36 дикторов. Для сравнения приводятся результаты алгоритмов параметризации LPCC и MFCC, полученные на том же наборе данных.</p>
<p>По результатам этого этапа в качестве вейвлет-базиса был выбран базис Добеши-20.</p>
<p style="text-align: center;"><img src="https://web.snauka.ru/wp-content/uploads/2013/05/051413_1723_61.png" alt="" /></p>
<p style="text-align: center;">Рисунок 4 – Сравнительная эффективность методов параметеризации</p>
<p>Второй этап заключался в определение оптимальной длины анализируемого кадра для метода.</p>
<p style="text-align: center;"><img src="https://web.snauka.ru/wp-content/uploads/2013/05/051413_1723_81.png" alt="" /></p>
<p style="text-align: center;">Рисунок 5 – Зависимость точности идентификации от длины кадра</p>
<p>Наибольший процент распознавания удалось получить с использованием окна в 1024 отсчета сигнала.</p>
<p>На третьем этапе устанавливалась зависимость качества идентификации от количества уровней вейвлет-разложения сигнала.</p>
<p style="text-align: center;"><img src="https://web.snauka.ru/wp-content/uploads/2013/05/051413_1723_101.png" alt="" /></p>
<p style="text-align: center;">Рисунок 6 &#8211; Зависимость точности идентификации от числа уровней разложения</p>
<p>При малом количестве уровней разложения размерность характеристического вектора невелика и идентификация проходит быстрее, но точность распознавания падает. С увеличением количества уровней разложения растет только вычислительная сложность параметризации и сравнения образцов – точность идентификации же не только не растет, но даже несколько снижается.</p>
<p>Последний этап заключался в определении минимально необходимой длительности тренировочных и тестовых образцов для идентификации диктора.</p>
<p>Сначала при фиксированном наборе из 1296 образцов голосов 36 дикторов длина тренировочных образцов голоса для каждого диктора изменялась от 2 до 18 с :</p>
<p><img src="https://web.snauka.ru/wp-content/uploads/2013/05/051413_1723_121.png" alt="" /></p>
<p>Рисунок 7 &#8211; Зависимость точности идентификации от длительности обучающих материалов</p>
<p>Длительность обучающих образцов перестает оказывать заметное влияние на процент успешной идентификации при достижении значения ~16 c</p>
<p>Также было исследовано влияние длительности тестового образца на точность идентификации. Для этого при фиксированной длительности обучающих образцов (порядка 1 минуты), изменялась длительность образцов голоса 36 дикторов, используемых для эксперимента.</p>
<p>Точность идентификации практически перестает возрастать при увеличении длительности тестовых образцов более 5 с</p>
<p style="text-align: center;"><img src="https://web.snauka.ru/wp-content/uploads/2013/05/051413_1723_141.png" alt="" /></p>
<p style="text-align: center;">Рисунок 8 &#8211; Зависимость точности идентификации от длительности тестовых образцов</p>
<p><strong>Заключение<br />
</strong></p>
<p>Проведенное исследование позволяет утверждать, что использование вейвлет-преобразования для параметризации голосовых образцов позволяет добиться сопоставимой с популярными методами на основе кепстрального анализа точности текстонезависимой идентификации по голосу. Из рассмотренных базисов наилучшие результаты обеспечивает базис добеши 20 порядка с длиной кадра 1536 отсчетов сигнала и 5-ю уровнями разложения.</p>
]]></content:encoded>
			<wfw:commentRss>https://web.snauka.ru/issues/2013/05/24295/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
