<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Электронный научно-практический журнал «Современные научные исследования и инновации» &#187; словарный метод</title>
	<atom:link href="http://web.snauka.ru/issues/tag/slovarnyiy-metod/feed" rel="self" type="application/rss+xml" />
	<link>https://web.snauka.ru</link>
	<description></description>
	<lastBuildDate>Fri, 17 Apr 2026 07:29:22 +0000</lastBuildDate>
	<language>ru</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
		<item>
		<title>Вопрос выбора словаря триграмм для автоматической идентификации якутского языка</title>
		<link>https://web.snauka.ru/issues/2014/12/40443</link>
		<comments>https://web.snauka.ru/issues/2014/12/40443#comments</comments>
		<pubDate>Tue, 02 Dec 2014 14:20:03 +0000</pubDate>
		<dc:creator>Леонтьев Ньургун Анатольевич</dc:creator>
				<category><![CDATA[05.00.00 ТЕХНИЧЕСКИЕ НАУКИ]]></category>
		<category><![CDATA[автоматическая обработка языка]]></category>
		<category><![CDATA[биграмма]]></category>
		<category><![CDATA[газетный корпус]]></category>
		<category><![CDATA[определитель языка]]></category>
		<category><![CDATA[словарный метод]]></category>
		<category><![CDATA[триграмма]]></category>
		<category><![CDATA[якутский язык]]></category>

		<guid isPermaLink="false">https://web.snauka.ru/?p=40443</guid>
		<description><![CDATA[Идентификация языка текстового сообщения является ключевым элементов для автоматической обработки текста в мультиязычной среде, такой как сеть Интернет. Во многих странах ведутся исследования по повышении точности определения языка текстового документа  [1,2] и коротких сообщений [3]. Распространенные языки мира исследованы и имеют средства для программной идентификации. Языки народов России не очень широко представлены в сети Интернет [...]]]></description>
			<content:encoded><![CDATA[<p>Идентификация языка текстового сообщения является ключевым элементов для автоматической обработки текста в мультиязычной среде, такой как сеть Интернет. Во многих странах ведутся исследования по повышении точности определения языка текстового документа  [1,2] и коротких сообщений [3]. Распространенные языки мира исследованы и имеют средства для программной идентификации. Языки народов России не очень широко представлены в сети Интернет и часто не имеют средств для автоматической обработки.</p>
<p>Для идентификации якутского языка автором были разработаны и исследованы словарный метод определения языка [4], метод, использующий газетный корпус [5,6], метод биграмм [7].</p>
<p>Определения языка сообщений с помощью нахождения национальных букв не имеет большой перспективы, так как текст может состоять только из букв русского алфавита, также может быть написан с помощью транслитерации, а также может быть документом на другом языке использующий такие же буквы (староабхазкий, алтайский, марийский, башкирский и другие тюркские языки), согласно стандарта Unicode 6.3.</p>
<p>Разброс точности определения языка с помощью метода биграмм составляет большую величину, так как в якутском языке могут быть использованы сами слова из русского языка и иностранных языков, а также их фонетизированные варианты. Например, слова из слова«бизнес» &#8211; «бизинес», «бизнестыыр», «бизнеска», «биисинэс», «биизинес», «биисиньэс» или же слово «ватсап» &#8211; «ватсаптаа», «ватсаабы». Так как нововведенные слова не обладают устойчивым фонетизированным вариантом написания, они могут быть написаны разными способами, что усложняет их идентификацию. Такие варианты слов приводят к большому количеству совпадений биграмм для идентификации языка, что снижает точность идентификации.</p>
<p>Словарный метод обладает небольшим процентом совпадений, что не позволяет повысить точность идентификации языка без алгоритма создания из словарных слов словоформ используемых в письменности и речи.</p>
<p>Метод, использующий базу данных словаря газетного корпуса, обладает большим процентом совпадений словоформ, но только в случае достаточно больших текстов и в случае грамматические правильно написанных слов. При определении языка текста из Интернет-форумов метод дает большой процент ошибок.</p>
<p>Метод идентификации языка с помощью триграмм позволяет распознавать язык сообщения и при случае текстового сообщения с большим количеством орфографических ошибок. Такие тексты часто встречаются в сообщениях из Интернет-форумов, так как очень часто пользователи форумов набирают тексты на якутском языке с помощью транслита.</p>
<p>Для создания базы данных триграмм была использована база словаря газетного корпуса якутского языка объемом более 100 тыс. словоформ.</p>
<p>База данных триграмм была очищена от триграмм использующих буквы «в», «ж», «я», «ц», «ш», «щ», «з», «ъ», «ф», «ю». Данные буквы не являются типичными для якутского языка и обычно такие буквы используются в словах из русского и иностранных языков. Так необходимо учесть особенности языка, то есть отсутствие звуков состоящих из трех подряд согласных звуков («кст» и т.д.), подряд идущих гласных, кроме длинных гласных («аа», «уу», «ии», «оо», «ээ», «ыы», «үү», «өө») и дифтонгов («ыа», «үө», «иэ», «уо»), а также диграфов («дь» и «нь»), использующих мягкий знак.</p>
<p>Очистка базы триграмм уменьшает процент идентификации текста в случае текст русском языке до 25%, а текста на якутском языке до 80%.</p>
<p>Задача увеличения уникальных биграмм и триграмм может быть также решена с использованием словаря содержащих слова только с фонетизированными вариантами слов. Но процент биграмм и триграмм одинаково встречающихся в русском и якутском языке все равно составляет около 20%. Например, имеется слова заимствованные из тюркского языка («балык»), с одинаковым графическим представлением, но разным смыслом («баран» &#8211; рус., «иссякать» или частица речи в якутском языке), а также слова с совпадениями в большой части слова («оборона» &#8211; «оборон»). Якутский язык включается в себя большое количество заимствований из русского языка, новые понятия и существительные, что увеличивает процент совпадения с русским языком. Заимствованные слова в тексте якутском языке приобретают суффиксы якутского языка («мелиорацияны» &#8211; мелиорацию).</p>
<p>Учет частоты употребления биграмм и триграмм, а также ввод весовых коэффициентов позволяет учесть биграммы и триграммы якутского языка. Корреляция частоты употребления символов якутского и русского языка достигает 60%, что указывает на большое количество совпадений в частотной области [8].</p>
<p>Выбор базы данных триграмм обеспечивает достаточную точность определения языка текстового сообщения при разной длине текста и в случае наличия орфографических ошибок, в среднем до 60%. Учет грамматических особенностей якутского языка увеличивает точность идентификации языка текстового в среднем до 80%.</p>
]]></content:encoded>
			<wfw:commentRss>https://web.snauka.ru/issues/2014/12/40443/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
