Электронный научно-практический журнал «Современные научные исследования и инновации» » якутский язык

Частоты употребления букв якутского языка в газетном корпусе

Леонтьев Ньургун Анатольевич — Sat, 12 Jul 2014 13:50:48 +0000

Языковые корпуса на других языках существуют давно, со времен развития вычислительной техники и лингвистики. Одним из используемых является Национальный корпус русского языка, который является сбалансированным. Он содержит тексты из разных источников, таких как литературные, газетные, поэтические и т.д.

Газетный корпус якутского корпуса [1,2] разрабатывается для создания автоматических систем коррекции языка, автоматической разметки текста и развития прочих вычислительных технологий в отношении якутского языка, на материалах газет на якутском языке.

Таблицы частот употребления букв раньше использовали в системах дешифровки сообщений, так шифры замены не могли скрывать частоты употребления букв. В данное время частотные таблицы можно использовать для автоматического исправления некорректного распознанного символа в системах сканирования документов, в системах распознавания речи, а также в других интеллектуальных системах [3].

В ходе анализа газетного корпуса на якутском языке было проанализировано более трех тысяч текстов с общим количеством букв равным 7298065. Содержание текстов это в основном новостная хроника.

Для анализа текстов был составлен скрипт на язык php, с использованием библиотеки Multibyte Strings Function. Данные корпуса хранятся в базе данных MySQL с кодировкой UTF-8. Скрипт, написанный автором, получил на выходе статистический массив с указанием, сколько раз буква встречается в корпусе.

В таблице 1 приведены буквы якутского алфавита, с выделением национальных букв и указанием количество буквы в корпусе, а также с вычисленной частотой в процентах.

Таблица 1. Частотная таблица символов якутского языка.

Буква	Количество	Частота, %
а	955045	13,09
т	540274	7,40
н	521022	7,14
р	508160	6,96
э	499112	6,84
и	473880	6,49
ы	420468	5,76
л	384091	5,26
у	356213	4,88
о	353088	4,84
с	285290	3,91
б	259584	3,56
к	240207	3,29
х	177011	2,43
д	165190	2,26
ү	157683	2,16
г	115679	1,59
м	115419	1,58
й	114828	1,57
ө	109188	1,50
һ	105586	1,45
п	80167	1,10
ҕ	68323	0,94
е	59599	0,82
ь	59582	0,82
ч	52993	0,73
ҥ	43078	0,59
в	29412	0,40
я	14230	0,19
ц	8329	0,11
ф	7927	0,11
з	7841	0,11
ж	2777	0,04
ш	2449	0,03
ю	2214	0,03
щ	1290	0,02
ъ	752	0,01
ё	84	0,001

Якутский язык в своем происхождении не имеет букв «е», «в», «я», «ц», «ф», «з», «ж», «ш», «ю», «щ», «ъ» и «ё», эти буквы были заимствованы из русского языка. По таблице 1 четко видно, что частота употребления большинства этих букв (кроме «е») меньше 0,4%, и эти буквы встречаются в тексте на якутском языке в названиях различных объектов, компаний, имен собственных и других словах имеющих иностранное происхождение.

Для сравнения частот употребления букв якутского языка с другим тюркским языком, был выбран татарский язык [4]. Из алфавита татарского языка была сделана выборка букв совпадающих с русским языком.

В таблице 2 идет сравнение частоты употребления букв якутского, татарского и русского алфавитов. Данные о частоте букв русского языка получены из работы [5].В национальном корпусе русского языка анализ сделан по 505266851 буквам.

Таблица 2. Сравнение частот употребления букв якутского, татарского и русского языка

Буква	Якутский язык, %	Татарский язык, %	Русский язык, %
а	13,08	11	7,99
б	3,55	3,3	1,59
в	0,40	0,4	4,53
г	1,58	3	1,68
ҕ	0,93	-	-
д	2,26	2,8	2,97
е	0,81	7	8,48
ё	0,001		0,01
ж	0,04	0,1	0,94
з	0,11	1,9	1,64
и	6,49	4,3	7,36
й	1,57	1,4	1,2
к	3,29	5,6	3,48
л	5,26	6,4	4,34
м	1,58	2,6	3,2
н	7,13	7,2	6,7
ҥ	0,59	-	-
о	4,84	1,4	10,98
ө	1,49	-	-
п	1,10	1,8	2,8
р	6,96	6,6	4,74
с	3,91	2,5	5,47
һ	1,45	-	-
т	7,40	4,5	6,31
у	4,88	2,6	2,61
ү	2,16	-	-
ф	0,11	0,3	0,26
х	2,43	0,5	0,96
ц	0,11	0,1	0,48
ч	0,73	1,5	1,45
ш	0,033	2	0,71
щ	0,018	0,1	0,36
ъ	0,01	0,1	0,03
ы	5,76	6,4	1,89
ь	0,82	0,3	1,73
э	6,84	0,2	0,33
ю	0,03	0,2	0,63
я	0,19	1	2

Для расчета корреляции якутского и русского языка с использованием формулы (1), была высчитана корреляционная функция, значение который оказалось равной 0,60. Данное число показывает насколько могут совпадать частоты употребления букв в текстах на якутском и русском языке.

(1)

В результате работы получена частотная таблица употребления букв якутского языка в национальном газетном корпусе. Это таблица будет полезна для систем статистической обработки текста на якутском языке, для систем автоматической коррекции текста. Произведено сравнение частот употребления букв в якутском, татарском и русских языках.

Вопрос выбора словаря триграмм для автоматической идентификации якутского языка

Леонтьев Ньургун Анатольевич — Tue, 02 Dec 2014 14:20:03 +0000

Идентификация языка текстового сообщения является ключевым элементов для автоматической обработки текста в мультиязычной среде, такой как сеть Интернет. Во многих странах ведутся исследования по повышении точности определения языка текстового документа [1,2] и коротких сообщений [3]. Распространенные языки мира исследованы и имеют средства для программной идентификации. Языки народов России не очень широко представлены в сети Интернет и часто не имеют средств для автоматической обработки.

Для идентификации якутского языка автором были разработаны и исследованы словарный метод определения языка [4], метод, использующий газетный корпус [5,6], метод биграмм [7].

Определения языка сообщений с помощью нахождения национальных букв не имеет большой перспективы, так как текст может состоять только из букв русского алфавита, также может быть написан с помощью транслитерации, а также может быть документом на другом языке использующий такие же буквы (староабхазкий, алтайский, марийский, башкирский и другие тюркские языки), согласно стандарта Unicode 6.3.

Разброс точности определения языка с помощью метода биграмм составляет большую величину, так как в якутском языке могут быть использованы сами слова из русского языка и иностранных языков, а также их фонетизированные варианты. Например, слова из слова«бизнес» – «бизинес», «бизнестыыр», «бизнеска», «биисинэс», «биизинес», «биисиньэс» или же слово «ватсап» – «ватсаптаа», «ватсаабы». Так как нововведенные слова не обладают устойчивым фонетизированным вариантом написания, они могут быть написаны разными способами, что усложняет их идентификацию. Такие варианты слов приводят к большому количеству совпадений биграмм для идентификации языка, что снижает точность идентификации.

Словарный метод обладает небольшим процентом совпадений, что не позволяет повысить точность идентификации языка без алгоритма создания из словарных слов словоформ используемых в письменности и речи.

Метод, использующий базу данных словаря газетного корпуса, обладает большим процентом совпадений словоформ, но только в случае достаточно больших текстов и в случае грамматические правильно написанных слов. При определении языка текста из Интернет-форумов метод дает большой процент ошибок.

Метод идентификации языка с помощью триграмм позволяет распознавать язык сообщения и при случае текстового сообщения с большим количеством орфографических ошибок. Такие тексты часто встречаются в сообщениях из Интернет-форумов, так как очень часто пользователи форумов набирают тексты на якутском языке с помощью транслита.

Для создания базы данных триграмм была использована база словаря газетного корпуса якутского языка объемом более 100 тыс. словоформ.

База данных триграмм была очищена от триграмм использующих буквы «в», «ж», «я», «ц», «ш», «щ», «з», «ъ», «ф», «ю». Данные буквы не являются типичными для якутского языка и обычно такие буквы используются в словах из русского и иностранных языков. Так необходимо учесть особенности языка, то есть отсутствие звуков состоящих из трех подряд согласных звуков («кст» и т.д.), подряд идущих гласных, кроме длинных гласных («аа», «уу», «ии», «оо», «ээ», «ыы», «үү», «өө») и дифтонгов («ыа», «үө», «иэ», «уо»), а также диграфов («дь» и «нь»), использующих мягкий знак.

Очистка базы триграмм уменьшает процент идентификации текста в случае текст русском языке до 25%, а текста на якутском языке до 80%.

Задача увеличения уникальных биграмм и триграмм может быть также решена с использованием словаря содержащих слова только с фонетизированными вариантами слов. Но процент биграмм и триграмм одинаково встречающихся в русском и якутском языке все равно составляет около 20%. Например, имеется слова заимствованные из тюркского языка («балык»), с одинаковым графическим представлением, но разным смыслом («баран» – рус., «иссякать» или частица речи в якутском языке), а также слова с совпадениями в большой части слова («оборона» – «оборон»). Якутский язык включается в себя большое количество заимствований из русского языка, новые понятия и существительные, что увеличивает процент совпадения с русским языком. Заимствованные слова в тексте якутском языке приобретают суффиксы якутского языка («мелиорацияны» – мелиорацию).

Учет частоты употребления биграмм и триграмм, а также ввод весовых коэффициентов позволяет учесть биграммы и триграммы якутского языка. Корреляция частоты употребления символов якутского и русского языка достигает 60%, что указывает на большое количество совпадений в частотной области [8].

Выбор базы данных триграмм обеспечивает достаточную точность определения языка текстового сообщения при разной длине текста и в случае наличия орфографических ошибок, в среднем до 60%. Учет грамматических особенностей якутского языка увеличивает точность идентификации языка текстового в среднем до 80%.

Вопрос о размере машинного корпуса на примере якутского языка

Леонтьев Ньургун Анатольевич — Mon, 30 Nov 2015 09:59:54 +0000

Машинный корпус естественных языков имеет развитие с 1963 года. Начало машинных корпусов положил корпус английского языка размером в миллион слово, корпус содержал 500 фрагментов текстов размерами по 2 тысячи слов. В 1970-х года началось развитие корпусов русского языка, c 90-х годах идет развитие национальных и других видов корпусов в России.

За прошедшее время количество естественных языков имеющих представление в виде машинного корпуса увеличилось до сотен. Размеры корпусов к 2015 году достигли несколько сотен миллионов слов, например национальный корпус русского языка имеет размер в 364 млн. словоупотреблений (Данные с сайта http://www.ruscorpora.ru/). Национальные корпуса языков народов России имеют различные размеры, например письменный корпус татарского языка, имеет объем более 116 млн. словоупотреблений и 1,5 словоформ (сайт http://corpus.tatfolk.ru/). Развиваются машинные корпуса также башкирского и тувинского языка [1,2].

Какой объем корпуса в словоупотреблениях необходим для языка? Русский язык отличается от английского видами словообразования через суффиксы и префиксы, что должно увеличить размер корпуса. Якутский язык относиться к языкам агглютинативным языкам, в которых слова образуются за счет суффиксов. Для агглютинативных языков объем нужен несколько больше размером, чем для языков флективного типа. В зависимости от типа языка и видов словообразования необходимо увеличить объем машинного корпуса. Для оценки необходимого размера машинного корпуса был использован газетный корпус якутского языка размером в 12 млн. 583 тыс. словоупотреблений [3,4].

Для подсчета словоупотреблений и словоформ автором был создан программный скрипт на языке PHP и с использованием базы данных MySQL. Подсчет словоформ велся с шагом тысячу словоупотреблений. На рисунке 1 показан график роста словоформ от числа словоупотреблений, где четко виден рост нелинейный рост словоформ до 7 млн. словоупотреблений и линейная зависимость после данного рубежа.

Рисунок 1. Зависимость числа словоформ от словоупотреблений.

На рисунке 2 показан рост зависимость разницы числа словоформ от словоупотреблений, шаг измерений взят 10 тыс.словоупотреблений. Всплеск графика на 5 млн. объясняется изменением источника текста. После отсчета в 7 млн. рост словоформ в среднем составляет примерно 200 словоформ на 10 тыс.словоупотреблений, то есть примерно 2%.


Рисунок 2. Рост зависимости разницы числа словоформ от словоупотреблений.

Заключение

По результатам исследования можно сказать что основной объем машинного корпуса заключен в объеме до 7 млн. словоупотреблений. Дальнейший рост объема словоформ будет более-менее линейным и составляет примерно 2% от количества словоупотреблений. Для прогнозирования для более крупного машинного корпуса размером от десятков и сотен миллионов словоупотреблений необходимо произвести сбор материала.

Жанровая сбалансированность корпуса также влияет на количество словоформ, поэтому необходим более широкий обхват жанров и балансировка корпуса.

Определение порога вероятности триграмм в программном определителе языка

Леонтьев Ньургун Анатольевич — Sat, 30 Apr 2016 16:41:07 +0000

Компьютерная корпусная лингвистика развивает компьютерные методы анализа и обработки языков, развитие получило в середине двадцатого века, с развитие вычислительной техники и программного обеспечения. Наибольшое развитие получили английский язык и европейские языки, в нашей стране развиваются русский язык и в том числе, языки народов Российской Федерации, таких как башкирский [1], дагестанские языки [2], татарский и другие.

Якутский язык относится к языкам агглютинативного типа, то есть к языкам, словообразование которых происходить присоединением аффиксов, к таким языкам относятся все тюркские языки. Для развития методов компьютерной обработки якутского языка был создан газетный корпус, объем которого составляет более 12 млн. словоупотреблений, количество словоформ более 350 тыс. [3-4].

Для определения языка текста были применены методы словаря [5], метод биграмм [6], с помощью словаря газетного корпуса, триграмм [8]. Словарный метод обладает низким качеством определения языка, так как существует большая зависимость от словаря, метод биграмм является более точным, чем словарный метод, но при определении языков принадлежащих к одной группе показывает большую вероятность неверного определения. Метод триграмм обладает более высокой вероятностью точного определения языка, но есть необходимость в выборе и составлении словаря триграмм [9].

Обычно в ранних работах применялся порог в 50%, но с увеличением базы данных триграмм встал вопрос об определении порога триграмм, так как это влияет на точность определения языка.

Введем понятия вероятность определения слова, которая зависит от того, сколько триграмм в слове относятся к якутскому языку. Если слово относится к словарю, из которого были собраны триграммы, то слово имеет 100% триграмм с происхождением из якутского языка.

Для исследования были выбраны тексты на русском и якутском языке, в равном количестве, то 100 текстов с обоих языков. Каждый текст был обработан определителем языка, был выведен процент вероятности определения слова как якутского, подсчитано количество слов соответствующий вероятности определения слов. По полученным результатам, выведены графики на рисунке 1.

Рис.1 Зависимость порога определения от вероятности определения слова

На рисунке 1 показана зависимость определения языка текста от вероятности определения слов (♦ – якутский язык, ■ – русский язык).

Если возьмем порог 25%, то вероятность определения текста как якутского составить 97% в случае текста на якутском языке и 70% в случае текста на русском языке. Если порог будет 50%, то вероятности будут соответственно 90% и 40%, в случае порога 75%, вероятности составят около 85% и 25%. В случае порога 100%, вероятности составят 79% и 14%.

Максимальная разница между двумя вероятности равняется 66% и лежит в промежутке между 80% и 85%. Оптимальным является порог значений 80%.

В тексте на якутском языке встречаются заимствованные слова, написанные по правилам русского языка, данные слова снижают вероятность определения якутского языка.

Заключение

Для программного определителя якутского языка с помощью триграмм оптимальным порогом является значение 80%. Имеется зависимость от размера базы триграмм, но при достаточно большом размере данная зависимость становится незначительной и зависит уже от фонетизации заимствованных слов.