Электронный научно-практический журнал «Современные научные исследования и инновации» » определитель языка

Вопрос выбора словаря триграмм для автоматической идентификации якутского языка

Леонтьев Ньургун Анатольевич — Tue, 02 Dec 2014 14:20:03 +0000

Идентификация языка текстового сообщения является ключевым элементов для автоматической обработки текста в мультиязычной среде, такой как сеть Интернет. Во многих странах ведутся исследования по повышении точности определения языка текстового документа [1,2] и коротких сообщений [3]. Распространенные языки мира исследованы и имеют средства для программной идентификации. Языки народов России не очень широко представлены в сети Интернет и часто не имеют средств для автоматической обработки.

Для идентификации якутского языка автором были разработаны и исследованы словарный метод определения языка [4], метод, использующий газетный корпус [5,6], метод биграмм [7].

Определения языка сообщений с помощью нахождения национальных букв не имеет большой перспективы, так как текст может состоять только из букв русского алфавита, также может быть написан с помощью транслитерации, а также может быть документом на другом языке использующий такие же буквы (староабхазкий, алтайский, марийский, башкирский и другие тюркские языки), согласно стандарта Unicode 6.3.

Разброс точности определения языка с помощью метода биграмм составляет большую величину, так как в якутском языке могут быть использованы сами слова из русского языка и иностранных языков, а также их фонетизированные варианты. Например, слова из слова«бизнес» – «бизинес», «бизнестыыр», «бизнеска», «биисинэс», «биизинес», «биисиньэс» или же слово «ватсап» – «ватсаптаа», «ватсаабы». Так как нововведенные слова не обладают устойчивым фонетизированным вариантом написания, они могут быть написаны разными способами, что усложняет их идентификацию. Такие варианты слов приводят к большому количеству совпадений биграмм для идентификации языка, что снижает точность идентификации.

Словарный метод обладает небольшим процентом совпадений, что не позволяет повысить точность идентификации языка без алгоритма создания из словарных слов словоформ используемых в письменности и речи.

Метод, использующий базу данных словаря газетного корпуса, обладает большим процентом совпадений словоформ, но только в случае достаточно больших текстов и в случае грамматические правильно написанных слов. При определении языка текста из Интернет-форумов метод дает большой процент ошибок.

Метод идентификации языка с помощью триграмм позволяет распознавать язык сообщения и при случае текстового сообщения с большим количеством орфографических ошибок. Такие тексты часто встречаются в сообщениях из Интернет-форумов, так как очень часто пользователи форумов набирают тексты на якутском языке с помощью транслита.

Для создания базы данных триграмм была использована база словаря газетного корпуса якутского языка объемом более 100 тыс. словоформ.

База данных триграмм была очищена от триграмм использующих буквы «в», «ж», «я», «ц», «ш», «щ», «з», «ъ», «ф», «ю». Данные буквы не являются типичными для якутского языка и обычно такие буквы используются в словах из русского и иностранных языков. Так необходимо учесть особенности языка, то есть отсутствие звуков состоящих из трех подряд согласных звуков («кст» и т.д.), подряд идущих гласных, кроме длинных гласных («аа», «уу», «ии», «оо», «ээ», «ыы», «үү», «өө») и дифтонгов («ыа», «үө», «иэ», «уо»), а также диграфов («дь» и «нь»), использующих мягкий знак.

Очистка базы триграмм уменьшает процент идентификации текста в случае текст русском языке до 25%, а текста на якутском языке до 80%.

Задача увеличения уникальных биграмм и триграмм может быть также решена с использованием словаря содержащих слова только с фонетизированными вариантами слов. Но процент биграмм и триграмм одинаково встречающихся в русском и якутском языке все равно составляет около 20%. Например, имеется слова заимствованные из тюркского языка («балык»), с одинаковым графическим представлением, но разным смыслом («баран» – рус., «иссякать» или частица речи в якутском языке), а также слова с совпадениями в большой части слова («оборона» – «оборон»). Якутский язык включается в себя большое количество заимствований из русского языка, новые понятия и существительные, что увеличивает процент совпадения с русским языком. Заимствованные слова в тексте якутском языке приобретают суффиксы якутского языка («мелиорацияны» – мелиорацию).

Учет частоты употребления биграмм и триграмм, а также ввод весовых коэффициентов позволяет учесть биграммы и триграммы якутского языка. Корреляция частоты употребления символов якутского и русского языка достигает 60%, что указывает на большое количество совпадений в частотной области [8].

Выбор базы данных триграмм обеспечивает достаточную точность определения языка текстового сообщения при разной длине текста и в случае наличия орфографических ошибок, в среднем до 60%. Учет грамматических особенностей якутского языка увеличивает точность идентификации языка текстового в среднем до 80%.

Определение порога вероятности триграмм в программном определителе языка

Леонтьев Ньургун Анатольевич — Sat, 30 Apr 2016 16:41:07 +0000

Компьютерная корпусная лингвистика развивает компьютерные методы анализа и обработки языков, развитие получило в середине двадцатого века, с развитие вычислительной техники и программного обеспечения. Наибольшое развитие получили английский язык и европейские языки, в нашей стране развиваются русский язык и в том числе, языки народов Российской Федерации, таких как башкирский [1], дагестанские языки [2], татарский и другие.

Якутский язык относится к языкам агглютинативного типа, то есть к языкам, словообразование которых происходить присоединением аффиксов, к таким языкам относятся все тюркские языки. Для развития методов компьютерной обработки якутского языка был создан газетный корпус, объем которого составляет более 12 млн. словоупотреблений, количество словоформ более 350 тыс. [3-4].

Для определения языка текста были применены методы словаря [5], метод биграмм [6], с помощью словаря газетного корпуса, триграмм [8]. Словарный метод обладает низким качеством определения языка, так как существует большая зависимость от словаря, метод биграмм является более точным, чем словарный метод, но при определении языков принадлежащих к одной группе показывает большую вероятность неверного определения. Метод триграмм обладает более высокой вероятностью точного определения языка, но есть необходимость в выборе и составлении словаря триграмм [9].

Обычно в ранних работах применялся порог в 50%, но с увеличением базы данных триграмм встал вопрос об определении порога триграмм, так как это влияет на точность определения языка.

Введем понятия вероятность определения слова, которая зависит от того, сколько триграмм в слове относятся к якутскому языку. Если слово относится к словарю, из которого были собраны триграммы, то слово имеет 100% триграмм с происхождением из якутского языка.

Для исследования были выбраны тексты на русском и якутском языке, в равном количестве, то 100 текстов с обоих языков. Каждый текст был обработан определителем языка, был выведен процент вероятности определения слова как якутского, подсчитано количество слов соответствующий вероятности определения слов. По полученным результатам, выведены графики на рисунке 1.

Рис.1 Зависимость порога определения от вероятности определения слова

На рисунке 1 показана зависимость определения языка текста от вероятности определения слов (♦ – якутский язык, ■ – русский язык).

Если возьмем порог 25%, то вероятность определения текста как якутского составить 97% в случае текста на якутском языке и 70% в случае текста на русском языке. Если порог будет 50%, то вероятности будут соответственно 90% и 40%, в случае порога 75%, вероятности составят около 85% и 25%. В случае порога 100%, вероятности составят 79% и 14%.

Максимальная разница между двумя вероятности равняется 66% и лежит в промежутке между 80% и 85%. Оптимальным является порог значений 80%.

В тексте на якутском языке встречаются заимствованные слова, написанные по правилам русского языка, данные слова снижают вероятность определения якутского языка.

Заключение

Для программного определителя якутского языка с помощью триграмм оптимальным порогом является значение 80%. Имеется зависимость от размера базы триграмм, но при достаточно большом размере данная зависимость становится незначительной и зависит уже от фонетизации заимствованных слов.