Определение порога вероятности триграмм в программном определителе языка

Леонтьев Ньургун Анатольевич — Sat, 30 Apr 2016 16:41:07 +0000

Компьютерная корпусная лингвистика развивает компьютерные методы анализа и обработки языков, развитие получило в середине двадцатого века, с развитие вычислительной техники и программного обеспечения. Наибольшое развитие получили английский язык и европейские языки, в нашей стране развиваются русский язык и в том числе, языки народов Российской Федерации, таких как башкирский [1], дагестанские языки [2], татарский и другие.

Якутский язык относится к языкам агглютинативного типа, то есть к языкам, словообразование которых происходить присоединением аффиксов, к таким языкам относятся все тюркские языки. Для развития методов компьютерной обработки якутского языка был создан газетный корпус, объем которого составляет более 12 млн. словоупотреблений, количество словоформ более 350 тыс. [3-4].

Для определения языка текста были применены методы словаря [5], метод биграмм [6], с помощью словаря газетного корпуса, триграмм [8]. Словарный метод обладает низким качеством определения языка, так как существует большая зависимость от словаря, метод биграмм является более точным, чем словарный метод, но при определении языков принадлежащих к одной группе показывает большую вероятность неверного определения. Метод триграмм обладает более высокой вероятностью точного определения языка, но есть необходимость в выборе и составлении словаря триграмм [9].

Обычно в ранних работах применялся порог в 50%, но с увеличением базы данных триграмм встал вопрос об определении порога триграмм, так как это влияет на точность определения языка.

Введем понятия вероятность определения слова, которая зависит от того, сколько триграмм в слове относятся к якутскому языку. Если слово относится к словарю, из которого были собраны триграммы, то слово имеет 100% триграмм с происхождением из якутского языка.

Для исследования были выбраны тексты на русском и якутском языке, в равном количестве, то 100 текстов с обоих языков. Каждый текст был обработан определителем языка, был выведен процент вероятности определения слова как якутского, подсчитано количество слов соответствующий вероятности определения слов. По полученным результатам, выведены графики на рисунке 1.

Рис.1 Зависимость порога определения от вероятности определения слова

На рисунке 1 показана зависимость определения языка текста от вероятности определения слов (♦ – якутский язык, ■ – русский язык).

Если возьмем порог 25%, то вероятность определения текста как якутского составить 97% в случае текста на якутском языке и 70% в случае текста на русском языке. Если порог будет 50%, то вероятности будут соответственно 90% и 40%, в случае порога 75%, вероятности составят около 85% и 25%. В случае порога 100%, вероятности составят 79% и 14%.

Максимальная разница между двумя вероятности равняется 66% и лежит в промежутке между 80% и 85%. Оптимальным является порог значений 80%.

В тексте на якутском языке встречаются заимствованные слова, написанные по правилам русского языка, данные слова снижают вероятность определения якутского языка.

Заключение

Для программного определителя якутского языка с помощью триграмм оптимальным порогом является значение 80%. Имеется зависимость от размера базы триграмм, но при достаточно большом размере данная зависимость становится незначительной и зависит уже от фонетизации заимствованных слов.

Электронный научно-практический журнал «Современные научные исследования и инновации» » триграммы

Определение порога вероятности триграмм в программном определителе языка