Вопрос выбора словаря триграмм для автоматической идентификации якутского языка

Леонтьев Ньургун Анатольевич — Tue, 02 Dec 2014 14:20:03 +0000

Идентификация языка текстового сообщения является ключевым элементов для автоматической обработки текста в мультиязычной среде, такой как сеть Интернет. Во многих странах ведутся исследования по повышении точности определения языка текстового документа [1,2] и коротких сообщений [3]. Распространенные языки мира исследованы и имеют средства для программной идентификации. Языки народов России не очень широко представлены в сети Интернет и часто не имеют средств для автоматической обработки.

Для идентификации якутского языка автором были разработаны и исследованы словарный метод определения языка [4], метод, использующий газетный корпус [5,6], метод биграмм [7].

Определения языка сообщений с помощью нахождения национальных букв не имеет большой перспективы, так как текст может состоять только из букв русского алфавита, также может быть написан с помощью транслитерации, а также может быть документом на другом языке использующий такие же буквы (староабхазкий, алтайский, марийский, башкирский и другие тюркские языки), согласно стандарта Unicode 6.3.

Разброс точности определения языка с помощью метода биграмм составляет большую величину, так как в якутском языке могут быть использованы сами слова из русского языка и иностранных языков, а также их фонетизированные варианты. Например, слова из слова«бизнес» – «бизинес», «бизнестыыр», «бизнеска», «биисинэс», «биизинес», «биисиньэс» или же слово «ватсап» – «ватсаптаа», «ватсаабы». Так как нововведенные слова не обладают устойчивым фонетизированным вариантом написания, они могут быть написаны разными способами, что усложняет их идентификацию. Такие варианты слов приводят к большому количеству совпадений биграмм для идентификации языка, что снижает точность идентификации.

Словарный метод обладает небольшим процентом совпадений, что не позволяет повысить точность идентификации языка без алгоритма создания из словарных слов словоформ используемых в письменности и речи.

Метод, использующий базу данных словаря газетного корпуса, обладает большим процентом совпадений словоформ, но только в случае достаточно больших текстов и в случае грамматические правильно написанных слов. При определении языка текста из Интернет-форумов метод дает большой процент ошибок.

Метод идентификации языка с помощью триграмм позволяет распознавать язык сообщения и при случае текстового сообщения с большим количеством орфографических ошибок. Такие тексты часто встречаются в сообщениях из Интернет-форумов, так как очень часто пользователи форумов набирают тексты на якутском языке с помощью транслита.

Для создания базы данных триграмм была использована база словаря газетного корпуса якутского языка объемом более 100 тыс. словоформ.

База данных триграмм была очищена от триграмм использующих буквы «в», «ж», «я», «ц», «ш», «щ», «з», «ъ», «ф», «ю». Данные буквы не являются типичными для якутского языка и обычно такие буквы используются в словах из русского и иностранных языков. Так необходимо учесть особенности языка, то есть отсутствие звуков состоящих из трех подряд согласных звуков («кст» и т.д.), подряд идущих гласных, кроме длинных гласных («аа», «уу», «ии», «оо», «ээ», «ыы», «үү», «өө») и дифтонгов («ыа», «үө», «иэ», «уо»), а также диграфов («дь» и «нь»), использующих мягкий знак.

Очистка базы триграмм уменьшает процент идентификации текста в случае текст русском языке до 25%, а текста на якутском языке до 80%.

Задача увеличения уникальных биграмм и триграмм может быть также решена с использованием словаря содержащих слова только с фонетизированными вариантами слов. Но процент биграмм и триграмм одинаково встречающихся в русском и якутском языке все равно составляет около 20%. Например, имеется слова заимствованные из тюркского языка («балык»), с одинаковым графическим представлением, но разным смыслом («баран» – рус., «иссякать» или частица речи в якутском языке), а также слова с совпадениями в большой части слова («оборона» – «оборон»). Якутский язык включается в себя большое количество заимствований из русского языка, новые понятия и существительные, что увеличивает процент совпадения с русским языком. Заимствованные слова в тексте якутском языке приобретают суффиксы якутского языка («мелиорацияны» – мелиорацию).

Учет частоты употребления биграмм и триграмм, а также ввод весовых коэффициентов позволяет учесть биграммы и триграммы якутского языка. Корреляция частоты употребления символов якутского и русского языка достигает 60%, что указывает на большое количество совпадений в частотной области [8].

Выбор базы данных триграмм обеспечивает достаточную точность определения языка текстового сообщения при разной длине текста и в случае наличия орфографических ошибок, в среднем до 60%. Учет грамматических особенностей якутского языка увеличивает точность идентификации языка текстового в среднем до 80%.

Электронный научно-практический журнал «Современные научные исследования и инновации» » словарный метод

Вопрос выбора словаря триграмм для автоматической идентификации якутского языка