Языковые корпуса на других языках существуют давно, со времен развития вычислительной техники и лингвистики. Одним из используемых является Национальный корпус русского языка, который является сбалансированным. Он содержит тексты из разных источников, таких как литературные, газетные, поэтические и т.д.
Газетный корпус якутского корпуса [1,2] разрабатывается для создания автоматических систем коррекции языка, автоматической разметки текста и развития прочих вычислительных технологий в отношении якутского языка, на материалах газет на якутском языке.
Таблицы частот употребления букв раньше использовали в системах дешифровки сообщений, так шифры замены не могли скрывать частоты употребления букв. В данное время частотные таблицы можно использовать для автоматического исправления некорректного распознанного символа в системах сканирования документов, в системах распознавания речи, а также в других интеллектуальных системах [3].
В ходе анализа газетного корпуса на якутском языке было проанализировано более трех тысяч текстов с общим количеством букв равным 7298065. Содержание текстов это в основном новостная хроника.
Для анализа текстов был составлен скрипт на язык php, с использованием библиотеки Multibyte Strings Function. Данные корпуса хранятся в базе данных MySQL с кодировкой UTF-8. Скрипт, написанный автором, получил на выходе статистический массив с указанием, сколько раз буква встречается в корпусе.
В таблице 1 приведены буквы якутского алфавита, с выделением национальных букв и указанием количество буквы в корпусе, а также с вычисленной частотой в процентах.
Таблица 1. Частотная таблица символов якутского языка.
Буква |
Количество |
Частота, % |
а |
955045 |
13,09 |
т |
540274 |
7,40 |
н |
521022 |
7,14 |
р |
508160 |
6,96 |
э |
499112 |
6,84 |
и |
473880 |
6,49 |
ы |
420468 |
5,76 |
л |
384091 |
5,26 |
у |
356213 |
4,88 |
о |
353088 |
4,84 |
с |
285290 |
3,91 |
б |
259584 |
3,56 |
к |
240207 |
3,29 |
х |
177011 |
2,43 |
д |
165190 |
2,26 |
ү |
157683 |
2,16 |
г |
115679 |
1,59 |
м |
115419 |
1,58 |
й |
114828 |
1,57 |
ө |
109188 |
1,50 |
һ |
105586 |
1,45 |
п |
80167 |
1,10 |
ҕ |
68323 |
0,94 |
е |
59599 |
0,82 |
ь |
59582 |
0,82 |
ч |
52993 |
0,73 |
ҥ |
43078 |
0,59 |
в |
29412 |
0,40 |
я |
14230 |
0,19 |
ц |
8329 |
0,11 |
ф |
7927 |
0,11 |
з |
7841 |
0,11 |
ж |
2777 |
0,04 |
ш |
2449 |
0,03 |
ю |
2214 |
0,03 |
щ |
1290 |
0,02 |
ъ |
752 |
0,01 |
ё |
84 |
0,001 |
Якутский язык в своем происхождении не имеет букв «е», «в», «я», «ц», «ф», «з», «ж», «ш», «ю», «щ», «ъ» и «ё», эти буквы были заимствованы из русского языка. По таблице 1 четко видно, что частота употребления большинства этих букв (кроме «е») меньше 0,4%, и эти буквы встречаются в тексте на якутском языке в названиях различных объектов, компаний, имен собственных и других словах имеющих иностранное происхождение.
Для сравнения частот употребления букв якутского языка с другим тюркским языком, был выбран татарский язык [4]. Из алфавита татарского языка была сделана выборка букв совпадающих с русским языком.
В таблице 2 идет сравнение частоты употребления букв якутского, татарского и русского алфавитов. Данные о частоте букв русского языка получены из работы [5].В национальном корпусе русского языка анализ сделан по 505266851 буквам.
Таблица 2. Сравнение частот употребления букв якутского, татарского и русского языка
Буква |
Якутский язык, % |
Татарский язык, % |
Русский язык, % |
а |
13,08 |
11 |
7,99 |
б |
3,55 |
3,3 |
1,59 |
в |
0,40 |
0,4 |
4,53 |
г |
1,58 |
3 |
1,68 |
ҕ |
0,93 |
- |
- |
д |
2,26 |
2,8 |
2,97 |
е |
0,81 |
7 |
8,48 |
ё |
0,001 |
0,01 |
|
ж |
0,04 |
0,1 |
0,94 |
з |
0,11 |
1,9 |
1,64 |
и |
6,49 |
4,3 |
7,36 |
й |
1,57 |
1,4 |
1,2 |
к |
3,29 |
5,6 |
3,48 |
л |
5,26 |
6,4 |
4,34 |
м |
1,58 |
2,6 |
3,2 |
н |
7,13 |
7,2 |
6,7 |
ҥ |
0,59 |
- |
- |
о |
4,84 |
1,4 |
10,98 |
ө |
1,49 |
- |
- |
п |
1,10 |
1,8 |
2,8 |
р |
6,96 |
6,6 |
4,74 |
с |
3,91 |
2,5 |
5,47 |
һ |
1,45 |
- |
- |
т |
7,40 |
4,5 |
6,31 |
у |
4,88 |
2,6 |
2,61 |
ү |
2,16 |
- |
- |
ф |
0,11 |
0,3 |
0,26 |
х |
2,43 |
0,5 |
0,96 |
ц |
0,11 |
0,1 |
0,48 |
ч |
0,73 |
1,5 |
1,45 |
ш |
0,033 |
2 |
0,71 |
щ |
0,018 |
0,1 |
0,36 |
ъ |
0,01 |
0,1 |
0,03 |
ы |
5,76 |
6,4 |
1,89 |
ь |
0,82 |
0,3 |
1,73 |
э |
6,84 |
0,2 |
0,33 |
ю |
0,03 |
0,2 |
0,63 |
я |
0,19 |
1 |
2 |
Для расчета корреляции якутского и русского языка с использованием формулы (1), была высчитана корреляционная функция, значение который оказалось равной 0,60. Данное число показывает насколько могут совпадать частоты употребления букв в текстах на якутском и русском языке.
В результате работы получена частотная таблица употребления букв якутского языка в национальном газетном корпусе. Это таблица будет полезна для систем статистической обработки текста на якутском языке, для систем автоматической коррекции текста. Произведено сравнение частот употребления букв в якутском, татарском и русских языках.
Библиографический список
- Леонтьев Н.А. Национальный корпус якутского языка – технический подход. Труды конференции TEL-2014, Казань, стр.122-124
- Леонтьев Н.А. Национальный корпус Интернет-сайтов газет на якутском языке. Журнал научных и прикладных исследований. Инфинити. 2014/4, стр.35-36
- Леонтьев Н.А. Автоматическое исправление ошибок в якутском языке с помощью гармонии гласных Перспективы развития информационных технологий. Сборник материалов XVII Международной научно-практической конференции, Новосибирск, 2014 г. стр.25-27
- Салимов Х.Х., Салимова Д.А. Сопоставительная фонетика татарского и русского языков (в таблицах, схемах, упражнениях), 2007. Елабуга, 80с .
- О.Н. Ляшевская, С.А. Шаров, Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009. Новый частотный словарь русской лексики. http://dict.ruslang.ru/freq.php?act=show&dic=freq_letters (Дата обращения: 16.06.2014)