ЧАСТОТЫ УПОТРЕБЛЕНИЯ БУКВ ЯКУТСКОГО ЯЗЫКА В ГАЗЕТНОМ КОРПУСЕ

Леонтьев Ньургун Анатольевич
Северо-Восточный федеральный университет им.М.К.Аммосова
к.т.н., доцент кафедры радиотехники и информационных технологий

Аннотация
В данной работе рассматривает статистические результаты анализа газетного корпуса на якутском языке. Вычислены частоты употребления букв в текстах на якутском языке, произведено сравнение с татарским и русским языком. Рассчитана корреляционная функция частот употребления букв в текстах на якутском и русском языке.

Ключевые слова: корреляция., Национальный языковой корпус, русский язык, татарский язык, частоты употребления букв, якутский язык


FREQUENCY OF USE OF LETTERS IN THE YAKUT LANGUAGE NEWSPAPER CORPUS

Leontiev Nyurgun Anatolievich
M.K.Ammosov North-Eastern Federal University
PhD, Associate Professor

Abstract
In this paper describe the statistical analysis of the results of the newspaper corpus in the Yakut language. Calculated the frequencies of the letters in the Yakut language texts, made a comparison with the Tatar and Russian languages. Calculated the correlation function of letter frequencies in the texts in the Yakut and Russian.

Рубрика: 05.00.00 ТЕХНИЧЕСКИЕ НАУКИ

Библиографическая ссылка на статью:
Леонтьев Н.А. Частоты употребления букв якутского языка в газетном корпусе // Современные научные исследования и инновации. 2014. № 7 [Электронный ресурс]. URL: https://web.snauka.ru/issues/2014/07/36069 (дата обращения: 15.03.2024).

Языковые корпуса на других языках существуют давно, со времен развития вычислительной техники и лингвистики. Одним из используемых является Национальный корпус русского языка, который является сбалансированным. Он содержит тексты из разных источников, таких как литературные, газетные, поэтические и т.д.

Газетный корпус якутского корпуса [1,2] разрабатывается для создания автоматических систем коррекции языка, автоматической разметки текста и развития прочих вычислительных технологий в отношении якутского языка, на материалах газет на якутском языке.

Таблицы частот употребления букв раньше использовали в системах дешифровки сообщений, так шифры замены не могли скрывать частоты употребления букв. В данное время частотные таблицы можно использовать для автоматического исправления некорректного распознанного символа в системах сканирования документов, в системах распознавания речи, а также в других интеллектуальных системах [3].

В ходе анализа газетного корпуса на якутском языке было проанализировано более трех тысяч текстов с общим количеством букв равным 7298065. Содержание текстов это в основном новостная хроника.

Для анализа текстов был составлен скрипт на язык php, с использованием библиотеки Multibyte Strings Function. Данные корпуса хранятся в базе данных MySQL с кодировкой UTF-8. Скрипт, написанный автором, получил на выходе статистический массив с указанием, сколько раз буква встречается в корпусе.

В таблице 1 приведены буквы якутского алфавита, с выделением национальных букв и указанием количество буквы в корпусе, а также с вычисленной частотой в процентах.

Таблица 1. Частотная таблица символов якутского языка.

Буква

Количество

Частота, %

а

955045

13,09

т

540274

7,40

н

521022

7,14

р

508160

6,96

э

499112

6,84

и

473880

6,49

ы

420468

5,76

л

384091

5,26

у

356213

4,88

о

353088

4,84

с

285290

3,91

б

259584

3,56

к

240207

3,29

х

177011

2,43

д

165190

2,26

ү

157683

2,16

г

115679

1,59

м

115419

1,58

й

114828

1,57

ө

109188

1,50

һ

105586

1,45

п

80167

1,10

ҕ

68323

0,94

е

59599

0,82

ь

59582

0,82

ч

52993

0,73

ҥ

43078

0,59

в

29412

0,40

я

14230

0,19

ц

8329

0,11

ф

7927

0,11

з

7841

0,11

ж

2777

0,04

ш

2449

0,03

ю

2214

0,03

щ

1290

0,02

ъ

752

0,01

ё

84

0,001

Якутский язык в своем происхождении не имеет букв «е», «в», «я», «ц», «ф», «з», «ж», «ш», «ю», «щ», «ъ» и «ё», эти буквы были заимствованы из русского языка. По таблице 1 четко видно, что частота употребления большинства этих букв (кроме «е») меньше 0,4%, и эти буквы встречаются в тексте на якутском языке в названиях различных объектов, компаний, имен собственных и других словах имеющих иностранное происхождение.

Для сравнения частот употребления букв якутского языка с другим тюркским языком, был выбран татарский язык [4]. Из алфавита татарского языка была сделана выборка букв совпадающих с русским языком.

В таблице 2 идет сравнение частоты употребления букв якутского, татарского и русского алфавитов. Данные о частоте букв русского языка получены из работы [5].В национальном корпусе русского языка анализ сделан по 505266851 буквам.

Таблица 2. Сравнение частот употребления букв якутского, татарского и русского языка

Буква

Якутский язык, %

Татарский язык, %

Русский язык, %

а

13,08

11

7,99

б

3,55

3,3

1,59

в

0,40

0,4

4,53

г

1,58

3

1,68

ҕ

0,93

-

-

д

2,26

2,8

2,97

е

0,81

7

8,48

ё

0,001

0,01

ж

0,04

0,1

0,94

з

0,11

1,9

1,64

и

6,49

4,3

7,36

й

1,57

1,4

1,2

к

3,29

5,6

3,48

л

5,26

6,4

4,34

м

1,58

2,6

3,2

н

7,13

7,2

6,7

ҥ

0,59

-

-

о

4,84

1,4

10,98

ө

1,49

-

-

п

1,10

1,8

2,8

р

6,96

6,6

4,74

с

3,91

2,5

5,47

һ

1,45

-

-

т

7,40

4,5

6,31

у

4,88

2,6

2,61

ү

2,16

-

-

ф

0,11

0,3

0,26

х

2,43

0,5

0,96

ц

0,11

0,1

0,48

ч

0,73

1,5

1,45

ш

0,033

2

0,71

щ

0,018

0,1

0,36

ъ

0,01

0,1

0,03

ы

5,76

6,4

1,89

ь

0,82

0,3

1,73

э

6,84

0,2

0,33

ю

0,03

0,2

0,63

я

0,19

1

2

Для расчета корреляции якутского и русского языка с использованием формулы (1), была высчитана корреляционная функция, значение который оказалось равной 0,60. Данное число показывает насколько могут совпадать частоты употребления букв в текстах на якутском и русском языке.

                                                       (1)

В результате работы получена частотная таблица употребления букв якутского языка в национальном газетном корпусе. Это таблица будет полезна для систем статистической обработки текста на якутском языке, для систем автоматической коррекции текста. Произведено сравнение частот употребления букв в якутском, татарском и русских языках.


Библиографический список
  1. Леонтьев Н.А. Национальный корпус якутского языка – технический подход. Труды конференции TEL-2014, Казань, стр.122-124
  2. Леонтьев Н.А. Национальный корпус Интернет-сайтов газет на якутском языке. Журнал научных и прикладных исследований. Инфинити. 2014/4, стр.35-36
  3. Леонтьев Н.А. Автоматическое исправление ошибок в якутском языке с помощью гармонии гласных Перспективы развития информационных технологий. Сборник материалов XVII Международной научно-практической конференции, Новосибирск, 2014 г. стр.25-27
  4. Салимов Х.Х., Салимова Д.А. Сопоставительная фонетика татарского и русского языков (в таблицах, схемах, упражнениях), 2007. Елабуга, 80с .
  5. О.Н. Ляшевская, С.А. Шаров, Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009. Новый частотный словарь русской лексики. http://dict.ruslang.ru/freq.php?act=show&dic=freq_letters (Дата обращения: 16.06.2014)


Количество просмотров публикации: Please wait

Все статьи автора «Леонтьев Ньургун Анатольевич»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться:
  • Регистрация