УДК 004.912

ВОПРОС О РАЗМЕРЕ МАШИННОГО КОРПУСА НА ПРИМЕРЕ ЯКУТСКОГО ЯЗЫКА

Леонтьев Ньургун Анатольевич
Северо-Восточный федеральный университет им.М.К.Аммосова
к.т.н., доцент кафедры радиотехники и информационных технологий

Аннотация
В данной статье рассматривается вопрос о размере машинного корпуса якутского языка. Определяются соответствие числа словоформ от объема словоупотреблений в газетном корпусе якутского языка. Приводятся графики зависимости словоформ от числа словоупотреблений.

Ключевые слова: информатика, обработка текстов, языковой машинный корпус, якутский язык


QUESTION ABOUT SIZE OF THE MACHINE CORPUS FOR THE YAKUT LANGUAGE

Leontiev Nyurgun Anatolievich
M.K.Ammosov North-Eastern Federal University
PhD, Associate Professor

Abstract
This article examines the size of the machine corpus of the Yakut language . Corresponds to the number of word worms from the words in the newspaper corpus of the Yakut language . The charts depending on the number of word forms from words is provided.

Рубрика: 05.00.00 ТЕХНИЧЕСКИЕ НАУКИ

Библиографическая ссылка на статью:
Леонтьев Н.А. Вопрос о размере машинного корпуса на примере якутского языка // Современные научные исследования и инновации. 2015. № 11 [Электронный ресурс]. URL: http://web.snauka.ru/issues/2015/11/58769 (дата обращения: 21.11.2016).

Машинный корпус естественных языков имеет развитие с 1963 года. Начало машинных корпусов положил корпус английского языка размером в миллион слово, корпус содержал 500 фрагментов текстов размерами по 2 тысячи слов. В 1970-х года началось развитие корпусов русского языка, c 90-х годах идет развитие национальных и других видов корпусов в России.

За прошедшее время количество естественных языков имеющих представление в виде машинного корпуса увеличилось до сотен. Размеры корпусов к 2015 году достигли несколько сотен миллионов слов, например национальный корпус русского языка имеет размер в 364 млн. словоупотреблений (Данные с сайта http://www.ruscorpora.ru/). Национальные корпуса языков народов России имеют различные размеры, например письменный корпус татарского языка, имеет объем более 116 млн. словоупотреблений и 1,5 словоформ (сайт http://corpus.tatfolk.ru/). Развиваются машинные корпуса также башкирского и тувинского языка [1,2].

Какой объем корпуса в словоупотреблениях необходим для языка? Русский язык отличается от английского видами словообразования через суффиксы и префиксы, что должно увеличить размер корпуса. Якутский язык относиться к языкам агглютинативным языкам, в которых слова образуются за счет суффиксов. Для агглютинативных языков объем нужен несколько больше размером, чем для языков флективного типа.  В зависимости от типа языка и видов словообразования необходимо увеличить объем машинного корпуса. Для оценки необходимого размера машинного корпуса был использован газетный корпус якутского языка размером в 12 млн. 583 тыс. словоупотреблений [3,4].

Для подсчета словоупотреблений и словоформ автором был создан программный скрипт на языке PHP и с использованием базы данных MySQL. Подсчет словоформ велся с шагом тысячу словоупотреблений. На рисунке 1 показан график роста словоформ от числа словоупотреблений, где четко виден рост нелинейный рост словоформ до 7 млн. словоупотреблений и линейная зависимость после данного рубежа.

Зависимость числа словоформ от словоупотреблений

Рисунок 1. Зависимость числа словоформ от словоупотреблений.

На рисунке 2 показан рост зависимость разницы числа словоформ от словоупотреблений, шаг измерений взят 10 тыс.словоупотреблений. Всплеск графика на 5 млн. объясняется изменением источника текста. После отсчета в 7 млн. рост словоформ в среднем составляет примерно 200 словоформ на 10 тыс.словоупотреблений, то есть примерно 2%.

Рост зависимости разницы числа словоформ от словоупотреблений
Рисунок 2. Рост зависимости разницы числа словоформ от словоупотреблений.

Заключение

По результатам исследования можно сказать что основной объем машинного корпуса заключен в объеме до 7 млн. словоупотреблений. Дальнейший рост объема словоформ будет более-менее линейным и составляет примерно 2% от количества словоупотреблений. Для прогнозирования для более крупного машинного корпуса размером от десятков и сотен миллионов словоупотреблений необходимо произвести сбор материала.

Жанровая сбалансированность корпуса также влияет на количество словоформ, поэтому необходим более широкий обхват жанров и балансировка корпуса.


Библиографический список
  1. Салчак А.Я., Байыроол А.В.  Электронный корпус тувинского языка: состояние, проблемы // Мир науки, культуры, образования. 2013. – № 6. – С. 408-409.
  2. Сиразитдинов З.А., Бускунбаева Л.А., Ишмухаметова А.Ш., Ибрагимова А.Д. Информационные системы и базы данных башкирского языка // Уфа, – 2013.
  3. Леонтьев Н.А. Национальный корпус интернет-сайтов газет на якутском языке // Журнал научных и прикладных исследований. – 2014. – Т. 4. – С. 53-54.
  4. Leontiev N.A. The newspaper corpus of the yakut language // Proceeding of the International Conference “Turkic Languages Prosessing: TurkLang-2015”– 2015 – p.233-235


Все статьи автора «Леонтьев Ньургун Анатольевич»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться:
  • Регистрация