Машинный корпус естественных языков имеет развитие с 1963 года. Начало машинных корпусов положил корпус английского языка размером в миллион слово, корпус содержал 500 фрагментов текстов размерами по 2 тысячи слов. В 1970-х года началось развитие корпусов русского языка, c 90-х годах идет развитие национальных и других видов корпусов в России.
За прошедшее время количество естественных языков имеющих представление в виде машинного корпуса увеличилось до сотен. Размеры корпусов к 2015 году достигли несколько сотен миллионов слов, например национальный корпус русского языка имеет размер в 364 млн. словоупотреблений (Данные с сайта http://www.ruscorpora.ru/). Национальные корпуса языков народов России имеют различные размеры, например письменный корпус татарского языка, имеет объем более 116 млн. словоупотреблений и 1,5 словоформ (сайт http://corpus.tatfolk.ru/). Развиваются машинные корпуса также башкирского и тувинского языка [1,2].
Какой объем корпуса в словоупотреблениях необходим для языка? Русский язык отличается от английского видами словообразования через суффиксы и префиксы, что должно увеличить размер корпуса. Якутский язык относиться к языкам агглютинативным языкам, в которых слова образуются за счет суффиксов. Для агглютинативных языков объем нужен несколько больше размером, чем для языков флективного типа. В зависимости от типа языка и видов словообразования необходимо увеличить объем машинного корпуса. Для оценки необходимого размера машинного корпуса был использован газетный корпус якутского языка размером в 12 млн. 583 тыс. словоупотреблений [3,4].
Для подсчета словоупотреблений и словоформ автором был создан программный скрипт на языке PHP и с использованием базы данных MySQL. Подсчет словоформ велся с шагом тысячу словоупотреблений. На рисунке 1 показан график роста словоформ от числа словоупотреблений, где четко виден рост нелинейный рост словоформ до 7 млн. словоупотреблений и линейная зависимость после данного рубежа.
Рисунок 1. Зависимость числа словоформ от словоупотреблений.
На рисунке 2 показан рост зависимость разницы числа словоформ от словоупотреблений, шаг измерений взят 10 тыс.словоупотреблений. Всплеск графика на 5 млн. объясняется изменением источника текста. После отсчета в 7 млн. рост словоформ в среднем составляет примерно 200 словоформ на 10 тыс.словоупотреблений, то есть примерно 2%.
Заключение
По результатам исследования можно сказать что основной объем машинного корпуса заключен в объеме до 7 млн. словоупотреблений. Дальнейший рост объема словоформ будет более-менее линейным и составляет примерно 2% от количества словоупотреблений. Для прогнозирования для более крупного машинного корпуса размером от десятков и сотен миллионов словоупотреблений необходимо произвести сбор материала.
Жанровая сбалансированность корпуса также влияет на количество словоформ, поэтому необходим более широкий обхват жанров и балансировка корпуса.
Библиографический список
- Салчак А.Я., Байыроол А.В. Электронный корпус тувинского языка: состояние, проблемы // Мир науки, культуры, образования. 2013. – № 6. – С. 408-409.
- Сиразитдинов З.А., Бускунбаева Л.А., Ишмухаметова А.Ш., Ибрагимова А.Д. Информационные системы и базы данных башкирского языка // Уфа, – 2013.
- Леонтьев Н.А. Национальный корпус интернет-сайтов газет на якутском языке // Журнал научных и прикладных исследований. – 2014. – Т. 4. – С. 53-54.
- Leontiev N.A. The newspaper corpus of the yakut language // Proceeding of the International Conference “Turkic Languages Prosessing: TurkLang-2015”– 2015 – p.233-235