УДК 004.91

МЕТОДЫ И АЛГОРИТМЫ ПРОВЕРКИ ОРФОГРАФИИ ТЕСТОВЫХ ДОКУМЕНТОВ

Такташкин Денис Витальевич1, Мокроусова Елена Александровна2
1Пензенский государственный университет, кандидат технических наук, доцент кафедры «МОиПЭВМ»
2Пензенский казачий институт технологий, (филиал) ФГБОУ ВО «Московский государственный университет технологий и управления имени К.Г. Разумовского, магистрант кафедры «ПиБИ»

Аннотация
В статье описаны алгоритмы проверки орфографии текстовых документов. Обосновывается актуальность использования специализированного программного обеспечения, с помощью которого проверяется орфография. Демонстрируется диаграмма вариантов использования, на которой показаны существующие методы и алгоритмы. Приводятся определения основных терминов предметной области.

Ключевые слова: , , , , , , ,


Рубрика: 05.00.00 ТЕХНИЧЕСКИЕ НАУКИ

Библиографическая ссылка на статью:
Такташкин Д.В., Мокроусова Е.А. Методы и алгоритмы проверки орфографии тестовых документов // Современные научные исследования и инновации. 2017. № 5 [Электронный ресурс]. URL: http://web.snauka.ru/issues/2017/05/72892 (дата обращения: 16.05.2017).

Читая любой документ, мы невольно обращаем внимание на стиль изложения, легкость восприятия, содержательность и краткость повествования. Однако нередко мы сталкиваемся с опечатками и ошибками в документах. Они могут испортить все положительное впечатление об авторе, а порой и нанести серьезный урон авторитету автора.

Общаясь на родном языке, мы практически всегда можем заметить, что тексте автор ошибся. Кроме того, мы обычно можем догадаться, что он имел в виду на самом деле. Гораздо сложнее дело обстоит в тех случаях, когда мы общаемся с иностранцами. Допущенная ошибка или опечатка в написании слова, может значительно исказить смысл всего сообщения, и даже интуиция не сможет помочь получателю текста, поскольку язык общения для него не родной.

Для исправления набранного текста и были созданы программы проверки орфографии, синтаксиса, грамматических правил построения предложений, расстановки переносов и т.д. Первыми и наиболее активными пользователями подобных программ стали те, кто занимается созданием и редактированием текстов [1].

Впоследствии такие программы были встроены в популярные текстовые редакторы. Например, компания «Информатик» лицензировала свою технологию проверки правописания компании Microsoft для MS Office. Благодаря этому огромное число пользователей получили возможность автоматически исправлять тексты, не теряя свое время на длительную проверку текста [2].

Существует множество алгоритмов проверки орфографии текстовых документов. На рисунке 1 изображена диаграмма вариантов использования,  которая показывает, какие существуют алгоритмы проверки.

Рисунок 1 – Диаграмма вариантов использования

Проверить орфографию можно двумя способами.

Первый способ это проверить орфографию со словарем.

Проверка со словарем делится на проверку через словарь всех слов и на проверку через словарь, который использует набор правил.

Проверка через словарь всех слов.

Словарем является файл в формате .txt, который содержит все слова русского языка, включая все склонения и спряжения слов. Слова расположены в алфавитном порядке, каждое слово находится на новой строке.

Проверка через словарь всех слов самый популярный метод обнаружения ошибок в тексте. Проверка осуществляется обычным поиском слова в словаре. Компьютер ищет слово в словаре так же как, если бы человек взял словарь в руки и искал нужное слово. Слова расположены в алфавитном порядке, поэтому компьютер может идти в нужное место в словаре и проверять слово.  Если все буквы слова будут совпадать со словом в словаре, то оно является правильным. Если же такого слова нет, то оно является ошибкой или опечаткой.

В случае если слово отсутствует в словаре, например, фамилия, название или научный термин, относящийся к какой-либо предметной области, имеется возможность − добавить данное слово в словарь. После добавления слово не будет считаться ошибкой, так как в словаре будет полное совпадение букв.

Проверка орфографии, через словарь, который использует набор правил.

Словарь, который использует набор правил – это документ в формате .txt, который  содержит все слова, кроме склонений и спряжений. С помощью правил русского языка, проверяются все слова на правильность написания.

Такой словарь надо организовать так, чтобы были указаны все правила русского языка. Главное надо учесть исключения из правил.

Метод проверки орфографии, который использует набор правил, так же называется методом сохранения пространства. Такой метод, экономя пространство хранения, удерживают в словаре только стебли слов. Например, вместо слов «сомнения», «сомневался», «сомневаясь», в словаре хранится только слово «сомневаюсь», используя правила русского языка удаляя окончания, суффиксы, приставки или добавляя их, слова будут меняться до слова находящегося в словаре.

Второй способ это проверка орфографии без помощи словаря, который включает в себя проверку на заглавную букву в начале предложения, проверка на повторы и проверка с помощью сограмм.

Проверка на заглавную букву, т.е. каждая буква после точки должна автоматически становиться заглавной.

Проверка на повторы показывает, что пользователь написал два одинаковых слова подряд. Проверяются на совпадения все буквы одного слова с буквами другого слова, если же они полностью совпадают, то это является ошибкой.

Сограммами называется фиксированное сочетание букв, которое в русском языке встречается, в разных словах на разных позициях.

Проверить орфографию с помощью сограмм можно двумя способами. Первый способ проверки через сограммы это проверять через уже существую таблицу сограмм.  Метод использует словарь косвенно. Проверка начинается с перехода в словарь или таблицу всех сограмм. Вооружившись таблицей сограмм, программа проверки орфографии делит текст на сограмм и ищет их в таблице, если попадаются сограммы, которые никогда не имели место в словаре, слово, которое содержит эту сограмму, является опечаткой. Этот способ содержит таблицу, заполненную всеми сограммами. И при анализе текста, происходит поиск сограмм в таблице, если совпадения нет, то слово является опечаткой.

И способ анализа текста на похожие сограммы. Программа делит текст на сограммы, и сама создает таблицу из всех сограмм встречающихся в тексте, отметив как часто каждая сограмма встречается в тексте. Затем программа анализирует текст еще раз и выявляет индекс особенности каждого слова, потому на сколько сограмм разделено слово и сколько раз эти сограммы встречаются в тексте. После расчета индекса, программа обращает внимание пользователя на слова с высоким индексом особенности. Такой метод более подходит для выявления опечаток в тексте.

Существуют ошибки в режиме реального слова, к таким ошибкам в большинстве случаев относятся имена собственные и неизвестные слова. Частоту этих ложных ошибок можно уменьшить, имея большой словарь или специализированный словарь именно для этого текста. Так же избежать таких ошибок можно добавлением неизвестных слов и имен собственных в словарь, с помощью дополнительной функции «Добавить слово в словарь».

Существует множество методов и алгоритмов проверки орфографии текстовых документов. Каждый из них подходит для проверки текста, но они имеют недостатки. Для более точной проверки подходит метод, в котором нужно объединить несколько алгоритмов проверки орфографии.


Библиографический список
  1. Такташкин Д.В., Масенко И.А. Модель вариантов использования программы для писателей «Сюжет» // Современные научные исследования и инновации. 2016. № 3 [Электронный ресурс]. URL:http://web.snauka.ru/issues/2016/03/64882 (дата обращения: 28.05.2016)
  2. Поваляев Е. Системы проверки орфографии [Электронный ресурс] . URL:http://compress.ru/article.aspx?id=9511 (дата обращения: 05.11.2015).


Все статьи автора «Мокроусова Елена Алексанровна»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться:
  • Регистрация