Электронный научно-практический журнал «Современные научные исследования и инновации» » орфография

Методы и алгоритмы проверки орфографии тестовых документов

Мокроусова Елена Алексанровна — Mon, 15 May 2017 14:20:21 +0000

Читая любой документ, мы невольно обращаем внимание на стиль изложения, легкость восприятия, содержательность и краткость повествования. Однако нередко мы сталкиваемся с опечатками и ошибками в документах. Они могут испортить все положительное впечатление об авторе, а порой и нанести серьезный урон авторитету автора.

Общаясь на родном языке, мы практически всегда можем заметить, что тексте автор ошибся. Кроме того, мы обычно можем догадаться, что он имел в виду на самом деле. Гораздо сложнее дело обстоит в тех случаях, когда мы общаемся с иностранцами. Допущенная ошибка или опечатка в написании слова, может значительно исказить смысл всего сообщения, и даже интуиция не сможет помочь получателю текста, поскольку язык общения для него не родной.

Для исправления набранного текста и были созданы программы проверки орфографии, синтаксиса, грамматических правил построения предложений, расстановки переносов и т.д. Первыми и наиболее активными пользователями подобных программ стали те, кто занимается созданием и редактированием текстов [1].

Впоследствии такие программы были встроены в популярные текстовые редакторы. Например, компания «Информатик» лицензировала свою технологию проверки правописания компании Microsoft для MS Office. Благодаря этому огромное число пользователей получили возможность автоматически исправлять тексты, не теряя свое время на длительную проверку текста [2].

Существует множество алгоритмов проверки орфографии текстовых документов. На рисунке 1 изображена диаграмма вариантов использования, которая показывает, какие существуют алгоритмы проверки.

Рисунок 1 – Диаграмма вариантов использования

Проверить орфографию можно двумя способами.

Первый способ это проверить орфографию со словарем.

Проверка со словарем делится на проверку через словарь всех слов и на проверку через словарь, который использует набор правил.

Проверка через словарь всех слов.

Словарем является файл в формате .txt, который содержит все слова русского языка, включая все склонения и спряжения слов. Слова расположены в алфавитном порядке, каждое слово находится на новой строке.

Проверка через словарь всех слов самый популярный метод обнаружения ошибок в тексте. Проверка осуществляется обычным поиском слова в словаре. Компьютер ищет слово в словаре так же как, если бы человек взял словарь в руки и искал нужное слово. Слова расположены в алфавитном порядке, поэтому компьютер может идти в нужное место в словаре и проверять слово. Если все буквы слова будут совпадать со словом в словаре, то оно является правильным. Если же такого слова нет, то оно является ошибкой или опечаткой.

В случае если слово отсутствует в словаре, например, фамилия, название или научный термин, относящийся к какой-либо предметной области, имеется возможность − добавить данное слово в словарь. После добавления слово не будет считаться ошибкой, так как в словаре будет полное совпадение букв.

Проверка орфографии, через словарь, который использует набор правил.

Словарь, который использует набор правил – это документ в формате .txt, который содержит все слова, кроме склонений и спряжений. С помощью правил русского языка, проверяются все слова на правильность написания.

Такой словарь надо организовать так, чтобы были указаны все правила русского языка. Главное надо учесть исключения из правил.

Метод проверки орфографии, который использует набор правил, так же называется методом сохранения пространства. Такой метод, экономя пространство хранения, удерживают в словаре только стебли слов. Например, вместо слов «сомнения», «сомневался», «сомневаясь», в словаре хранится только слово «сомневаюсь», используя правила русского языка удаляя окончания, суффиксы, приставки или добавляя их, слова будут меняться до слова находящегося в словаре.

Второй способ это проверка орфографии без помощи словаря, который включает в себя проверку на заглавную букву в начале предложения, проверка на повторы и проверка с помощью сограмм.

Проверка на заглавную букву, т.е. каждая буква после точки должна автоматически становиться заглавной.

Проверка на повторы показывает, что пользователь написал два одинаковых слова подряд. Проверяются на совпадения все буквы одного слова с буквами другого слова, если же они полностью совпадают, то это является ошибкой.

Сограммами называется фиксированное сочетание букв, которое в русском языке встречается, в разных словах на разных позициях.

Проверить орфографию с помощью сограмм можно двумя способами. Первый способ проверки через сограммы это проверять через уже существую таблицу сограмм. Метод использует словарь косвенно. Проверка начинается с перехода в словарь или таблицу всех сограмм. Вооружившись таблицей сограмм, программа проверки орфографии делит текст на сограмм и ищет их в таблице, если попадаются сограммы, которые никогда не имели место в словаре, слово, которое содержит эту сограмму, является опечаткой. Этот способ содержит таблицу, заполненную всеми сограммами. И при анализе текста, происходит поиск сограмм в таблице, если совпадения нет, то слово является опечаткой.

И способ анализа текста на похожие сограммы. Программа делит текст на сограммы, и сама создает таблицу из всех сограмм встречающихся в тексте, отметив как часто каждая сограмма встречается в тексте. Затем программа анализирует текст еще раз и выявляет индекс особенности каждого слова, потому на сколько сограмм разделено слово и сколько раз эти сограммы встречаются в тексте. После расчета индекса, программа обращает внимание пользователя на слова с высоким индексом особенности. Такой метод более подходит для выявления опечаток в тексте.

Существуют ошибки в режиме реального слова, к таким ошибкам в большинстве случаев относятся имена собственные и неизвестные слова. Частоту этих ложных ошибок можно уменьшить, имея большой словарь или специализированный словарь именно для этого текста. Так же избежать таких ошибок можно добавлением неизвестных слов и имен собственных в словарь, с помощью дополнительной функции «Добавить слово в словарь».

Существует множество методов и алгоритмов проверки орфографии текстовых документов. Каждый из них подходит для проверки текста, но они имеют недостатки. Для более точной проверки подходит метод, в котором нужно объединить несколько алгоритмов проверки орфографии.

Проверка орфографии как залог низкой погрешности при анализе текста в системах машинного обучения

Прядко Даниил Владимирович — Thu, 14 Sep 2023 09:07:49 +0000

Орфография — это единообразие передачи слов и грамматических форм речи на письме [6]. В современной России пренебрежение правилами орфографии очевидно . Такая ситуация сформировалась по причине развития информационных технологий и применение их практически при любой работе с текстовой информацией. Показательной будет статистика, которую привела компания Яндекс [7]. Согласно этой статистике, ежедневно осуществляется более 150 миллионов поисковых запросов и в каждом 10-м обнаруживается орфографическая ошибка. Специалисты объясняют этот факт тем, что при вводе поискового запроса люди спешат, совершают опечатки или вовсе полагаются на автоматическое исправление самой поисковой системой. Может показаться, что такой пример неуместен в силу того, что поисковая система не обязывает и не требовательна к орфографии в отличии от работы с документами или отчетами. Однако, поисковая система самый наглядный пример того, что люди позволяют себе ошибаться и в то же время она пример того, что коррекция ошибок и нетребовательность к орфографии отучает людей соблюдать правила орфографии.

В современном мире, где информация является ключевым фактором развития и успеха, точность и качество анализа текстовых данных при работе с документами и отчетами играют решающую роль. В связи с этим, системы машинного обучения для анализа текста становятся неотъемлемой частью многих сфер.

Одним из ключевых этапов анализа текста в системах машинного обучения является проверка орфографии. Орфографическая корректность текста является залогом высокой точности и надежности результатов анализа. Низкая погрешность при анализе текста позволяет принимать более обоснованные и точные решения, что в свою очередь, способствует повышению эффективности работы системы в целом.

Проверка орфографии в системах машинного обучения осуществляется с помощью специализированных алгоритмов, которые анализируют текст на предмет ошибок в написании слов, пунктуации, грамматике и других аспектах. Эти алгоритмы могут быть основаны на использовании различных техник, включая статистические методы, обучение с учителем и без учителя, а также глубокое обучение.

Применение алгоритмов проверки орфографии не только обеспечивает высокую точность анализа текста, но и снижает вероятность появления ошибок, связанных с человеческим фактором. Кроме того, использование таких алгоритмов позволяет сократить время, затрачиваемое на корректировку и редактирование текста, что особенно важно при работе с большими объемами данных.

Кроме того, проверка орфографии может играть ключевую роль в обеспечении целостности и доступности данных. Ошибки в написании слов могут привести к неправильному пониманию и интерпретации текста [2]. Применение алгоритмов проверки орфографии позволяет снизить риск подобных инцидентов и повышает уровень защиты данных.

Мы собрали данные анализа текстов и выявили, что в основном можно выделить четыре основные группы контекстно-независимых ошибок:

1. пропуски, вставки и перестановки букв — 63%;

2. слитно-раздельное написание слов — 19%;

3. искаженная раскладка (ghbdtn → привет) — 13%;

4. транслитерация (privet → привет) — 3%;

5. другие ошибки — 2%.

Данная статистика была составлена на основе случайной выборки из дневного лога Яндекса в 2023 году на основе 10000 запросов [3]. В открытом доступе есть гораздо более ранняя презентация от Яндекса за 2013 год, где показано похожее распределение статистики [8]. Отсюда можно сделать вывод, что распределение разновидностей ошибок для поисковых запросов, в среднем, с течением времени не изменяется.

Технические аспекты проверки орфографии.

Существует несколько способов реализации проверки орфографии в системах машинного обучения [2]:

Словарные методы: Основаны на сравнении слов с заранее составленным словарем. Если слово отсутствует в словаре или его написание сильно отличается от слов в словаре, оно считается ошибочным.
Статистические методы: Используют вероятностные модели для определения вероятности того, что данное слово содержит орфографическую ошибку. Эти методы могут учитывать контекст и частоту использования слов.
Машинное обучение: Модели машинного обучения, такие как нейронные сети, могут быть обучены на больших наборах данных для автоматической проверки орфографии.

В данной статье мы рассмотрим только 3-й тип: машинное обучение. Для исправления ошибок в машинном обучении используется две модели: модель ошибок и языковая модель. Причем для исправления контекстно-независимых ошибок используется только первая модель, а для контекстно-зависимых — сразу обе [2].

На данный момент существует множество автоматических систем для решения данной проблемы. Мы отобрали некоторые из них, которые удовлетворили следующим критериям:

1. возможность реализации в качестве программного модуля;

2. кроссплатформенность;

3. открытый доступ

Решения:

1. Яндекс.Спеллер помогает находить и исправлять орфографические ошибки в русском, украинском или английском тексте. Языковые модели Спеллера включают сотни миллионов слов и словосочетаний. Чтобы обнаруживать ошибки и подбирать замены, Спеллер использует библиотеку машинного обучения CatBoost. Благодаря CatBoost он может расшифровывать искажённые до неузнаваемости слова («адникасники» → «одноклассники») и учитывать контекст при поиске опечаток («скучать музыку» → «скачать музыку»). Кроме того, Спеллер не придирается к новым словам, ещё не попавшим в словари [5].

2. Hunspell — свободная программа для проверки орфографии. Предназначен для языков со сложной системой словообразования и обширной морфологией. Изначально предполагалась поддержка только венгерского языка. Hunspell был основан на MySpell и совместим с языковыми файлами MySpell. Несмотря на то, что MySpell использует 8-битный набор символов кодировки ASCII, Hunspell может также использовать языковые файлы в кодировке Unicode UTF-8 [4].

3. LanguageTool – это многоязычная программа проверки орфографии, стилистики и грамматики, которая помогает исправлять и перефразировать тексты [1].