ПРОВЕРКА ОРФОГРАФИИ КАК ЗАЛОГ НИЗКОЙ ПОГРЕШНОСТИ ПРИ АНАЛИЗЕ ТЕКСТА В СИСТЕМАХ МАШИННОГО ОБУЧЕНИЯ

Гаврин Иван Васильевич1, Прядко Даниил Владимирович2
1Иркутский государственный университет, бакалавр кафедры информационных систем и защиты информации
2Ангарский государственный технический университет, бакалавр кафедры технической кибернетики

Аннотация
В данной статье обсуждается важность проверки орфографии для анализа текста в системах машинного обучения. Авторы рассматривают влияние орфографической корректности на точность и надежность результатов анализа, снижение погрешностей и повышение эффективности работы системы. Также обсуждаются различные алгоритмы проверки орфографии и их применение для обеспечения конфиденциальности и защиты данных. Авторы приходят к выводу, что проверка орфографии является важным аспектом анализа текста в системах машинного обучения и необходима для обеспечения высокого качества результатов и защиты информации.

Ключевые слова: , , ,


Рубрика: 05.00.00 ТЕХНИЧЕСКИЕ НАУКИ

Библиографическая ссылка на статью:
Гаврин И.В., Прядко Д.В. Проверка орфографии как залог низкой погрешности при анализе текста в системах машинного обучения // Современные научные исследования и инновации. 2023. № 9 [Электронный ресурс]. URL: https://web.snauka.ru/issues/2023/09/100762 (дата обращения: 18.07.2024).

Орфография — это единообразие передачи слов и грамматических форм речи на письме [6]. В современной России пренебрежение правилами орфографии очевидно . Такая ситуация сформировалась по причине развития информационных технологий и применение их практически при любой работе с текстовой информацией. Показательной будет статистика, которую привела компания Яндекс [7]. Согласно этой статистике, ежедневно осуществляется более 150 миллионов поисковых запросов и в каждом 10-м обнаруживается орфографическая ошибка. Специалисты объясняют этот факт тем, что при вводе поискового запроса люди спешат, совершают опечатки или вовсе полагаются на автоматическое исправление самой поисковой системой. Может показаться, что такой пример неуместен в силу того, что поисковая система не обязывает и не требовательна к орфографии в отличии от работы с документами или отчетами. Однако, поисковая система самый наглядный пример того, что люди позволяют себе ошибаться и в то же время она пример того, что коррекция ошибок и нетребовательность к орфографии отучает людей соблюдать правила орфографии.

В современном мире, где информация является ключевым фактором развития и успеха, точность и качество анализа текстовых данных при работе с документами и отчетами играют решающую роль. В связи с этим, системы машинного обучения для анализа текста становятся неотъемлемой частью многих сфер.

Одним из ключевых этапов анализа текста в системах машинного обучения является проверка орфографии. Орфографическая корректность текста является залогом высокой точности и надежности результатов анализа. Низкая погрешность при анализе текста позволяет принимать более обоснованные и точные решения, что в свою очередь, способствует повышению эффективности работы системы в целом.

Проверка орфографии в системах машинного обучения осуществляется с помощью специализированных алгоритмов, которые анализируют текст на предмет ошибок в написании слов, пунктуации, грамматике и других аспектах. Эти алгоритмы могут быть основаны на использовании различных техник, включая статистические методы, обучение с учителем и без учителя, а также глубокое обучение.

Применение алгоритмов проверки орфографии не только обеспечивает высокую точность анализа текста, но и снижает вероятность появления ошибок, связанных с человеческим фактором. Кроме того, использование таких алгоритмов позволяет сократить время, затрачиваемое на корректировку и редактирование текста, что особенно важно при работе с большими объемами данных.

Кроме того, проверка орфографии может играть ключевую роль в обеспечении целостности и доступности данных. Ошибки в написании слов могут привести к неправильному пониманию и интерпретации текста [2]. Применение алгоритмов проверки орфографии позволяет снизить риск подобных инцидентов и повышает уровень защиты данных.

Мы собрали данные анализа текстов и выявили, что в основном можно выделить четыре основные группы контекстно-независимых ошибок:

1. пропуски, вставки и перестановки букв — 63%;

2. слитно-раздельное написание слов — 19%;

3. искаженная раскладка (ghbdtn → привет) — 13%;

4. транслитерация (privet → привет) — 3%;

5. другие ошибки — 2%.

Данная статистика была составлена на основе случайной выборки из дневного лога Яндекса в 2023 году на основе 10000 запросов [3]. В открытом доступе есть гораздо более ранняя презентация от Яндекса за 2013 год, где показано похожее распределение статистики [8]. Отсюда можно сделать вывод, что распределение разновидностей ошибок для поисковых запросов, в среднем, с течением времени не изменяется.

Технические аспекты проверки орфографии.

Существует несколько способов реализации проверки орфографии в системах машинного обучения [2]:

  1. Словарные методы: Основаны на сравнении слов с заранее составленным словарем. Если слово отсутствует в словаре или его написание сильно отличается от слов в словаре, оно считается ошибочным.
  2. Статистические методы: Используют вероятностные модели для определения вероятности того, что данное слово содержит орфографическую ошибку. Эти методы могут учитывать контекст и частоту использования слов.
  3. Машинное обучение: Модели машинного обучения, такие как нейронные сети, могут быть обучены на больших наборах данных для автоматической проверки орфографии.

В данной статье мы рассмотрим только 3-й тип: машинное обучение. Для исправления ошибок в машинном обучении используется две модели: модель ошибок и языковая модель. Причем для исправления контекстно-независимых ошибок используется только первая модель, а для контекстно-зависимых — сразу обе [2].

На данный момент существует множество автоматических систем для решения данной проблемы. Мы отобрали некоторые из них, которые удовлетворили следующим критериям:

1. возможность реализации в качестве программного модуля;

2. кроссплатформенность;

3. открытый доступ

Решения:

1. Яндекс.Спеллер помогает находить и исправлять орфографические ошибки в русском, украинском или английском тексте. Языковые модели Спеллера включают сотни миллионов слов и словосочетаний. Чтобы обнаруживать ошибки и подбирать замены, Спеллер использует библиотеку машинного обучения CatBoost. Благодаря CatBoost он может расшифровывать искажённые до неузнаваемости слова («адникасники» → «одноклассники») и учитывать контекст при поиске опечаток («скучать музыку» → «скачать музыку»). Кроме того, Спеллер не придирается к новым словам, ещё не попавшим в словари [5].

2. Hunspell — свободная программа для проверки орфографии. Предназначен для языков со сложной системой словообразования и обширной морфологией. Изначально предполагалась поддержка только венгерского языка. Hunspell был основан на MySpell и совместим с языковыми файлами MySpell. Несмотря на то, что MySpell использует 8-битный набор символов кодировки ASCII, Hunspell может также использовать языковые файлы в кодировке Unicode UTF-8 [4].

3. LanguageTool – это многоязычная программа проверки орфографии, стилистики и грамматики, которая помогает исправлять и перефразировать тексты [1].


Библиографический список
  1. Онлайн-сервис корректуры для английского, испанского и 30 других языков [Электронный ресурс]:  URL: https://languagetool.org/ru (дата обращения 13.09.2023).
  2. Пикалёва Я.С., Вовнянко А.С., Денищенко И.Я., Анализ автоматических систем проверки правописаения русского языка [Электронный ресурс]: URL: https://cyberleninka.ru/article/n/analiz-avtomaticheskih-sistem-proverki-pravopisaniya-russkogo-yazyka/viewer (дата обращения 13.09.2023).
  3. Обзор открытых решений для исправления опечаток [Электронный ресурс]: URL: https://habr.com/ru/companies/naumen/articles/463683/ (дата обращения 13.09.2023).
  4. Hunspell [Электронный ресурс]: Википедия. Свободная энциклопедия. – URL: https://ru.m.wikipedia.org/wiki/Hunspell (дата обращения 13.09.2023).
  5. Яндекс.Спеллер [Электронный ресурс]: URL: https://yandex.ru/dev/speller/ (дата обращения 13.09.2023).
  6. Орфография [Электронный ресурс]: Википедия. Свободная энциклопедия. -  https://ru.wikipedia.org/wiki/%D0%9E%D1%80%D1%84%D0%BE%D0%B3%D1%80%D0%B0%D1%84%D0%B8%D1%8F (дата обращения 13.09.2023).
  7. Самые частые орфографические ошибки в поисковых запросах [Электронный ресурс]: URL: https://yandex.ru/company/researches/2012/ya_orfo/ (дата обращения 13.09.2023).
  8. Обзор открытых решений для исправления опечаток [Электронный ресурс]: URL: https://mailsgun.ru/%D0%BE%D0%B1%D0%B7%D0%BE%D1%80-%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D1%85-%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9-%D0%B4%D0%BB%D1%8F-%D0%B8%D1%81%D0%BF%D1%80%D0%B0%D0%B2%D0%BB%D0%B5%D0%BD/


Все статьи автора «Прядко Даниил Владимирович»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться:
  • Регистрация