Электронный научно-практический журнал «Современные научные исследования и инновации» » текстовые документы

Разработка алгоритма поиска информации или информационного объекта в тексте

Рябов Артем Вадимович — Wed, 22 Jun 2016 12:06:10 +0000

Научный руководитель: Аполлонова И.А,. к.т.н,

заместитель заведующего кафедрой «Медико-технический менеджмент»

Ранее были исследованы и выделены основные препятствия при проведении анализа баз данных с помощью программных средств, поставляемых совместно со стандартным офисным пакетом [1]. Ниже представлены основные из них:

– ошибки в наименовании изделия или указание наименования в транскрипции;

– представление в одном лоте сразу несколько видов медицинских изделий;

– общее наименование изделий без указания производителя или модели.

Исходя из этого к разрабатываемому алгоритму были представлены следующие требования:

– определение по базам данных объема закупленного «наименования» товара, с учетом различных вариантов указания «наименования» в лоте;

– определение средней стоимости «наименования» товара, с учетом расположения нескольких изделий в одном лоте;

– конкретизация типа изделия по косвенным характеристикам, указанным в лоте.

Переходя к обзору алгоритма, следует заметить, что его использование для определения показателей, характеризующих рынок определенного изделия, не является полностью автоматическим и требует от пользователя знания по крайней мере основных игроков сегмента и базовых знаний о разновидностях входящих в него изделий.

На рисунке 1 представлена блок – схема работы алгоритма.

Рис. 1. Блок – схема работы алгоритма.

На этапе ввода информации алгоритм обрабатывает поле базы данных, в котором указывают наименование товара, работ, услуг. Задача локального алгоритма сводится к нахождению всех наименований товаров в разных формах его написания.

Для выявления наименований предложено использовать разные алгоритмы под разные условия поиска: в условиях, когда сегмент представлен в основном изделиями зарубежного производства, используется алгоритм поиска латинских символов. Причем для того, что бы избежать попадания в одну переменную сразу нескольких наименования, было допущено, что наименования между собой имеют кириллицу или знаки пунктуации. Шаги локального алгоритма представлен ниже:

1) Ввод данных – строка лота из поля «наименование товаров работ и услуг»:

«Духкамерный кардиовертер-дефибриллятор имплантируемый Lumax 340DR-T в комплекте с электродами Linox S65, Selox SR53 и двумя интродьюсерами»

2) Преобразование строки:

«**** ****-**** **** Lumax 340 DR-T * **** * **** Linox S65* Selox SR53 * **** ****»

3) Разбиение строки по разделителю и загрузка в список:

['Lumax 340 DR-T', 'Linox S65', 'Selox SR53']

4) Передача каждого элемента списка в переменную имени (наименования изделия).

На этапе вывода вариантов наименований изделий, пользователю необходимо определить, что из списка представленных наименований будет относится к исследуемому сегменту рынка, а также соотнести различные написание наименования изделия с единственно правильным.

Этап определения атрибутов является самым длительным из остальных, так как требует большого количества итераций по строкам лота, которое увеличивается соответственно объему базы данных.

Идея локального алгоритма заключается в нахождении пересечений множеств списков, элементами которых являются отдельные слова в строках лотов. Лоты выбираются из условия, что они содержат общее для них наименование изделия. Информация, которая чаще всего встречается в лотах (кроме названия изделия), будет являться общим пересечением множеств списков. Такая информация используется как атрибут изделия. Шаги работы локального алгоритма представлен ниже.

1) Итерация по строка поля «наименование товаров работ и услуг»:

а) «Имплантируемый кардиовертер-дефибриллятор MAXIMO II CRT-D для ресинхронизирующей терапии с принадлежностями (арт. D284TRK)»

б) «Имплантируемый кардиовертер-дефибриллятор для ресинхронизирующей терапии Maximo II CRT-D»

в) «Имплантируемый кардиовертер-дефибриллятор Maximo II CRT-D. (Цифровой имплантируемый кардиовертер-дефибриллятор для ресинхронизирующей терапии с системой удаленного мониторинга пациента в комплекте с электродами и интродъюссерами)»

2) Нахождение пересечения множеств и выбор пользователем необходимого и достаточного варианта пересечения для определения модели изделия по его атрибутам: «Имплантируемый кардиовертер-дефибриллятор MAXIMO II CRT-D»

Имея все варианты написания наименования изделия, а также его атрибуты, можно переходить к конкретизации типа изделия по косвенным характеристикам, указанным в лоте.

Последний этап заключается в итерации по всем лотам, при совпадении атрибутов и наименования изделия, алгоритм добавляет информацию, как показано на рисунке 2.

Рис.2. Пример преобразованной базы данных

Метод определения средней стоимости товара заключается в нахождении распределения цен и отсечении ценовых значений, величина которых превосходит допустимый интервал.

Таким образом были разработаны алгоритмы и решены поставленные задачи по нахождению необходимой информации.

Методы и алгоритмы проверки орфографии тестовых документов

Мокроусова Елена Алексанровна — Mon, 15 May 2017 14:20:21 +0000

Читая любой документ, мы невольно обращаем внимание на стиль изложения, легкость восприятия, содержательность и краткость повествования. Однако нередко мы сталкиваемся с опечатками и ошибками в документах. Они могут испортить все положительное впечатление об авторе, а порой и нанести серьезный урон авторитету автора.

Общаясь на родном языке, мы практически всегда можем заметить, что тексте автор ошибся. Кроме того, мы обычно можем догадаться, что он имел в виду на самом деле. Гораздо сложнее дело обстоит в тех случаях, когда мы общаемся с иностранцами. Допущенная ошибка или опечатка в написании слова, может значительно исказить смысл всего сообщения, и даже интуиция не сможет помочь получателю текста, поскольку язык общения для него не родной.

Для исправления набранного текста и были созданы программы проверки орфографии, синтаксиса, грамматических правил построения предложений, расстановки переносов и т.д. Первыми и наиболее активными пользователями подобных программ стали те, кто занимается созданием и редактированием текстов [1].

Впоследствии такие программы были встроены в популярные текстовые редакторы. Например, компания «Информатик» лицензировала свою технологию проверки правописания компании Microsoft для MS Office. Благодаря этому огромное число пользователей получили возможность автоматически исправлять тексты, не теряя свое время на длительную проверку текста [2].

Существует множество алгоритмов проверки орфографии текстовых документов. На рисунке 1 изображена диаграмма вариантов использования, которая показывает, какие существуют алгоритмы проверки.

Рисунок 1 – Диаграмма вариантов использования

Проверить орфографию можно двумя способами.

Первый способ это проверить орфографию со словарем.

Проверка со словарем делится на проверку через словарь всех слов и на проверку через словарь, который использует набор правил.

Проверка через словарь всех слов.

Словарем является файл в формате .txt, который содержит все слова русского языка, включая все склонения и спряжения слов. Слова расположены в алфавитном порядке, каждое слово находится на новой строке.

Проверка через словарь всех слов самый популярный метод обнаружения ошибок в тексте. Проверка осуществляется обычным поиском слова в словаре. Компьютер ищет слово в словаре так же как, если бы человек взял словарь в руки и искал нужное слово. Слова расположены в алфавитном порядке, поэтому компьютер может идти в нужное место в словаре и проверять слово. Если все буквы слова будут совпадать со словом в словаре, то оно является правильным. Если же такого слова нет, то оно является ошибкой или опечаткой.

В случае если слово отсутствует в словаре, например, фамилия, название или научный термин, относящийся к какой-либо предметной области, имеется возможность − добавить данное слово в словарь. После добавления слово не будет считаться ошибкой, так как в словаре будет полное совпадение букв.

Проверка орфографии, через словарь, который использует набор правил.

Словарь, который использует набор правил – это документ в формате .txt, который содержит все слова, кроме склонений и спряжений. С помощью правил русского языка, проверяются все слова на правильность написания.

Такой словарь надо организовать так, чтобы были указаны все правила русского языка. Главное надо учесть исключения из правил.

Метод проверки орфографии, который использует набор правил, так же называется методом сохранения пространства. Такой метод, экономя пространство хранения, удерживают в словаре только стебли слов. Например, вместо слов «сомнения», «сомневался», «сомневаясь», в словаре хранится только слово «сомневаюсь», используя правила русского языка удаляя окончания, суффиксы, приставки или добавляя их, слова будут меняться до слова находящегося в словаре.

Второй способ это проверка орфографии без помощи словаря, который включает в себя проверку на заглавную букву в начале предложения, проверка на повторы и проверка с помощью сограмм.

Проверка на заглавную букву, т.е. каждая буква после точки должна автоматически становиться заглавной.

Проверка на повторы показывает, что пользователь написал два одинаковых слова подряд. Проверяются на совпадения все буквы одного слова с буквами другого слова, если же они полностью совпадают, то это является ошибкой.

Сограммами называется фиксированное сочетание букв, которое в русском языке встречается, в разных словах на разных позициях.

Проверить орфографию с помощью сограмм можно двумя способами. Первый способ проверки через сограммы это проверять через уже существую таблицу сограмм. Метод использует словарь косвенно. Проверка начинается с перехода в словарь или таблицу всех сограмм. Вооружившись таблицей сограмм, программа проверки орфографии делит текст на сограмм и ищет их в таблице, если попадаются сограммы, которые никогда не имели место в словаре, слово, которое содержит эту сограмму, является опечаткой. Этот способ содержит таблицу, заполненную всеми сограммами. И при анализе текста, происходит поиск сограмм в таблице, если совпадения нет, то слово является опечаткой.

И способ анализа текста на похожие сограммы. Программа делит текст на сограммы, и сама создает таблицу из всех сограмм встречающихся в тексте, отметив как часто каждая сограмма встречается в тексте. Затем программа анализирует текст еще раз и выявляет индекс особенности каждого слова, потому на сколько сограмм разделено слово и сколько раз эти сограммы встречаются в тексте. После расчета индекса, программа обращает внимание пользователя на слова с высоким индексом особенности. Такой метод более подходит для выявления опечаток в тексте.

Существуют ошибки в режиме реального слова, к таким ошибкам в большинстве случаев относятся имена собственные и неизвестные слова. Частоту этих ложных ошибок можно уменьшить, имея большой словарь или специализированный словарь именно для этого текста. Так же избежать таких ошибок можно добавлением неизвестных слов и имен собственных в словарь, с помощью дополнительной функции «Добавить слово в словарь».

Существует множество методов и алгоритмов проверки орфографии текстовых документов. Каждый из них подходит для проверки текста, но они имеют недостатки. Для более точной проверки подходит метод, в котором нужно объединить несколько алгоритмов проверки орфографии.