Разработка алгоритма поиска информации или информационного объекта в тексте

Рябов Артем Вадимович — Wed, 22 Jun 2016 12:06:10 +0000

Научный руководитель: Аполлонова И.А,. к.т.н,

заместитель заведующего кафедрой «Медико-технический менеджмент»

Ранее были исследованы и выделены основные препятствия при проведении анализа баз данных с помощью программных средств, поставляемых совместно со стандартным офисным пакетом [1]. Ниже представлены основные из них:

– ошибки в наименовании изделия или указание наименования в транскрипции;

– представление в одном лоте сразу несколько видов медицинских изделий;

– общее наименование изделий без указания производителя или модели.

Исходя из этого к разрабатываемому алгоритму были представлены следующие требования:

– определение по базам данных объема закупленного «наименования» товара, с учетом различных вариантов указания «наименования» в лоте;

– определение средней стоимости «наименования» товара, с учетом расположения нескольких изделий в одном лоте;

– конкретизация типа изделия по косвенным характеристикам, указанным в лоте.

Переходя к обзору алгоритма, следует заметить, что его использование для определения показателей, характеризующих рынок определенного изделия, не является полностью автоматическим и требует от пользователя знания по крайней мере основных игроков сегмента и базовых знаний о разновидностях входящих в него изделий.

На рисунке 1 представлена блок – схема работы алгоритма.

Рис. 1. Блок – схема работы алгоритма.

На этапе ввода информации алгоритм обрабатывает поле базы данных, в котором указывают наименование товара, работ, услуг. Задача локального алгоритма сводится к нахождению всех наименований товаров в разных формах его написания.

Для выявления наименований предложено использовать разные алгоритмы под разные условия поиска: в условиях, когда сегмент представлен в основном изделиями зарубежного производства, используется алгоритм поиска латинских символов. Причем для того, что бы избежать попадания в одну переменную сразу нескольких наименования, было допущено, что наименования между собой имеют кириллицу или знаки пунктуации. Шаги локального алгоритма представлен ниже:

1) Ввод данных – строка лота из поля «наименование товаров работ и услуг»:

«Духкамерный кардиовертер-дефибриллятор имплантируемый Lumax 340DR-T в комплекте с электродами Linox S65, Selox SR53 и двумя интродьюсерами»

2) Преобразование строки:

«**** ****-**** **** Lumax 340 DR-T * **** * **** Linox S65* Selox SR53 * **** ****»

3) Разбиение строки по разделителю и загрузка в список:

['Lumax 340 DR-T', 'Linox S65', 'Selox SR53']

4) Передача каждого элемента списка в переменную имени (наименования изделия).

На этапе вывода вариантов наименований изделий, пользователю необходимо определить, что из списка представленных наименований будет относится к исследуемому сегменту рынка, а также соотнести различные написание наименования изделия с единственно правильным.

Этап определения атрибутов является самым длительным из остальных, так как требует большого количества итераций по строкам лота, которое увеличивается соответственно объему базы данных.

Идея локального алгоритма заключается в нахождении пересечений множеств списков, элементами которых являются отдельные слова в строках лотов. Лоты выбираются из условия, что они содержат общее для них наименование изделия. Информация, которая чаще всего встречается в лотах (кроме названия изделия), будет являться общим пересечением множеств списков. Такая информация используется как атрибут изделия. Шаги работы локального алгоритма представлен ниже.

1) Итерация по строка поля «наименование товаров работ и услуг»:

а) «Имплантируемый кардиовертер-дефибриллятор MAXIMO II CRT-D для ресинхронизирующей терапии с принадлежностями (арт. D284TRK)»

б) «Имплантируемый кардиовертер-дефибриллятор для ресинхронизирующей терапии Maximo II CRT-D»

в) «Имплантируемый кардиовертер-дефибриллятор Maximo II CRT-D. (Цифровой имплантируемый кардиовертер-дефибриллятор для ресинхронизирующей терапии с системой удаленного мониторинга пациента в комплекте с электродами и интродъюссерами)»

2) Нахождение пересечения множеств и выбор пользователем необходимого и достаточного варианта пересечения для определения модели изделия по его атрибутам: «Имплантируемый кардиовертер-дефибриллятор MAXIMO II CRT-D»

Имея все варианты написания наименования изделия, а также его атрибуты, можно переходить к конкретизации типа изделия по косвенным характеристикам, указанным в лоте.

Последний этап заключается в итерации по всем лотам, при совпадении атрибутов и наименования изделия, алгоритм добавляет информацию, как показано на рисунке 2.

Рис.2. Пример преобразованной базы данных

Метод определения средней стоимости товара заключается в нахождении распределения цен и отсечении ценовых значений, величина которых превосходит допустимый интервал.

Таким образом были разработаны алгоритмы и решены поставленные задачи по нахождению необходимой информации.

Электронный научно-практический журнал «Современные научные исследования и инновации» » data analasys

Разработка алгоритма поиска информации или информационного объекта в тексте