УДК 519.816

ЭКСПЕРТНАЯ ОЦЕНКА ПРОГРАММНЫХ ПРОДУКТОВ ДЛЯ КЛАСТЕРИЗАЦИИ ТЕКСТОВЫХ ДАННЫХ

Еремкин Денис Валерьевич1, Рыбанов Александр Александрович2
1Волжский политехнический институт (филиал) ФГБОУ ВПО «Волгоградский государственный технический университет», студент
2Волжский политехнический институт (филиал) ФГБОУ ВПО «Волгоградский государственный технический университет», доцент

Аннотация
Статья посвящена выбору лучшего программного продукта среди аналогов на рынке с помощью метода Т. Саати.

Ключевые слова: принятие решений, Саати


EXPERT EVALUATION SOFTWARE PRODUCTS CLUSTERING TEXT DATA

Eremkin Denis Valerevich1, Rybanov Aleksandr Aleksandrovich2
1Volzhskiy Polytechnical Institute, branch of the Volgograd State Technical University, student
2Volzhskiy Polytechnical Institute, branch of the Volgograd State Technical University, associate professor

Abstract
This article is about choosing the best software among equals on the market by the method of T. Saati.

Рубрика: 05.00.00 ТЕХНИЧЕСКИЕ НАУКИ

Библиографическая ссылка на статью:
Еремкин Д.В., Рыбанов А.А. Экспертная оценка программных продуктов для кластеризации текстовых данных // Современные научные исследования и инновации. 2017. № 1 [Электронный ресурс]. URL: http://web.snauka.ru/issues/2017/01/77402 (дата обращения: 05.06.2017).

В наше время доступны огромные объёмы информации. Но чем больше изучаемый объём информации, тем сложнее человеку его обработать. В таких случаях возможно применить кластерный анализ текстов. В результате анализа рынка программного обеспечения, были выявлены следующие продукты, выполняющие кластеризацию текстовой информации:

  • RapidMiner
  • SAS analytics
  • Demantra
  • IBM SPSS Modeler
  • STATISTICA Text Miner

Ниже приведём краткое описание обозначенных ниже программных продуктов.

RapidMiner

Система для статического анализа данных и Data Mining. Обладает удобным графическим интерфейсом, и множеством способов обработки текстовых данных: кластерный анализ, эмоциональная оценка текстов, оценка стиля текста. Работа в программе представляет собой конструктор, в котором пользователь собирает блоки-действия, предназначенные для обработки данных.

Пример интерфейса:

SAS Analytics

SAS Analytics является целостной программной платформой для анализа данных. Визуальная составляющая интерфейса позволяет пользователю с лёгкостью выбирать способы обработки данных, в том числе и текстовых, выделяя в них закономерности и связи.

Пример интерфейса:

Demantra

Платформа для Data Mining, сочетающая в себе различные способы работы с различными типами данных. Включает в себя алгоритмы для кластеризации информации, в том числе текстовой.

Пример интерфейса:

IBM SPSS Modeler

Данный программный комплекс включает в себя продукт IBM SPSS Modeler Text Analytics, включающий мощные методы аналитики текстовых данных, используя усовершенствованные лингвистические алгоритмы, в том числе обработки естественных языков (NLP, Natural Language Processing), позволяющие быстро и качественно проанализировать огромные массивы текстов и выделить из них кластеры, организованные на основе выбранные смысловых параметров.

Пример интерфейса:

STATISTICA Text Miner

STATISTICA Text Miner – дополнение к STATISTICA Data Miner, модуль позволяющий выполнять обработку текстовых данных. Продукт позволяет перевести несвязные наборы текстов в логически понятный вид, удобный для изучения и восприятия. Программный комплекс позволяет извлечь необходимую информацию из огромного объёма данных, тем самым очистив данные от логических повторов и «воды».

Пример интерфейса:

Для оценки представленных выше программных продуктов, произведём их сравнительный анализ методом Саати.

Ниже приведены критерии, на основании которых будет проводиться оценка:

А1 – форматы загружаемых данных

А2 – качество сегментации данных

А3 – количество поддерживаемых методов кластеризации

А4 – вариация начальных параметров

На основании перечисленных критериев была проведена оценка:

А1

А2

А3

А4

Среднее геометрическое

Веса критериев

А1

1

1/9

1/9

1/7

0,20

0,03

А2

9

1

1

5

2,59

0,41

А3

9

1

1

7

2,82

0,45

А4

7

1/5

1/7

1

0,67

0,11

Сумма

6,28

1,00

И получены следующие показатели:

L

4,211633246

ИС

0,070544415

СлС

0,9

ОС

0,078382684

Значимость критериев на основе экспертной оценки:

Результаты сравнения программных продуктов:

Критерии

Весовые коэффициенты

Программные продукты

 

Базовые

RapidMiner SAS analytics Demantra IBM SPSS Modeler STATISTICA text miner

Форматы загружаемых данных

0,03

7

5

5

5

3

5

Качество сегментации данных

0,41

7

7

3

5

3

5

Количество поддерживаемых методов кластеризации

0,45

9

7

1

7

5

5,8

Вариация параметров структуризации

0,11

7

5

1

5

3

4,2

Интегральный показатель качества Q

7,9

6,72

1,94

5,9

3,9

5,272

 

В результате проведённого анализа выявлено, наиболее полно отвечают заданным критериям следующие продукты: RapidMiner, SAS Analytics, IBM SPSS Modeler.

В то же время в наименьшей степени отвечает заданным требованиям Demantra.


Библиографический список
  1. Азаров А.В., Рыбанов А.А. Автоматизированная система расчета метрических характеристик физической схемы базы данных с целью оценки трудоемкости процесса проектирования // Современная техника и технологии. 2014. № 5 (33). С. 39.
  2. Баженов Р.И., Кузнецова Я.И. О разработке информационной системы по учету благотворительной помощи в малой организации // Современная техника и технологии. 2014. № 6 (34). С. 10.
  3. Баженов Р.И., Семёнова Д.М. О разработке информационной системы учета деятельности членов общественной молодежной палаты // Современные научные исследования и инновации. 2014. № 6-1 (38). С. 26.
  4. Баженов Р.И., Глухова А.А. Разработка информационной системы учета заказов в компьютерной мастерской // Современные научные исследования и инновации. 2014. № 6-1 (38). С. 30.
  5. Векслер В.А., Баженов Р.И. Определение взаимосвязи номенклатурных позиций средствами 1С:Предприятие 8.3 // Современные научные исследования и инновации. 2014. № 7 (39). С. 45-49.
  6. Красильникова А.Н., Александрова В.О., Абрамова О.Ф. Информационные технологии в градостроении // Успехи современного естествознания. 2012. № 6. С. 32.
  7. Кузьмин А.А., Рыбанов А.А. Исследование методов количественной оценки схем реляционных баз данных // Успехи современного естествознания. 2011. № 7. С. 137-138.
  8. Рыбанов А.А., Коростелев Р.А., Киселев В.В. IDEF1X-модель базы данных web-ориентированной информационной системы оценки семантического качества меню пользователя // Молодой ученый. 2013. № 5. С. 170-172.
  9. Рыбанов А.А. Оценка сложности физической схемы реляционной базы данных // Cовременная техника и технологии. 2014. № 9 (37). С. 26-30.
  10. Тапелина К.А., Жевалкина М.И. Анализ современных методик и web-систем учета достижений студентов вузов // Современные научные исследования и инновации. 2014. № 10-1 (42). С. 60-67.
  11. Черняев А.О., Рыбанов А.А. Разработка и исследование алгоритмов автоматизированного проектирования логических схем реляционных баз данных // В мире научных открытий. 2010. № 4-11. С. 128-129.


Все статьи автора «evelolka@yandex.ru»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться: