В наше время доступны огромные объёмы информации. Но чем больше изучаемый объём информации, тем сложнее человеку его обработать. В таких случаях возможно применить кластерный анализ текстов. В результате анализа рынка программного обеспечения, были выявлены следующие продукты, выполняющие кластеризацию текстовой информации:
- RapidMiner
- SAS analytics
- Demantra
- IBM SPSS Modeler
- STATISTICA Text Miner
Ниже приведём краткое описание обозначенных ниже программных продуктов.
RapidMiner
Система для статического анализа данных и Data Mining. Обладает удобным графическим интерфейсом, и множеством способов обработки текстовых данных: кластерный анализ, эмоциональная оценка текстов, оценка стиля текста. Работа в программе представляет собой конструктор, в котором пользователь собирает блоки-действия, предназначенные для обработки данных.
Пример интерфейса:
SAS Analytics
SAS Analytics является целостной программной платформой для анализа данных. Визуальная составляющая интерфейса позволяет пользователю с лёгкостью выбирать способы обработки данных, в том числе и текстовых, выделяя в них закономерности и связи.
Пример интерфейса:
Demantra
Платформа для Data Mining, сочетающая в себе различные способы работы с различными типами данных. Включает в себя алгоритмы для кластеризации информации, в том числе текстовой.
Пример интерфейса:
IBM SPSS Modeler
Данный программный комплекс включает в себя продукт IBM SPSS Modeler Text Analytics, включающий мощные методы аналитики текстовых данных, используя усовершенствованные лингвистические алгоритмы, в том числе обработки естественных языков (NLP, Natural Language Processing), позволяющие быстро и качественно проанализировать огромные массивы текстов и выделить из них кластеры, организованные на основе выбранные смысловых параметров.
Пример интерфейса:
STATISTICA Text Miner
STATISTICA Text Miner – дополнение к STATISTICA Data Miner, модуль позволяющий выполнять обработку текстовых данных. Продукт позволяет перевести несвязные наборы текстов в логически понятный вид, удобный для изучения и восприятия. Программный комплекс позволяет извлечь необходимую информацию из огромного объёма данных, тем самым очистив данные от логических повторов и «воды».
Пример интерфейса:
Для оценки представленных выше программных продуктов, произведём их сравнительный анализ методом Саати.
Ниже приведены критерии, на основании которых будет проводиться оценка:
А1 – форматы загружаемых данных
А2 – качество сегментации данных
А3 – количество поддерживаемых методов кластеризации
А4 – вариация начальных параметров
На основании перечисленных критериев была проведена оценка:
А1 |
А2 |
А3 |
А4 |
Среднее геометрическое |
Веса критериев |
|
А1 |
1 |
1/9 |
1/9 |
1/7 |
0,20 |
0,03 |
А2 |
9 |
1 |
1 |
5 |
2,59 |
0,41 |
А3 |
9 |
1 |
1 |
7 |
2,82 |
0,45 |
А4 |
7 |
1/5 |
1/7 |
1 |
0,67 |
0,11 |
Сумма |
6,28 |
1,00 |
И получены следующие показатели:
L |
4,211633246 |
ИС |
0,070544415 |
СлС |
0,9 |
ОС |
0,078382684 |
Значимость критериев на основе экспертной оценки:
Результаты сравнения программных продуктов:
Критерии |
Весовые коэффициенты |
Программные продукты |
Базовые |
||||
RapidMiner | SAS analytics | Demantra | IBM SPSS Modeler | STATISTICA text miner | |||
Форматы загружаемых данных |
0,03 |
7 |
5 |
5 |
5 |
3 |
5 |
Качество сегментации данных |
0,41 |
7 |
7 |
3 |
5 |
3 |
5 |
Количество поддерживаемых методов кластеризации |
0,45 |
9 |
7 |
1 |
7 |
5 |
5,8 |
Вариация параметров структуризации |
0,11 |
7 |
5 |
1 |
5 |
3 |
4,2 |
Интегральный показатель качества Q |
7,9 |
6,72 |
1,94 |
5,9 |
3,9 |
5,272
|
В результате проведённого анализа выявлено, наиболее полно отвечают заданным критериям следующие продукты: RapidMiner, SAS Analytics, IBM SPSS Modeler.
В то же время в наименьшей степени отвечает заданным требованиям Demantra.
Библиографический список
- Азаров А.В., Рыбанов А.А. Автоматизированная система расчета метрических характеристик физической схемы базы данных с целью оценки трудоемкости процесса проектирования // Современная техника и технологии. 2014. № 5 (33). С. 39.
- Баженов Р.И., Кузнецова Я.И. О разработке информационной системы по учету благотворительной помощи в малой организации // Современная техника и технологии. 2014. № 6 (34). С. 10.
- Баженов Р.И., Семёнова Д.М. О разработке информационной системы учета деятельности членов общественной молодежной палаты // Современные научные исследования и инновации. 2014. № 6-1 (38). С. 26.
- Баженов Р.И., Глухова А.А. Разработка информационной системы учета заказов в компьютерной мастерской // Современные научные исследования и инновации. 2014. № 6-1 (38). С. 30.
- Векслер В.А., Баженов Р.И. Определение взаимосвязи номенклатурных позиций средствами 1С:Предприятие 8.3 // Современные научные исследования и инновации. 2014. № 7 (39). С. 45-49.
- Красильникова А.Н., Александрова В.О., Абрамова О.Ф. Информационные технологии в градостроении // Успехи современного естествознания. 2012. № 6. С. 32.
- Кузьмин А.А., Рыбанов А.А. Исследование методов количественной оценки схем реляционных баз данных // Успехи современного естествознания. 2011. № 7. С. 137-138.
- Рыбанов А.А., Коростелев Р.А., Киселев В.В. IDEF1X-модель базы данных web-ориентированной информационной системы оценки семантического качества меню пользователя // Молодой ученый. 2013. № 5. С. 170-172.
- Рыбанов А.А. Оценка сложности физической схемы реляционной базы данных // Cовременная техника и технологии. 2014. № 9 (37). С. 26-30.
- Тапелина К.А., Жевалкина М.И. Анализ современных методик и web-систем учета достижений студентов вузов // Современные научные исследования и инновации. 2014. № 10-1 (42). С. 60-67.
- Черняев А.О., Рыбанов А.А. Разработка и исследование алгоритмов автоматизированного проектирования логических схем реляционных баз данных // В мире научных открытий. 2010. № 4-11. С. 128-129.