УДК 004.822

РАЗРАБОТКА МОДЕЛЕЙ И МЕТОДОВ СЕМАНТИЧЕСКОГО АННОТИРОВАНИЯ МАТЕМАТИЧЕСКИХ СТАТЕЙ

Егорова Анастасия Павловна
Казанский (Приволжский) Федеральный Университет

Аннотация
В статье рассмотрены способы разработки математического и программного обеспечения для аннотирования текстов по запросу пользователя.

Ключевые слова: аннотирование текстов


DEVELOPMENT OF MODELS AND METHODS FOR SEMANTIC ANNOTATION OF MATHEMATICAL ARTICLES

Egorova Anastasia Pavlovna
Kazan Federal University

Abstract
The article describes the development of mathematical methods and software for annotating texts on the user's request.

Рубрика: 05.00.00 ТЕХНИЧЕСКИЕ НАУКИ

Библиографическая ссылка на статью:
Егорова А.П. Разработка моделей и методов семантического аннотирования математических статей // Современные научные исследования и инновации. 2016. № 5 [Электронный ресурс]. URL: http://web.snauka.ru/issues/2016/05/67128 (дата обращения: 20.11.2016).

Введение

В современном обществе информация становится дорогой ценностью. А индустрия ее получения, обработки и трансляции – ведущей отраслью деятельности, куда с каждым годом вкладывают все большие капиталы [1, 2]. Такое большое количество информации делает затруднительным ее обработку человеком. Поэтому создание систем автоматизированного анализа и обработки информации является актуальным направлением исследований. Основную долю знаний специалисты получают в результате сравнения, анализа и синтеза информации из текстов на естественном языке. При работе с большими потоками документов процесс автоматической структуризации текстовой информации заменяет работу специалиста, который структурирует информацию вручную.

К числу наиболее интересных систем аналитической обработки данных относятся ClearForest, Convera RetrievalWare, Hummingbird KM, IBM Text Miner, инструменты компаний Ontos Miner, Oracle Text, ODB-Text, TextAnalyst, Smartware, XANALYS Link Explorer.

Анализ положения дел в области автоматизированного аннотирования

Первичная аналитическая обработка требует значительных вычислительных ресурсов. Выделяются знания об объекте, основанные на фактографии,  причем с учетом всех ссылок. Для этого сначала выделяются все предложения с упоминаниями об объекте (создается дайджест), в которых могут встречаться названия объекта, ссылки на него, а также обобщающие определения.

Открытые источники информации делают доступной огромное количество публикаций и тем самым ставят проблему эффективной работы с большим количеством документов. Существует два подхода к решению этой задачи [3, 4].

В первом подходе программа-аннотатор добывает из первоисточника небольшое количество фрагментов, в которых наиболее полно представлено содержание документа. Это могут быть предложения, содержащие термы запроса и др. Во время второго подхода аннотация является синтезированным документом в виде короткого содержания. Аннотация, сформированная в соответствии с первым подходом, качественно уступает аннотации,  полученной при синтезе.

Одной из проблем, возникающей при синтезе аннотаций, является отсутствие средств семантического анализа и синтеза текста на естественном языке. По этой причине сервисы аннотирования ориентированы либо на узкую предметную область, либо требуют участия человека.

В современных компьютерных приложениях под автоматическим аннотированием текста понимается извлечение наиболее значимых предложений, которые кратко передают его основное содержание.

Целью работы является автоматизированная генерация аннотации о некотором событии А, которое описывается в различных  источниках информации. Информация о происшествии может быть как положительная, так и отрицательная, поэтому в полученной аннотации должны быть определены коэффициенты подтверждения или опровержения информации.

Это, в свою очередь ведет, к разработке математического и программного обеспечения автоматизированного аннотирования пространства данных о событии А.

Описание алгоритма

Существует множество методов автоматического аннотирования текстов. Их классификация приведена в публикации[5]. Однако, как считают авторы публикации, ни один из методов не лишен существенных недостатков, которые не делают их универсальными.

Рассмотрим возможность применения разработанного мною метода аннотирования научных публикаций, на основе предложенного мною алгоритма.

Пусть задано некоторое событие А. Информация об этом событии содержится в базах данных, хранилищах данных и т.д. Необходимо построить короткую аннотацию о событии А, в которой указана пара коэффициентов подтверждения (k1) и опровержение (k2) этого события (k1, k2 Î [0,1]).

Сначала необходимо отобрать информацию о событии А. Следовательно входной информацией является множество текстов, которые хранятся в различных источниках данных. Исходными данными являются множество статей о происшествии А, и его аннотация с коэффициентами k1 и k2 со ссылкой на первоисточники.

Очевидно, что эти коэффициенты являются независимыми между собой, то есть для них несправедливо равенство k1 + k2 = 1.

Для подтверждения или опровержения информации о событии А необходимо, чтобы данные из разных источников, удовлетворяли следующим требованиям:

• были полными, непротиворечивыми и поступали вовремя (своевременными);

• были информативными, поскольку должны применяться для принятия решений;

• были одинаковой структуры, чтобы иметь возможность загрузить их в единое хранилище данных и проанализировать;

• хранились в одинаковых моделях данных и были независимыми от платформы разработки.

Стоит отметить, что на сегодняшний день нет ни одной методики обработки данных, которая бы удовлетворяла всем приведенным требованиям.

Проблема интеграции разрозненной информации с целью ее дальнейшей обработки и принятия решений на ее основе, возникла вместе с появлением хранилищ данных, еще в 80-х годах XX века. Значительный вклад в решение этой проблемы внесли ученые: Colin White, A. Sheth, J. Larson, К.В. Антипин, А.В. Фомичев, М.Н. Гринев, С.Д. Кузнецов и др.

Разобьем общую задачу на две под задачи:

1) интеграция разрозненной информации и поиск информации о событии А;

2) аннотация события А и вычисление коэффициентов k1 и k2.

1. Интеграция разрозненной информации и поиск информации

Сегодня возможность решения задачи интеграции решается с помощью пространств данных.

Пространство данных DS – это множество данных, представленных в различных моделях (баз данных DB, хранилищ данных DW, статических Web-страниц Wb), локальных хранилищ и индексов ODW, а также средств интеграции Int, поиска Se и обработки информации Wo, объединенных средой управления моделями EM.

DS = <DW, DWS, ODW, Wb, Int, Se, Wo, EM>

Каталог CG – это перечень ресурсов данных, содержащий базовую информацию о каждом из них: источник, имя, местонахождение в источнике, размер, дату создания и владельца и др.

Metadata (DB, DW, Wb) Þ CG.

Каталог не только содержит описательную информацию (то есть выполняет роль метаданных), но и сохраняет для каждого участника схему источника, статистические данные, скорость изменения, точность, информацию о владельце и данные о политике доступа и поддержке конфиденциальности. Поскольку источники пространства данных физически не переносят в него информацию и могут обмениваться между собой информацией, то в каталоге необходимо хранить данные и о связи между источниками [6].

Поверх каталога размещена среда управления моделями EM, которая позволяет создавать новые связи и манипулировать имеющимися (например, объединять или инвертировать отображения, определять схемы данных и создавать единые представления нескольких источников).

Важной компонентой пространства данных является компонента хранения и индексирования (ODW) для достижения следующих целей:

• для определения весов каждого из источников (для онтологического представления источников);

• для обеспечения возможности выполнения некоторых запросов без доступа к реальному источнику данных.

Связь между каталогом CG, средой управления моделями EM и локальным хранилищем и индексами ODW можно представить как функцию:

EM (CG) Þ ODW.

Чем больше моделей способно «различить» среду управления, тем точнее будет информация в ODW, и тем эффективнее можно будет осуществлять процедуры интеграции, поиска и обработки данных в пространстве данных DS.

Интеграция данных – это объединение данных, которые находятся в разных системах. Существуют такие методы интеграции:

- Консолидация данных – это сбор данных с территориально удаленных или разноплатформенных источников DBi данных в единое хранилище данных DW с целью их дальнейшей обработки и анализа.

- Операция федерализации данных заключается в извлечении данных из первичных систем на основании внешних требований. Все необходимые преобразования данных осуществляются при их извлечении из первичных файлов.

Интеграция данных выполняется с помощью протокола SOAP[1].

Так называемая функция «Позиционирование запроса» – U – определяет вес ключевого слова (события), которое ищет пользователь. При этом учитывается:

U = KB + KU + KI + KT + KH + Кcount,

где KB, KU, KI – количество слов, выделенных в соответствии жирным шрифтом, подчеркиванием или курсивом; KT – количество слов, присутствующих в заголовке; KH – количество слов, встречается в подзаголовках; Kcount – количество слов, присутствующих в статье.

Если ключевое слово отрицается, то соответствующие коэффициенты будут рассчитываться со знаком «-».

После того, как статьи отобраны по параметрам запроса пользователя и размещены в локальное хранилище данных, они обрабатываются средствами Wo [7].

2. Аннотация события и вычисление коэффициентов k1 и k2.

Пусть аннотация состоит из двух абзацев. Первый абзац подтверждает событие А и строится на основе статей, подтверждающих событие; второй опровергает и, соответственно, строится на основе статей, отрицающих событие А. Очевидно, что некоторый абзац может отсутствовать и тогда соответствующий коэффициент равен нулю.

Построение абзацев аннотирования является сложной задачей и в данной статье не рассматривается. Рассмотрим задачу определения значений k1 и k2.

Для решения этой задачи построим онтологию средств информации (электронных газет, журналов, сайтов) с их весами достоверности источника.

Такую онтологию будем определять как пятерку параметров:

В = <X, R, F, W, L>,

где X – конечное множество понятий (терминов) предметной области, которую задает онтология; R – конечное множество отношения между понятиями (терминами) заданной предметной области; F – конечное множество функций интерпретации (аксиоматизации), заданных на понятиях или отношениях онтологии; W – важность понятий Х; L – важность отношений R. Определенную таким образом онтологию будем называть адаптивной [8], то есть такой, что адаптируется к предметной области  за счет модификации понятий и коэффициентов важности этих понятий и связей между ними. В нашем случае множеством Х будет множество электронных изданий, связанных между собой различными ссылками, отражается во множестве R. Значение W задает достоверность издания, его информационное воздействие на пользователя [9]. Надо отметить, что значение W меняется во времени. Для нашей задачи будем считать, что WÞ [0,1].

Выводы

В статье построено пространство данных аннотирования текстов; представлены операции интеграции данных, определения весов подтверждения и опровержения некоторого события.

Научная новизна: построено пространство данных аннотирования; разработаны операции интеграции данных, определение веса события.

Практическая ценность: разработаны схемы данных хранения информации об источниках информации, а также алгоритм обработки запроса пользователя.


[1] SOAP (от англ. Simple Object Access Protocol — простой протокол доступа к объектам; вплоть до спецификации) – протокол обмена структурированными сообщениями в распределённой вычислительной среде.


Библиографический список
  1. Губин М.В. Эффективный алгоритм формирования контекстно-зависимых аннотаций // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалогь2005 »(Звенигород, 1-6 июня 2005 г.). – М.: Наука, 2005. – С. 116-120.
  2. Солтон Дж. Динамические библиотечно-информационные системы. – М.: Мир, 1979.
  3. Ступин В. С. Система автоматического реферирования методом симметричного реферирования // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалогь2004». ( «Верхневолжский», 2-7 июня 2004 г.). – М .: Наука, 2004. – С. 579-591.
  4. Хан В., Маны И. Системы автоматического реферирования // Открытые системы. – 2000. – №12. Эл. версия: http://www.osp.ru/os/2000/12/067_print.htm
  5. Бисикало О. В., Назаров И. А. Обзор методов автоматического аннотирования текстов // Информационные технологии и компьютерная техника. – 2013. – №.2. – с. 1-6.
  6. Шаховская Н.Б. Пространство данных области научных исследований // Моделирование и информационные технологии. – Киев. – № 45. – С.132-140
  7. Шаховская Н.Б. Структура и задачи пространства данных // Сложные системы и процессы. вестник Гуманитарного университета ЗИДМУ.- Запорожье. – 2005. – №1. – С. 73 – 86.
  8. Даревич Р.Р. Mетод автоматического определения информационной веса понятий в онтологии базы знаний / Р.Р.Даревич, Д.Г.Досин, В.В.Литвин // Отбор и обработка информации. – 2005. – Вып. 22 (98). – С.105-111.
  9. Даревич Р.Р. Оценка сходства текстовых документов на основе определения информационной веса элементов базы знаний / Р.Р.Даревич, Д.Г.Досин, В.В.Литвин, З.Т.Назарчук – Исскуственный интеллект. – Донецк. – № 3. – 2006. – С. 500-509.
  10. Экспертные системы. Принципы работы и примеры. / Под редакцией Р.Форсайта. – М .: Радио и связь, 1987. – 231c.


Все статьи автора «Егорова Анастасия Павловна»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться:
  • Регистрация