АВТОМАТИЗИРОВАННОЕ ОПРЕДЕЛЕНИЕ КВАНТИТАТИВНЫХ ХАРАКТЕРИСТИК ТЕКСТА

Рыбанов Александр Александрович
Волжский политехнический институт (филиал) федерального бюджетного государственного образовательного учреждения высшего профессионального образования «Волгоградский государственный технический университет»
зав. каф. «Информатика и технология программирования», к.т.н., доцент

Аннотация
В статье рассматриваются возможности библиотеки морфологического анализа phpMorphy для процесса автоматизированного получения квантитативных характеристик текста. Приводится пример анализа качества квантования учебного текста.

Ключевые слова: квантитативные характеристики текста, квантование учебного текста, морфологический анализ


AUTOMATED DEFINITION OF QUANTITATIVE CHARACTERISTICS OF THE TEXT

Rybanov Alexander Aleksandrovich
Volzhskii Polytechnic Institute, Branch of the Volgograd State Technical University
Head of Informatics and programming techniques Department, PhD in Technical Sciences, Associate Professor

Abstract
In article possibilities of library of the morphological analysis phpMorphy for process of the automated obtaining quantitative characteristics of the text are considered. The example of the analysis of quality of quantization of the educational text is given.

Keywords: phpMorphy


Рубрика: 05.00.00 ТЕХНИЧЕСКИЕ НАУКИ

Библиографическая ссылка на статью:
Рыбанов А.А. Автоматизированное определение квантитативных характеристик текста // Современные научные исследования и инновации. 2014. № 2 [Электронный ресурс]. URL: https://web.snauka.ru/issues/2014/02/30988 (дата обращения: 23.09.2024).

Инструментальные средства разработки учебного контента отстают в развитии от систем дистанционного обучения (СДО) [11]. В свою очередь, успешность применения СДО зависит от качества и эффективной организации учебного контента.

Существующие в настоящее время СДО Moodle, Ilias, Claroline, Atutor и др. не предоставляют разработчикам дистанционных учебных курсов возможность оценки качества учебного контента. Между тем, оценка учебного контента направлена на выявление достоинств и недостатков учебной информации и на принятие решения о необходимости и оптимальных условиях его использования в процессе дистанционного обучения. Одним из направлений решения задачи оценки качества учебного контента систем дистанционного обучения является использование методов квантитативной лингвистики.

Квантитативная лингвистика (quantitative linguistics) – одно из направлений прикладной лингвистики, которое занимается изучением языка с помощью статистических методов [8]. Преимуществом квантитативных методов изучения текстов является их точность и однозначность результатов. Расчет квантитативных характеристик текста необходим для решения следующих проблем:

  • определение стилевых и жанровых характеристик текстов, с целью последующей их классификации [7] ;
  • изучение образцов текстов, c целью установление авторства [5];
  • обучение языку специальности [6, 2].

Разработка учебного контента СДО включает в себя развитие технологий проектирования контента, таких как квантование учебной информации. Квантование - это разделение учебной информации на элементарные фрагменты (учебные единицы, шаги, кадры) различного назначения (информационные, тренирующие [1], контролирующие, управляющие). Одной из проблем технологии проектирования контента является формирование системы количественных критериев для оценки качества квантования учебной информации [9]. Квантитативные характеристики текста могут составлять основу данной системы критериев. Wiio O.A. [13] предложил использовать квантитативные характеристики для оценки показателя сложности: чем больше прилагательных и наречий в тексте, тем сложнее текст. Глагол – самая живая часть речи. Частое применение глаголов в спрягаемых формах приводит к тому, что предложения легко запоминаются и понимаются. В таких предложениях связанные слова находятся близко друг к другу и их связи легко осознаются. Глаголы способствуют пониманию текста [12].

Актуальной является задача автоматизированного подсчета значений квантитативных характеристик текста. Программная реализация автоматизированного определения ряда квантитативных характеристик текста возможна на основе библиотеки морфологического анализа phpMorphy, реализованной на платформе PHP. Библиотека phpMorphy направлена на решение следующих задач [3]:

  • лемматизация (получение нормальной формы слова);
  • получение всех форм слова;
  • полуграмматической информации для слова (часть речи , падеж, спряжение и т.д.);
  • изменение формы слова в соответствии с заданными грамматическими характеристиками;
  • изменение формы слова по заданному образцу.

Библиотека phpMorphy поддерживает обработку текста на следующих языках: русский, английский, немецкий. С помощью библиотеки phpMorphy могут быть подсчитаны следующие низкоуровневые квантитативные характеристики текста [3]:

  1. Индекс аналитичности (analyticity index) – отношение числа служебных слов к общему числу слов в тексте;
  2. Индекс глагольности (Verb index) – отношение числа глаголов к числу слов в тексте;
  3. Индекс субстантивности (substantive index) – отношение числа существительных к числу слов в тексте;
  4. Индекс адъективности (adjective index) – отношение числа прилагательных к числу слов в тексте;
  5. Индекс местоименности (pronoun index) – отношение числа местоименных слов к числу слов в тексте;
  6. Индекс автосемантичности (autosemanticity index) – отношение числа значащих слов;
  7. Индекс незнаменательности (unmomentous words index) – отношение числа незнаменательных слов к числу слов в тексте;
  8. Индекс именной лексики (nominal lexicon index) – отношение суммы чисел существительных и прилагательных к числу слов в тексте.

Обзначения частей речи в библиотеке phpMorphy представлены в табл. 1.

Таблица 1. Обозначения частей речи в библиотеке phpMorphy

 Константа  Описание
 PMY_RP_NOUN  существительное
 PMY_RP_ADJ_FULL  прилагательное
 PMY_RP_ADJ_SHORT  краткое прилагательное
 PMY_RP_INFINITIVE  инфинитив
 PMY_RP_VERB  глагол в личной форме
 PMY_RP_ADVERB_PARTICIPLE  деепричастие
 PMY_RP_PARTICIPLE  причастие
 PMY_RP_PARTICIPLE_SHORT  краткое причастие
 PMY_RP_NUMERAL  числительное (количественное)
 PMY_RP_NUMERAL_P  порядковое числительное
 PMY_RP_PRONOUN  местоимение-существительное
 PMY_RP_PRONOUN_PREDK  местоимение-предикатив
 PMY_RP_PRONOUN_P  местоименное прилагательное
 PMY_RP_ADV  наречие
 PMY_RP_PREDK  предикатив
 PMY_RP_PREP  предлог
 PMY_RP_CONJ  союз
 PMY_RP_INTERJ  междометие
 PMY_RP_PARTICLE  частица
 PMY_RP_INP  вводное слово
 PMY_RP_PHRASE  фразеологизм

Низкоуровневые квантитативные характеристики текста могут быть выражены через обозначения частей речи библиотеки phpMorphy следущим образом (COUNT_WORDS – количество слов в тексте):

  1. Индекс аналитичности:

    Analyticity_index=(PMY_RP_PREP + PMY_RP_CONJ +

    + PMY_RP_PARTICLE)/COUNT_WORDS.

  2. Индекс глагольности:

    Verb_index = (PMY_RP_INFINITIVE + PMY_RP_VERB +

    +PMY_RP_ADVERB_PARTICIPLE + PMY_RP_PARTICIPLE+PMY_RP_PARTICIPLE_SHORT) / COUNT_WORDS.

  3. Индекс субстантивности:

    Substantive_index = PMY_RP_NOUN / COUNT_WORDS.

  4. Индекс адъективности:

    Adjective_index = (PMY_RP_ADJ_FULL + PMY_RP_ADJ_SHORT) / COUNT_WORDS.

  5. Индекс местоименности:

    Pronoun_index = (PMY_RP_PRONOUN + PMY_RP_PRONOUN_PREDK +

    + PMY_RP_PRONOUN_P)/ COUNT_WORDS.

  6. Индекс автосемантичности:

    Autosemanticity_index = (COUNT_WORDS – (PMY_RP_PREP +

    + PMY_RP_CONJ+PMY_RP_PARTICLE) -

    - (PMY_RP_PRONOUN + PMY_RP_PRONOUN_PREDK+

    + PMY_RP_PRONOUN_P)) / COUNT_WORDS.

  7. Индекс незнаменательности:

    Unmomentous_words_index = ((PMY_RP_PREP + PMY_RP_CONJ + PMY_RP_PARTICLE ) +

    + (PMY_RP_PRONOUN + PMY_RP_PRONOUN_PREDK +

    + PMY_RP_PRONOUN_P)) / COUNT_WORDS.

  8. Индекс именной лексики:

    Nominal_lexicon_index =(PMY_RP_NOUN + PMY_RP_ADJ_FULL + PMY_RP_ADJ_SHORT)/ COUNT_WORDS.

При использовании библиотеки phpMorphy возможна ситуация, когда для словоформы функция определия части речи возвращает массив с несколькими значениями:
var_dump($morphy->getPartOfSpeech(‘ДУША’));
// array(‘СУЩЕСТВИТЕЛЬНОЕ’, ‘ДЕЕПРИЧАСТИЕ’)
// ДУША образовывается от ДУШ, ДУША и ДУШИТЬ
Поэтому одним из дескрипторов процесса расчета квантитативных характеристик, является степень однозначного определения частей речи.

На основе библиотеки phpMorphy был разработан программный модуль автоматизированного определения представленных выше квантитативных характеристик текста. С использованием данного программного модуля была проведена оценка соответствующих квантитативных параметров для исходного и квантованного текста на примере произведения А.П. Чехова “Белобородый” [4]. Степень однозначного определения частей речи для исходного текста – 69.287, для квантованного текста – 69.263. Результаты анализа исходного и квантованного текстов приведены в табл. 2. Результаты анализа соответствующих фрагментов исходного и квантованного текстов приведены в табл. 3-4.

Таблица 2. Квантитативные характеристики текста

Анализируемый текст

Количество
слов

Индекс
анали-тичности

Индекс глаголь-ности

Индекс субстантив-ности

Индекс адъектив-ности

Индекс местои-менности

Индекс автосеман-тичности

Индекс незнаме-нательности

Индекс именной лексики

 Исходный текст

1512

0.215

0.214

0.255

0.080

0.106

0.891

0.321

0.334

 Квантованный текст

719

0.219

0.207

0.258

0.077

0.106

0.887

0.326

0.335

Таблица 3. Квантитативные характеристики фрагментов исходного текста

Фрагмент исходного текста

Количество
слов

Индекс
анали-тичности

Индекс глаголь-ности

Индекс субстантив-ности

Индекс адъектив-ности

Индекс местои-менности

Индекс автосеман-тичности

Индекс незнаме-нательности

Индекс именной лексики

Фрагмент №1

189

0.231

0.194

0.245

0.103

0.093

0.863

0.324

0.348

Фрагмент №2

207

0.191

0.188

0.254

0.085

0.132

0.941

0.323

0.339

Фрагмент №3

139

0.205

0.225

0.313

0.095

0.042

0.837

0.247

0.408

Фрагмент №4

170

0.267

0.201

0.209

0.073

0.143

0.846

0.410

0.281

Фрагмент №5

143

0.183

0.207

0.228

0.1

0.139

0.956

0.322

0.329

Фрагмент №6

268

0.213

0.248

0.254

0.041

0.110

0.897

0.323

0.294

Фрагмент №7

396

0.213

0.217

0.269

0.082

0.090

0.878

0.303

0.351

Таблица 4. Квантитативные характеристики фрагментов квантованного текста

Фрагмент квантованного текста

Количество
слов

Индекс
анали-тичности

Индекс глаголь-ности

Индекс субстантив-ности

Индекс адъектив-ности

Индекс местои-менности

Индекс автосеман-тичности

Индекс незнаме-нательности

Индекс именной лексики

Фрагмент №1

59

67.797

0.161

0.246

0.285

0.124

0.079

0.918

0.240

Фрагмент №2

118

62.712

0.206

0.171

0.263

0.061

0.126

0.919

0.332

Фрагмент №3

63

74.603

0.222

0.238

0.307

0.079

0.032

0.810

0.254

Фрагмент №4

80

65.000

0.295

0.172

0.210

0.078

0.135

0.841

0.430

Фрагмент №5

108

66.660

0.168

0.216

0.228

0.122

0.147

0.978

0.315

Фрагмент №6

60

78.300

0.250

0.195

0.292

0.022

0.108

0.858

0.358

Фрагмент №7

231

70.562

0.230

0.219

0.255

0.066

0.094

0.864

0.324

Проанализируем, как изменилась сложность квантованного текста по сравнению с исходным. Для количественной оценки сложности текста используем формулу Ю.Тулдава [11]:

R(i,j)=i*lg(j),                                                               (1)

где  R(i,j)– индекс сложности текста (рис.1),  i – средняя длина слова в слогах, j – средняя длина предложений в словах. Формула (1) разработана на основе закономерности, наблюдаемой в разных языках. Поэтому формула Ю. Тулдава предназначена для анализа текста на разных языках.

Рис. 1. Вид функции R(i,j)

В табл. 5 приведены значения индекса сложности текста для соответствующих фрагментов исходного и квантованного текста.

Таблица 5. Индекс сложности текста R(i,j)

Фрагмент исходного текста

Исходный текст

Квантованный текст

Фрагмент №1

3.016

2.44

Фрагмент №2

2.542

2.509

Фрагмент №3

2.635

3.323

Фрагмент №4

2.853

2.453

Фрагмент №5

2.805

2.243

Фрагмент №6

2.587

2.264

Фрагмент №7

2.113

2.109

Индекс сложности R (i,j) для квантованного текста равен 2.353, а для исходного текста равен 2.508, что свидетельствует о лучшем представлении квантованного текста. В тоже время, сравнительный анализ индексов сложности для исходного и квантованного текстов по фрагментам (рис. 2) позволил определить фрагменты квантованного текста №2, №3 и №7, как требующие дальнейшего преобразования.

ТекстРис. 2. Сравнительный анализ индекса сложности текста по фрагментам

Библиотека phpMorphy позволяет автоматизировать процесс получения квантитативных характеристик текстов и рекомендуется к использованию в web-информационных системах, ориентированных на решение задач квантитативной лингвистики.


Библиографический список
  1. Абрамова О.Ф. Особенности формирования банка тестовых заданий по специальным техническим дисциплинам для программной реализации системы адаптивного тестирования // Современная техника и технологии. 2013. № 11 (27). С. 2.
  2. Агеев В.В., Сергевнина В.М., Яковлева Е.И. Cредства оптимизации лингводидактики для сокращенных форм обучения // Вестник Нижегородского университета им. Н.И. Лобачевского. 2011. № 3-1. С. 37-43.
  3.  Библиотека phpMorphy. URL: http://phpmorphy.sourceforge.net.
  4. Веренчик И. Квантование текста и разработка заданий в тестовой форме (на примере произведений А.П. Чехова) // Педагогические измерения. 2012. № 1. С. 98-105.
  5. Верхозин С.С. К вопросу о лингвотеоретических основах методик авторизации текста // Ученые записки Забайкальского государственного университета. Серия: Филология, история, востоковедение. 2013. № 2 (49). С. 22-27.
  6. Дудиков М.Ю. Квантитативные характеристики профессиональной коммуникации // Вестник Челябинского государственного университета. 2009. № 35. С. 63-67.
  7. Журавлев А.Ф. Опыт квантитативно-типологического исследования разновидностей устной речи // Разновидности городской устной речи.  Сборник научных трудов. – М.: Наука, 1988. С. 84-150.
  8. Кащеева А.В. Квантитативные и качественные методы исследования в прикладной лингвистике // Социально-экономические явления и процессы. 2013. № 3 (049). С. 155-162.
  9. Рыбанов А.А. Количественные метрики для оценки качества квантования учебной информации // Педагогические измерения. 2013. № 4. С. 3-12.
  10. Рыбанов А.А. Оценка качества текстов электронных средств обучения // Школьные технологии. 2011. № 6. С. 172-174.
  11. Тулдава Ю.А.  Об измерении трудности текста. – Ученые записки Тартуского государственного университета, 1975, вып. 345. С. 102-119.
  12. Flesh R. The Art of Plain Talk.- New York: Haper and Brothers Publisher, 1946. – 210 p.
  13. Wiio O.A. Readability. Compression and Readership. Acta Universitatis Tamperensis, 1968, vol. 22 (A), p. 161.


Все статьи автора «rybanoff»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться: