УДК 004

МЕТОДЫ ПРОВЕРКИ ТЕКСТОВЫХ ДОКУМЕНТОВ НА УНИКАЛЬНОСТЬ

Москаленко Екатерина Николаевна1, Слесарев Юрий Николаевич2
1Пензенский казачий институт технологий (филиал) ФГБОУ ВО «Московский государственный университет технологий управления им. К. Г. Разумовского (Первый казачий университет)», магистрант кафедры «ПиБИ»
2Пензенский казачий институт технологий (филиал) ФГБОУ ВО «Московский государственный университет технологий управления им. К. Г. Разумовского (Первый казачий университет)», Доктор технических наук, профессор кафедры «Прикладная и бизнес информатика»

Аннотация
В данной статье рассматриваются методы проверки текстовых документов на уникальность. Описываются уже существующие методы поиска плагиата и формы заимствований информации. Выявлена и обоснована необходимость совмещения и поиска новых методов проверки документов на плагиат.

Ключевые слова: заимствования, интернет, информация, методы, плагиат, проверка документов, уникальность


METHODS OF CHECKING THE UNIQUENESS OF THE TEXT DOCUMENTS

Ekaterina Nikolaevna Moskalenko1, Slesarev Yuri Nikolaevich2
1Penza Cossack Institute of Technology (Branch) FGBOU IN "Moscow State University of Management Technology. K. Razumovsky (First Cossack University) ", graduate student of the department "PiBI"
2Penza Cossack Institute of Technology (Branch) FGBOU IN "Moscow State University of Management Technology. K. Razumovsky (First Cossack University) ", Doctor of Technical Sciences, Professor of the Department" Applied Computer Science and Business "

Abstract
This article discusses methods for checking text documents for uniqueness. It describes existing research methods and forms of plagiarism information borrowing. And revealed the necessity of combining and finding new methods of checking documents for plagiarism.

Keywords: information borrowing, plagiarism, techniques, the Internet, unique, verification of documents


Рубрика: 05.00.00 ТЕХНИЧЕСКИЕ НАУКИ

Библиографическая ссылка на статью:
Москаленко Е.Н., Слесарев Ю.Н. Методы проверки текстовых документов на уникальность // Современные научные исследования и инновации. 2016. № 6 [Электронный ресурс]. URL: http://web.snauka.ru/issues/2016/06/69137 (дата обращения: 23.11.2016).

Глобальное распространение сети Интернет и повышающаяся компьютерная грамотность населения земли привела к вторжению плагиата в всевозможные сферы деятельности человека.

В связи с этим, плагиат становится серьезной проблемой  для сферы образования и иных научных сообществ. Плагиат наносит вред создателю, предоставляет доступ к незаслуженным благам плагиатору и вводит в заблуждение читателей. Обширный доступ ко всей литературе, как зарубежной, так и российской, большое количество публикаций в Интернет-ресурсах, большое количество профессиональных изданий исключают возможность  идентифицировать начального автора текста [1].

Для того чтобы обозначить существующие методы проверки текстовых документов на уникальность, необходимо дать определение термина плагиат. Под плагиатом имеется ввиду каждое копирование и перефразирование без вставки ссылок  на первоначальные источники информации и представление ее как собственной личной работы [2].

Для борьбы с плагиатом в настоящее время применяется большое количествоинтернет-сервисов и программ, позволяющих любым образом обнаружить плагиат. Обычно, впоследствии проведения проверки текстового документа предоставляется возможность получить детальный отчет об источниках заимствования со ссылками на них, а так же процентное соотношение взятой из них информации.

Прежде чем перейти к методам проверки текстовых документов на уникальность, необходимо рассмотреть наиболее часто встречающиеся формы заимствования текстов.

Формы заимствований, встречающиеся в текстовых документах, включают в себя:

– выборочное или же абсолютное копирование текста из 1-го источника информации;
– копирование и сборка текста из нескольких источников информации;
– изменение порядка следования частей слова или же копирование слова из иного источника.

Для того чтобы скрыть факт плагиата, чаще всего применяется замена чисел, времен, букв на аналогичные по написанию, использование синонимов и другие.

Способы обнаружения плагиата характеризуются по типу оценки однообразия текстовых символов. Глобальная оценка использует большие части текста или документа для нахождения сходства в целом, в то время как локальные методы на входе проверяют ограниченный сегмент текста.

Цитирование – это компьютерный способ выявления плагиата, предназначенный для применения в научных документах, который позволяет использовать цитаты и справочный материал. Шаблон цитат считается подпоследовательностью, которая имеет не лишь только совместные цитаты для 2-ух документов, но и их аналогичный порядок в тексте.

В настоящее время наиболее распространенным подходом в вычислении заимствований является Дактилоскопия. Из ряда документов выбирается комплект, состоящий из нескольких подстрок. Рассматриваемый документ в дальнейшем сравнивается с наборами для всех документов имеющейся справочной коллекции. Найденные соотношения с другими документами показывают на наличие заимствований в тексте [3].

Анализ множества слов является упрощением представления, используемого в обработке естественного языка и поиска информации. В данной модели текст представлен как беспорядочный набор слов. Документы представлены в виде одного или нескольких векторов, которые используются для попарного вычисления сходства.

При анализе последовательностей частей речи рассматривается метод разбиения слова на части однородности. В качестве характеристик берутся всевозможные последовательности частей речи. Дальше ведется анализ фрагментов. В конечном результате в тексте можно  выделить заимствованные последовательности, которые алгоритм выделяет из текста. Эти куски имеют различные частоты повторений в выбранной последовательности, собственно что говорит о вероятном плагиате в определенной части текстового документа [3].

Кроме рассмотренных выше методик есть некоторое количество подходов к обнаружению заимствованных частей текстовых документов. Чаще всего, в программах и онлайн-сервисах, для обнаружения плагиата применяется метод «шинглов». Данный метод реализован на представлении текстов в виде множества соседних слов, образующих последовательности фиксированной длины. В случае если появляется значительное пересечение таких множеств, то такие документы будут похожи друг на друга. Кроме этого способа для быстрого обнаружения аналогичных документов используется одна из модификаций метода, получившая название «супершинглов» [4].

Есть ряд методов, использующих сигнатурную лексическую информацию документов. В для данных целей применяется IMаtch сигнатура, вычисляемая для слов со средним значением IDF.

Так  же на лексических принципах реализован другой сигнатурный подход, называемый методом «опорных» слов. При этом для документов формируются наборы опорных слов по конкретным правилам, для которых строятся сигнатуры документов. Совпадение сигнатур означает вероятный плагиат проверяемых текстовых документов. Эти методы, несмотря на большую сложность реализации, показывает более совершенные результаты в обнаружении плагиата. Для обнаружения заимствований иногда используются алгоритмы, построенные на классических принципах информационного поиска [5].

Для проверки небольших текстовых документов на заимствования возможно примять поисковые системы, например Google. Часто повторяющиеся запросы с одного и того же адреса приводят к срабатыванию защиты поисковой системы против автоматических запросов. К тому же скорость поиска плагиата относительно невысока по сравнению с другими методами.

Также есть метод поиска заимствованных частей текста называемый как эвристическим поиском. Происходит отбор документов, содержащих фрагменты текста, похожие на куски текста, который  необходимо проверить на плагиат. На данном этапе используются различные алгоритмы поиска заимствованной информации, в том числе часто необходимо использовать некоторый переход между языками документов, такой как перевод ключевых слов, определение темы и жанра.

Все вышеперечисленное должно учитываться при разработке и применении систем проверки текстовых документов на уникальность.


Библиографический список
  1. Шарапов Р. В., Шарапова Е. В. Система проверки текстов на заимствования из других источников // Всероссийская научная конференция Электронные библиотеки: Перспективные методы и технологии, электронные коллекции.– 2013. URL:   http://cyberleninkа.ru/аrticle/n/issledovаnie-vozmozhnostey-sistemy-аntiplаgiаt-dlyа-obnаruzheniyа-zаimstvovаniy (дата обращения: 01.04.2016)
  2. Свободная открытая энциклопедия «Википедия» // Сайт wikipediа.org
    URL: https://ru.wikipediа.org/wiki (дата обращения: 04.04.2016)
  3. Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для WEB-документов // Труды 9-ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL’2012: сб. работ участников конкурса – Переславль-Залесский, 2012. URL: http://cyberleninkа.ru/аrticle/n/metody-poiskа-dublikаtov-skomponovаnnyh-tekstov-nаuchnoy-stilistiki (дата обращения: 04.04.2016)
  4. Ширяев М.а., Мустакимов В. Plаgiаtinform избавит от плагиата в научных работах // Educаtionаl Technology & Society 11 2011. URL: http://cyberleninkа.ru/аrticle/n/problemа-plаgiаtа-v-nаuchnyh-rаbotаh (дата обращения: 05.04.2016)
  5. Неелова Н.В., Сычугов А. А. Сравнение результатов детектирования дублей методом шинглов и методом Джаккарда // Вестник РГРТУ. № 4 (выпуск 34). Рязань, 2012. URL: http://www.top-technologies.ru/ru/аrticle/view?id=26836 (дата обращения: 01.04.2016)


Все статьи автора «Москаленко Екатерина Николаевна»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться:
  • Регистрация