Глобальное распространение сети Интернет и повышающаяся компьютерная грамотность населения земли привела к вторжению плагиата в всевозможные сферы деятельности человека.
В связи с этим, плагиат становится серьезной проблемой для сферы образования и иных научных сообществ. Плагиат наносит вред создателю, предоставляет доступ к незаслуженным благам плагиатору и вводит в заблуждение читателей. Обширный доступ ко всей литературе, как зарубежной, так и российской, большое количество публикаций в Интернет-ресурсах, большое количество профессиональных изданий исключают возможность идентифицировать начального автора текста [1].
Для того чтобы обозначить существующие методы проверки текстовых документов на уникальность, необходимо дать определение термина плагиат. Под плагиатом имеется ввиду каждое копирование и перефразирование без вставки ссылок на первоначальные источники информации и представление ее как собственной личной работы [2].
Для борьбы с плагиатом в настоящее время применяется большое количествоинтернет-сервисов и программ, позволяющих любым образом обнаружить плагиат. Обычно, впоследствии проведения проверки текстового документа предоставляется возможность получить детальный отчет об источниках заимствования со ссылками на них, а так же процентное соотношение взятой из них информации.
Прежде чем перейти к методам проверки текстовых документов на уникальность, необходимо рассмотреть наиболее часто встречающиеся формы заимствования текстов.
Формы заимствований, встречающиеся в текстовых документах, включают в себя:
– выборочное или же абсолютное копирование текста из 1-го источника информации;
– копирование и сборка текста из нескольких источников информации;
– изменение порядка следования частей слова или же копирование слова из иного источника.
Для того чтобы скрыть факт плагиата, чаще всего применяется замена чисел, времен, букв на аналогичные по написанию, использование синонимов и другие.
Способы обнаружения плагиата характеризуются по типу оценки однообразия текстовых символов. Глобальная оценка использует большие части текста или документа для нахождения сходства в целом, в то время как локальные методы на входе проверяют ограниченный сегмент текста.
Цитирование – это компьютерный способ выявления плагиата, предназначенный для применения в научных документах, который позволяет использовать цитаты и справочный материал. Шаблон цитат считается подпоследовательностью, которая имеет не лишь только совместные цитаты для 2-ух документов, но и их аналогичный порядок в тексте.
В настоящее время наиболее распространенным подходом в вычислении заимствований является Дактилоскопия. Из ряда документов выбирается комплект, состоящий из нескольких подстрок. Рассматриваемый документ в дальнейшем сравнивается с наборами для всех документов имеющейся справочной коллекции. Найденные соотношения с другими документами показывают на наличие заимствований в тексте [3].
Анализ множества слов является упрощением представления, используемого в обработке естественного языка и поиска информации. В данной модели текст представлен как беспорядочный набор слов. Документы представлены в виде одного или нескольких векторов, которые используются для попарного вычисления сходства.
При анализе последовательностей частей речи рассматривается метод разбиения слова на части однородности. В качестве характеристик берутся всевозможные последовательности частей речи. Дальше ведется анализ фрагментов. В конечном результате в тексте можно выделить заимствованные последовательности, которые алгоритм выделяет из текста. Эти куски имеют различные частоты повторений в выбранной последовательности, собственно что говорит о вероятном плагиате в определенной части текстового документа [3].
Кроме рассмотренных выше методик есть некоторое количество подходов к обнаружению заимствованных частей текстовых документов. Чаще всего, в программах и онлайн-сервисах, для обнаружения плагиата применяется метод «шинглов». Данный метод реализован на представлении текстов в виде множества соседних слов, образующих последовательности фиксированной длины. В случае если появляется значительное пересечение таких множеств, то такие документы будут похожи друг на друга. Кроме этого способа для быстрого обнаружения аналогичных документов используется одна из модификаций метода, получившая название «супершинглов» [4].
Есть ряд методов, использующих сигнатурную лексическую информацию документов. В для данных целей применяется IMаtch сигнатура, вычисляемая для слов со средним значением IDF.
Так же на лексических принципах реализован другой сигнатурный подход, называемый методом «опорных» слов. При этом для документов формируются наборы опорных слов по конкретным правилам, для которых строятся сигнатуры документов. Совпадение сигнатур означает вероятный плагиат проверяемых текстовых документов. Эти методы, несмотря на большую сложность реализации, показывает более совершенные результаты в обнаружении плагиата. Для обнаружения заимствований иногда используются алгоритмы, построенные на классических принципах информационного поиска [5].
Для проверки небольших текстовых документов на заимствования возможно примять поисковые системы, например Google. Часто повторяющиеся запросы с одного и того же адреса приводят к срабатыванию защиты поисковой системы против автоматических запросов. К тому же скорость поиска плагиата относительно невысока по сравнению с другими методами.
Также есть метод поиска заимствованных частей текста называемый как эвристическим поиском. Происходит отбор документов, содержащих фрагменты текста, похожие на куски текста, который необходимо проверить на плагиат. На данном этапе используются различные алгоритмы поиска заимствованной информации, в том числе часто необходимо использовать некоторый переход между языками документов, такой как перевод ключевых слов, определение темы и жанра.
Все вышеперечисленное должно учитываться при разработке и применении систем проверки текстовых документов на уникальность.
Библиографический список
- Шарапов Р. В., Шарапова Е. В. Система проверки текстов на заимствования из других источников // Всероссийская научная конференция Электронные библиотеки: Перспективные методы и технологии, электронные коллекции.– 2013. URL: http://cyberleninkа.ru/аrticle/n/issledovаnie-vozmozhnostey-sistemy-аntiplаgiаt-dlyа-obnаruzheniyа-zаimstvovаniy (дата обращения: 01.04.2016)
- Свободная открытая энциклопедия «Википедия» // Сайт wikipediа.org
URL: https://ru.wikipediа.org/wiki (дата обращения: 04.04.2016) - Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для WEB-документов // Труды 9-ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL’2012: сб. работ участников конкурса – Переславль-Залесский, 2012. URL: http://cyberleninkа.ru/аrticle/n/metody-poiskа-dublikаtov-skomponovаnnyh-tekstov-nаuchnoy-stilistiki (дата обращения: 04.04.2016)
- Ширяев М.а., Мустакимов В. Plаgiаtinform избавит от плагиата в научных работах // Educаtionаl Technology & Society 11 2011. URL: http://cyberleninkа.ru/аrticle/n/problemа-plаgiаtа-v-nаuchnyh-rаbotаh (дата обращения: 05.04.2016)
- Неелова Н.В., Сычугов А. А. Сравнение результатов детектирования дублей методом шинглов и методом Джаккарда // Вестник РГРТУ. № 4 (выпуск 34). Рязань, 2012. URL: http://www.top-technologies.ru/ru/аrticle/view?id=26836 (дата обращения: 01.04.2016)