УДК 004

МЕТОДЫ ПОИСКА ЗАИМСТВОВАНИЙ В СЕТИ ИНТЕРНЕТ

Москаленко Екатерина Николаевна1, Слесарев Юрий Николаевич1
1ФГБОУ ВО «Московский государственный университет технологий и управления имени К.Г. Разумовского (Первый казачий университет)» Пензенский казачий институт технологий (филиал)

Аннотация
В данной статье рассматриваются способы реализации поиска плагиата с использованием сети Интернет, рассмотрен способ реализации и внедрения этих способов для нового программного обеспечения, выполняющих поиск и анализ заимствований.

Ключевые слова: запросы, онлайн-сервисы, плагиат, поиск google, проверка документов


METHODS OF SEARCHING FOR BORROWINGS OF TEXT DOCUMENTS ON THE INTERNET

Moskalenko Ekaterina Nikolaevna1, Slesarev Yuri Nikolaevich1
1Moscow State University of Technology and Management named K.G. Razumovsky (First Cossack University) Penza Cossack Institute of Technology (Branch)

Abstract
This article explores how to implement search for plagiarism using the Internet, and how to implement and implement these methods for new software that perform search and analysis of borrowing.

Keywords: google web search API


Рубрика: 05.00.00 ТЕХНИЧЕСКИЕ НАУКИ

Библиографическая ссылка на статью:
Москаленко Е.Н., Слесарев Ю.Н. Методы поиска заимствований в сети Интернет // Современные научные исследования и инновации. 2017. № 4 [Электронный ресурс]. URL: http://web.snauka.ru/issues/2017/04/80894 (дата обращения: 18.04.2017).

На настоящий момент времени нет ни одного онлайн-сервиса и ни одной программы, которые бы со 100% вероятностью позволяли выявить плагиат в Интернете. Но если использовать несколько сервисов и программ, то высока вероятность, что плагиат будет выявлен.

Один из вариантов реализации поиска плагиата в текстовых и научных работах студентов возможен за счет использования google web search API. Программа или он-лайн сервис отправляет запрос по API в поиск google и получает ответы, иными словами результаты запроса. Если ответ содержит данные и что-то найдено, программа или сервис сравнивает результаты и анализирует совпадения. Если совпадений найдено много, на проверку отправляется следующее предложение. Проверка производится до конца текстового документа. Однако, если совпадений не найдено по нескольким выбранным программой автоматически  предложениям,  делается вывод об отсутствии заимствований, т.к. в сети Интернет похожий текстовый документ отсутствует.

Поиск плагиата может осуществляться по собственной справочной коллекции работ студентов. Google Web Search API позволяет осуществить поиск плагиата на веб-страницах с помощью JavaScript. Результаты поиска можно интегрировать в  собственные веб-страницы или использовать в любом собственном программном обеспечении. Поисковую систему можно настроить как для поиска текста, так и изображений.

С помощью Google Web Search API можно осуществить:

– создание пользовательских поисковых систем, которые осуществлять поиск по указанному набору сайтов или страниц;

–  поиск изображений;

– настройку внешнего вида результатов поиска;

– структурировать поиск данных, чтобы персонализировать результаты поиска [1].

Тематическая поисковая система является инструментом, который фокусируется на определенной тематике.  Иными словами, осуществлять поиск плагиата имеет смысл не по всей сети Интернет, а по статьям, сборникам журналов, научной литературе и подобным источникам информации.

Можно выполнять точный и надежный расширенный поиск, используя стандартную систему google.com поисковой системы, выбрав правильные ключевые слова, используя операторы поиска и фильтрацию результатов.

К примеру, в поисковую систему для студентов в инженерных специальностей можно добавить ключевое слово «инженерное», для того, чтобы дифференцировать технические результаты поиска общего характера от неоднозначных запросов [2].

Иногда условие поиска может быть неоднозначным или иметь различное значение в зависимости от контекста,  поэтому поиск необходимо делать более точным. К примеру, слова, часто используемые в работах студентов, могут носить шаблонный характер, что в свою очередь не позволяет сделать вывод о наличии заимствований в работах.

Однако необходимо учитывать методы скрытия заимствований. В тексте могут применяться синонимы, замена слов местами, русские буквы могут быть заменены на латинские  и т.д.

Кроме того, проверку текстов можно улучшить за счет внесения дополнительных фраз-синонимов, которые могут часто использоваться студентами в их научных работах.

Для проверки текста на плагиат надо вставить в строку поиска часть проверяемого текста, заключив его в кавычки.

Кроме рассмотренных выше способов, есть другие не менее результативные API по проверке текста в Интернете, к ним можно отнести Plagspotter.com и CopyScape.com (Premium).

Для поисковой системы Яндекс можно использовать стандартное API поиска, где исходный текст разбивается на шинглы. Либо возможно так же использовать собственные разработанные алгоритмы, которые осуществляют поиск во всей сети Интернет. Такие алгоритмы существуют практически у всех разработанных систем поиска заимствований в текстовых документах.

Однако самый точный результат оценки оригинальности можно получить только за счет использования нескольких систем или средств проверки текстов.


Библиографический список
  1. Свободная открытая энциклопедия «Википедия» // Сайт wikipediа.org
    URL: https://ru.wikipediа.org/wiki (дата обращения: 10.04.2017)
  2. Шарапов Р. В. Анализ подходов к обнаружению заимствованных текстов // Журнал «Современные наукоемкие технологии» — М: Российская академия естествознания,2015 г. No 3, С. 47–49 (дата обращения: 05.04.2017)


Все статьи автора «Москаленко Екатерина Николаевна»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться:
  • Регистрация