УДК 004.9

ОПРЕДЕЛЕНИЕ РЕЙТИНГА ШКОЛЬНЫХ САЙТОВ С ПОМОЩЬЮ НЕЧЕТКОГО МОДЕЛИРОВАНИЯ

Назаров Антон Дмитриевич
Уральский государственный экономический университет
студент 4 курса кафедры бизнес-информатики

Аннотация
Данная статья посвящена инновационному методу оценки веб-сайтов с помощью технологии нечетко-множественного моделирования. Проведенное исследование показало, что предложенная модель, выполненная в нечеткой среде Matlab, качественная и эффективная и с помощью нее можно определить рейтинг сайтов в поисковой системе.

Ключевые слова: нечеткая логика, поисковые системы, ранжирование сайтов, рейтинг сайтов, сайты, школьные сайты


RANKING ON SCHOOL SITES USING FUZZY MODELING

Nazarov Anton Dmitrievich
Ural State University of Economics
4th year student of the Department of Business Informatics

Abstract
This article focuses on innovative methods of evaluating websites with technology fuzzy multiple simulations. The study showed that the proposed model, made in a fuzzy environment Matlab, efficiently and effectively, and with it you can determine the ranking in search engines.

Keywords: fuzzy logic, ranking sites, rating sites, school sites, search engines, sites


Рубрика: 05.00.00 ТЕХНИЧЕСКИЕ НАУКИ

Библиографическая ссылка на статью:
Назаров А.Д. Определение рейтинга школьных сайтов с помощью нечеткого моделирования // Современные научные исследования и инновации. 2015. № 12 [Электронный ресурс]. URL: http://web.snauka.ru/issues/2015/12/61503 (дата обращения: 20.11.2016).

В современном мире Интернет занимает всё больше и больше места в нашей жизни. Без сайтов, социальных сетей уже не обходится ни одно крупное и малое предприятие или учреждение. Главной  целью их создания является продвижение. После публикации, сайт становится доступен пользователям интернет всего мира. Для только что открывшейся фирмы, сайт является основой для привлечения новых клиентов, а чтобы сайт люди смогли найти его приходится продвигать всеми различными средствами. [1, с. 69] Но возьмем, например, сайт общеобразовательной школы, его специально никто не продвигает, он покоится в сети и только некоторые факторы заставляют его продвигаться в поиске. Сама поисковая система будь то Google или Яндекс по  определенному алгоритму решает, на какой позиции будет находиться этой сайт. Для того чтобы понять как влияют различные критерии на продвижение сайтов, которые не двигаются в поиске специальными средствами, а именно сайты общеобразовательных учреждений, было задумано разработать нечеткую модель. Нечеткая модель покажет, как определяется рейтинг школьных сайтов в выдаче поисковых систем.

Если вы хотите, чтобы ваш сайт продвигался самостоятельно, необходимо анализировать алгоритмы поисковых систем и основные принципы ранжирования. [1, с. 70]

Ранжирование сайта – элемент поискового продвижения, который определяет порядок выдачи согласно рангу, авторитету и релевантности проиндексированных веб-ресурсов. [2]

Все факторы ранжирования представляют серьезную значимость. Классифицируем вышеуказанные факторы:

Внутренние — контент веб страницы, ее структура и правильность верстки, а так же степень ее засспамленности ключевыми словам.

Внешние — ссылочная релевантность и так называемый траст сайта (насколько поисковики ему доверяют);

Поведенческие факторы — оценивается поведение пользователей в поисковой выдаче и их поведение на самом сайте.

Региональные факторы — последнее время они очень заметны в Яндексе, когда в выдачах по какому-либо региону России отдается предпочтение ресурсам относящимся именно к этому региону.

Немаловажным элементом ранжирования являются показатели: ТИЦ (тематический индекс цитирования) и PR (индикатор своеобразного «доверия» поисковой системы). [3]

Алгоритмы поисковых систем – это математические формулы, по которым поисковые системы решают задачу выдачи сайтов в результаты поиска. Каждая поисковая система использует свои алгоритмы для поиска, которые время от времени обновляются с целью осуществления более качественной  выдачи.

Поисковая машина, руководствуясь алгоритмом, анализирует контент сайта, выясняет наличие в составе контента ключевой фразы, принимает решение о том, насколько сайт соответствует запросу пользователя, и в зависимости от степени соответствия присваивает сайту ту или иную позицию в выдаче – выше или ниже. [4]

У поисковых систем есть несколько алгоритмов по которым они работают. Самый первый и самый старый алгоритм – это алгоритм прямого поиска. Поиск при помощи данного алгоритма нам дает достоверную на 100% информацию, но в больших масштабах он не применим так как поиск информации занимает большое количество времени.

Второй алгоритм – это алгоритм инвертированных индексов. Данный алгоритм используется и сейчас  всеми известными нам поисковыми системами Яндекс, Rambler, Google, Yahoo и т.д. работают именно по этому алгоритму.

Инвертированный (обратный) индекс – это текстовый файл, содержащий список слов документа отсортированный в алфавитном порядке с указанием позиций и других параметров вхождения этих слов в документ. Преимущество использования данного алгоритма – это быстродействие. Так как поиск осуществляется не в самом документе (в интернет страничках) а вот в таких текстовых файлах. Недостаток такого алгоритма в том что происходит некое искажение информации, так сказать потеря информации. Есть еще несколько алгоритмов поиска – но они мало используются и зачастую в целях эксперимента. [5]

Проанализировав вышеуказанные алгоритмы, и, определив недостатки, мы выявили новый алгоритм, который основан на технологиях нечеткой логики.

Нечеткая логика – система, которая обобщает классическую логику рассуждений в условиях неопределенности при этом  использует обороты естественного языка. На основе этого понятия вводятся различные логические операции над нечёткими множествами и формулируется понятие лингвистической переменной, в качестве значений которой выступают нечёткие множества.

Нечеткая логика позволяет описывать качественные и неточные критерии, а также оперировать этими знаниями с целью получения новой информации. Критерии определяются мнением «эксперта», то есть человека опытного человека, принимающего решение в некоторой сфере. Основная идя нечеткой логики заключается в переводе «мнения эксперта» в числовой вид.

По утверждению создателя нечеткой логики Л. Заде, с ростом сложности системы постепенно падает способность человека делать точные и в то же время значащие утверждения относительно ее поведения, пока не будет достигнут порог, за которым точность и релевантность становятся взаимоисключающими характеристиками.

Одним из основных методов представления знаний в экспертных системах являются продукционные правила, позволяющие приблизиться к стилю мышления человека. Обычно продукционное правило записывается в виде: ЕСЛИ посылка [И посылка …], ТО заключение, где посылка и заключение являются нечеткими высказываниями.

Например: ЕСЛИ Надежность высокая И Изучаемость средняя, ТО Полезность высокая. [7, с. 23]

Нечеткие системы тоже используют продукционные правила, но вместо посылки, в них используются  лингвистические переменные, что позволяет избежать ограничений, присущих классическим продукционным правилам [7, с. 101].

Для проектирования моделей существует множество программных средств. Рассмотрим некоторые из них.

Matlab — это интерактивная среда для программирования численных расчетов и визуализации результатов. С помощью Matlab можно:

  • проводить анализ данных
  • создавать алгоритмы и модели
  • исследовать различные подходы и оперативно получать решение

Matlab широко используется в таких областях, как:

  • обработка сигналов и связь,
  • обработка изображений и видео,
  • системы управления,
  • автоматизация тестирования и измерений,
  • финансовый инжиниринг,
  • вычислительная биология и т.п. [8]

Для построения модели были взяты школьные сайты и определение их рейтинга в выдаче поисковой системы Google. Был проведен анализ 10 сайтов школ города Екатеринбурга. Данные показаны на рисунке 1.

Рисунок 1 – Проанализированные данные

Вследствие этих данных был сформирован диапазон для значения параметров. Эти критерии и станут входными параметрами для модели. Это:

1. PR (PageRank), он изменяется от 0 до 3 и имеет значения:

–       низкий: от 0 до 1

–       средний: от 1 до 2

–       высокий: от 2 до 3

2. Время загрузки сайта в секундах, оно изменяется от 0 до 6 секунд и имеет значения:

–       быстрая: от 0 до 0.50

–       средняя: от 0.50 до 1

–       медленная: от 1 и 6

3. Кол-во уникальных посетителей сайта за сутки, оно изменяется от 0 до 412 и имеет значения:

–       низкое: от 0 до 75

–       среднее: от 75 до 300

–       высокое: от 300 до 412

Выходной параметр – результат продвижения сайтов – будет устанавливаться  базой правил, созданной различными комбинациями входных переменных по правилу: «Если…., то….». Он имеет значения:

–       высокий: от 0 до 30

–       средний: от 30 до 70

–       низкий: от 70 до 100

Создание модели определения рейтинга школьных сайтов в выдаче поисковой системы Google было проведено в программе Matlab. Она имеет специальное средство для работы с нечеткой логикой – Fuzzy Logic Toolbox.

Для начала перенесем наши данные в модель. На рисунке 2 представлена общий вид модели.

Рисунок 2 – Общий вид модели

Далее нужно сформировать список правил, составлять его будем на основе ранее проанализированных данных. Всего будет 27 правил. Создадим первое правило, представленное на рисунке 9 для следующих значений входящих переменных:

-       PageRank = «низкий»;

-       Времязагрузки = «медленное»;

-       Посетители = «низкое».

If (PageRank is низкий) and (ВремяЗагрузки is медленное) and (Посетители is высокое) then (Рейтинг is средний)

Далее по такому же принципу сформируем остальные 26 правил.

Рисунок 3 – Первая часть правил

Рисунок 4 – Вторая часть правил

Модель также можно представить в виде графика в окне Surface Viewer. Данный способ позволяет наглядно продемонстрировать влияние факторов на рейтинг сайта. В качестве оси Z выступает выходная переменная, а оси Х и Y представляют входные переменные. График Surface Viewer  показан на рисунке 5.

Рисунок 5 – График в окне Surface Viewer

После проектирования модели ее нужно протестировать. Возьмем 2 набора данных на основе проанализированных сайтов школ.

Возьмем школьный сайт  - www.школа-96.рф. Он имеет следующие данные:

  1. PageRank = 3
  2. Время загрузки сайта = 0.10 секунды
  3. Количество посетителей за сутки = 412

Рисунок 6 – Тестирование первого набора данных

В результате мы видим, что выходной параметр = 89.8, а это значит, что результат продвижения сайта высокий.

На сайте http://xseo.in можно проверить по запросам, на каком месте находится сайт в рейтинге Google. Сделав запрос «Школьный сайт Екатеринбург» сайт школы 96 занял 5 место. Это показано на рисунке 7,  что подтверждает результат созданной модели.

Рисунок 7 – Первая проверка по запросу  «Школьный сайт Екатеринбург»

Следующим проверим сайт гимназии №40 – www.gimnazia40.ru. Он имеет следующие данные:

1.      PageRank = 1

2.      Время загрузки сайта = 1.51 секунда

3.      Количество посетителей за сутки = 55

Рисунок 8 – Тестирование второго набора данных

В результате мы видим, что выходной параметр = 14.2, а это значит, что рейтинг сайта низкий. Снова проверяем по запросу «школьный сайт Екатеринбург» на сайте http://xseo.in и видим, что он даже не попал в рейтинг топ-100, что опять же подтверждает результат, показанный у модели. Запрос показан на рисунке 9.

Рисунок 9 – Вторая проверка по запросу «Школьный сайт Екатеринбург»

Проведя тестирование, можно сказать, что модель заявила себя как качественная и эффективная и с помощью нее можно определять рейтинг школьных сайтов в поисковой системе.


Библиографический список
  1. Назаров А. Д., Назаров Д. М., Благинин В. А. Компаративный анализ инструментов веб-аналитики и поисковой оптимизации. Материалы Международной научно-практической очно-заочной конференции «BI-технологии в оптимизации бизнес-процессов» (Екатеринбург, 2 декабря 2014 г.) – Екатеринбург: Издательство УрГЭУ, 2014. – 117 с. – с. 69-72 (РИНЦ)
  2. Записки SEO специалиста [Электронный ресурс]. – Режим доступа: http://www.workformation.ru
  3. Webeffector [Электронный ресурс]. – Режим доступа: http://www.webeffector.ru/
  4. Ашманов И., Иванов А. Оптимизация и продвижение сайтов в поисковых системах. 3-е издание [Текст] —2011. — С. 57.
  5. Сетевая система обучения [Электронный ресурс]. – Режим доступа: http://www.distanz.ru
  6. Евсюков М.А., Номоконова Н.Н. Применение нечеткой логики в задачах моделирования [Текст]// Фундаментальные исследования. – 2005. – № 7 – С. 50
  7. Назаров Д.М., Конышева Л.К. Основы теории нечетких множеств: Учебное пособие. – Питер, 2011 – 192 с.: ил.
  8. Math works [Электронный ресурс]. – Режим доступа: http://matlab.ru


Все статьи автора «Назаров Антон Дмитриевич»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться:
  • Регистрация