УДК 004.67

АНАЛИЗ ДАННЫХ ИЗ ИНТЕРНЕТ В ЗАДАЧЕ ИССЛЕДОВАНИЯ ОБЩЕНИЯ В СОЦИАЛЬНЫХ СЕТЯХ И ОНЛАЙН-ИГРАХ

Морозова Маргарита Александровна1, Чуканова Виктория Владимировна1
1Казанский (Приволжский) Федеральный университет, институт вычислительной математики и информационных технологий, студент

Аннотация
В статье рассматриваются вопросы обработки и анализа слабоструктурированных данных из сети Интернет. Приводится обоснование способа формализации и последующего анализа, а также описывается апробация предложенного способа на данных о процессе общения участников онлайн-игр внутри игрового пространства и в социальных сетях.

Ключевые слова: анализ данных, онлайн-игра, параметры общения, слабоструктурированные данные, социальная сеть, формализация данных


INTERNET DATA ANALISYS IN RESEARCH OF COMMUNICATIONS IN SOCIAL NETWORKS AND ONLINE GAMES

Morozova Margarita Aleksandrovna1, Chukanova Viktoriia Vladimirovna1
1Kazan Federal University, Institute of Computer Mathematics and Information Technologies, student

Abstract
The article examines processing and analisys of semistructured data from Internet. It provides the substantiation for the method of formalization and subsequent analysis and describes the approbation of the proposed method on data related to online games players communications in games and social networks.

Рубрика: 01.00.00 ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ

Библиографическая ссылка на статью:
Морозова М.А., Чуканова В.В. Анализ данных из Интернет в задаче исследования общения в социальных сетях и онлайн-играх // Современные научные исследования и инновации. 2016. № 6 [Электронный ресурс]. URL: http://web.snauka.ru/issues/2016/06/67416 (дата обращения: 20.11.2016).

 Сеть Интернет содержит большое количество разнородных данных в свободном доступе, которые могут быть полезными для исследований в различных областях. Однако для этого необходимо выделить адекватные математическиеметоды, которые были бы эффективны в подобных исследованиях. Эта необходимость обосновывает актуальность нашей темы. Соответственно, целью нашего исследования стал поиск способа формализации данных, собранных в сети Интернет для анализа, и возможности приведения их к виду, пригодному для последующей математической обработки, а также предложение и апробирование алгоритмов анализа формализованных таким образом данных и экспериментальное доказательство возможности получения значимых результатов. Объектом исследования является множество данных, характеризующих определенную сферу деятельности в сети Интернет, а предметом – способ формализации, обработки и анализа данных, позволяющих обосновать их классификацию и сделать полезные выводы о сущности и динамике исследуемых явлений. Для апробации были выбраны данные о поведении участников онлайн-игр, а также их активности в социальных сетях, характеризующие динамику общения участников онлайн-игр.

Нами была выбрана проблема формализации расположенных в сети Интернет данных и методов анализа обработанной информации.

Для анализа был выбран набор слабоструктурированной информации, относящейся к сфере, связанной с влиянием онлайн-игр на развитие общительности людей.

В процессе исследования были поставлены следующие задачи:

  1. Выдвинуть гипотетический метод формализации данных;

  2. Выдвинуть гипотезу о методе их обработки;

  3. Осуществить сбор данных, доступных в сети Интернет, из выбранной сферы;

  4. Формализовать собранные данные выбранным способом;

  5. Провести анализ над формализованными выбранным способом данными.

I. Метод формализации данных

Известно, что в некоторых областях науки данные для исследования являются преимущественно слабоструктурированными. В таких случаях часто применяются статистические методы. Предварительная обработка данных представляет собой распределение данных на группы по определенным признакам и подсчет количества элементов различных групп. Данный процесс хорошо формализуем с помощью теории множеств. При этом следует описать группы как множества, признаки – как условия вхождения фактов во множества, количество же значений в группе, очевидно, является его мощностью.

II. Метод анализа данных

Корреляционный анализ показывает существование (или отсутствие) взаимосвязи между двумя показателями в выборке (либо двух выборках). При существовании связи он характеризует связь: корреляция положительна, если при возрастании одного из показателей второй также возрастает, и отрицательна, если при возрастании одного из показателей второй убывает. При отсутствии связи выборок корреляция является нулевой. Важно также отметить, что существование корреляций не дает информации о причинно-следственных отношениях.[1]

Способы вычисления коэффициента корреляции выбираются исходя из характеристик данных.

Коэффициент взаимной сопряженности Пирсона— оценка степени тесноты связи между качественными признаками.[2, с. 235]

Применение корреляционного анализа в нашем исследовании позволяет дать количественно выраженную оценку взаимосвязи признаков, например, как количество участников групп онлайн – игры в социальных сетях и степень их активности при обновлениях игры, или количество построенных стратегий за игру и уровень общительности участников игры, схожесть распределения фактов по множествам.

III. Сбор данных из выбранной сферы

В качестве примера для апробации описанных методов в сфере исследования взаимосвязи общительности людей в онлайн-играх и социальных сетях были выбраны две популярные онлайн-игры: PrimeWorld и DarkAge. Для отслеживания динамики общения была проанализирована частота общения участников игр в двух средах: как внутри самих игр, так и в социальных сетях (Вконтакте, Twitter, Facebook).

Для решения задачи сбора выбранных данных были осуществлены следующие действия:

  1. Сбор статистики по динамике изменений количества человек в игровой группе конкретной игры (PrimeWorld) по трем социальным сетям: Вконтакте, Facebook, Twitter.

  2. Сбор статистики по количеству просмотров обновлений игры за месяц и количеству построенных в ней стратегий за тот же период.

  3. Сбор статистики игровой активности по конкретно выбранному виду игровой деятельности (т.н. ежедневные квесты) в конкретно выбранной игре (DarkAge), необходимым условием осуществления которого являются общение с другими участниками игры и командная работа, на основе опроса случайно выбранной группы игроков.

  4. Сбор статистики по количеству сообщений на стене участников опроса п.3 методом программного обращения к сайту Вконтакте через предоставляемый API.

Полученные в результате приведенных действий данные были записаны как факты следующих видов:

а) Данные, относящиеся к динамике рассматриваемой нами социальной сферы и соответствующие пунктам 1 и 2. По выбранным данным было задано следующее множество:

R = {r: r – факт из выборки}.

Эти данные приведены в таблице 1.

Таблица 1 — Динамика активности игроков игры PrimeWorld в социальных сетях

Вконтакте

Facebook

Twitter

Количество человек в группах всего (на начало исследования)

177 650

214655

180000

Количество добавляющихся в группу людей

За месяц

30000

15000

45000

б) Данные, относящиеся к статическому аспекту рассматриваемой нами социальной сферы и соответствующие пунктам 3 и 4. Собранная нами выборка такого рода данных включала 95 фактов и описывалась как множество

F = { f: f – факт из выборки }.

Пример указанных данных приведен в таблице 2.

Таблица 2 — Задействование навыков общения участников онлайн-игр в играх и социальных сетях

Участник

Участие в квестах

Записей на стене

Участник 1

Иногда

147

Участник 2

Нет

10

IV. Формализация данных

Факты каждого вида (1-2 и 3-4) были формализованы описанным выше образом.

Во-первых, покажем процесс и результат формализации данных динамического аспекта. Эти данные отображают динамику активности игроков в социальных сетях и могут быть представлены следующим образом:

Y1, Y2, Y3 – множества, представляющие социальные сети ВКонтакте, Facebook, Twitter.

Y1 = {Факты о пользователях, вступивших в группу игры за месяц, в социальной сети ВКонтакте};

Y2 = {Факты о пользователях, вступивших в группу игры за месяц, в социальной сети Facebook};

Y3 = {Факты о пользователях, вступивших в группу игры за месяц, в социальной сети Twitter}.

Для отслеживания активности игроков в социальных сетях было выделено два пересекающихся множества Y4 и Y5, где

Y4 = {Факты о просмотрах обновлений игры за месяц};

Y5 = {Факты о стратегиях, построенных после каждого обновления игры за месяц}

Было выделено множество K, содержащее факты, относящиеся одновременно ко двум множествам Y4 и Y5.

K = {Y4 ∩ Y5}.

Во-вторых, покажем процесс и результат формализации данных статического аспекта.

Факты вида 3 были разделены на непересекающиеся множества соответственно следующему критерию:

Q3.1 = {Ответ “Да” в графе “Участие в квестах”}

Q3.2 = {Ответ “Иногда” в графе “Участие в квестах”}

Q3.3 = {Ответ “Нет” в графе “Участие в квестах”}

Факты данного вида были включены во множество данных, соответствующих описанным критериям

Q3 = { Q3.1 ∪ Q3.2 ∪ Q3.3 }

Для фактов вида 4 эвристически было выбрано разделение на непересекающиеся множества (интервалы шкалы общительности), представленные в таблице 3.

Таблица 3 — Разбиение фактов о количестве записей на стене игроков по множествам (интервалам)

Множество

Признак элементов множества

A1

до 50 записей на стене

A2

50-200

B

200-1000

C

больше 1000

Факты данного вида включены во множество

Q4 = {A1 ∪ A2 ∪ B ∪ C}.

Для рассматриваемого случая множества Q3 и Q4 совпадают и совпадают со множеством всех фактов F. Мощности множеств равны количеству собранных фактов.

V. Анализ собранных данных

Во-первых, рассмотрим анализ данных динамического аспекта.

Для анализа этих данных (множества Y4, Y5), факты из множества K были разбиты на подмножества следующим образом:

∀ k∈K k∈XZ ⇔ k∈Yi & k∈Yj,

где X=Yi ∈ {Y1, Y2, Y3} и Z=yj ∈ {Y4, Y5} , i=1..3, j=1,2

Далее были посчитаны мощности полученных множеств. Результаты занесены в таблицу 4. На распределении фактов из Y4 и Y5 по социальным сетям была подсчитана корреляция Пирсона.

Таблица 4 — Мощности подмножеств в результате разбиения фактов множества K

Y1 (Вконтакте)

Y2 (Facebook)

Y3 (Twitter)

Корреляция

Y4 

3413

35

540

0,881821

Y5 

100

46

78

Корреляция между распределениями данных по Y1, Y2, Y3 составляет 0,881821, что позволяет предположить, что количество человек, зарегистрированных в группе каждой социальной сети, взаимосвязано с активностью участников группы.

Во-вторых, рассмотрим анализ данных статического аспекта.

Для анализа данных вида 3-4 (множества Q3,Q4) факты из множества F были распределены по совокупности множеств по следующему принципу:

∀ f∈F f∈XY ⇔ f∈qi & f∈qj,

где X=qi∈Q3 и Y=qj∈Q4 и i=1..|Q3| и j=1..|Q4|

Таким образом в каждое множество были включены факты, обладающие одновременно двумя одинаковыми атрибутами (ответу по виду игровой деятельности “ежедневные квесты” и интервалу шкалы общительности по количеству записей на стене). Для дальнейшего исследования мы использовали мощности данных множеств, представленные в таблице 5.

Таблица 5 — Мощности подмножеств в результате разбиения фактов множества F

A1 

 23

 11

 4

A2 

 12

 4

 0

 14

 8

 1

 11

 6

 1

Q3.1 

Q3.2 

Q3.3 

Далее был проведен анализ распределений фактов по данным множествам. Результаты представлены в таблице 6.

Таблица 6 — Анализ данных статического аспекта

Сравнение распределений:

Корреляция Пирсона по распределению:

Вывод:

1. Сравнение распределения фактов (ежедневные квесты) по множествам B и C.

Гипотеза: данные не отличаются по распределению.

0,9980314961

Гипотеза верна

2. Сравнение распределения фактов (ежедневные квесты) по множествам A1 и A2.

Гипотеза: данные не отличаются по распределению.

0,9984528107

Гипотеза верна

3. Сравнение распределения фактов по множествам A1∪A2 и B∪C

Гипотеза: распределение данных отличается.

0,8558929454

Таким образом, на имеющихся данных было доказано, что выделенные интервалы A1 и A2 по распределению ответов по шкале “да – нет – наверное” схожи. Аналогично схожими оказались интервалы B и C.

Однако корреляция между данными интервалов A1∪A2 и B∪C составляет 0,8558929454, что не является достаточным для доказательства сходства или различия их распределений.

В результате нашего исследования мы обосновали способ формализации и приведения собранных в сети Интернет слабоструктурированных данных к пригодному для математической обработки виду, а также метод анализа этих данных. В качестве апробации предлагаемых методов нами был проведен анализ, направленный на выявления динамики общения в онлайн-играх и социальных сетях. При этом была установлена корреляционная зависимость между обновлениями функций игры и активностью участников социальных форумов, содержательных и функциональных аспектов, приводящих к нарастанию интереса к игре.

Также проведенный анализ показал, что критерии общительности могут быть разделены на два слабо пересекающихся класса: класс людей, обладающих высокой общительностью в виртуальном мире (одновременно в онлайн-играх и социальных сетях) и класс людей, обладающих низкой общительностью там же.

На основе полученных результатов был сделан вывод о том, что выбранные способы формализации и предложенные алгоритмы анализа позволяют получать значимые результаты на основе разнородных данных из сети Интернет. В том числе установлено, что можно и нужно исследовать связь общительности в виртуальном мире и игровой активности через социальные сети, так как в социальный сетях расположено большое количество игр, на примере которых может быть проведено исследование; при этом показано, что появляется дополнительное измерение для извлечения данных – активность и общительность в социальной сети против активности в игре.


Библиографический список
  1. Интернет-ресурс: Метод корреляционного анализа. Процедуры. http://biofile.ru/psy/1662.html (Дата обращения: 14.04.2016).
  2. Яковлева Н.Ф. Социологическое исследование [Электронный ресурс]: учеб. пособие. 2-е изд., стер. М. : ФЛИНТА, 2014. 250с.


Все статьи автора «Маргарита Морозова»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться:
  • Регистрация