Сеть Интернет содержит большое количество разнородных данных в свободном доступе, которые могут быть полезными для исследований в различных областях. Однако для этого необходимо выделить адекватные математическиеметоды, которые были бы эффективны в подобных исследованиях. Эта необходимость обосновывает актуальность нашей темы. Соответственно, целью нашего исследования стал поиск способа формализации данных, собранных в сети Интернет для анализа, и возможности приведения их к виду, пригодному для последующей математической обработки, а также предложение и апробирование алгоритмов анализа формализованных таким образом данных и экспериментальное доказательство возможности получения значимых результатов. Объектом исследования является множество данных, характеризующих определенную сферу деятельности в сети Интернет, а предметом – способ формализации, обработки и анализа данных, позволяющих обосновать их классификацию и сделать полезные выводы о сущности и динамике исследуемых явлений. Для апробации были выбраны данные о поведении участников онлайн-игр, а также их активности в социальных сетях, характеризующие динамику общения участников онлайн-игр.
Нами была выбрана проблема формализации расположенных в сети Интернет данных и методов анализа обработанной информации.
Для анализа был выбран набор слабоструктурированной информации, относящейся к сфере, связанной с влиянием онлайн-игр на развитие общительности людей.
В процессе исследования были поставлены следующие задачи:
-
Выдвинуть гипотетический метод формализации данных;
-
Выдвинуть гипотезу о методе их обработки;
-
Осуществить сбор данных, доступных в сети Интернет, из выбранной сферы;
-
Формализовать собранные данные выбранным способом;
-
Провести анализ над формализованными выбранным способом данными.
I. Метод формализации данных
Известно, что в некоторых областях науки данные для исследования являются преимущественно слабоструктурированными. В таких случаях часто применяются статистические методы. Предварительная обработка данных представляет собой распределение данных на группы по определенным признакам и подсчет количества элементов различных групп. Данный процесс хорошо формализуем с помощью теории множеств. При этом следует описать группы как множества, признаки – как условия вхождения фактов во множества, количество же значений в группе, очевидно, является его мощностью.
II. Метод анализа данных
Корреляционный анализ показывает существование (или отсутствие) взаимосвязи между двумя показателями в выборке (либо двух выборках). При существовании связи он характеризует связь: корреляция положительна, если при возрастании одного из показателей второй также возрастает, и отрицательна, если при возрастании одного из показателей второй убывает. При отсутствии связи выборок корреляция является нулевой. Важно также отметить, что существование корреляций не дает информации о причинно-следственных отношениях.[1]
Способы вычисления коэффициента корреляции выбираются исходя из характеристик данных.
Коэффициент взаимной сопряженности Пирсона— оценка степени тесноты связи между качественными признаками.[2, с. 235]
Применение корреляционного анализа в нашем исследовании позволяет дать количественно выраженную оценку взаимосвязи признаков, например, как количество участников групп онлайн – игры в социальных сетях и степень их активности при обновлениях игры, или количество построенных стратегий за игру и уровень общительности участников игры, схожесть распределения фактов по множествам.
III. Сбор данных из выбранной сферы
В качестве примера для апробации описанных методов в сфере исследования взаимосвязи общительности людей в онлайн-играх и социальных сетях были выбраны две популярные онлайн-игры: PrimeWorld и DarkAge. Для отслеживания динамики общения была проанализирована частота общения участников игр в двух средах: как внутри самих игр, так и в социальных сетях (Вконтакте, Twitter, Facebook).
Для решения задачи сбора выбранных данных были осуществлены следующие действия:
-
Сбор статистики по динамике изменений количества человек в игровой группе конкретной игры (PrimeWorld) по трем социальным сетям: Вконтакте, Facebook, Twitter.
-
Сбор статистики по количеству просмотров обновлений игры за месяц и количеству построенных в ней стратегий за тот же период.
-
Сбор статистики игровой активности по конкретно выбранному виду игровой деятельности (т.н. ежедневные квесты) в конкретно выбранной игре (DarkAge), необходимым условием осуществления которого являются общение с другими участниками игры и командная работа, на основе опроса случайно выбранной группы игроков.
-
Сбор статистики по количеству сообщений на стене участников опроса п.3 методом программного обращения к сайту Вконтакте через предоставляемый API.
Полученные в результате приведенных действий данные были записаны как факты следующих видов:
а) Данные, относящиеся к динамике рассматриваемой нами социальной сферы и соответствующие пунктам 1 и 2. По выбранным данным было задано следующее множество:
R = {r: r – факт из выборки}.
Эти данные приведены в таблице 1.
Таблица 1 — Динамика активности игроков игры PrimeWorld в социальных сетях
Вконтакте |
|
|
|
Количество человек в группах всего (на начало исследования) |
177 650 |
214655 |
180000 |
Количество добавляющихся в группу людей |
|||
За месяц |
30000 |
15000 |
45000 |
б) Данные, относящиеся к статическому аспекту рассматриваемой нами социальной сферы и соответствующие пунктам 3 и 4. Собранная нами выборка такого рода данных включала 95 фактов и описывалась как множество
F = { f: f – факт из выборки }.
Пример указанных данных приведен в таблице 2.
Таблица 2 — Задействование навыков общения участников онлайн-игр в играх и социальных сетях
Участник |
Участие в квестах |
Записей на стене |
Участник 1 |
Иногда |
147 |
Участник 2 |
Нет |
10 |
IV. Формализация данных
Факты каждого вида (1-2 и 3-4) были формализованы описанным выше образом.
Во-первых, покажем процесс и результат формализации данных динамического аспекта. Эти данные отображают динамику активности игроков в социальных сетях и могут быть представлены следующим образом:
Y1, Y2, Y3 – множества, представляющие социальные сети ВКонтакте, Facebook, Twitter.
Y1 = {Факты о пользователях, вступивших в группу игры за месяц, в социальной сети ВКонтакте};
Y2 = {Факты о пользователях, вступивших в группу игры за месяц, в социальной сети Facebook};
Y3 = {Факты о пользователях, вступивших в группу игры за месяц, в социальной сети Twitter}.
Для отслеживания активности игроков в социальных сетях было выделено два пересекающихся множества Y4 и Y5, где
Y4 = {Факты о просмотрах обновлений игры за месяц};
Y5 = {Факты о стратегиях, построенных после каждого обновления игры за месяц}
Было выделено множество K, содержащее факты, относящиеся одновременно ко двум множествам Y4 и Y5.
K = {Y4 ∩ Y5}.
Во-вторых, покажем процесс и результат формализации данных статического аспекта.
Факты вида 3 были разделены на непересекающиеся множества соответственно следующему критерию:
Q3.1 = {Ответ “Да” в графе “Участие в квестах”}
Q3.2 = {Ответ “Иногда” в графе “Участие в квестах”}
Q3.3 = {Ответ “Нет” в графе “Участие в квестах”}
Факты данного вида были включены во множество данных, соответствующих описанным критериям
Q3 = { Q3.1 ∪ Q3.2 ∪ Q3.3 }
Для фактов вида 4 эвристически было выбрано разделение на непересекающиеся множества (интервалы шкалы общительности), представленные в таблице 3.
Таблица 3 — Разбиение фактов о количестве записей на стене игроков по множествам (интервалам)
Множество |
Признак элементов множества |
A1 |
до 50 записей на стене |
A2 |
50-200 |
B |
200-1000 |
C |
больше 1000 |
Факты данного вида включены во множество
Q4 = {A1 ∪ A2 ∪ B ∪ C}.
Для рассматриваемого случая множества Q3 и Q4 совпадают и совпадают со множеством всех фактов F. Мощности множеств равны количеству собранных фактов.
V. Анализ собранных данных
Во-первых, рассмотрим анализ данных динамического аспекта.
Для анализа этих данных (множества Y4, Y5), факты из множества K были разбиты на подмножества следующим образом:
∀ k∈K k∈XZ ⇔ k∈Yi & k∈Yj,
где X=Yi ∈ {Y1, Y2, Y3} и Z=yj ∈ {Y4, Y5} , i=1..3, j=1,2
Далее были посчитаны мощности полученных множеств. Результаты занесены в таблицу 4. На распределении фактов из Y4 и Y5 по социальным сетям была подсчитана корреляция Пирсона.
Таблица 4 — Мощности подмножеств в результате разбиения фактов множества K
Y1 (Вконтакте) |
Y2 (Facebook) |
Y3 (Twitter) |
Корреляция |
|
Y4 |
3413 |
35 |
540 |
0,881821 |
Y5 |
100 |
46 |
78 |
Корреляция между распределениями данных по Y1, Y2, Y3 составляет 0,881821, что позволяет предположить, что количество человек, зарегистрированных в группе каждой социальной сети, взаимосвязано с активностью участников группы.
Во-вторых, рассмотрим анализ данных статического аспекта.
Для анализа данных вида 3-4 (множества Q3,Q4) факты из множества F были распределены по совокупности множеств по следующему принципу:
∀ f∈F f∈XY ⇔ f∈qi & f∈qj,
где X=qi∈Q3 и Y=qj∈Q4 и i=1..|Q3| и j=1..|Q4|
Таким образом в каждое множество были включены факты, обладающие одновременно двумя одинаковыми атрибутами (ответу по виду игровой деятельности “ежедневные квесты” и интервалу шкалы общительности по количеству записей на стене). Для дальнейшего исследования мы использовали мощности данных множеств, представленные в таблице 5.
Таблица 5 — Мощности подмножеств в результате разбиения фактов множества F
A1 |
23 |
11 |
4 |
A2 |
12 |
4 |
0 |
B |
14 |
8 |
1 |
C |
11 |
6 |
1 |
Q3.1 |
Q3.2 |
Q3.3 |
Далее был проведен анализ распределений фактов по данным множествам. Результаты представлены в таблице 6.
Таблица 6 — Анализ данных статического аспекта
Сравнение распределений: |
Корреляция Пирсона по распределению: |
Вывод: |
1. Сравнение распределения фактов (ежедневные квесты) по множествам B и C. |
||
Гипотеза: данные не отличаются по распределению. |
0,9980314961 |
Гипотеза верна |
2. Сравнение распределения фактов (ежедневные квесты) по множествам A1 и A2. |
||
Гипотеза: данные не отличаются по распределению. |
0,9984528107 |
Гипотеза верна |
3. Сравнение распределения фактов по множествам A1∪A2 и B∪C |
||
Гипотеза: распределение данных отличается. |
0,8558929454 |
— |
Таким образом, на имеющихся данных было доказано, что выделенные интервалы A1 и A2 по распределению ответов по шкале “да – нет – наверное” схожи. Аналогично схожими оказались интервалы B и C.
Однако корреляция между данными интервалов A1∪A2 и B∪C составляет 0,8558929454, что не является достаточным для доказательства сходства или различия их распределений.
В результате нашего исследования мы обосновали способ формализации и приведения собранных в сети Интернет слабоструктурированных данных к пригодному для математической обработки виду, а также метод анализа этих данных. В качестве апробации предлагаемых методов нами был проведен анализ, направленный на выявления динамики общения в онлайн-играх и социальных сетях. При этом была установлена корреляционная зависимость между обновлениями функций игры и активностью участников социальных форумов, содержательных и функциональных аспектов, приводящих к нарастанию интереса к игре.
Также проведенный анализ показал, что критерии общительности могут быть разделены на два слабо пересекающихся класса: класс людей, обладающих высокой общительностью в виртуальном мире (одновременно в онлайн-играх и социальных сетях) и класс людей, обладающих низкой общительностью там же.
На основе полученных результатов был сделан вывод о том, что выбранные способы формализации и предложенные алгоритмы анализа позволяют получать значимые результаты на основе разнородных данных из сети Интернет. В том числе установлено, что можно и нужно исследовать связь общительности в виртуальном мире и игровой активности через социальные сети, так как в социальный сетях расположено большое количество игр, на примере которых может быть проведено исследование; при этом показано, что появляется дополнительное измерение для извлечения данных – активность и общительность в социальной сети против активности в игре.
Библиографический список
- Интернет-ресурс: Метод корреляционного анализа. Процедуры. http://biofile.ru/psy/1662.html (Дата обращения: 14.04.2016).
- Яковлева Н.Ф. Социологическое исследование [Электронный ресурс]: учеб. пособие. 2-е изд., стер. М. : ФЛИНТА, 2014. 250с.