УДК 004.622:519.237.5

ПОИСК ЛОЖНЫХ ЗНАЧЕНИЙ ВО ВРЕМЕННЫХ РЯДАХ МЕТОДОМ ОТКЛОНЕНИЯ КОЭФФИЦИЕНТОВ КОРРЕЛЯЦИИ

Голубничий Артем Александрович1, Туксина Елена Андреевна2
1Хакасский государственный университет им. Н.Ф. Катанова, ассистент кафедры инженерной экологии и основ производства
2Хакасский государственный университет им. Н.Ф. Катанова, магистрант кафедры программного обеспечения вычислительной техники и автоматизированных систем

Аннотация
В статье раскрывается алгоритм поиска ложных значений во временных рядах, обладающих сильной степенью корреляции. Рассматривается применение алгоритма на данных о скорости ветра системы мониторинга качества атмосферного воздуха Красноярского края.

Ключевые слова: временные ряды, корреляционный анализ, поиск ложных значений


SEARCH FALSE VALUES IN TIME SERIES BY THE DEVIATION OF CORRELATION COEFFICIENTS

Golubnichiy Artem Aleksandrovich1, Tuksina Elena Andreevna2
1Katanov Khakass State University, Assistant at the Department of Engineer Ecology and Bases of Production
2Katanov Khakass State University, Student of the Department of Computing Software and Automated Systems

Abstract
The article reveals the false values of the search algorithm in the time series, having a strong degree of correlation. The application of the algorithm to the data on the rate of air Krasnoyarsk Territory quality monitoring system of the wind.

Keywords: correlation analysis, the search for false values, time series


Рубрика: 05.00.00 ТЕХНИЧЕСКИЕ НАУКИ

Библиографическая ссылка на статью:
Голубничий А.А., Туксина Е.А. Поиск ложных значений во временных рядах методом отклонения коэффициентов корреляции // Современные научные исследования и инновации. 2016. № 8 [Электронный ресурс]. URL: http://web.snauka.ru/issues/2016/08/70543 (дата обращения: 20.11.2016).

Автоматизированные системы мониторинга качества окружающей среды, применяемые во многих исследованиях и оценках, помимо явных преимуществ (возможность сбора большого числа данных, сплошной характер наблюдения, возможность получения данных в режиме онлайн и т.д.) имеют также и определенные недостатки. Явным недостатком, снижающим ценность полученных данных, является наличие ложных значений. Природа и характер ложных значений различны, в зависимости от их происхождения ложные данные могут как занизить так и завысить значение показателей.

В качестве объекта исследования нами был взят набор значений скорости ветра по 6 постам наблюдений автоматизированной системы мониторинга состояния окружающей среды Красноярского края за период в один год [1]. Система служит для сбора данных о качестве окружающей среды региона и информировании граждан. Свободное распространение данных в сети Интернет на соответствующем сайте Центра реализации мероприятий по природопользованию и охране окружающей среды Красноярского края позволило автоматизировано получить необходимый набор данных посредством разработанного специализированного программного обеспечения [2]. Для исследования были взяты данные полученные методом усреднения из набора суточных значений. Таким образом в исследовании использовались 6 временных рядов с размерностью в 364 значения, уменьшение данных по сравнению с длительностью года было принято для кратности недельному периоду (52 недели). Посты краевой системы мониторинга расположены в г. Красноярске (5 постов) и в г. Ачинске (1 пост) (рисунок 1).

Рисунок 1 – Расположение постов мониторинга подсистемы мониторинга атмосферного воздуха КГБУ «ЦРМПиООС»

Расположение постов в относительной близости друг от друга (особенно расположенных в городе Красноярске), предполагает схожесть исходных климатических данных, однако непосредственное сравнение данных в исходном виде невозможно по причине наложения на климат характеристик среды. При организации системы мониторинга, в соответствии с требованиями государственного стандарта [3], должно соблюдаться требование проветриваемости участка, что, зачастую, не в полной мере осуществлялось или же на этапе расположения постов в городской застройке или же данное требование нарушилось при дальнейшей застройке города. Исходное предположение о невозможности сравнения данных постов легко проверить разбиением заданного временного ряда на отдельные интервала и последующим нахождением средних арифметических данных интервалов (таблица 1).

Таблица 1 – Средние арифметические значения скоростей ветра на постах наблюдения (с периодом усреднения в 4 недели), м/с

Для наибольшей наглядности ранжирование уровней скорости ветра выполнено в цветовом градиента красный – зеленый. Как видно из таблицы 1 средние значения скорости ветра в целом за весь рассматриваемый период в значительной степени отличаются по постам наблюдений. Такая же неоднородность заметна при анализе отдельных периодов, однако, при этом таблица дает представление об влиянии застройки на скорость ветра. Так даже без знания фактического расположения постов в пространстве можно сделать вывод о том, что посты «Северный» и «Березовка» располагаются на территории с преимущественно не свободным движением воздушных масс. Посты «Черемушки» и «Ачинск» расположены на более свободно проветриваемой территории. Наибольшей же проветриваемостью и, соответственно, более соответствующими требованиям являются посты системы мониторинга «Кубеково» и «Солнечный».

Исходя из всего вышесказанного и анализа таблицы следует вывод о схожести динамики скоростей ветра и различности уровней данных значений, таким образом в качестве критерия для определения истинности значений может служить показатель, отражающий не значение уровней, а их динамику относительно друг друга. В качестве такого показателя был выбран коэффициент корреляции по Пирсону, исходя из потенциальной нормальности распределения данных.

Для выборок со схожей динамикой уровней значение коэффициента корреляции будет близок к 1. Поэтапное попарное нахождение коэффициентов корреляции для всех рассматриваемых рядов возможно, при этом разбиение значений ряда на составляющие (периоды наблюдений) создаст большое количество данных, интерпретация которых затрудняется. Однако попарное нахождение коэффициентов корреляции для временных рядов даст основу для определения базового уровня значений коэффициентов корреляций для последующего нахождения ложных значений (таблица 2).

Таблица 2 –  Значение коэффициентов корреляции временных рядов скорости ветра между постами системы мониторинга*

Кубеково Березовка Черемушки Ачинск Солнечный Северный
Кубеково

1

Березовка

0,641

1

Черемушки

0,650

0,646

1

Ачинск

0,548

0,598

0,511

1

Солнечный

0,654

0,670

0,646

0,656

1

Северный

0,739

0,695

0,734

0,596

0,838

1

* – расчет значений коэффициентов корреляции проводился методом усреднения коэффициентов, полученных за каждый из рассматриваемых периодов с предварительным исключением периодов с пропуском данных

Исходное предположение о значении коэффициента корреляционной связи между временными рядами близкого к 1 на практике подтвердилось не в полной мере, причиной для данного факта может служить наличие ложных значений. Данный факт подтверждается при соответствующем анализе значений коэффициентов корреляции с периодом усреднения в одну неделю (рисунок 2).

 

Рисунок 2 – Изменение значений коэффициентов корреляции*

* – в качестве коэффициентов корреляции для поста наблюдений использовалось среднее арифметическое попарных коэффициентов корреляции, одним из которых в каждой паре был рассматриваемый пост

Рассмотрение каждого из исходных временных рядов в качестве последовательности из 52 интервалов, состоящих из 7 значений, и нахождение последующих коэффициентов корреляции между ними позволяет наглядно видеть недели с явными отклонениями значений. Итоговое количество пар коэффициентов корреляции должно составить 750 значений, в нашем случае с учетом пропусков данных общее количество значений уменьшилось до 726. С учетом нахождения среднего арифметического, для парных значений коэффициента корреляции каждого поста, таковых значений должно быть 312, в нашем случае их количество составило 301, за счет пробела в данных. Для поиска ложных значений необходимо выбрать пороговый уровень коэффициента корреляции. Отнесение усредненного значения в интервал ниже выбранного порогового уровня дает возможным сделать предположение о наличии в интервале данных ложных значений. В качестве такого порогового уровня нами было выбрано значение 0,4. Ниже данного уровня расположилось 45 значений коэффициента корреляции, при этом значения распределились не однородно по исследуемым периодам. Такого рода значения (менее 0,4) присуще 23 из 52 недель наблюдения, при этом отдельные недели содержат до 5 коэффициентов корреляции ниже порогового уровня. Распределение значений ниже порогового уровня представлено в таблице 3.

Таблица 3 – Распределение коэффициентов корреляции в массиве данных ниже порогового уровня

Номер распределения

Описание распределения

Номера недель

Посты наиболее часто формирующие распределение

1

3 и более значений коэффициентов корреляции ниже порогового уровня

12, 22, 23, 25, 26, 47, 50

Березовка, Ачинск, Кубеково

2

2 значения ниже порогового уровня

27, 43, 49

Черемушки, Ачинск

3

1 значение ниже порогового уровня

2, 6, 9, 11, 20, 30, 37, 40, 41, 51

Березовка

В качестве примера рассмотрим некоторые случаи с коэффициентом корреляции, выпадающим из общей структуры, из каждого распределения:

Распределение №1

Данные по 12 неделе, посты: «Березовка», «Черемушки», «Ачинск», «Солнечный».

Исходные данные о скорости движения ветра за 12 неделю сведены в таблицу 4.

Таблица 4 – Исходные данные о скорости ветра на постах системы мониторинга (12 неделя)

Дата

Кубеково

Березовка

Черемушки

Ачинск

Солнечный

Северный

23.10.15

0,933

0

0,096

2,179

0,989

24.10.15

1,242

0,002

2,498

2,388

0,822

25.10.15

2,716

0

2,159

3,991

1,84

26.10.15

1,222

0,001

1,093

1,888

0,741

27.10.15

0,104

0

0,025

0,268

0,033

28.10.15

0,363

0

0,288

0,416

0,953

0,245

29.10.15

0,31

0

0,279

1,295

2,031

0,203

В исследуемом наборе данных практически полностью отсутствуют значения по посту «Черемушки», значения по посту «Березовка» изменяются за неделю в интервале от 0 до 0,002, что не может соответствовать действительности. Скорости ветра на постах «Ачинск» и «Солнечный» могут содержать ложные значения, или же значения коэффициента корреляции на них может объясниться наложением значений из постов с явно ложными показателями. Пересчет средних значений с учетом исключения данных с поста «Черемушки» изменяет показатели коэффициента таким образом, что ниже порогового уровня располагается только коэффициент корреляции соответствующий данным снятым с поста «Березовка».

Анализируя данные других недель, попадающих в данное распределение, следует отметить наличие явно ложных значений или пропусков значений более чем на одном посту на неделе 47, где значение коэффициентов корреляции ниже порогового на трех постах «Кубеково», «Черемушки» и «Ачинск» на постах «Солнечный» и «Северный» отсутствуют значения в ряде, а на посту «Черемушки» имеется одно явно ложное значение (средняя скорость ветра превышает 25 м/с) (таблица 5).

Таблица 5 – Исходные данные о скорости ветра на постах системы мониторинга (47 неделя)

Дата

Кубеково

Березовка

Черемушки

Ачинск

Солнечный

Северный

24.06.16

1,189

0,838

7,409

0,715

0,668

0,31

25.06.16

0,974

0,674

25,385

0,318

1,4

0,452

26.06.16

1,328

0,659

1,383

0,192

1,262

0,57

27.06.16

0,948

0,851

0,298

0,945

1,43

0,458

28.06.16

1,305

0,999

0,641

1,277

2,256

0,708

29.06.16

1,926

1,091

0,307

0,762

30.06.16

0,733

0,574

0,208

0,683

0,466

0,243

Интересным является факт меньшего значения коэффициента корреляции не на постах с пропуском значений, а на двух других. Данный факт объясняется пропуском на одной и той же позиции недели, что, в свою очередь, дает значительное значение коэффициента корреляции между этими постами (0,942).

Распределение № 2

Данные по 27 неделе, посты: «Кубеково» и «Ачинск»

Исходные данные о скорости движения ветра за 27 неделю сведены в таблицу 6.

Таблица 6 – Исходные данные о скорости ветра на постах системы мониторинга (27 неделя)

Дата

Кубеково

Березовка

Черемушки

Ачинск

Солнечный

Северный

05.02.16

0,172

0,452

0,249

2,451

2,551

0,394

06.02.16

3,501

2,361

1,361

2,147

4,316

2,017

07.02.16

3,881

2,259

0,825

1,761

3,114

1,929

08.02.16

3,895

0,332

0,096

0,907

1,941

0,882

09.02.16

6,228

1,567

0,572

2,594

2,791

1,531

10.02.16

3,762

3,063

1,522

2,865

3,782

3,066

11.02.16

2,138

2,133

1,087

1,659

2,947

2,295

В отличии от предыдущего случая, когда ложные значения выбиваются из общего ряда наблюдений, для данной недели сложно вычленить значения, не соответствующие действительности, используя лишь уровни показателей. Для нахождения ложных значений проанализируем исходные данные. Наименьшее значение усредненного коэффициента корреляции соответствует данным с поста «Кубеково» (0,177). При этом данный показатель складывается не из отдельных аномальных значений, а практически из однородных значений коэффициента корреляции с другими постами (диапазон колебаний от 0,046 до 0,325). Также об аномальности данных свидетельствует факт, что значение скорости ветра на данном посту практически во всех рассматриваемых днях наблюдений превышает самый проветриваемый пост «Солнечный», что не типично для общей последовательности данных.

Исключение из набора данных, полученных с поста наблюдения «Кубеково» изменяет значение коэффициента корреляции по всем другим постам, в том числе и по ранее аномальным значениям поста «Ачинск», приводя его до уровня выше порогового значения.

Распределение №3

Данные по 9 неделе, пост «Березовка».

Высокие значения коэффициента корреляции на исследуемой неделе находящиеся на уровне 0,73-0,79 для всех постов наблюдения, за исключением поста «Березовка» свидетельствует о наличии ложных значений, на данном посту. Обращение к исходным данным подтверждает этот факт (таблица 7).

Таблица 7 – Исходные данные о скорости ветра на постах системы мониторинга (9 неделя)

Дата

Кубеково

Березовка

Черемушки

Ачинск

Солнечный

Северный

02.10.15

0,839

0,001

0,672

0,422

2,495

0,559

03.10.15

0,792

0

0,275

0,941

1,901

0,391

04.10.15

2,296

0,267

1,603

2,38

3,374

1,259

05.10.15

3,695

0,002

2,435

2,901

4,651

2,288

06.10.15

3,353

0

1,775

2,832

3,538

2,278

07.10.15

2,413

0

1,714

1,289

4,022

1,237

08.10.15

0,628

0

0,253

0,333

2,012

0,262

Как видно из рассмотренной таблицы данные за 6 из 7 дней наблюдения близки или равны нулю, что не может соответствовать действительности по причине отличного от нуля значений данного показателя на близлежащих территориях.

Исходя из рассмотренных случаев для разных распределений можно составить общий алгоритм поиска ложных значений данных по значениям коэффициентов корреляции. В общем виде алгоритм включает следующие этапы:

1. Разбиение исходных массивов данных на небольшие интервалы (в рассматриваемом случае 7 значений);

2. Поиск попарных значений коэффициентов корреляции между рассматриваемыми массивами данных;

3. Нахождение средних арифметических значений для интервала каждого рассматриваемого массива;

4. Сравнение, полученных данных с пороговым значением (выбирается в зависимости от количества временных рядов и схожести параметров);

5. Исключение из полученных данных того интервала, для которого значение коэффициента корреляции ниже порогового уровня, в случае нескольких таких интервалов удаление интервала с минимальным значением;

6. Повторный пересчет средних значений коэффициентов корреляций;

7. Повторение шагов 4-6, нужное количество раз.

Данный алгоритм возможно применять для массивов данных с явной корреляционной зависимостью, выбор интервалов для разбиения, а также порогового уровня осуществляется в зависимости от природы данных и их количества.


Библиографический список
  1. Подсистема мониторинга загрязнения атмосферного воздуха [Электронный ресурс]. URL: http://krasecology.ru/Air (дата обращения: 17.08.2016).
  2. Голубничий, А.А. Разработка синтаксического анализатора для снятия данных о состоянии атмосферного воздуха Красноярского края с сайта krasecology.ru / А.А. Голубничий, О.С. Босых// Интернет-журнал «НАУКОВЕДЕНИЕ» Том 8, No3 (2016) http://naukovedenie.ru/PDF/36TVN316.pdf (дата обращения: 17.08.2016).
  3. ГОСТ 17.2.3.01 86 Охрана природы. Атмосфера. Правила контроля качества воздуха населенных пунктов.


Все статьи автора «Голубничий Артем Александрович»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться:
  • Регистрация