УДК 01

«БОЛЬШИЕ ДАННЫЕ» – НЕОБХОДИМОСТЬ ИСПОЛЬЗОВАНИЯ НАКОПЛЕННЫХ ЗНАНИЙ И ПРОБЛЕМЫ РЕАЛИЗАЦИИ ДАННОЙ ТЕХНОЛОГИИ

Коваленко Ольга Павловна1, Салмин Алексей Александрович2
1Поволжский государственный университет телекоммуникаций и информатики, Начальник производственно-технического отдела ООО "Связьстрой"
2Поволжский государственный университет телекоммуникаций и информатики, кандидат технических наук, доцент, декан факультета информационных систем и технологий

Аннотация
В работе обозначаются проблемы накопления больших объемов информации, определение термина «Big Data», рассматривается необходимость использования накопленных знаний в бизнес-процессах, а также проблемы обработки данных, вязанные не только с переработкой информации, но и с отсутствием квалифицированного персонала, и точностью постановки задач.

Ключевые слова: «Big Data » (BIG DATA), базы данных, бизнес-информация, единая сеть, метод анализа данных, поток данных, процедура ETL, статистические данные, технология «Большие Данные» (BIG DATA)


"BIG DATA" - THE NEED TO USE EXISTING KNOWLEDGE AND PROBLEMS OF IMPLEMENTATION OF THIS TECHNOLOGY

Kovalenko Olga Pavlovna1, Salmin Aleksey Aleksandrovich2
1Volga Region State University of Telecommunications and Informatics, head of production and technical Department of JSC "Svyazstroy"
2Volga Region State University of Telecommunications and Informatics, Ph.D., Associate Professor, Dean of the Faculty of Information Systems and Technology

Abstract
The paper indicated by the problem of accumulation of large amounts of information , the definition of «Big Data», addresses the need for knowledge management in business processes as well as data processing problems , knitted not only to the processing of information, but also to the lack of qualified personnel , and accuracy of setting goals.

Keywords: a single network, business information, data analysis method, data flow, database technology, statistics, the ETL procedure


Рубрика: 05.00.00 ТЕХНИЧЕСКИЕ НАУКИ

Библиографическая ссылка на статью:
Коваленко О.П., Салмин А.А. «Большие Данные» - необходимость использования накопленных знаний и проблемы реализации данной технологии // Современные научные исследования и инновации. 2016. № 7 [Электронный ресурс]. URL: http://web.snauka.ru/issues/2016/07/70079 (дата обращения: 30.09.2017).

Вступление. Активное развитие информационных технологий началось с появлением  ЭВМ. С 80-х годов прошлого столетья пошло массовое  внедрение и распространение персональных компьютеров, что в значительной мере увеличило скорость и объемы перерабатываемой  информации. Начиная  с этого времени начался сбор информации, обработка и хранение данных. По данным исследования  IDC Digital Universe , опубликованного в 2012 году, в ближайшие 8 лет количество данных в мире достигнет 40 Зб (zettabytes)  что эквивалентно 5200 Гб на каждого жителя планеты. В информационных технологиях появился термин- «Большие Данные» (BIG DATA), который  был впервые предложен Клиффордом Линчем, редактором журнала Nature, подготовившем 3 сентября 2008 года специальный номер журнала с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?»

Основной текст. Социальные сети, бизнес-информация, непрерывно поступающие данные с измерительных устройств, события от радиочастотных идентификаторов, метеорологические данные, данные дистанционного зондирования Земли, потоки данных о местонахождении абонентов сетей сотовой связи, устройств аудио- и видеорегистрации.  – это еще не все  виды источников, способных генерировать гигантские объемы информации.

Не многие знают, что огромную часть информации создает  не деятельность людей,  а роботы, которые взаимодействуют как друг с другом, так и с другими сетями данных, например, сенсоры и интеллектуальные устройства. При сегодняшних  темпах роста количество данных в мире, по прогнозам исследователей, будет ежегодно удваиваться. Количество виртуальных и физических серверов в мире вырастет в десятки раз за счет расширения и создания новых data-центров. Таким образом становится очевидным, что необходимо  эффективно использовать  накопленные данные, а так же применять  результаты анализа в бизнесе и прогнозировании будущих событий на основе исследований баз данных  предыдущих лет.

Говоря о «Больших Данных»  используют наиболее популярное определение трех «V»:

Volume – объем данных,

Velocity – необходимость обрабатывать информацию с большой скоростью,

Variety – многообразие и часто недостаточную структурированность данных.

Ежедневно накапливается, сохраняется и обновляется неисчислимое количество данных во всем мире.  Это информация в совершенно разных форматах: это и цифры статистики, редактируемые документы, сканы, опросы, страницы в соцсетях, видеозаписи, машинные коды и тому подобное. Места хранения этой информации также разнообразны- от локальных дисков и удаленных серверов до виртуальных хранилищ информации. Собрать, обработать и структурировать подобную информацию практически невозможно. Поэтому нужны более четкие и структурированные требования к параметрам анализа. Еще одной особенностью работы с большими объемами информации, а именно с базами данных является то, что это непрекращающийся поток данных, бесконечное количество раз обновляющихся в непрерывном потоке времени. Этими особенностями  и осложнено использование технологии BIG DATA «Большие Данные».

Большой объем и высокая скорость потока данных, процесс их сбора предполагает процедуры ETL в режиме реального времени. ETL – от англ. Extract, Transform,Load — дословно «извлечение, преобразование, загрузка») — один из основных процессов в управлении хранилищами данных, который включает в себя: извлечение данных из внешних источников, их трансформацию и очистку с целью соответствия нуждам бизнес-модели и загрузка их в хранилище данных.  ETL используется не только как процесс переноса данных из одного приложения в другое, а также является  инструментом для  подготовки данных к анализу.

Используя анализ больших данных возможно решить одну из задач современного общества- создать единую сеть, единую базу с различными уровнями доступа. Подключив необходимые сервисы, банки и услуги можно упростить работу многих организаций. Например, внеся однажды паспортные данные гражданина автоматически их подгружать при составлении различных документов, отображая их в необходимом виде.

При работе с большими объемами данных немаловажную роль играет  вопрос обеспечения их безопасности. Данные поступают из разных источников и должны иметь различные решения по обеспечению безопасности, соответствующие объемам и статусу собираемой информации. Отдельный статус безопасности должна иметь система доступа к базам уже переработанных данных. Но методы анализа «Больших Данных» развиваются медленнее роста самих баз данных, важную роль играют аналитические платформы и их свойства для обработки, анализа и преобразования данных.

Сейчас довольно широко используются новейшие технологии и разработки на базе баз данных, но все это локально, либо узконаправленно. Например, есть мобильные приложения для дисконтных карт, привязанных к номеру мобильного телефона, что значительно упрощает и уменьшает скорость обслуживания в магазинах. Базы вакансий и соискателей, как трансформеры собираются и преобразовываются  в режиме on-line на разных информационных ресурсах с различными оболочками, но не в едином виде и с многообразной  ценовой политикой доступа на эти сайты. В то время, как резюме является одной из максимально –полных анкетных данных трудоспособного человека. Эти персональные данные практически не защищены от злоумышленников и достаточно разрозненны.  Обработка и анализ персональных данных имеет тонкую грань,  которая  граничит с невмешательством  в частную жизнь (Федеральный закон от 27 июля 2006 г. N 152-ФЗ О персональных данных).

Наряду с использованием информации переработанных баз данных в коммерческих целях возможно и её использование в государственных структурах, например, в правоохранительных органах. Применение поиска и опознания людей с помощью систем видеонаблюдения на дорогах. Использование данных переписи населения и задействование граждан через социальные службы в государственных программах.

Немаловажной проблемой сбора и переработки данных являются специалисты, а вернее их дефицит. Как и любая развивающаяся сфера деятельности человека в начале пути имеет проблемы с наличием специалистов нужного профиля необходимой подготовки. Если брать во внимание отсутствие постановки четких задач и области применения технологии  «Большие Данные», то  вопрос подготовки нужных специалистов можно считать таким же размытым, как и проблемы реализации технологии BIG DATA.

Заключения и выводы. На сегодняшний день результатами анализа «Больших Данных» пользуются коммерческие организации по запросу. Как пример – при переработке статистических данных посещения сайтов определяется целевая группа, время наибольшей активности посетителей и часто посещаемые страницы, таким образом корректируется способ продвижения продукции. Накопление и анализ статистических данных по населению страны и планирование социальных мероприятий используются государственным аппаратом.

Ожидается, что развитие и  широкое  использования концепции   результатов анализа больших объемов информации  инициирует проникновение технологий «Больших Данных» как в научно-исследовательскую деятельность, так и в коммерческий сектор и сферу государственного управления.


Библиографический список
  1. Большие Данные «BIG DATA»: проблемы и перспективы  А.Н. ПАВЛОВ PhD, PMP ®, CPM ®, Prime ®[Электронный ресурс]. – Режим доступа http://forum2016.pmi.ru/index.php/ru/dokladchiki-foruma/project-management-big-data
  2. Работа с Big Data: основные области и возможности. [Электронный ресурс].–Режим доступа http://www.marketing.spb.ru/lib-research/methods/Big_Data.htm
  3. Дистрибуция и внедрение инновационных продуктов и решений для корпоративного сектора от лидеров мирового ИТ-рынка. [Электронный ресурс].–Режим доступа http://www.dis-group.ru/solutions/data_management/big_data/


Все статьи автора «Коваленко Ольга Павловна»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться: