Вступление. Активное развитие информационных технологий началось с появлением ЭВМ. С 80-х годов прошлого столетья пошло массовое внедрение и распространение персональных компьютеров, что в значительной мере увеличило скорость и объемы перерабатываемой информации. Начиная с этого времени начался сбор информации, обработка и хранение данных. По данным исследования IDC Digital Universe , опубликованного в 2012 году, в ближайшие 8 лет количество данных в мире достигнет 40 Зб (zettabytes) что эквивалентно 5200 Гб на каждого жителя планеты. В информационных технологиях появился термин- «Большие Данные» (BIG DATA), который был впервые предложен Клиффордом Линчем, редактором журнала Nature, подготовившем 3 сентября 2008 года специальный номер журнала с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?»
Основной текст. Социальные сети, бизнес-информация, непрерывно поступающие данные с измерительных устройств, события от радиочастотных идентификаторов, метеорологические данные, данные дистанционного зондирования Земли, потоки данных о местонахождении абонентов сетей сотовой связи, устройств аудио- и видеорегистрации. – это еще не все виды источников, способных генерировать гигантские объемы информации.
Не многие знают, что огромную часть информации создает не деятельность людей, а роботы, которые взаимодействуют как друг с другом, так и с другими сетями данных, например, сенсоры и интеллектуальные устройства. При сегодняшних темпах роста количество данных в мире, по прогнозам исследователей, будет ежегодно удваиваться. Количество виртуальных и физических серверов в мире вырастет в десятки раз за счет расширения и создания новых data-центров. Таким образом становится очевидным, что необходимо эффективно использовать накопленные данные, а так же применять результаты анализа в бизнесе и прогнозировании будущих событий на основе исследований баз данных предыдущих лет.
Говоря о «Больших Данных» используют наиболее популярное определение трех «V»:
Volume – объем данных,
Velocity – необходимость обрабатывать информацию с большой скоростью,
Variety – многообразие и часто недостаточную структурированность данных.
Ежедневно накапливается, сохраняется и обновляется неисчислимое количество данных во всем мире. Это информация в совершенно разных форматах: это и цифры статистики, редактируемые документы, сканы, опросы, страницы в соцсетях, видеозаписи, машинные коды и тому подобное. Места хранения этой информации также разнообразны- от локальных дисков и удаленных серверов до виртуальных хранилищ информации. Собрать, обработать и структурировать подобную информацию практически невозможно. Поэтому нужны более четкие и структурированные требования к параметрам анализа. Еще одной особенностью работы с большими объемами информации, а именно с базами данных является то, что это непрекращающийся поток данных, бесконечное количество раз обновляющихся в непрерывном потоке времени. Этими особенностями и осложнено использование технологии BIG DATA «Большие Данные».
Большой объем и высокая скорость потока данных, процесс их сбора предполагает процедуры ETL в режиме реального времени. ETL – от англ. Extract, Transform,Load — дословно «извлечение, преобразование, загрузка») — один из основных процессов в управлении хранилищами данных, который включает в себя: извлечение данных из внешних источников, их трансформацию и очистку с целью соответствия нуждам бизнес-модели и загрузка их в хранилище данных. ETL используется не только как процесс переноса данных из одного приложения в другое, а также является инструментом для подготовки данных к анализу.
Используя анализ больших данных возможно решить одну из задач современного общества- создать единую сеть, единую базу с различными уровнями доступа. Подключив необходимые сервисы, банки и услуги можно упростить работу многих организаций. Например, внеся однажды паспортные данные гражданина автоматически их подгружать при составлении различных документов, отображая их в необходимом виде.
При работе с большими объемами данных немаловажную роль играет вопрос обеспечения их безопасности. Данные поступают из разных источников и должны иметь различные решения по обеспечению безопасности, соответствующие объемам и статусу собираемой информации. Отдельный статус безопасности должна иметь система доступа к базам уже переработанных данных. Но методы анализа «Больших Данных» развиваются медленнее роста самих баз данных, важную роль играют аналитические платформы и их свойства для обработки, анализа и преобразования данных.
Сейчас довольно широко используются новейшие технологии и разработки на базе баз данных, но все это локально, либо узконаправленно. Например, есть мобильные приложения для дисконтных карт, привязанных к номеру мобильного телефона, что значительно упрощает и уменьшает скорость обслуживания в магазинах. Базы вакансий и соискателей, как трансформеры собираются и преобразовываются в режиме on-line на разных информационных ресурсах с различными оболочками, но не в едином виде и с многообразной ценовой политикой доступа на эти сайты. В то время, как резюме является одной из максимально –полных анкетных данных трудоспособного человека. Эти персональные данные практически не защищены от злоумышленников и достаточно разрозненны. Обработка и анализ персональных данных имеет тонкую грань, которая граничит с невмешательством в частную жизнь (Федеральный закон от 27 июля 2006 г. N 152-ФЗ О персональных данных).
Наряду с использованием информации переработанных баз данных в коммерческих целях возможно и её использование в государственных структурах, например, в правоохранительных органах. Применение поиска и опознания людей с помощью систем видеонаблюдения на дорогах. Использование данных переписи населения и задействование граждан через социальные службы в государственных программах.
Немаловажной проблемой сбора и переработки данных являются специалисты, а вернее их дефицит. Как и любая развивающаяся сфера деятельности человека в начале пути имеет проблемы с наличием специалистов нужного профиля необходимой подготовки. Если брать во внимание отсутствие постановки четких задач и области применения технологии «Большие Данные», то вопрос подготовки нужных специалистов можно считать таким же размытым, как и проблемы реализации технологии BIG DATA.
Заключения и выводы. На сегодняшний день результатами анализа «Больших Данных» пользуются коммерческие организации по запросу. Как пример – при переработке статистических данных посещения сайтов определяется целевая группа, время наибольшей активности посетителей и часто посещаемые страницы, таким образом корректируется способ продвижения продукции. Накопление и анализ статистических данных по населению страны и планирование социальных мероприятий используются государственным аппаратом.
Ожидается, что развитие и широкое использования концепции результатов анализа больших объемов информации инициирует проникновение технологий «Больших Данных» как в научно-исследовательскую деятельность, так и в коммерческий сектор и сферу государственного управления.
Библиографический список
- Большие Данные «BIG DATA»: проблемы и перспективы А.Н. ПАВЛОВ PhD, PMP ®, CPM ®, Prime ®[Электронный ресурс]. – Режим доступа http://forum2016.pmi.ru/index.php/ru/dokladchiki-foruma/project-management-big-data
- Работа с Big Data: основные области и возможности. [Электронный ресурс].–Режим доступа http://www.marketing.spb.ru/lib-research/methods/Big_Data.htm
- Дистрибуция и внедрение инновационных продуктов и решений для корпоративного сектора от лидеров мирового ИТ-рынка. [Электронный ресурс].–Режим доступа http://www.dis-group.ru/solutions/data_management/big_data/