Как развивалась технология Big Data
Этап 1. Управляемые структуры. Технологии шагнули навстречу бизнесу в начале 1970-х, когда компания IBM занялась разработкой реляционных систем управления базами данных. Был разработан язык структурированных запросов (SQL) и специальные утилиты управления данными, позволившие кодировать информацию на высоком уровне абстракции (в таком виде работать с ней было гораздо проще). Однако хранение информации (а ее объем все увеличивался) и доступ к ней (по-прежнему медленный) оставались проблемой. Когда объем данных стало почти невозможно контролировать, программисты нашли выход, придумав хранилища данных. Их коммерческие версии появились в 1990-е годы и сразу стали востребованны: имея в хранилище данные за разные годы, компании лучше представляли свою работу, более гибко оперировали финансовой отчетностью, могли оценить перспективы. Следующим шагом стало создание объектно ориентированных[1] систем управления, обеспечивших единый подход к работе с разнородными данными.
Этап 2. Управляемая сеть. Интернет 1990-х в разы увеличил количество контента. Теперь требовались платформы, которые бы объединили инструменты работы с текстами, видео- и аудиоматериалами, изображениями. Распознавание информации и управление неструктурированными данными становилось все более насущной задачей. И такие платформы появились, а с ними пришла идея метаданных (обычным пользователям они известны как теги). Мир становился все виртуальнее. А выгоды, которые обещал этот новый мир, были вполне реальными.
Этап 3. Управление большими данными. Еще несколько лет назад компании вынуждены были довольствоваться выборками интересующей их информации – хранение и обработка данных были слишком дороги. Это сужало стратегические возможности бизнеса и казалось не таким уж выгодным делом. В 2000–2010 годы хранение и обработка информации удешевились в разы: компьютерная память становится все совершеннее, облачные сервисы все популярнее, виртуализация бизнес-среды все шире. При этом прежние идеи типа хранилищ данных не устарели – большие данные не сводятся лишь к одному инструменту, работать с ними – значит использовать достижения всех этапов развития этих технологий.
Типы данных
Данные могут быть структурированными и неструктурированными.