♦ хранимыми (или данными в покое) – данные соцсетей, статистика продаж, переписка клиентов с кол-центрами.
Цикл работы с данными включает три этапа:
• сбор данных;
• систематизация;
• обобщение.
На первый взгляд, в этом списке нет того, чего бы не знал и специалист середины XX века. Конкретное же содержание работы, как будет показано далее, может быть очень специфическим и разнообразным. К тому же сегодня в этом цикле появилась четвертая характеристика:
• достоверность данных.
Большие данные – океан информации, который, однако, питается тысячами информационных ручейков и речушек. Реляционные базы данных[2], изобретенные в XX веке, имели дело с высокоструктурированными упорядоченными данными, связанными с определенным аспектом деятельности. Сегодня ситуация изменилась. Чтобы у компании сложилась реалистичная картина происходящего, собранные данные должны охватывать множество источников, часто неструктурированных.
Инфраструктура больших данных
В мире, где информации становится все больше, а ее источники – все разнообразнее, единственной эффективной стратегией работы сегодня остаются распределенные вычисления. Эта технология позволяет отдельным компьютерам, сколь угодно удаленным друг от друга, работать в качестве единой среды. Внедрение этой технологии привело в свое время к созданию интернета. В 1990-е Google, Yahoo! и Amazon увеличили бизнес-мощности, используя дешевеющее аппаратное обеспечение для хранения данных. А сегодня мы наблюдаем еще более тесное срастание технологий с бизнесом: ранее недоступные для анализа массивы информации становятся источником миллиардных доходов – первыми это поняли все те же Amazon, Google и Facebook. Но распределенные вычисления сейчас – лишь одна из составляющих инфраструктуры, которая обслуживает большие данные.