Ключевые идеи книги: Просто о больших данных. Джудит Гурвиц, Алан Ньюджент, Ферн Халпер, Марсия Кауфман - страница 3

Шрифт
Интервал


Структурированные данные имеют определенную длину и формат. Даты сделок, имена и адреса клиентов, данные GPS, сведения штрихкода на кассе супермаркета – все это структурированные данные. Представим себе, сколько товаров ежедневно проходит через кассы всех магазинов в мире – дух захватывает от такого объема данных! Эти данные генерируются и тогда, когда мы проходим по ссылке на любой сайт. Они помогают представить потребительские привычки, предсказывают наше поведение.

Это самый древний вид данных: ведущие учет товаров месопотамские писцы тоже имели дело с именами и адресами клиентов.

Неструктурированные данные не имеют определенного формата. Метеоданные и результаты спутниковой фотосъемки, измерения сейсмоактивности, записи с камер наблюдения и результаты опросов, наконец, привычные электронные письма и все наши «цифровые следы» (соцсети, онлайн-покупки, штрафы за превышение скорости) – это неструктурированные данные.

В среднем 80 % данных любого предприятия – неструктурированные. Настоящий клондайк для предприимчивых бизнесменов, не так ли? Между тем до последнего времени не существовало технологий, которые бы помогали работать с этим типом данных. Их можно было лишь анализировать вручную. Тем самым пропадали колоссальные возможности.

А сегодня? Вы набираете в поисковой строке желаемый товар, а через минуту контекстная реклама сама возникает в браузере. С точки зрения программиста, это типичный результат комплексного взаимодействия структурированных и неструктурированных данных. Более того, только их взаимодействие (и желательно в режиме реального времени) и имеет смысл в качестве бизнес-стратегии.

Бизнес больше не может работать с изолированными хранилищами информации – самые актуальные решения в этой области связаны с интеграцией данных. За это отвечают метаданные. Они обеспечивают кратчайший путь к искомой информации. Данные о банковском счете, содержащие собственно номер счета, а также имя и адрес клиента, – типичный пример метаданных. Теги, которыми мы маркируем посты в соцсетях, – тоже метаданные.

Специфика работы с данными

Специфика работы с данными определяется их типом. Данные могут быть:

♦ передаваемыми (их также называют данными в движении), они транслируются непосредственно в ходе производственного процесса – показания медицинских датчиков, приборы слежения;