Большие данные = структурированные данные + неструктурированные данные.
Однако, как мы уже упоминали, определение «большой» в понятии «большие данные» указывает не только на большой объём данных, но и на их большую ценность. Ценность же заключается в использовании. Как в случае с погребённой в недрах земли нефтью: она хотя и существовала с глубокой древности, человечество вошло в нефтяную эпоху благодаря тому, что появились технологии её добычи и переработки, – точно так же главная причина начала эпохи больших данных состоит в значительном прорыве и прогрессе в возможностях эти данные использовать.
1.4. Как интеллектуальный анализ данных «превращает цифры в золото»
Прорыв, сделанный в отношении возможностей использовать данные, проявляется в интеллектуальном анализе данных.
Под интеллектуальным анализом данных (data mining) подразумевается осуществляющийся с помощью специальных алгоритмов автоматический анализ больших объёмов данных, имеющий целью выявление скрытых в них закономерностей и тенденций, иными словами, получение из данных большого объёма новых знаний, от которых можно отталкиваться, принимая те или иные решения. Основная причина прогресса в интеллектуальном анализе данных, то есть способность человека непрерывно изобретать всё более сложные алгоритмы распознавания образов3 в сущности является прогрессом в программном обеспечении. Самой знаменательной вехой развития интеллектуального анализа данных стала 1-я ежегодная научная конференция по data mining, организованная в 1989 году американской Ассоциацией вычислительной техники (Association for Computing Machinery, ACM), Специальной группой по обнаружению информации и интеллектуальному анализу данных (Special Interest Group on Knowledge Discovery and Data Mining, SIGKDD). Результаты работы конференции были отражены в специальной периодике. После этого развитие интеллектуального анализа данных получило огромное ускорение.
И действительно, в последние десятилетия благодаря технологиям интеллектуального анализа данных в самых разных крупных компаниях отмечалось немало удивительных историй, связанных с «превращением цифр в золото». Приведём несколько примеров. Накапливавшиеся в течение долгого времени записи о финансовых операциях пользователей позволили компании Alibaba проникнуть в финансовую сферу. Теперь сервис может за несколько минут определить кредитные данные пользователя и на этом основании принять решение о выдаче ему кредита. Walmart повысил объём продаж товаров в магазинах за счёт связи «пиво и подгузник». Netflix, используя учёт смены предпочтений своих пользователей, строит предположения о том, что им понравится смотреть, на основании чего осуществляется целенаправленный маркетинг.