При этом они представляют собой не только числа. Это могут быть:
• Текстовые отзывы клиентов и их обращения в службу поддержки.
• Комментарии в социальных сетях.
• Записи телефонных разговоров с клиентом.
• Фотографии – от аватаров клиентов до снимков товаров.
• Видео с камер наблюдения.
Вся эта информация может легко занимать десятки терабайт. И чем старше фирма, тем больше у нее накоплено данных для проведения ценных исследований: в современном мире намного дороже удалять старую информацию, чем хранить ее вечно. Это как раз тот случай, когда «своя ноша не тянет».
Из-за непрерывно поступающих данных компании стараются минимизировать объемы хранящейся информации для снижения расходов на электронные носители. Для этого, например, аудио- и видеозаписи с помощью специальных алгоритмов переводятся в более компактный вид. Из аудиофайлов выделяют речь. Из видеозаписей, например с камер наблюдения, можно получить данные о количестве находящихся в магазине посетителей. Поэтому если преобразовывают формат, то нет нужды хранить само исходное видео или аудио. Более того, даже обычная текстовая информация, которая и так занимает немного места, отлично сжимается благодаря современным алгоритмам. Это сильно уменьшает занятый объем хранилища компании. Однако, несмотря на затраты, сейчас даже у небольших предприятий, далеких от информационных технологий, можно найти в кладовке работающий сервер, забитый несколькими терабайтами данных.
Непосвященному человеку куча устаревшей информации на серверах компании может показаться мусором. Но на самом деле это нефть 21 века. Огромные массивы накопленных данных используются для предсказания будущего, в котором бизнес сможет развиваться лучше и заработать больше. Делаются такие прогнозы не напрямую человеком, а посредством компьютера, в который вложены специальные математические алгоритмы. Даже если на график, на котором отображено ежедневное изменение тысячи параметров за последний год, посмотрит хорошо подготовленный специалист, он увидит лишь забор из линий. А компьютер, машина, не напрягаясь сможет сделать верный вывод о влиянии этих параметров на чистую прибыль компании. Но если бы данные вообще не были собраны, то и никакого вывода сделать было бы нельзя. Именно для этого всевозможная информация и хранится в компании, потому что без нее невозможно натренировать машинный интеллект, сделать с его помощью прогноз на будущее и получить выгоду для бизнеса.