Большие данные, цифровизация и машинное обучение для собственников и топ-менеджеров, Или как зарабатывать больше с помощью информации - страница 10

Шрифт
Интервал


Далеко не все данные, которые попадают на серверы компании, представлены в удобном для использования виде. Поэтому «склады» этих данных разделяют на несколько типов, между которыми непрерывно перекачивается информация, изменяя свою форму (или, говоря профессиональным языком, формат). Первый склад называется «озеро данных» (с английского ”Data Lake”). В него попадает вообще все, во всех возможных форматах. Там могут находиться файлы текстовых документов PDF или DOC вперемешку с JPEG-изображениями и MP4-видеофайлами. Как можно догадаться, если бессистемно поставлять подобные потоки информации в хранилище и не определить заранее, как и куда сохранять, то озеро данных очень быстро превратится в болото. Чтобы этого не произошло, нужен специальный программист, он же «инженер по данным». А если быть совсем точным, «директор по данным» (с английского ”Chief Data Officer”). Он следит как за порядком на этом «водохранилище», так и за правами доступа к нему. Весь процесс называется «управление данными» (с английского ”Data Governance”).

Итак, озеро данных – это первый «склад», куда попадает информация. После чего начинается процесс ее трансформации в более удобные формы для последующего размещения в следующем складе под названием «хранилище данных» (с английского ”Data Warehouse”). Сам процесс преобразования информации и ее перемещения между «складами» называется ETL (англ. термин ”Extract, Transform, Load” – дословно «извлечение, преобразование, загрузка»). И в конце, когда данные оказываются в хранилище в удобной для чтения форме, с ними уже могут начинать работать другие специалисты. На основе этих данных строят графики, их анализируют, на них тренируют модели машинного обучения, а также используют их для построения статистики и бизнес-отчетов.

Обычно ETL-процессы автоматизируются специальными программами, которые пишут инженеры по данным. К примеру, каждый квартал компания скачивает публичный бухгалтерский отчет конкурентов в PDF-формате. Делается это для того, чтобы держать руку на пульсе, следить за рынком. Очевидно, что в такой ситуации невозможно попросить конкурента выкладывать информацию в более удобном формате. Поэтому инженер по данным пишет программу, которая сначала скачивает PDF-файл в «озеро данных», потом достает пару-тройку нужных значений из него и сохраняет в «хранилище». После чего обновляет графики, которые строятся по этим данным. И в конце удаляет исходный PDF-файл из озера. Подобная программа срабатывает по расписанию, автоматически, непрерывно доставляя свежую информацию руководству и аналитикам. А в хранилище не остается больших ненужных файлов, все преобразуется в максимально компактный и удобный вид.