В прошлом разделе было сказано, что существование бизнеса в условиях современного перенасыщенного рынка практически невозможно без штатных программистов. Фирмы со старым подходом к делу, с бумажным документооборотом, будут медленно вымирать, проигрывая в конкурентной борьбе тем, кто стремится к минимизации потерь прибыли.
Теперь углубимся в причины этих потерь. Для чего сначала поверхностно коснемся темы больших данных и машинного обучения, чтобы вникнуть в суть, изучить терминологию и наметить конечные цели, которые подробнее обсудим в заключительной части книги. Но прежде сделаем небольшое отступление и уточним, что «программисты», речь о которых шла раньше, бывают разные. Они трудятся в различных областях и направлениях, решая соответствующие профессиональные задачи. Если работа программиста каким-то образом связана с данными (информацией), его называют «специалистом по данным». К этой категории относятся:
• Инженеры по данным, которые создают огромные хранилища, вмещающие сотни терабайт информации. Они же пишут программы по сбору и конвертации этих данных в более удобные форматы, чтобы другие сотрудники могли ими пользоваться.
• Аналитики данных, которые занимаются построением и анализом графиков и диаграмм по уже собранным данным, чтобы лучше понимать бизнес-процессы и увеличивать прибыль компании.
• Специалисты по машинному обучению, которые могут создавать и обучать на собранных данных системы для предсказания каких-либо значимых для бизнеса параметров и их величин.
Иногда в тексте вместо общего названия «программисты» вам встретится более конкретное «специалист по данным». А какое именно направление имеется в виду, вы поймете из контекста.
Английское словосочетание Big Data дословно переводится как «большие данные». По сути – это подробная информация о предмете. К примеру, большие данные для торгового центра включают в себя сведения о чеках покупателей, о количестве посетителей и даже о температуре внутри здания в течение всего дня. При этом данные не ограничиваются стенами торгового центра, в них могут быть добавлены заметки о количестве людей, пользующихся ближайшей станцией метро. Или даже информация о частоте стрижки городскими службами расположенных в радиусе ста метров от торгового центра кустов. Эти с виду бесполезные данные, скрупулезно собираемые в течение продолжительного периода времени, и называются «большими данными».