Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - страница 13

Шрифт
Интервал


удастся обогнать и ее.

Длинные данные

О начале работы проекта Google Books мы, как и все остальные, узнали из новостей. Однако лишь через два года, в 2006 году, влияние Google стало ощущаться в реальной жизни. В то время мы завершали научное исследование по английской грамматике. Для нее мы оцифровали вручную несколько учебников по грамматике староанглийского.

Самые нужные нам книги таились в дальних углах гарвардской Вайднеровской библиотеки. Вот как их можно найти. Сначала вам нужно подняться на второй этаж восточного крыла библиотеки. Затем пройти мимо «Рузвельтовской коллекции» и раздела, посвященного языкам американских индейцев. Там вы увидите проход с номерами каталога от 8900 и далее. Наши книги располагались на второй полке сверху.

На протяжении ряда лет, работая над своим исследованием, мы туда регулярно приходили. Мы были единственными, кто вытаскивал эти книги с полок за много лет, а то и десятилетий. Никого, кроме нас, не интересовала эта полка.

В один прекрасный день мы заметили, что книга, которой мы регулярно пользовались в своих исследованиях, появилась в Интернете как часть проекта Google Books. Заинтересовавшись, мы начали искать там и другие книги с нашей полки. Оказалось, что и они там уже есть. И дело вовсе не в том, что корпорацию Google так сильно заботит средневековая английская грамматика. В сущности, почти у каждой из проверенных нами книг, вне зависимости от полки, теперь появился цифровой близнец[27]. За то время, которое нам потребовалось для изучения нескольких книг, Google успела оцифровать содержимое нескольких зданий.

Усилия компании Google позволяли получить совершенно новый тип больших данных и даже изменить то, как люди оценивают свое прошлое. В основном большие данные являются большими, но «короткими» – это недавние записи, фиксирующие недавние события. Это связано с тем, что создание данных катализируется Интернетом, сравнительно недавним изобретением. Наша цель состояла в изучении культурных изменений, которые могут охватывать длительные периоды времени по мере того, как целые поколения людей живут и умирают. Когда речь заходит об изучении изменений в историческом масштабе, короткие данные, вне зависимости от степени своей обширности, нам мало чем помогут.

Google Books как база данных по своему масштабу не превышает любую другую базу в нашу эпоху цифровых средств передачи и хранения информации. Однако значительная часть того, что оцифровывает