Big data изменяют Китай - страница 7

Шрифт
Интервал




Рисунок 1.1. Источники численных данных

Помимо измерения и говорящей самой за себя регистрации данных новые численные данные также появляются из уже имеющихся посредством вычислений. И измерения, и вычисления осуществляются людьми, иными словами, в реальном мире чисел не существует, все данные – это то, что произведено человеком. Значение слова «первичный» в выражении «первичные данные» совсем не то же, что в выражении «первичный лес». «Первичный (первобытный) лес» – это лес, существующий в созданном природой виде, тогда как «первичные данные» – это всего лишь данные, полученные из первоисточника и не изменявшиеся человеком.



Рисунок 1.2. Данные, информация, знания

Как показано на схеме 1.2, в традиционном понимании, «данные», «информация» и «знания» – это совершенно разные понятия. Данные являются проводником информации, информация представляет собой данные с контекстом, а знания – это конечная информация, обладающая закономерностями, полученными в результате произведённых человеком обобщения и упорядочивания.

В 60-е годы 20 века, когда наблюдался огромный прогресс в теории программного обеспечения, были изобретены базы данных. После этого численные данные, тексты и изображения стали без дифференциации храниться в базах данных компьютеров, единицей, в которой осуществлялось хранение, был «бит», а значение слова «данные» начало расширяться. Понятие «данные» указывает не только на являющиеся результатом измерений числовые значения, то есть «числовые значения измеряемой величины», постепенно оно стало общепринятым обозначением «чисел, текстов, изображений, аудио и видео», то есть синонимом «информации». Поскольку такая информация существует как своего рода свидетельство и базис, её можно назвать «опорными данными».

Исходя из этого автор считает, что определение понятия «большие данные» достаточно ясно и точно выражает следующая формула:

Большие данные = традиционные числовые + современныезначения измерений опорные данные

(Источником количественных данных являются измерения, как вслучае с температурой 28° C; источником опорных данных является регистрация, как в случае с фотоснимком, например.)

Хотя количественные данные ближе к «числам», чем опорные данные, с исторической точки зрения последние возникли раньше, чем первые. Регистрация событий собственной жизни, которую человек вёл уже в древние времена, так называемые «летописи», и есть ранние опорные данные, можно даже сказать, что опорные данные – это тень истории. Количественные данные в практике регистрации событий и явлений реальности появляются медленно, их ключевой смысл заключается в точности. Обилие или, напротив, нехватка количественных данных напрямую определяли возможность науки развиваться. Если отталкиваться от этой точки зрения, источники данных – это уже не только измерения реальности, но и её регистрация. Таким образом, в информационную эру добавился ещё один источник данных – регистрация.