Нейросети не воспринимают окружающий мир так, как мы. Для нас изображение это пейзаж или лицо друга, звук это музыка или речь, а текст это осмысленные предложения. Для нейросети же все это просто набор чисел. В этой главе мы разберемся, как изображения, текст и звук превращаются в числа, понятные алгоритмам.
Как изображения становятся числами
Возьмем обычную фотографию. На экране она выглядит как целостное изображение, но если увеличить его достаточно сильно, мы увидим, что оно состоит из крошечных цветных точек пикселей. Нейросети работают именно с пикселями, а точнее, с их числовыми значениями.
Каждый пиксель в черно-белом изображении имеет определенную яркость, которая представляется числом от 0 (черный) до 255 (белый). Например, буква А на белом фоне будет представлена массивом чисел, где 0 это черные участки, а 255 белые. В цветных изображениях каждый пиксель состоит из трех значений для красного (R), зеленого (G) и синего (B) цветов. Таким образом, любое изображение можно представить как большую таблицу чисел, где каждое число обозначает цвет пикселя.
Пример:
Если взять маленькое изображение размером 33 пикселя, его представление для нейросети может выглядеть так:
0, 128, 255,
34, 200, 123,
255, 255, 0
Чем больше изображение, тем больше в нем данных, а значит, тем сложнее его обработка. Чтобы ускорить работу, изображения часто уменьшают и нормализуют (например, переводят числа в диапазон от 0 до 1).
Как текст превращается в числа
Человек воспринимает текст как осмысленный набор слов, но для компьютера это просто последовательность символов. Нейросети не могут работать с буквами напрямую, поэтому текст нужно превратить в числа. Это можно сделать разными способами: