Искусственный интеллект на пальцах: от пикселей до решений - страница 7

Шрифт
Интервал


Глава 2.2. Упрощение мира

Когда человек смотрит на мир, он видит его во всей сложности: цвета, тени, глубину, мельчайшие детали. Но для нейросетей реальность устроена иначе. Они не понимают мир так, как мы, а разлагают его на простейшие элементы линии, точки, текстуры. Такое упрощённое восприятие не делает их хуже, наоборот, оно помогает им эффективнее решать задачи. Давайте разберёмся, почему.

Как нейросети видят изображения

Представьте, что вы впервые оказались в чужом городе. Вы не сразу запоминаете все здания, улицы и вывески, но точно можете сказать, где дорога, где небо, а где находятся окна на домах. Вы выделяете ключевые элементы, которые помогают ориентироваться. Так же работает и нейросеть.

Когда компьютер анализирует изображение, он не видит его, как человек. Вместо этого изображение превращается в набор чисел, где каждый пиксель имеет своё значение. На первом этапе сеть пытается выделить простейшие элементы: прямые линии, углы, круги. Затем она ищет более сложные структуры например, формы глаз или очертания букв в тексте. Только после этого нейросеть переходит к пониманию общего смысла изображения.

Этот процесс можно сравнить с рисованием картины. Если художник хочет нарисовать портрет, он сначала делает набросок: несколько линий, которые указывают пропорции. Затем он добавляет детали, текстуры и оттенки. Нейросети работают так же от простого к сложному.

Почему это эффективно?

Люди не всегда обращают внимание на детали, которые важны для задачи. Например, если вам нужно узнать, кто изображён на фотографии, вас интересует лицо, а не фон. Нейросеть же автоматически выделяет самые значимые части картинки, игнорируя ненужные элементы.

Допустим, сеть обучают распознавать кошек на фотографиях. Она не анализирует каждый пиксель в кадре, а ищет определённые признаки: форму ушей, контуры глаз, длину усов. Даже если фон разный, кошка может быть узнана по ключевым чертам. Это похоже на то, как человек узнаёт знакомого в толпе, не обращая внимания на его одежду или прическу.

Упрощённое восприятие в распознавании лиц

Когда вы разблокируете телефон с Face ID, нейросеть не анализирует всю фотографию вашего лица. Она ищет определённые точки: расположение глаз, носа, рта. Даже если вы измените выражение лица или наденете очки, алгоритм всё равно сможет вас узнать, потому что он опирается не на поверхностные детали, а на глубинные структуры.