Нейромагия. Как MidJourney, ChatGPT и Claude создают наше будущее - страница 7

Шрифт
Интервал


1.3. КАК РАБОТАЮТ НЕЙРОСЕТИ (ДОПОЛНИТЕЛЬНЫЕ ТЕХНИЧЕСКИЕ ПОЯСНЕНИЯ)

Важную роль играет сама процедура обучения. Весам нейронов изначально присваивают случайные значения небольшой величины. По мере обучения происходит последовательное обновление этих весов с помощью оптимизаторов (SGD, Adam), которые вычисляют, как именно нужно сдвинуть параметры, чтобы ошибка (несоответствие вывода сети и реального ответа) снижалась.

В различных задачах используются разные функции потерь. В классификации это чаще всего кросс-энтропия (Cross-Entropy), в регрессии – среднеквадратичная ошибка (MSE), в языковых моделях – Negative Log Likelihood. Если сеть переобучается (начинает слишком точно запоминать тренировочные примеры), применяют механизмы регуляризации (Dropout, Weight Decay), искусственно «шумят» данные (Data Augmentation), нормализуют слои, чтобы стабилизировать обучение (Batch Normalization, Layer Normalization).

Пространство параметров больших моделей (миллионы и миллиарды весов) столь велико, что точный перебор невозможен. Поэтому обучение – это итеративный процесс приближения к локальным минимумам. С учётом того, что обучающие выборки могут содержать миллионы образцов, процесс тренировки требует огромных ресурсов. GPU и специальные модули (TPU от Google, чипы для нейронных вычислений от разных производителей) стали основными инструментами для реализации глубинного обучения.

Результатом этого сложного процесса является сеть, которая способна обобщать: видя ранее незнакомое изображение, сеть определяет, что на нём кот, а не собака, или умеет продолжить фразу в осмысленном ключе. Сеть не «понимает» мир таким же образом, как человек, но хранит в весах статистические закономерности, выявленные из обучающей выборки.

1.1. ЭВОЛЮЦИЯ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА (УГЛУБЛЁННЫЕ ДЕТАЛИ)

Становление глубинного обучения тесно связано с приходом крупных IT-игроков. Google поглотила DeepMind, Microsoft – партнёр OpenAI, Facebook развивает исследовательские центры, а Amazon вкладывается в AWS-сервисы для машинного обучения. Университеты (Университет Торонто, Стэнфорд, MIT, Кембридж, Оксфорд) стали «инкубаторами» идей и родиной для многих стартапов. Через несколько десятилетий после первой «зимы ИИ» нейронные сети вернулись и заняли центральное место в современной науке и индустрии.