В 2017 году группа исследователей из Google опубликовала статью под названием «Внимание – это все, что вам нужно», которая стала одной из самых влиятельных в истории современной науки об искусственном интеллекте. Эта работа представила мир архитектуры трансформеров – новую модель нейронных сетей, основанную на механическом внимании, которая существенно изменила подход к обработке текстов, изображений, звука и других данных. В этом главе мы разбеременны, в чем заключалась суть этой статьи, как работает механизм внимания и почему трансформеры совершают настоящую революцию в сфере ИИ.
Проблемы, которые предшествовали появлению трансформеров
До 2017 года в сфере обработки естественного языка (НЛП) доминировали рекуррентные нейронные сети (RNN) и их более сложные варианты, такие как LSTM (долгосрочная краткосрочная память). Эти модели были способны анализировать последовательность данных, например текст, где порядок слов имеет значение. Однако у RNN были некоторые ограничения:
Трудности в обработке последовательно последовательностей : Рекуррентные сети имели проблемы с сохранением и обработкой информации на небольших отрезках текста. Это привело к потере важного контекста.
Медленность и сложность обучения : RNN работала последовательно, что заметно, что обучение требовало большого количества ресурсов и времени.
Сложность параллельной обработки : Рекуррентные сети плохо поддаются параллельным вычислениям, что делает их неэффективными для применения на больших объемах данных.
Архитектура трансформеров: ключевая идея
Исследователи из Google предложили совершенно новый подход, который позволяет снизить рекуррентность и использовать другой механизм – механизм внимания . Эта идея была основана на предположении, что для понимания последовательности данных важно сосредоточиться на ключевых частях, оставляя незначительные.
Основные компоненты трансформеров:
Механизм внимания : он позволяет моделям на каждом этапе фокусироваться на разных частях в соответствии с последовательностью, уделяя больше внимания наиболее значимым элементам. Механизм называется самовниманием, потому что модель находит взаимосвязи между одними элементами и той же последовательностью.
Многоголовое внимание : для того, чтобы учесть различные аспекты данных, трансформеры используют несколько «голов» внимания, которые фокусируются на разных частях текста одновременно. Это позволяет модели создавать более сложные и детализированные взаимосвязи между словами или другими элементами по последовательности.