Рисунок 5 – Нейросеть «Шедеврум», разработанная компанией «Яндекс»
Эта нейросеть обладает умением понимать русский и английский языки, а также проявляет предпочтение к конкретным и точным описаниям. Она способна имитировать стиль известных художников и создавать произведения искусства в заданных художественных стилях. Для использования этой системы необходимо скачать мобильное приложение, доступное в Google Play и App Store.
Нейронная сеть «Шедеврума» использует метод каскадной диффузии для создания иллюстраций. Сначала она генерирует изображения в соответствии с текстовым запросом, а затем постепенно увеличивает разрешение, добавляя детали. Первая версия этой генеративной модели была обучена на 240 миллионах примеров изображений с текстовыми описаниями. В настоящее время разработчики работают над следующим обновлением системы, которое будет основано на наборе данных из 500 миллионов примеров. Ожидается, что это обновление значительно улучшит качество генерируемых искусственным интеллектом изображений.
Нейросеть Kandinsky 2.1, разработанная компанией «Сбер», представляет собой новую генеративную модель, способную создавать высококачественные изображения на основе их текстового описания на естественном языке. Именно эту нейросеть мы использовали для создания обложки нашего пособия. Эта модель также может комбинировать несколько изображений, изменять их в соответствии с текстовым описанием, генерировать иллюстрации, которые похожи на заданное изображение, дорисовывать недостающие части и формировать изображения в режиме бесконечного полотна. Сервис понимает запросы на 101 языке, включая русский и английский, и способен рисовать в различных стилях, таких как 3D-рендеринг, картина маслом, рисунок карандашом, студийное фото, хохлома, ренессанс, классицизм, аниме, мозаика и другие.
Kandinsky 2.1 является развитием предыдущей версии AI-системы, которая была обучена на одном миллиарде пар «текст – изображение». Обновленная модель также была обучена на 170 миллионах иллюстраций высокого разрешения с текстовыми описаниями, а также на датасете из двух миллионов примеров, содержащих тексты, лица людей и другие сложные графические элементы. В основе сервиса также лежит новая модель автоэнкодера, которая используется в качестве декодера векторных представлений изображений. Представители компании «Сбер» отмечают, что эти улучшения значительно повышают качество генерируемых иллюстраций в высоком разрешении.