Наверняка вы уже не просто наслышаны о нейросетях, но и не раз пробовали их в действии. Я начала работать с визуальными сетями, и, в частности с Midjourney, летом 2022 года и успешно интегрирую их в работу дизайнера и иллюстратора до сих пор. В этом гайде я попробую понятно объяснить, как работает технология.
Лучше всего это, конечно, объяснит специалист, но вкратце, нейросеть обрабатывает колоссальные массивы данных, выделяет паттерны и использует их в дальнейшей работе. На этом подходе основаны не только визуальные и текстовые ИИ, но и многие другие, которые уже плотно вошли в нашу жизнь. Так, Midjourney, Dall-E и Stable Diffusion учились на полотнах великих мастеров, фотографиях и иллюстрациях, лежащих в интернете в свободном доступе. Сейчас начались суды по поводу нелегитимного использования работ, защищённых авторским правом, которые каким-то образом попали в алгоритм. Однако это зыбкая почва, и я не завидую юристам, которые разбирают эти дела.
Алгоритмы на основе машинного обучения сегодня начали называть Diffusion, или диффузией. Здесь нет ничего общего с физикой 7 класса. Почти нет.
Процесс этой диффузии состоит из трёх фаз:
1. Картинкам для обучения сети присваивается точное текстовое описание.
2. Алгоритм превращает эту картинку в белый шум.
3. Восстанавливает картинку из этого шума.
Изначально, если запрос совпадал с описанием исходного изображения, на котором училась нейронка, она должна была выдать ту самую оригинальную картинку, нарушая права автора. Чтобы избежать этого и добавить разнообразия в результаты, разработчики подмешивают случайные образы в процессе генерации. Так, мы и получили массу интригующих иллюстраций.
Генерация
Что такое запрос?
Промптом или запросом называют описание того, что вы хотите видеть на сгенерированной нейросетью картинке. Часто, составляя запрос, мы представляем шедевр, но на выходе получаем полную белиберду. Чтобы получить хороший результат, нужно понимать, как работает процесс, какие и в каком порядке слова использовать
Робот воспринимает информацию последовательно, а не одним махом. Решите, что в вашей картинке главное, а что второстепенное – и используйте это для организации порядка слов в запросе. Если на вашей картинке есть герои, опишите их, разделив описание запятыми или нумерацией. Чем больше деталей вы добавите, тем лучше будет результат. Однако важно не переусердствовать – «воду» алгоритм отсеивает автоматически. Кроме того, подумайте, в каком стиле вы хотите получить картинку. Нейросеть не может читать ваших мыслей, по крайней мере пока, поэтому сообщите ей, что хотите получить, например, акварельный рисунок. В конце можете приправить запрос указанием цвета и формата вашей картинки. Если нейросети не определить стиль изображения, то в стандартной модели она будет клониться к реализму, а в niji – к аниме.