![](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/2ee/609/ad3/2ee609ad3b813f3927a994ee86c25c11.png)
Всем привет!
Omost, разработанный lllyasviel — это новый веб-интерфейс, который совмещает в себе возможности больших языковых моделей (LLM) и возможности генерации и изображений на SDXL моделях. Иными словами, SDXL и ChatGPT в одном флаконе
Название Omost (произношение: "almost") символизирует:
Каждый раз, когда вы используете Omost, ваше изображение почти готово
"O" означает "omni" (мультимодальный), а "most" означает стремление извлечь максимум из каждого изображения
Суть в том, что используются простые промпты, а языковая модель преобразовывает и распределяет текстовый запрос таким образом, чтобы на выходе получать красивые и необычные генерации. Смесь LLM и SDXL позволяет очень гибко управлять генерацией
![Интерфейс Omost Интерфейс Omost](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/cc3/bc7/3ed/cc3bc73ed863c29cf603040ae6b5c03d.png)
Интерфейс очень простой и понятный, похож на Fooocus. Большая часть параметров перекочевала из Automatic1111, если вы уже с ним знакомы, то переходите к следующему разделу. Ниже остановимся подробнее
1 — Окно "Prompt"
Основное рабочее пространство
В это окно прописываем текстовый запрос с учётом позиционирования объектов на изображении (например, солнце в правом верхнем углу, силуэт по центру и т.п.)
Далее запрос отправляется в LLM-модель, для получения более сложного промпта
2 — New Chat
Работает подобно созданию нового чата в ChatGPT
Необходим в случаях, когда нужно уйти от контекста предыдущей генерации
3 — Edit Last Input - редактирование последнего текстового запроса
4 — Random Seed
Случайный параметр начального шума, из которого будет происходит генерация конечного изображения. Вводится вручную
Не используйте слишком длинные комбинации цифр, достаточно 4-7 случайных цифр
5 — Окно Language Model
Настройки языковой модели:
Temperature - пришло от ChatGPT, чем больше «temperature», тем более художественный ответ даст ИИ
Max New Tokens - максимальное количество вводимых токенов
6 — Окно Image Diffusion Model
Image Width - ширина изображения
Image Height - высота изображения
Используйте числа, кратные 64, начиная от 512 (например, 1024x1024, 768x1024 и т.д.)
Image Number - количество итоговых изображений
Sampling Steps - количество шагов по созданию изображения. Чем их больше, тем дольше нейросеть будет над ней работать
7 — Вкладка "Advanced"
CFG Scale - величина соответствия текстовому запросу. Для большинства XL-моделей используется от 1 до 5-6
Настройки для Hi-Res Fix:
HR-Fix Scale - величина апскейла (повышения разрешения), увеличивает время генерации и нагрузку на видеопамять. Рекомендую оставить единицу
Highres Fix Steps - шаги апскейла
Highres Fix Denoise - мера "новизны" изображения. Чем выше это значение, тем сильнее итоговая картинка будет отличаться от исходной. От 0 до 1
Negative prompt - негативный запрос, в нём описываем то, чего не должно быть на изображении
В Omost используется модель RealVisXL 4.0
Процесс генерации
Давайте поближе взглянем на сам процесс преобразования промпта
Пишем вот такой запрос на входе:
a British Shorthair cat on the center
А вот то, что мы получаем на выходе:
![](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/25a/20e/9df/25a20e9df3b833b8a3016e6603fe5299.png)
![](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/bc0/bf8/173/bc0bf81731e726baf2ff21e3a7bdc75d.png)
![](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/950/8d6/1b1/9508d61b1f61d661dc20978e53355653.png)
А вот изображение на выходе:
![Изображение на выходе с запросом "a British Shorthair cat on the center" Изображение на выходе с запросом "a British Shorthair cat on the center"](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/299/85c/d90/29985cd9088f721403e58b6bbdfe09ac.png)
Или давайте совсем просто:
a woman
![](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/344/306/723/344306723219ef21a6bb469df6c9bdc4.png)
![](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/209/a5c/4a6/209a5c4a6b4076a5b96d02f811317808.png)
Как видно на скриншотах, можно в мельчайших подробностях задавать параметры позиционирования: от лица, цвета волос и причёски до губ, глаз и одежды. Выглядит всё это очень интересно!
![Изображение на выходе с запросом "a woman" Изображение на выходе с запросом "a woman"](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/79c/164/002/79c164002963b0cc9b39fccb2b70b233.png)
Хочу сгенерировать силуэт девушки на фоне ночного неба. Введём следующий запрос в нижнее окно:
Dark silhouette of a girl in the bottom right, she looks at the starry night sky, standing on a grass field, a forest in the left, fireflies, dark composition
Параметры не меняю
После обработки запроса нажимаем Render the Image!
Получаем следующие результаты:
![](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/d7d/7bf/7a7/d7d7bf7a7ea20885e0751a455f0f7148.png)
![](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/c2d/14b/63f/c2d14b63fd9c52084be361f86acc990f.png)
![](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/ca0/acd/5a8/ca0acd5a898e6480d7b7b1705e51f126.png)
Omost, к сожалению, не всегда строго придерживается позиционирования
Далее я пишу в чат "поменяй девочку на кошку", жму Render the image и получаю следующее:
![](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/9ca/8c3/626/9ca8c362672fe9cf458da5551329c8a6.png)
![](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/2de/18b/879/2de18b8796ca1f92b97fde9b4b09d474.png)
Теперь хочу изобразить рыжую девушку в левой части изображения. Сгенерируем следующий запрос:
beautiful woman with short redhair on the left, pale skin, freckles, big green eyes, slim face, green sweatpants, belly button, white socks, lying in her bed,
![](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/b2e/56a/156/b2e56a15624a0dc91051916ee72d8551.png)
![](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/a27/3d7/9e0/a273d79e070e22f06d0241572d7847db.png)
Ещё один пример
rusalka on the left, aesthetic of street art with knowledge-sharing atmosphere, fog, high depth of field, f/4, framing, groundbreaking breathtaking magnum with precise details, award winning, (Travel Photography by Ashley Gilbertson and George Platt Lynes:0.1), (pastel and bluish-purple colors:0.1),
![](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/842/c31/db6/842c31db61d921d2c6a73d4a961da2c2.png)
![](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/475/bb8/ad8/475bb8ad8317efbebf08ddce4163a0df.png)
Придерживайтесь правила: один чат - один сюжет на изображении
Для создания новой композиции нажимаем справа сверху New Chat
На Гите представлены подсказки для позиционирования объектов:
![Вы можете задавать расположение объектов согласно сетке Вы можете задавать расположение объектов согласно сетке](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/c8e/3ce/491/c8e3ce491fec7c1098f6282b350956b6.png)
![Вы можете задавать расположение объектов согласно сетке Вы можете задавать расположение объектов согласно сетке](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/c96/38d/d27/c9638dd27a3432179642dce520b5f213.png)
![Вы можете задавать расположение объектов согласно сетке Вы можете задавать расположение объектов согласно сетке](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/000/b1a/00b/000b1a00ba1c530fa6f659e2855b5cbd.png)
В Omost используется словесное описание позиционирования, а не координатное, потому что "прямое использование координат пикселей или процентных индексов оказалось менее эффективным для LLM"
Так же, если вам нужен точный цвет на изображении, то можно указать его в запросе. На Гите есть слова-триггеры и их HTML-коды. Однако, всё же пока не получается добиться точной цветопередачи
![](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/f1e/22d/38c/f1e22d38cfbe7b374d6951cd10cfaef4.png)
Как итог, Omost - новый экспериментальный инструмент наподобие DALL-E 3, который сочетает в себе мощь LLM- и SDXL моделей
Хочу напомнить, чтобы завести Omost локально, необходима видеокарта как минимум с 8 Гб видеопамяти. Так же он очень требователен к оперативной памяти, съел все мои 16, а я уверен, может и больше
Вы можете попробовать Omost в Demo на Hugging Face
Или скачать портативную версию с установкой в один клик, которая весит всего 1.6 Гб
Перед установкой отключите антивирус, он ругается на самораспаковывающийся архив. Если переживаете, то скачивайте 7z-архив, который нужно просто разархивировать в любое удобное место
![](https://webcf.waybackmachine.org/web/20240615053434/https://habrastorage.org/getpro/habr/upload_files/a6f/27f/b6b/a6f27fb6bc513d82b7e2baec48323e09.png)
Подписывайтесь на 👾Нейро-Софт, канал с портативными версиями ваших любимых нейросетей!