Как стать автором
Обновить

Kandinsky 3.0 — новая модель генерации изображений по тексту

Уровень сложности Средний
Время на прочтение 10 мин
Количество просмотров 6.6K
Всего голосов 33: ↑31 и ↓2 +29
Комментарии 25

Комментарии 25

Спасибо за статью и модель! Сколько нужно памяти для локального инференса? Можно ли квантовать текстовый энкодер, чтобы хоть как-то сделать возможным запуск на околодомашних машинах?

И ещё хорошо бы было узнать, под какой лицензией код и модели? Ни на hf, ни на GitHub не вижу упоминаний.

А разве модель есть в доступе для запуска локально? На сайтах не вижу такого, только веб интерфейс.

Скорее всего через некоторое кол-во времени вот тут (или тут) имплементируют, но вообще моделька оч большая получается, поэтому не думаю, что запускать её у себя прям хорошая затея

Лицензия у кода (и модельки как я понял тоже) apache 2

Результат генерации по запросу "глокая куздра штеко будланула бокра и курдячит бокрёнка", стиль: artstation
Результат генерации по запросу "глокая куздра штеко будланула бокра и курдячит бокрёнка", стиль: artstation

Результат генерации по запросу "два дымящихся ствола", стиль: artstation
Результат генерации по запросу "два дымящихся ствола", стиль: artstation

я так понимаю работа с более чем 100 языками - это перевод на английский и все?

Похоже из персонажей из русскоязычного культурного пространства добавили только Чебурашку и домовёнка Кузю. Видимо чисто для отчёта. Пробовал рисовать других известных персонажей: из Ну погоди или Смешариков - нейросеть таких не знает.

Илона Маска рисует отлично. Но верно подмечено, многих не знает. Удивительно, но сеть Kandinsky самого Кандинского нарисовать не может.

Видимо Чебурашку и Кузю толокеры отфайнтюнили вручную.

Я в начале года с чебурашкой "игрался". Фото чебурашек в базе LAION, от которой Stability и иже с ними пляшут - есть.

cheburashka
А на выходе SDXL выдаёт обезьянок ;)

Результат генерации по запросу "Волк из советского мультфильма "Ну, погоди" жарит зайца из этого же мультфильма"
Результат генерации по запросу "Волк из советского мультфильма "Ну, погоди" жарит зайца из этого же мультфильма"

Ну да..

Тяжёлое детство было у этой сетки.

Видимо, сеть не может напрямую сказать, что ей запрещено генерировать порно и гуро, поэтому извивалась как могла.

Humanoid cat eats sushi in an restaurant in ancient Egypt, artstation, retro photo, photorealistic
Humanoid cat eats sushi in an restaurant in ancient Egypt, artstation, retro photo, photorealistic

Простите, а зачем на fusionbrain форс редирект на мобильную версию? Очень обидно, что такое пришло кому-то в голову, учитывая, что сейчас я хожу с клавиатурой + фолдом.

Да ещё и сделан хитро как-то, "версия для ПК" в браузере не помогает

Простую сетку всё так же не получить, только с косяками:

"пиксельная сетка на белом фоне"
"пиксельная сетка на белом фоне"

У меня нет опыта в подборе промтов, может быть дело в этом.

"идеальная пиксельная сетка на белом фоне"

Предлагаю этот тэст с сеткой как альтернативу тэсту Тьюринга для рисующих нейросетей.
Пусть люди (среди которых ИИ) создают простые геометрические узоры в простом векторном редакторе или конструкторе, и надо определить, кто из них ИИ.

У меня нет опыта в подборе промтов, может быть дело в этом.

Нет, просто вы пытаетесь забивать гвозди микроскопом

Да вот нет. Это как раз-таки интересный вопрос, почему нейросеть неспособна отрисовывать прямые линии, симметрию, цифры и надписи. Казалось бы, букв в алфавите немного, цифр ещё меньше, почему же нейросеть не выучила их все и пытается каждый раз не писáть, а генерировать?

Но ведь способна. С надписями вопрос решён уже в DALL-E 3, с симметрией и того раньше. Смотрите на современные нейронки типа DALL-E и Midjourney, а не на догоняющих в лице Сбера.

А почему в статье про Kandinsky Video (https://habr.com/ru/companies/sberbank/articles/775554/) нормальные примеры именно анимаций, а тут опять эпилептическая аморфная фигня из сотни разных кадров?

Бяка-закаляка кусучая, с десятью ногами, с десятью рогами. По версии последнего Дали и третьего Кандинского:
image
image

У мустанга отражение - сплошные косяки.

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.