ddimitrov 6 часов назад

Kandinsky 3.0 — новая модель генерации изображений по тексту

Средний

10 мин

6.6K

Блог компании Сбер Блог компании SberDevices Обработка изображений *Машинное обучение *Natural Language Processing *

Обзор

+29

Комментарии 25

Kristaller486 6 часов назад

Спасибо за статью и модель! Сколько нужно памяти для локального инференса? Можно ли квантовать текстовый энкодер, чтобы хоть как-то сделать возможным запуск на околодомашних машинах?

Kristaller486 5 часов назад

И ещё хорошо бы было узнать, под какой лицензией код и модели? Ни на hf, ни на GitHub не вижу упоминаний.

HexGrimm 4 часа назад

А разве модель есть в доступе для запуска локально? На сайтах не вижу такого, только веб интерфейс.

Kristaller486 4 часа назад

HuggingFace и Github (доступны код и веса модели)

4eJIoBek 4 часа назад

Скорее всего через некоторое кол-во времени вот тут (или тут) имплементируют, но вообще моделька оч большая получается, поэтому не думаю, что запускать её у себя прям хорошая затея

Лицензия у кода (и модельки как я понял тоже) apache 2

akabrr 5 часов назад

Результат генерации по запросу "глокая куздра штеко будланула бокра и курдячит бокрёнка", стиль: artstation

Nprasolov 5 часов назад

Результат генерации по запросу "два дымящихся ствола", стиль: artstation

я так понимаю работа с более чем 100 языками - это перевод на английский и все?

AlexG37G 4 часа назад

Дуракаваляние это всё ;)

Andrey_Epifantsev 4 часа назад

Похоже из персонажей из русскоязычного культурного пространства добавили только Чебурашку и домовёнка Кузю. Видимо чисто для отчёта. Пробовал рисовать других известных персонажей: из Ну погоди или Смешариков - нейросеть таких не знает.

Galperin_Mark 3 часа назад

Илона Маска рисует отлично. Но верно подмечено, многих не знает. Удивительно, но сеть Kandinsky самого Кандинского нарисовать не может.

AlexG37G 2 часа назад

Видимо Чебурашку и Кузю толокеры отфайнтюнили вручную.

Я в начале года с чебурашкой "игрался". Фото чебурашек в базе LAION, от которой Stability и иже с ними пляшут - есть.

cheburashka

А на выходе SDXL выдаёт обезьянок ;)

Ualde 3 часа назад

Результат генерации по запросу "Волк из советского мультфильма "Ну, погоди" жарит зайца из этого же мультфильма"

Ну да..

exTvr 3 часа назад

Тяжёлое детство было у этой сетки.

perfect_genius 2 часа назад

Видимо, сеть не может напрямую сказать, что ей запрещено генерировать порно и гуро, поэтому извивалась как могла.

-1

averkij 3 часа назад

Humanoid cat eats sushi in an restaurant in ancient Egypt, artstation, retro photo, photorealistic

Lexicon 3 часа назад

Простите, а зачем на fusionbrain форс редирект на мобильную версию? Очень обидно, что такое пришло кому-то в голову, учитывая, что сейчас я хожу с клавиатурой + фолдом.

nebularia 2 часа назад

Да ещё и сделан хитро как-то, "версия для ПК" в браузере не помогает

perfect_genius 2 часа назад

Простую сетку всё так же не получить, только с косяками:

У меня нет опыта в подборе промтов, может быть дело в этом.

perfect_genius 2 часа назад

"идеальная пиксельная сетка на белом фоне"

Предлагаю этот тэст с сеткой как альтернативу тэсту Тьюринга для рисующих нейросетей.
Пусть люди (среди которых ИИ) создают простые геометрические узоры в простом векторном редакторе или конструкторе, и надо определить, кто из них ИИ.

nebularia 1 час назад

У меня нет опыта в подборе промтов, может быть дело в этом.

Нет, просто вы пытаетесь забивать гвозди микроскопом

StjarnornasFred 1 час назад

Да вот нет. Это как раз-таки интересный вопрос, почему нейросеть неспособна отрисовывать прямые линии, симметрию, цифры и надписи. Казалось бы, букв в алфавите немного, цифр ещё меньше, почему же нейросеть не выучила их все и пытается каждый раз не писáть, а генерировать?

nebularia 45 минут назад

Но ведь способна. С надписями вопрос решён уже в DALL-E 3, с симметрией и того раньше. Смотрите на современные нейронки типа DALL-E и Midjourney, а не на догоняющих в лице Сбера.

nebularia 1 час назад

А почему в статье про Kandinsky Video (https://habr.com/ru/companies/sberbank/articles/775554/) нормальные примеры именно анимаций, а тут опять эпилептическая аморфная фигня из сотни разных кадров?

kraidiky 43 минуты назад

Бяка-закаляка кусучая, с десятью ногами, с десятью рогами. По версии последнего Дали и третьего Кандинского:
image
image

butsan 19 минут назад

У мустанга отражение - сплошные косяки.

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.