Комментарии 25
Спасибо за статью и модель! Сколько нужно памяти для локального инференса? Можно ли квантовать текстовый энкодер, чтобы хоть как-то сделать возможным запуск на околодомашних машинах?
И ещё хорошо бы было узнать, под какой лицензией код и модели? Ни на hf, ни на GitHub не вижу упоминаний.
А разве модель есть в доступе для запуска локально? На сайтах не вижу такого, только веб интерфейс.
HuggingFace и Github (доступны код и веса модели)
я так понимаю работа с более чем 100 языками - это перевод на английский и все?
Дуракаваляние это всё ;)
Похоже из персонажей из русскоязычного культурного пространства добавили только Чебурашку и домовёнка Кузю. Видимо чисто для отчёта. Пробовал рисовать других известных персонажей: из Ну погоди или Смешариков - нейросеть таких не знает.
Илона Маска рисует отлично. Но верно подмечено, многих не знает. Удивительно, но сеть Kandinsky самого Кандинского нарисовать не может.
Видимо Чебурашку и Кузю толокеры отфайнтюнили вручную.
Я в начале года с чебурашкой "игрался". Фото чебурашек в базе LAION, от которой Stability и иже с ними пляшут - есть.
cheburashka
А на выходе SDXL выдаёт обезьянок ;)
Ну да..
Простите, а зачем на fusionbrain форс редирект на мобильную версию? Очень обидно, что такое пришло кому-то в голову, учитывая, что сейчас я хожу с клавиатурой + фолдом.
Простую сетку всё так же не получить, только с косяками:
У меня нет опыта в подборе промтов, может быть дело в этом.
"идеальная пиксельная сетка на белом фоне"
Предлагаю этот тэст с сеткой как альтернативу тэсту Тьюринга для рисующих нейросетей.
Пусть люди (среди которых ИИ) создают простые геометрические узоры в простом векторном редакторе или конструкторе, и надо определить, кто из них ИИ.
У меня нет опыта в подборе промтов, может быть дело в этом.
Нет, просто вы пытаетесь забивать гвозди микроскопом
Да вот нет. Это как раз-таки интересный вопрос, почему нейросеть неспособна отрисовывать прямые линии, симметрию, цифры и надписи. Казалось бы, букв в алфавите немного, цифр ещё меньше, почему же нейросеть не выучила их все и пытается каждый раз не писáть, а генерировать?
А почему в статье про Kandinsky Video (https://habr.com/ru/companies/sberbank/articles/775554/) нормальные примеры именно анимаций, а тут опять эпилептическая аморфная фигня из сотни разных кадров?
У мустанга отражение - сплошные косяки.
Kandinsky 3.0 — новая модель генерации изображений по тексту