Комментарии 25
Спасибо за статью и модель! Сколько нужно памяти для локального инференса? Можно ли квантовать текстовый энкодер, чтобы хоть как-то сделать возможным запуск на околодомашних машинах?
И ещё хорошо бы было узнать, под какой лицензией код и модели? Ни на hf, ни на GitHub не вижу упоминаний.
А разве модель есть в доступе для запуска локально? На сайтах не вижу такого, только веб интерфейс.
HuggingFace и Github (доступны код и веса модели)
![Результат генерации по запросу "глокая куздра штеко будланула бокра и курдячит бокрёнка", стиль: artstation Результат генерации по запросу "глокая куздра штеко будланула бокра и курдячит бокрёнка", стиль: artstation](https://webcf.waybackmachine.org/web/20231122152812/https://habrastorage.org/getpro/habr/upload_files/683/d50/300/683d50300efe2725bc5181c245350642.png)
![Результат генерации по запросу "два дымящихся ствола", стиль: artstation Результат генерации по запросу "два дымящихся ствола", стиль: artstation](https://webcf.waybackmachine.org/web/20231122152812/https://habrastorage.org/getpro/habr/upload_files/cb8/7c9/495/cb87c949585ff1f4ff75bd36fc5dd53f.jpg)
я так понимаю работа с более чем 100 языками - это перевод на английский и все?
![Промпт 123456789, свой стиль Промпт 123456789, свой стиль](https://webcf.waybackmachine.org/web/20231122152812/https://habrastorage.org/getpro/habr/upload_files/d80/109/b19/d80109b190fd0db9ca2e49d0160a43e7.png)
Дуракаваляние это всё ;)
Похоже из персонажей из русскоязычного культурного пространства добавили только Чебурашку и домовёнка Кузю. Видимо чисто для отчёта. Пробовал рисовать других известных персонажей: из Ну погоди или Смешариков - нейросеть таких не знает.
Илона Маска рисует отлично. Но верно подмечено, многих не знает. Удивительно, но сеть Kandinsky самого Кандинского нарисовать не может.
Видимо Чебурашку и Кузю толокеры отфайнтюнили вручную.
Я в начале года с чебурашкой "игрался". Фото чебурашек в базе LAION, от которой Stability и иже с ними пляшут - есть.
cheburashka
![](https://webcf.waybackmachine.org/web/20231122152812/https://habrastorage.org/getpro/habr/upload_files/427/a76/4b0/427a764b0582252d9ce50354812a9e28.jpg)
А на выходе SDXL выдаёт обезьянок ;)
![](https://webcf.waybackmachine.org/web/20231122152812/https://habrastorage.org/getpro/habr/upload_files/f1a/6c3/7da/f1a6c37da06180edb03fd6d01abc4fb6.jpg)
![Результат генерации по запросу "Волк из советского мультфильма "Ну, погоди" жарит зайца из этого же мультфильма" Результат генерации по запросу "Волк из советского мультфильма "Ну, погоди" жарит зайца из этого же мультфильма"](https://webcf.waybackmachine.org/web/20231122152812/https://habrastorage.org/getpro/habr/upload_files/f4a/f15/01d/f4af1501d51d10faca791d9045a97adb.png)
Ну да..
![Humanoid cat eats sushi in an restaurant in ancient Egypt, artstation, retro photo, photorealistic Humanoid cat eats sushi in an restaurant in ancient Egypt, artstation, retro photo, photorealistic](https://webcf.waybackmachine.org/web/20231122152812/https://habrastorage.org/getpro/habr/upload_files/918/b8a/631/918b8a6312d018d0f822a4f4ab3ff108.png)
Простите, а зачем на fusionbrain форс редирект на мобильную версию? Очень обидно, что такое пришло кому-то в голову, учитывая, что сейчас я хожу с клавиатурой + фолдом.
Простую сетку всё так же не получить, только с косяками:
!["пиксельная сетка на белом фоне" "пиксельная сетка на белом фоне"](https://webcf.waybackmachine.org/web/20231122152812/https://habrastorage.org/webt/c1/_o/l0/c1_ol0cal2aj3hx8cia6e3eovem.png)
У меня нет опыта в подборе промтов, может быть дело в этом.
"идеальная пиксельная сетка на белом фоне"
![](https://webcf.waybackmachine.org/web/20231122152812/https://habrastorage.org/webt/ge/hd/vt/gehdvtjg7bjldqerlrgn9isgtwg.png)
Предлагаю этот тэст с сеткой как альтернативу тэсту Тьюринга для рисующих нейросетей.
Пусть люди (среди которых ИИ) создают простые геометрические узоры в простом векторном редакторе или конструкторе, и надо определить, кто из них ИИ.
У меня нет опыта в подборе промтов, может быть дело в этом.
Нет, просто вы пытаетесь забивать гвозди микроскопом
Да вот нет. Это как раз-таки интересный вопрос, почему нейросеть неспособна отрисовывать прямые линии, симметрию, цифры и надписи. Казалось бы, букв в алфавите немного, цифр ещё меньше, почему же нейросеть не выучила их все и пытается каждый раз не писáть, а генерировать?
А почему в статье про Kandinsky Video (https://habr.com/ru/companies/sberbank/articles/775554/) нормальные примеры именно анимаций, а тут опять эпилептическая аморфная фигня из сотни разных кадров?
У мустанга отражение - сплошные косяки.
Kandinsky 3.0 — новая модель генерации изображений по тексту