Обработка изображений *

Работаем с фото и видео

Статьи Посты Авторы Компании

SmartEngines 5 мая в 17:34

Как с помощью нейронной сети снизить дозу КТ, не потеряв в качестве реконструкции

Средний

5 мин

Блог компании Smart Engines Алгоритмы *Обработка изображений *Машинное обучение *

Привет, Хабр! Всем известно, что чрезмерное использование рентгеновских лучей негативно влияет на здоровье человека. Однако метод компьютерной томографии очень востребован, так как позволяет неинвазивно визуализировать изображение внутренней структуры человеческого тела. Поэтому задача снижения дозы в методе КТ возникла с момента введения в эксплуатацию первых сканеров. Существует множество методов снижения дозы излучения, получаемой пациентом, но, к сожалению, все они ведут к снижению диагностических качеств реконструированных изображений. Мы разработали метод снижения дозы излучения за счет снижения числа проекций, который сохраняет качество реконструированного изображения. Теоретически обоснованный метод базируется на применении нейронных сетей, показывает хорошее качество реконструкций, а быстродействие метода достигается за счет использования легковесной нейронной сети. Качество работы метода демонстрируется на открытом датасете с результатами томографии грудной клетки человека. Обо всем этом мы и расскажем в данной статье.

+13

ddimitrov 5 мая в 15:55

RUDOLPH: освещая дорогу к AGI

Сложный

19 мин

1.5K

Блог компании Сбер Обработка изображений *Машинное обучение *Искусственный интеллект Natural Language Processing *

Обзор

Как можно описать последние два года в области машинного обучения и искусственного интеллекта? Пожалуй, подойдет словосочетание «расцвет генеративных моделей». Очень ярко прослеживается тренд и на развитие мультимодальности (и особенно активно развиваются бимодальные модели, работающие на стыке модальностей текстов и изображений). Если нашумевшая модель ChatGPT, построенная на основе архитектуры InstructGPT и принципах Reinforcement Learning with Human Feedback, работает только в текстовой модальности и может отвечать на текстовые вопросы различной степени сложности, то её последователь GPT-4 работает уже в двух модальностях, текст и изображение, но выдает только текстовый ответ. Похожим образом работают и модели Flamingo, FROMAGe, Kosmos-1, MiniGPT-4, LLaVa. Можно заметить, что большинство моделей «однонаправлены», то есть либо переводят текст в соответствующее ему изображение, либо генерируют текстовый ответ по мультимодальному запросу.

Тем не менее, кажется, что модель, которая сможет работать с модальностями (в нашем случае, текстами и изображениями) равноценно и симметрично (то есть по факту решать zero-shot или после файнтюнинга все задачи на стыке двух модальностей, в том числе и генеративные) сможет более правильно оценивать совместные вероятности «токенов» текста и изображения и за счёт этого более качественно решать каждую из задач в отдельности (описывать изображения, генерировать изображения по тексту, отвечать на вопросы по тексту, отвечать на вопросы по изображениям, распознавать рукописный текст итд). Назовём такую способность модели гиперзадачностью (hyper-tasking).

Чтобы проверить гипотезу, сформулированную выше, мы задумались над модификацией генеративной модели Kandinsky 1.0 (ruDALL-E 12B), а именно над изменением процесса обработки входной последовательности. Результатом наших экспериментов стала модель RUDOLPH (RUssian Decoder On Language Picture Hyper-tasking), которая представляет собой авторегрессионную модель, способную решать разные типы задач в текстово-визуальном домене.

mtsvideo 5 мая в 09:00

Как мы разрабатывали алгоритм для анализа уникальных посетителей

Средний

7 мин

1.1K

Блог компании МТС Обработка изображений *Big Data *Инженерные системы *

Кейс

Привет, Хабр! Мы — Александр Просвирнин, руководитель проектного направления, и Иван Григорьев, старший менеджер продукта центра «Видеонаблюдения и Безопасности» блока по телекоммуникационному бизнесу, работаем в экосистеме МТС.

В этой статье мы расскажем о решении для анализа уникальных посетителей. Опишем недостатки существующих на рынке решений и расскажем, почему надо остановиться именно на видеоаналитике — и что мы сделали для улучшения алгоритмов.

+10

megabax 4 мая в 22:18

Уроки компьютерного зрения на Python + OpenCV с самых азов. Часть 9. Мой пэт-проект

Простой

8 мин

2.5K

Python *Обработка изображений *

Туториал

Оглавление: Уроки компьютерного зрения. Оглавление / Хабр (habr.com)

Начиная с этого урока, я буду рассказывать о компьютерном зрении на примере моего пэт-проекта. Для начала, что это будет за проект. На первом уроке я рассказал о стадиях обработки изображения в компьютерном зрении. В своем пэт-проекте я создам специальный конвейер, где эти стадии будут реализованы. Напомню кратко об этих стадиях:

• Предобработка изображения.

• Промежуточная фильтрация.

• Выявления специальных признаков (фич).

• Высокоуровневый анализ.

Разумеется, это не окончательный список стадий обработки. В будущем сюда может что-то добавиться, а так же некоторые стадии могут иметь подстадии.

Естественно, делать конвейер ради самого конвейера как-то бессмысленно. Надо, чтобы моя программа делала хоть что-то условно полезное. Сначала я хотел написать пэт-проект, который бы анализировал фотографии со спутников и БЛА и превращал их в граф (это перекликается с темой моей магистерской диссертации). Правда, это слишком уж амбициозная задумка для пэт-проекта. Надо что-то по- проще. В комментариях к одному из уроков мне посоветовали добавить в финале пару глав про выделение отдельных символов и распознавание их при помощи общедоступных нейронок. И вот я и подумал, может, начать пэт-проект именно с этой задачи? Распознавание текстов? Это гораздо проще.

Итак, для начала я создал пустой проект и добавил туда две папки: Exec и Libraries. В первой у меня будет запускаемый файл/файлы, во втором всякие библиотечные файлы. В качестве первого библиотечного файла создал Core.py:

kucev 3 мая в 17:42

Лучшие ИИ-инструменты для аннотирования видео в 2023 году

4 мин

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Процесс добавления метаданных, тэгов или меток к различным объектам, действиям или событиям в видео называется аннотированием видео. Живые аннотаторы могут выполнять эту задачу вручную, однако благодаря ИИ существенную часть процесса можно автоматизировать. Алгоритмы ИИ используют компьютерное зрение (computer vision, CV) для изучения и понимания покадрового содержания видео, а затем распознают и классифицируют объекты, действия или события на основании их визуальных элементов.

Давайте рассмотрим некоторые из лучших инструментов аннотирования видео на основе ИИ.

Читать дальше →

0x7o 3 мая в 15:45

IF: нейросеть, которая умеет в руки и текст

2 мин

2.4K

Обработка изображений *Машинное обучение *Искусственный интеллект

Синтез изображений из текста прошел долгий путь от появления DALL-E до Stable Diffusion. Несколько дней назад был открыт код большой (4.3 млрд параметров) модели для генерации изображений, которая привлекла внимание своим новым подходом к генерации - DeepFloyd IF. В этой статье я кратко рассмотрю архитектуру модели, ее возможности и приведу примеры ее работы. Кроме того, я поделюсь ссылками на онлайн-демо на платформе Replicate для лёгкого запуска без нужды устанавливать нейросеть на свой компьютер.

SmartEngines 1 мая в 11:29

Фруктография: взгляд изнутри

Простой

2 мин

Блог компании Smart Engines Обработка изображений *Софт

Всем привет!

На носу майские праздники, и некоторые из нас отправятся в добровольно-принудительном порядке на дачи открывать огородный сезон, чтобы через несколько месяцев собрать урожай. Для того чтобы скрасить процесс ожидания урожая мы хотим показать нашу коллекцию томограмм овощей и фруктов, которую мы собрали в этом году.

В детстве многие из нас пытались понять, что внутри различных предметов с помощью лупы. Некоторым повезло больше, и у них был микроскоп, в который рассматривали жучков, паучков и чешуйки лука. Но нам повезло еще больше, и у нас появилась возможность посмотреть внутрь различных предметов с помощью микротомографа.

Часто так получается, что в томограф первым делом засовывают микросхему или насекомое. Об этом мы тоже рассказывали на примере исследования CPU Pentium 4 и майского жука.

Но однажды во время обеденного перерыва один из наших исследователей засунул в томограф яблоко, которое принёс с собой на перекус, реконструировал и отрисовал в нашем новом визуализаторе, часть программы STE 2.0, и получилось красиво.

А потом понеслось. Народ стал приносить овощи/фрукты и просил посмотреть, что там внутри. Конечно, можно просто порезать ножом, но это же не технологично и скучно. А тут ещё и повод протестировать реконструктор и визуализатор. Результатами полученных трехмерных реконструкций мы и хотим поделиться с вами.

+22

SmartEngines 27 апр в 12:57

Распознавание банковских карт в видеопотоке в браузере с помощью SmartEngines и WebAssembly

Средний

5 мин

1.9K

Блог компании Smart Engines Разработка веб-сайтов *Обработка изображений *Искусственный интеллект WebAssembly *

Туториал

С активным развитием и распространением технологии WebAssembly (сокращённо WASM) появилась возможность создавать веб-модули, которые можно загружать с сервера и исполнять их прямо в браузере! Мы не смогли пройти мимо такой возможности, и, после долгих оптимизаций, представили свой модуль, умеющий распознавать банковские карты, баркоды, машиночитаемые зоны, номера телефонов и документы прямо в браузере.

Дальше мы расскажем о том, как с помощью wasm-модуля от Smart Engines распознать номер банковской карты, просто поднеся её к веб-камере ноутбука.

hukenovs 27 апр в 10:49

EasyPortrait — портретная сегментация и анализ лиц

Средний

9 мин

1.6K

Блог компании SberDevices Data Mining *Обработка изображений *Машинное обучение *Искусственный интеллект

Всем привет! Наверняка, кто-то из вас уже пользовался сервисом видеоконференций SberJazz. Мы в нашей RnD команде решили помочь ребятам с задачей замены фона, для чего создали подходящий датасет и провели ряд исследований в направлении удаления фона (background removal). На этом мы не остановились и разметили данные для задачи анализа лица (face parsing). Это позволит пользователям применять эффекты бьютификации: сглаживание кожи, изменение размера и цвета губ или глаз, отбеливание зубов и т. д.

В данной статье мы расскажем о новом наборе данных EasyPortrait, опишем процесс его создания от идеи до разметки, и представим обученные на нем нейронные сети. Датасет и веса моделей мы выложили в открытый доступ — ссылки лежат в конце статьи и в нашем репозитории.

+17

alexprozoroff 27 апр в 09:50

Ещё один взгляд компьютерным зрением на работу коммунальных служб

3 мин

1.6K

Работа с видео *Обработка изображений *Визуализация данных *Машинное обучение *Инженерные системы *

В прошлой статье Взгляд компьютерным зрением на работу коммунальных служб удалось выявить некоторые закономерности в передвижении пешеходов в зависимости от состояния тротуаров в зимний период. Сейчас снег растаял, лужи высохли, и наконец можно запустить алгоритмы аналитики на идеальных данных — видео с уличных камер в сухой солнечный весенний день. Эта статья будет значительно короче, в ней просто сравним результаты с идеальными условиями и добавим еще одну метрику — прямолинейность движения.

AntonPolyakov 25 апр в 17:32

Иллюстрации для блогов: немного о принципах, инструментах и авторском праве

Простой

16 мин

1.9K

Обработка изображений *Контент-маркетинг *Копирайт Искусственный интеллект

Немного советов по подбору и обработке фото – чтобы кадры не выглядели как «в альбоме у соседа», про маркетинговую бессмыслицу на Хабре, а также про авторское право и полезные онлайновые сервисы.

+24

18 апр в 16:33

Masterpiece as a service: итоги недели нейроарта

9 мин

12K

Habr Обработка изображений *Дизайн Искусственный интеллект

Спецпроект

Не так давно завершились сезоны Kubernetes и Machine Learning, подарившие Хабру множество качественных технических статей. В межсезонье мы решили отвлечься от технохардкора и предложили вместо того, чтобы писать о технологии, использовать технологию и показать её результат с точки зрения пользователей. С 4 по 14 апреля мы провели на Хабре Неделю Нейроарта. Всё это время хабраюзеры неустанно публиковали статьи с тегом Kandinsky art, сопровождая их иллюстрациями, сгенерированными нейросетью Kandinsky 2.1.

Сегодня расскажем, как жилось авторам в симбиозе с искусственным интеллектом, и по результатам недели посмотрим, смогут ли генеративные модели составить конкуренцию художникам и иллюстраторам. А заодно объявим, кто те трое счастливчиков, что благодаря этому симбиозу получат по новенькому iPhone 14 Pro.

Узнать результаты

+22

Gorislav 18 апр в 16:00

«Процедурное рисование» в ComfyUI

7 мин

11K

Интерфейсы *Обработка изображений *Машинное обучение *Искусственный интеллект

Туториал

Кто интересуется темой рисующих нейросетей знают, что сейчас самый продвинутый и часто используемый интерфейс для Stable Diffusion (далее SD) это Automatic1111. Он позволяет использовать, вероятно, все существующие возможности SD на сегодня. Множество расширений, регулярные обновления и поддержка сообщества делают его мощным и удобным инструментом для генерации изображений. Но есть и альтернативные решения, одно из которых я сегодня рассмотрю.

Статья подойдет как тем кто уже пользуется Automatic1111, так и тем кто только планирует более глубоко погрузиться в мир "процедурного рисования".

+70

dmitriizolotov 17 апр в 15:59

Тестирование python3-расширения для GIMP

Простой

4 мин

1.4K

Блог компании OTUS Python *Обработка изображений *

Туториал

Графический редактор GIMP предоставляет широкие возможности для создания расширений на языках программирования Scheme (функциональный язык, сходный с LISP) или Python. Для доступа к системным операциям и регистрации собственных действий используется общий реестр Procedural Database (PDB), через который можно выполнять любые действия со встроенными механизмами GIMP (например, создание изображения). В этой статье мы рассмотрим основы создания расширений на Python 3 и возможные подходы к тестированию расширений через PDB.

+14

Antra 16 апр в 14:23

Windows 10 с Tesla T4 в Azure на примере Stable Diffusion и Automatic1111. Недорого

Средний

7 мин

2.6K

Обработка изображений *Машинное обучение *Искусственный интеллект

Кейс

Краткое содержание:

Если хочется погонять Stable Diffusion или еще как поиграть с AI, а бесплатного Colab не хватает или есть специфические потребности, не обязательно покупать супер видеокарту. Вполне возможно, что spot instance в Azure даст вам желаемое и при этом обойдется дешевле.

И даже если видеокарта вам действительно нужна, это хороший способ понять, какой производительности карта необходима, сколько памяти требуется под ваши задачи...

(осторожно, очень много скриншотов внутри)

<Почему и Как>

Valenta_design 15 апр в 09:45

Обмануть меня не трудно... Я сам обманываться рад

Простой

2 мин

4.5K

Работа с векторной графикой *Обработка изображений *Машинное обучение *Дизайн Искусственный интеллект

Из песочницы

Начало положено.

Как человек связавший свою жизнь с искусством, и шесть лет проработав за холстом реальным, прежде чем перейти к виртуальному, мне было интересно понять как искусственный интеллект может соперничать с креативным мышлением человека.

Информационный шум и паника вокруг этой темы еще больше нагнетали и даже будоражили сознание. Ожидалось, что картинка меня поразит и заставит почувствовать себя никчемным созданием в своей нише.

Очень мне хотелось, чтобы меня удивили, чтобы я с таким же таинственным взглядом как Вилли Вонка перестала быть скептиком и уверовала.

Но уже после первой пробы мне стало ясно, что волшебной палочки не существует и «не так страшен чёрт, как его малюют». Простые запросы выдавали банальные сюжеты - в буквальном смысле визуальный мусор.

Я стала усложнять запросы и давать более точное описание, но с каждым разом становилось словно хуже. Хоть и более конкретные и неважно на русском или английском, они не давали желаемого результата и на каких-то моментах сюжеты заносило откровенно не туда. Все это омрачилось артефактами в виде вторых челюстей или ног растущих из ног персонажа. Смазанные планы, отсутствие базовой анатомии, стеклянные расфокусированные взгляды и каменные лица, статичные позы и очень скудная композиция.

В моих экспериментах было сложно выдавить хоть какие-то эмоции у персонажа. И после многочисленных попыток я ментально устала играть в эту рулетку.

Откровенно говоря, стало легче, появилось понимание, что это инструмент, а не соперник и придется затратить немало усилий для формирования запроса, а далее постобработки, чтобы воплотить свою задумку.

shushpanov_official 14 апр в 14:00

«DEEPFAKE» как программа для ЭВМ — искажения реальной информации: развитие и правомерность

Простой

6 мин

756

Информационная безопасность *Обработка изображений *

Обзор

Recovery mode

Новая цифровая реальность последних лет, в большинстве технологических решений которой ядром выступает искусственный интеллект (ИИ), существенно исказила восприятие человеком разницы между реальностью и вымыслом. Один из главных «стирателей» такой грани — дипфейк‑технологии, которые можно охарактеризовать как методику автоматизированного, т. е. машинного синтезирования аудиовизуального цифрового контента (изображений, аудио, видео и даже текста) с целью создания видоизмененного и при этом максимально реалистичного контента.

Как бы то ни было, технические подделки, которые, как казалось, делают глубокие изменения внешности в тех же самых фильмах, со временем еще больше развивались и совершенствовались. А ведь несколько лет назад артикуляционная экспрессия и другие элементы синтезированного видео задавались программно‑ по большей части это была «ручная» задача, причем в режиме реального времени.

Продолжить

-6

UprightMan 14 апр в 11:01

«Глаза» беспилотных автомобилей: LiDAR и компьютерное зрение

13 мин

2.8K

Блог компании FirstVDS Обработка изображений *Искусственный интеллект Транспорт Будущее здесь

Самоуправляемое транспортное средство может «видеть» разными способами. Человеческое зрение ему заменяют радары, камеры, лазеры, радиоволны и ультразвук. В этом обзоре поговорим о лидарах и компьютерном зрении (CV) — двух основных инструментах, на которых основано автономное восприятие окружающего мира беспилотными автомобилями. Мы коротко опишем принцип работы технологий, расскажем, кто производит и внедряет подобные устройства, а также сравним их основные достоинства и недостатки.

rudkoks 14 апр в 00:08

Стартап хочет обучить ИИ генерировать арт на лицензионных картинках

Простой

6 мин

1.2K

Обработка изображений *Машинное обучение *Научно-популярное Искусственный интеллект IT-компании

Из песочницы

Перевод

Генеративный Интеллект, особенно ИИ преобразования текста в изображение, привлекает столько же судебных исков, сколько и венчурных долларов.

Две компании, разрабатывающие популярные художественные инструменты искусственного интеллекта, Midjourney и Stability AI, вовлечены в судебный процесс, в котором утверждается, что они нарушили права миллионов художников, обучая свои инструменты на изображениях из Интернета. Кроме того, поставщик стоковых изображений Getty Images подал в суд на Stability AI за использование изображений со своего сайта без разрешения для обучения Stable Diffusion, искусственного интеллекта, генерирующего искусство.

Недостатки ИИ - склонность к повторению данных, на которых он обучался, и, соответственно, состав обучающих данных продолжает ставить его под прицел закона. Однако новый стартап Bria утверждает, что минимизирует риск, обучая ИИ, генерирующий изображения, а вскоре и видео, "этическим" способом.