Обработка изображений *

Работаем с фото и видео

Статьи Посты Новости Авторы Компании

mr-pickles 11 мар в 12:47

Трансформеры, группы преобразований и self-attention

Сложный

10 мин

1.8K

Блог компании Wunder Fund Программирование *Алгоритмы *Обработка изображений *Искусственный интеллект

Перевод

В подвижном мире развивающихся нейросетевых архитектур главную роль играет эффективность работы моделей. Тонкая настройка сетей под конкретные задачи предусматривает интеграцию в них априорных знаний. Делается это посредством стратегических корректировок архитектур сетей. Это — процедура, выходящая за рамки подстройки параметров. Речь идёт о внедрении в нейросеть информации, которая позволит сети понять то, что нужно её создателю. Один из способов это сделать заключается в использовании априорных знаний геометрического характера. Именно этому и посвящена данная статья.

+13

eshono 8 мар в 11:00

Программа поиска эллипсов и определения их параметров МНК

3 мин

1.1K

Обработка изображений *

Из песочницы

Привет! Я новичок на Харбре. Меня зацепила статья от 2011 года: «Детектирование эллиптических частиц на микрофотографии. Новый алгоритм поиска эллипсов на изображении». https://habr.com/ru/articles/135332/.

Вот комментарий к этой статье (Mrrl 27 дек 2011 в 07:49): «А почему эллипс строится по 6 точкам? Уравнение ведь однородное. Для кривой второго порядка всегда хватало 5 точек, коэффициенты ищутся решением однородного уравнения. В качестве шестой точки есть смысл добавить точку, которая эллипсу заведомо не принадлежит, и записать для нее F(x,y)=1 — тогда придется решать более привычное неоднородное уравнение. А если действительно нужен точный результат, то нужно брать все точки, лежащие вдоль линии приблизительно найденного эллипса (лучше бы с весами), и подать их на вход метода наименьших квадратов. Он позволит определить параметры с точностью до десятых долей пикселя (а то и точнее)».

Мной разработана программа на Матлаб в которой реализована схема, предложенная Mrrl.

Краткое описание программы и результатов ее применения к конкретному примеру из цитированной выше статьи.

+11

darkasevgen 6 мар в 13:10

Портретная гармонизация изображений

Средний

8 мин

Блог компании SberDevices Обработка изображений *Машинное обучение *Искусственный интеллект

Обзор

Привет! В данной публикации команда RnD CV из SberDevices познакомит вас с нашим подходом к решению задачи повышения степени реалистичности портретных изображений (по-научному — портретной гармонизации изображений). Мы не только расскажем о задаче портретной гармонизации, но и представим архитектуру нейронной сети, которая прекрасно решает эту задачу. В конце статьи будут представлены примеры работы нашей модели и получившиеся метрики.

+23

dmitrybaltin 5 мар в 22:04

Почему художники не любят нейросети и как это решить

Простой

10 мин

4.9K

Работа с 3D-графикой *Обработка изображений *Графический дизайн *Искусственный интеллект

Мнение

Взрыв популярности нейросетей вызвал встречную волну хейта со стороны художников. И, вроде, уж прошло некоторое время, и теперь мы видим, что нейросети - это вовсе не волшебство, и вовсе не заменяют художников, а дополняют, и художники по прежнему востребованы. Мы видим, что эта волшебная кнопка не совсем волшебна - она рисует что-то необычное, иногда красивое, но создать при помощи нее образ из своей головы ох как не просто.

Однако неприязнь художников остается значительной, и неверно думать, что это всего лишь боязнь конкуренции, неолуддизм и нежелание развиваться.

В чем причина этой проблемы, надо ли ее решать и как решить. Об этом настоящая статья.

+14

nmgtech 1 мар в 15:16

Они хотят, чтобы мы забыли, как выглядят фильмы

7 мин

21K

Блог компании Национальная Медиа Группа Работа с видео *Обработка изображений *Научно-популярное

Мнение

Перевод

Самая гротескная категория видео на YouTube — это старые киноплёнки, пропущенные через ИИ-апскейлер. Иногда видео придаётся цвет, иногда их интерполируют до 60 кадров в секунду. Если вы понимаете, как должно выглядеть видео, то все они кажутся одинаково ужасными, размазанными и кричащими. Но, похоже, этого не понимают в том числе и люди, отвечавшие за недавний апскейлинг фильма «Правдивая ложь» (и в меньшей мере «Чужих», «Титаника» и «Бездны»).

Таких фильмов уже миллион, и все они выглядят одинаково отвратительно.

Если вы никогда не смотрели фильм «Правдивая ложь», то вам, скорее всего, меньше тридцати. В нём Арнольд Шварценеггер играет роль агента правительственной контртеррористической организации, сражающегося со злодеями и хранящего этот опасный образ жизни втайне от своей непримечательной жены, которую играет Джейми Ли Кёртис. Это дурашливая крупнобюджетная комедия-экшн (ремейк французского фильма «Тотальная слежка») с фантастическими сценами, невероятным актёрским составом и несколькими прекрасными эпизодами. Сегодня он смотрится именно так, как должен смотреться незамысловатый экшн 1994 года. Вероятно, в карьере Джеймса Кэмерона это самый странный фильм, если не считать «Пиранья 2: Нерест».

+64

PatientZero 1 мар в 10:29

Инструмент подбора оттенков для покраски миниатюр. Часть 1: теория

Простой

18 мин

Python *Обработка изображений *Математика *Физика

Туториал

Перевод

Эта короткая статья посвящена приблизительному описанию того, что происходит в моём инструменте для смешивания красок.

Инструмент предназначен для виртуального смешения красок, он содержит солвер, генерирующий рецепты для создания цвета из имеющихся красок. Инструмент поставляется с замеренными мной данными для красок Kimera. Он написан на Python 3; в репозитории есть все исходники, и если у вас есть дистрибутив Python, то его можно просто запустить. Также в репозитории есть исполняемый файл Windows, созданный при помощи PyInstaller (см. раздел Releases справа). Ещё я добавил версию для Mac; это файл .dmg и в нём что-то есть, а если нажать на него, инструмент запустится, так что, кажется, всё работает. Но, честно говоря, я редко пользуюсь Mac, поэтому мне сложно сказать, есть ли там всё нужное, или требуется что-то ещё...

Вы можете просто скачать инструмент и экспериментировать с ним. Развлекайтесь, надеюсь, он покажется вам хоть немного полезным.

Ниже представлено более-менее полное описание его работы (и условия, при которых он не работает).

+20

createcolor 29 фев в 10:31

История о том, как организовать соревнование по компьютерному зрению без правильных ответов

Средний

18 мин

1.6K

Обработка изображений *Машинное обучение *Искусственный интеллект

Из песочницы

В прошлом году наша научная группа организовала международное соревнование по рендерингу ночных изображений на конференции CVPR. Это, на минуточку, одна их трех самых престижных профильных международных конференций в году. Задача участника — создать алгоритм, который будет генерировать/рендерить по необработанному (RAW) изображению самое эстетически красивое изображение ночной сцены. Красота оценивалась независимо профессиональным фотографом и обычными пользователями.

Но получилось ли у участников покорить их сердца?

+22

vltsu 27 фев в 10:09

Как мы оцифровали футбольные матчи с помощью CV

11 мин

6.4K

Блог компании Яндекс Работа с видео *Анализ и проектирование систем *Обработка изображений *Искусственный интеллект

Кейс

Привет! Меня зовут Владимир Цуканов, я СТО спортивного направления в Яндекс Плюсе. Мы занимаемся съёмкой, обработкой и стримингом спортивных событий. В этом посте я расскажу о работе с технической съёмкой и анализом футбольных матчей.

Расскажу о том, как и на что снимать футбол, если вы хотите его проанализировать, какие есть сложности в плане распознавания толпы бегающих спортсменов, как отреагирует машинное зрение, если за мяч начнётся нешуточная борьба, чем вся эта затея полезна для тренеров и экспертов и многое, многое другое.

+40

Odin_Himself 23 фев в 16:19

Работаю на стройке, чтобы писать статьи на Хабре

Простой

8 мин

6.9K

Habr Обработка изображений *Читальный зал

Кейс

В этой статье я хотел бы совсем чуть-чуть порассуждать о том, с какими намерениями авторы приходят на Хабр, а также рассказать вам чем занимаюсь лично я, чтобы быть одним из авторов Хабра.

-1

adugin 21 фев в 13:22

Как мы с помощью ИИ выбираем обложки для сериалов в KION: кейс MTS AI

8 мин

761

Блог компании МТС Блог компании MTS AI Обработка изображений *Искусственный интеллект

Привет, Хабр! На связи вновь Андрей Дугин, руководитель группы видеоаналитики компании MTS AI. Сегодня я закончу рассказ о том, как мы с помощью ИИ выбираем обложки для сериалов в KION. Первую часть можно прочитать здесь.

Firemoon 20 фев в 14:43

Midjourney до сих пор не умеет рисовать пальцы, но научилась писать тексты: обзор шестой версии модели

5 мин

6.7K

Блог компании Selectel Обработка изображений *Графический дизайн *Искусственный интеллект

Перед началом зимних каникул, 21 декабря 2023 года, Midjourney открыли «ранний доступ» к шестой версии. Спустя почти два месяца, 15 февраля 2024, она стала стала моделью по умолчанию, несмотря на сохранившийся статус альфа-тестирования.

Привет, Хабр! Меня зовут Вова Туров, я разработчик в Selectel. В этой статье расскажу, что нового в Midjourney v6 и почему она лучше предшественников. Разберем примеры генераций и протестируем новые функции.

Читать дальше →

+53

ternaus 20 фев в 07:06

Albumentations: XYMasking

Простой

7 мин

774

Python *Обработка изображений *Машинное обучение *

Туториал

Короткая версия

После длинного вступления, будет туториал по применению аугментации XYMasking к спектрограммам от ЭЭГ. Кто экономит время - код с примерами можно найти по ссылке в документации библиотеки.

Длинная версия

Albumentations - это Open Source библиотека для аугментации изображений.

Аугментация - это умное слово, которое в переводе с русского на русский означает "преобразование".

Q: Зачем это надо?

A: Основное применение - тренировка нейронных сетей на картиночных данных, например ImageNet.

Чем больше разнообразных данных сеть видит при тренировке, тем выше шансы, что она выучит закономерности, а не просто запомнит их.

На практике, пока прошлый батч картинок обрабатывается сетью на GPU, CPU занимается подготовкой нового батча, причем к каждому изображению применяются различные аугментации. Это позволяет достигнуть большего разнообразия данных, которые видит сеть.

Благодаря такому подходу нейронная сеть никогда не видит один и тот же набор пикселей, что способствует более высокой точности и обобщающей способности.

tadzh_nahal 16 фев в 12:30

Boximator: ИИ-модуль от ByteDance Research как новая веха в области генерации видео

Средний

8 мин

1.2K

Блог компании BotHub Работа с видео *Обработка изображений *Машинное обучение *Искусственный интеллект

Обзор

Одной из главных целей в генерации видео с помощью искусственного интеллекта является создание полностью управляемого, а также достоверного движения объектов. С помощью изменения сцен и улучшения качества по заданным критериям на основе предпочтений пользователя генерация контента выходит на совершенно новый уровень. К нему сделала шаг команда ByteDance Research, представив Boximator (box + animator) – новый инструмент для работы с видео на основе ИИ. ByteDance – родитель небезызвестного Tik-Tok, а из этого следует, что в скором времени там следует ожидать больше искусственно генерируемого контента. По-настоящему танцующих девушек или реального липсинка, судя по всему, станет значительно меньше :)

В этой статье вы познакомитесь с новой разработкой, узнаете о её новаторстве, архитектуре и функциях, а также о её преимуществах перед конкурентами.

Приятного прочтения!

SmartEngines 15 фев в 10:58

Как правильно генерировать обучающие данные для OCR?

Простой

7 мин

1.3K

Блог компании Smart Engines Обработка изображений *Математика *Машинное обучение *Искусственный интеллект

Мы в Smart Engines много пишем про распознавание документов. И, конечно, для распознавания документов нам требуется обучать нейросети, в частности, сети, распознающие текст на картинке. А им, как известно, нужно больше ~~золота~~ данных. И сегодня мы бы хотели поговорить о влиянии обучающих данных на итоговую сеть и о том, как такие данные синтезировать.

AndreyDmitriev 13 фев в 16:10

Об особенностях хранения 16 бит изображений в PNG формате

Простой

11 мин

Обработка изображений *LabVIEW *

Кейс

Вашему вниманию предлагается небольшая заметка, посвящённая особенностям хранения одноканальных (серых) 16 бит изображений (как беззнаковых, так и знаковых) в PNG формате. В некоторых случаях интенсивности пикселей, получаемые из такого файла могут не соответствовать изначальным интенсивностям, под катом мы заглянем во внутренности PNG файла и разберёмся, почему так происходит.

+69

SmartEngines 13 фев в 11:32

Алгоритм реконструкции динамических томографических процессов

Средний

17 мин

397

Блог компании Smart Engines Обработка изображений *Математика *Искусственный интеллект

Привет, Хабр! Мы уже рассказывали про наши успехи в рентгеновской томографии. В этом же посте мы хотим поделиться с вами деталями наших исследований в динамической или 4D томографии. Здесь, для исследования объекта, который менялся в процессе проведения измерений, нам пришлось разработать новый алгоритм томографической реконструкции и даже провести гидродинамическое моделирование.

Но давайте обо всём по порядку.

Codeup1054 9 фев в 12:51

«Машинное чтение» цифровых и не только индикаторов без ИИ и нейронок на Python

9 мин

4.4K

Python *Обработка изображений *Умный дом DIY или Сделай сам Экология

Кейс

В этой статье рассмотрим простой алгоритм обработки и распознавания значений из массива фотографий с показаниями цифровых индикаторов.

Не будет машинного обучения, нейросетей, только стандартные библиотеки Python для работы с изображениями.

+15

Squirrelfm 9 фев в 08:15

Создание сцен с одинаковыми героями с помощью AI и при чем тут дипфейки Тейлор Свифт

Средний

9 мин

2.7K

Блог компании Raft Обработка изображений *Машинное обучение *Искусственный интеллект

Туториал

Вы, вероятно, слышали о Тейлор Свифт и очень креативном наборе изображений, созданных одним из её фанатов. Что могу сказать - это был лишь вопрос времени, когда кто-то это сделает. Как мы знаем - не бывает плохой рекламы, однако что если вас зовут не Тейлор Свифт, и никто не создает и не ищет ваши изображения в Google?

Хотя это действительно очень печально, по крайней мере вы можете создать свои собственные изображения. Правда если вы хотите использовать генеративные модели для создания последовательных историй с элементами сюжета, это не так просто, как вам могло показаться. Создать одного-двух персонажа с помощью Dall-e или Stable Diffusion довольно просто. Но что, если вы хотите создать целую историю с одними и теми же персонажами в разных обстановках и стилях? Исследователи генеративных моделей неустанно работают над тем, чтобы упростить для вас процесс создания собственного творческого искусства с вашим любимым актером, но пока что это не так просто.

Так что же мы можем сделать сейчас? Давайте посмотрим.

+18

Fil 8 фев в 16:28

Разбираем самый маленький JPEG в мире

10 мин

12K

Алгоритмы *Обработка изображений *Сжатие данных *

Недавно на Хабре была опубликована статья Разбираем самый маленький PNG в мире. Интересно, а какой самый маленький файл JPEG? В ответах на StackOverflow и Reddit можно встретить размеры 107, 119, 125, 134, 141, 160 байтов. Все они представляют серый прямоугольник 1 на 1. И кто прав? Все правы, просто такая разница объясняется различными режимами кодирования и степенью строгости соответствия стандарту. Описание всех нюансов разрослось до целой статьи cо всеми необходимыми подробностями для более-менее хорошего знакомства с самыми маленькими jpeg-ами. После краткой теории разберем 159-байтный файл на КДПВ, а затем рассмотрим способы его уменьшения.

+41

AndreyDmitriev 8 фев в 13:00

Об отображении 10-бит цвета с использованием OpenGL (GLFW)

Простой

13 мин

3.4K

Обработка изображений *Мониторы и ТВ

Кейс

Вашему внимания предлагается небольшой этюд, посвящённый отображению 10-битного цвета (1024 градаций по каждому каналу) на мониторе через OpenGL при помощи библиотеки GLFW. Под катом мы напишем пару небольших приложений, открывающих два окна, где рассмотрим тестовые изображения в восьмибитном и десятибитном режимах на оборудовании, поддерживающем такую опцию. Включение 10 бит в основном позволяет избавиться от эффектов «полосатости» (также используются термины «бандинг» или «постеризация»), возникающих на протяжённых градиентах со слабо меняющейся интенсивностью, когда вы начинаете видеть границы между отдельными градациями, но по какой-либо причине не хотите пользоваться дизерингом, подмешивая в изображение шум.

Читать далее про тысячу оттенков серого

+25

2 3 ...

49 50

Обработка изображений *

Трансформеры, группы преобразований и self-attention

Новости

Программа поиска эллипсов и определения их параметров МНК

Портретная гармонизация изображений

Почему художники не любят нейросети и как это решить

Истории

Они хотят, чтобы мы забыли, как выглядят фильмы

Инструмент подбора оттенков для покраски миниатюр. Часть 1: теория

История о том, как организовать соревнование по компьютерному зрению без правильных ответов

Как мы оцифровали футбольные матчи с помощью CV

Работаю на стройке, чтобы писать статьи на Хабре

Как мы с помощью ИИ выбираем обложки для сериалов в KION: кейс MTS AI

Midjourney до сих пор не умеет рисовать пальцы, но научилась писать тексты: обзор шестой версии модели

Albumentations: XYMasking

Boximator: ИИ-модуль от ByteDance Research как новая веха в области генерации видео

Ближайшие события

Как правильно генерировать обучающие данные для OCR?

Об особенностях хранения 16 бит изображений в PNG формате

Алгоритм реконструкции динамических томографических процессов

«Машинное чтение» цифровых и не только индикаторов без ИИ и нейронок на Python

Создание сцен с одинаковыми героями с помощью AI и при чем тут дипфейки Тейлор Свифт

Разбираем самый маленький JPEG в мире

Об отображении 10-бит цвета с использованием OpenGL (GLFW)

Вклад авторов