В подвижном мире развивающихся нейросетевых архитектур главную роль играет эффективность работы моделей. Тонкая настройка сетей под конкретные задачи предусматривает интеграцию в них априорных знаний. Делается это посредством стратегических корректировок архитектур сетей. Это — процедура, выходящая за рамки подстройки параметров. Речь идёт о внедрении в нейросеть информации, которая позволит сети понять то, что нужно её создателю. Один из способов это сделать заключается в использовании априорных знаний геометрического характера. Именно этому и посвящена данная статья.
Обработка изображений *
Работаем с фото и видео
Новости
Программа поиска эллипсов и определения их параметров МНК
Привет! Я новичок на Харбре. Меня зацепила статья от 2011 года: «Детектирование эллиптических частиц на микрофотографии. Новый алгоритм поиска эллипсов на изображении». https://habr.com/ru/articles/135332/.
Вот комментарий к этой статье (Mrrl 27 дек 2011 в 07:49): «А почему эллипс строится по 6 точкам? Уравнение ведь однородное. Для кривой второго порядка всегда хватало 5 точек, коэффициенты ищутся решением однородного уравнения. В качестве шестой точки есть смысл добавить точку, которая эллипсу заведомо не принадлежит, и записать для нее F(x,y)=1 — тогда придется решать более привычное неоднородное уравнение. А если действительно нужен точный результат, то нужно брать все точки, лежащие вдоль линии приблизительно найденного эллипса (лучше бы с весами), и подать их на вход метода наименьших квадратов. Он позволит определить параметры с точностью до десятых долей пикселя (а то и точнее)».
Мной разработана программа на Матлаб в которой реализована схема, предложенная Mrrl.
Краткое описание программы и результатов ее применения к конкретному примеру из цитированной выше статьи.
Портретная гармонизация изображений
Привет! В данной публикации команда RnD CV из SberDevices познакомит вас с нашим подходом к решению задачи повышения степени реалистичности портретных изображений (по-научному — портретной гармонизации изображений). Мы не только расскажем о задаче портретной гармонизации, но и представим архитектуру нейронной сети, которая прекрасно решает эту задачу. В конце статьи будут представлены примеры работы нашей модели и получившиеся метрики.
Почему художники не любят нейросети и как это решить
Взрыв популярности нейросетей вызвал встречную волну хейта со стороны художников. И, вроде, уж прошло некоторое время, и теперь мы видим, что нейросети - это вовсе не волшебство, и вовсе не заменяют художников, а дополняют, и художники по прежнему востребованы. Мы видим, что эта волшебная кнопка не совсем волшебна - она рисует что-то необычное, иногда красивое, но создать при помощи нее образ из своей головы ох как не просто.
Однако неприязнь художников остается значительной, и неверно думать, что это всего лишь боязнь конкуренции, неолуддизм и нежелание развиваться.
В чем причина этой проблемы, надо ли ее решать и как решить. Об этом настоящая статья.
Истории
Они хотят, чтобы мы забыли, как выглядят фильмы
Самая гротескная категория видео на YouTube — это старые киноплёнки, пропущенные через ИИ-апскейлер. Иногда видео придаётся цвет, иногда их интерполируют до 60 кадров в секунду. Если вы понимаете, как должно выглядеть видео, то все они кажутся одинаково ужасными, размазанными и кричащими. Но, похоже, этого не понимают в том числе и люди, отвечавшие за недавний апскейлинг фильма «Правдивая ложь» (и в меньшей мере «Чужих», «Титаника» и «Бездны»).
Таких фильмов уже миллион, и все они выглядят одинаково отвратительно.
Если вы никогда не смотрели фильм «Правдивая ложь», то вам, скорее всего, меньше тридцати. В нём Арнольд Шварценеггер играет роль агента правительственной контртеррористической организации, сражающегося со злодеями и хранящего этот опасный образ жизни втайне от своей непримечательной жены, которую играет Джейми Ли Кёртис. Это дурашливая крупнобюджетная комедия-экшн (ремейк французского фильма «Тотальная слежка») с фантастическими сценами, невероятным актёрским составом и несколькими прекрасными эпизодами. Сегодня он смотрится именно так, как должен смотреться незамысловатый экшн 1994 года. Вероятно, в карьере Джеймса Кэмерона это самый странный фильм, если не считать «Пиранья 2: Нерест».
Инструмент подбора оттенков для покраски миниатюр. Часть 1: теория
Эта короткая статья посвящена приблизительному описанию того, что происходит в моём инструменте для смешивания красок.
Инструмент предназначен для виртуального смешения красок, он содержит солвер, генерирующий рецепты для создания цвета из имеющихся красок. Инструмент поставляется с замеренными мной данными для красок Kimera. Он написан на Python 3; в репозитории есть все исходники, и если у вас есть дистрибутив Python, то его можно просто запустить. Также в репозитории есть исполняемый файл Windows, созданный при помощи PyInstaller (см. раздел Releases справа). Ещё я добавил версию для Mac; это файл .dmg и в нём что-то есть, а если нажать на него, инструмент запустится, так что, кажется, всё работает. Но, честно говоря, я редко пользуюсь Mac, поэтому мне сложно сказать, есть ли там всё нужное, или требуется что-то ещё...
Вы можете просто скачать инструмент и экспериментировать с ним. Развлекайтесь, надеюсь, он покажется вам хоть немного полезным.
Ниже представлено более-менее полное описание его работы (и условия, при которых он не работает).
История о том, как организовать соревнование по компьютерному зрению без правильных ответов
В прошлом году наша научная группа организовала международное соревнование по рендерингу ночных изображений на конференции CVPR. Это, на минуточку, одна их трех самых престижных профильных международных конференций в году. Задача участника — создать алгоритм, который будет генерировать/рендерить по необработанному (RAW) изображению самое эстетически красивое изображение ночной сцены. Красота оценивалась независимо профессиональным фотографом и обычными пользователями.
Но получилось ли у участников покорить их сердца?
Как мы оцифровали футбольные матчи с помощью CV
Привет! Меня зовут Владимир Цуканов, я СТО спортивного направления в Яндекс Плюсе. Мы занимаемся съёмкой, обработкой и стримингом спортивных событий. В этом посте я расскажу о работе с технической съёмкой и анализом футбольных матчей.
Расскажу о том, как и на что снимать футбол, если вы хотите его проанализировать, какие есть сложности в плане распознавания толпы бегающих спортсменов, как отреагирует машинное зрение, если за мяч начнётся нешуточная борьба, чем вся эта затея полезна для тренеров и экспертов и многое, многое другое.
Работаю на стройке, чтобы писать статьи на Хабре
В этой статье я хотел бы совсем чуть-чуть порассуждать о том, с какими намерениями авторы приходят на Хабр, а также рассказать вам чем занимаюсь лично я, чтобы быть одним из авторов Хабра.
Как мы с помощью ИИ выбираем обложки для сериалов в KION: кейс MTS AI
Привет, Хабр! На связи вновь Андрей Дугин, руководитель группы видеоаналитики компании MTS AI. Сегодня я закончу рассказ о том, как мы с помощью ИИ выбираем обложки для сериалов в KION. Первую часть можно прочитать здесь.
Midjourney до сих пор не умеет рисовать пальцы, но научилась писать тексты: обзор шестой версии модели
Перед началом зимних каникул, 21 декабря 2023 года, Midjourney открыли «ранний доступ» к шестой версии. Спустя почти два месяца, 15 февраля 2024, она стала стала моделью по умолчанию, несмотря на сохранившийся статус альфа-тестирования.
Привет, Хабр! Меня зовут Вова Туров, я разработчик в Selectel. В этой статье расскажу, что нового в Midjourney v6 и почему она лучше предшественников. Разберем примеры генераций и протестируем новые функции.
Albumentations: XYMasking
Короткая версия
После длинного вступления, будет туториал по применению аугментации XYMasking к спектрограммам от ЭЭГ. Кто экономит время - код с примерами можно найти по ссылке в документации библиотеки.
Длинная версия
Albumentations - это Open Source библиотека для аугментации изображений.
Аугментация - это умное слово, которое в переводе с русского на русский означает "преобразование".
Q: Зачем это надо?
A: Основное применение - тренировка нейронных сетей на картиночных данных, например ImageNet.
Чем больше разнообразных данных сеть видит при тренировке, тем выше шансы, что она выучит закономерности, а не просто запомнит их.
На практике, пока прошлый батч картинок обрабатывается сетью на GPU, CPU занимается подготовкой нового батча, причем к каждому изображению применяются различные аугментации. Это позволяет достигнуть большего разнообразия данных, которые видит сеть.
Благодаря такому подходу нейронная сеть никогда не видит один и тот же набор пикселей, что способствует более высокой точности и обобщающей способности.
Boximator: ИИ-модуль от ByteDance Research как новая веха в области генерации видео
Одной из главных целей в генерации видео с помощью искусственного интеллекта является создание полностью управляемого, а также достоверного движения объектов. С помощью изменения сцен и улучшения качества по заданным критериям на основе предпочтений пользователя генерация контента выходит на совершенно новый уровень. К нему сделала шаг команда ByteDance Research, представив Boximator (box + animator) – новый инструмент для работы с видео на основе ИИ. ByteDance – родитель небезызвестного Tik-Tok, а из этого следует, что в скором времени там следует ожидать больше искусственно генерируемого контента. По-настоящему танцующих девушек или реального липсинка, судя по всему, станет значительно меньше :)
В этой статье вы познакомитесь с новой разработкой, узнаете о её новаторстве, архитектуре и функциях, а также о её преимуществах перед конкурентами.
Приятного прочтения!
Ближайшие события
Как правильно генерировать обучающие данные для OCR?
Мы в Smart Engines много пишем про распознавание документов. И, конечно, для распознавания документов нам требуется обучать нейросети, в частности, сети, распознающие текст на картинке. А им, как известно, нужно больше золота данных. И сегодня мы бы хотели поговорить о влиянии обучающих данных на итоговую сеть и о том, как такие данные синтезировать.
Об особенностях хранения 16 бит изображений в PNG формате
Вашему вниманию предлагается небольшая заметка, посвящённая особенностям хранения одноканальных (серых) 16 бит изображений (как беззнаковых, так и знаковых) в PNG формате. В некоторых случаях интенсивности пикселей, получаемые из такого файла могут не соответствовать изначальным интенсивностям, под катом мы заглянем во внутренности PNG файла и разберёмся, почему так происходит.
Алгоритм реконструкции динамических томографических процессов
Привет, Хабр! Мы уже рассказывали про наши успехи в рентгеновской томографии. В этом же посте мы хотим поделиться с вами деталями наших исследований в динамической или 4D томографии. Здесь, для исследования объекта, который менялся в процессе проведения измерений, нам пришлось разработать новый алгоритм томографической реконструкции и даже провести гидродинамическое моделирование.
Но давайте обо всём по порядку.
«Машинное чтение» цифровых и не только индикаторов без ИИ и нейронок на Python
В этой статье рассмотрим простой алгоритм обработки и распознавания значений из массива фотографий с показаниями цифровых индикаторов.
Не будет машинного обучения, нейросетей, только стандартные библиотеки Python для работы с изображениями.
Создание сцен с одинаковыми героями с помощью AI и при чем тут дипфейки Тейлор Свифт
Вы, вероятно, слышали о Тейлор Свифт и очень креативном наборе изображений, созданных одним из её фанатов. Что могу сказать - это был лишь вопрос времени, когда кто-то это сделает. Как мы знаем - не бывает плохой рекламы, однако что если вас зовут не Тейлор Свифт, и никто не создает и не ищет ваши изображения в Google?
Хотя это действительно очень печально, по крайней мере вы можете создать свои собственные изображения. Правда если вы хотите использовать генеративные модели для создания последовательных историй с элементами сюжета, это не так просто, как вам могло показаться. Создать одного-двух персонажа с помощью Dall-e или Stable Diffusion довольно просто. Но что, если вы хотите создать целую историю с одними и теми же персонажами в разных обстановках и стилях? Исследователи генеративных моделей неустанно работают над тем, чтобы упростить для вас процесс создания собственного творческого искусства с вашим любимым актером, но пока что это не так просто.
Так что же мы можем сделать сейчас? Давайте посмотрим.
Разбираем самый маленький JPEG в мире
Недавно на Хабре была опубликована статья Разбираем самый маленький PNG в мире. Интересно, а какой самый маленький файл JPEG? В ответах на StackOverflow и Reddit можно встретить размеры 107, 119, 125, 134, 141, 160 байтов. Все они представляют серый прямоугольник 1 на 1. И кто прав? Все правы, просто такая разница объясняется различными режимами кодирования и степенью строгости соответствия стандарту. Описание всех нюансов разрослось до целой статьи cо всеми необходимыми подробностями для более-менее хорошего знакомства с самыми маленькими jpeg-ами. После краткой теории разберем 159-байтный файл на КДПВ, а затем рассмотрим способы его уменьшения.
Об отображении 10-бит цвета с использованием OpenGL (GLFW)
Вашему внимания предлагается небольшой этюд, посвящённый отображению 10-битного цвета (1024 градаций по каждому каналу) на мониторе через OpenGL при помощи библиотеки GLFW. Под катом мы напишем пару небольших приложений, открывающих два окна, где рассмотрим тестовые изображения в восьмибитном и десятибитном режимах на оборудовании, поддерживающем такую опцию. Включение 10 бит в основном позволяет избавиться от эффектов «полосатости» (также используются термины «бандинг» или «постеризация»), возникающих на протяжённых градиентах со слабо меняющейся интенсивностью, когда вы начинаете видеть границы между отдельными градациями, но по какой-либо причине не хотите пользоваться дизерингом, подмешивая в изображение шум.
Вклад авторов
-
alizar 5415.6 -
marks 2439.9 -
ZlodeiBaal 2343.0 -
Fil 1355.0 -
YUVladimir 1324.0 -
SmartEngines 1061.6 -
Weilard 970.0 -
jeston 744.0 -
homm 674.2