Обработка изображений *

Работаем с фото и видео

Статьи Посты Новости Авторы Компании

IlyaVK 14 часов назад

Обработка изображений и видео на смартфонах: handcrafted-алгоритмы против глубокого обучения

Простой

22 мин

1.4K

Блог компании Samsung Обработка изображений *Машинное обучение *Искусственный интеллект

Обзор

Зеркалка — хорошая штука, но смартфон однозначно компактнее и удобнее. Да, мобильная оптика все еще далека до уровня зеркалок, однако получить красивые фотографии человек хочет здесь и сейчас. Как быть? Взамен харда, подключается софт, алгоритмы!

Именно софт смартфона помогает снять фото в HDR или сделать видео менее смазанным. Он состоит из «классических» вычислительных алгоритмов и нейросетей. Вычислительные алгоритмы требуют много ручной работы и глубокого понимания решаемой задачи, зато хорошо работают при ограниченных вычислительных ресурсах. Нейросети прожорливы, но сильно упрощают жизнь разработчику и потенциально позволяют достичь большего. Объединение двух этих подходов даёт замечательные результаты!

SeregaChipset 26 дек в 19:00

Монтаж уличной ip-камеры и вывод изображения по RTSP (python, raspberry pi)

Средний

6 мин

10K

Python *Обработка изображений *Параллельное программирование *Умный дом Инженерные системы *

Из песочницы

Камеры видеонаблюдения стали для многих стран обыденностью, например в Китае, они могут свисать гроздьями, через каждые 5 метров, по улице. Но в провинции России это все еще может быть в новинку. Я отношусь к видеонаблюдению по большей мере положительно. Ведь вид камеры, даже превентивно может предотваратить хулиганство (однажды я использовал муляжи камер в офисе:)), а главное это возможность контроллировать обьект наблюдения.

Этот пост про монтаж уличной камеры, на стену многоквартирного дома и программную реализацию - вывод изображения, без использования стандартной программы, оптимизацию (размещение на raspberry pi).

+12

Pro2492 26 дек в 15:14

Что нового в Midjourney 6? 5 видимых отличий от 5.2

Простой

3 мин

3.3K

Обработка изображений *

Обзор

Recovery Mode

Теперь изображения сложно отличить от реальных фото - морщины, складки, красные глаза, текстура кожи — генерации выглядят почти идеально.

+14

litwr2 26 дек в 10:16

Цветные фотки на первых ПК

Средний

11 мин

Обработка изображений *История IT Старое железо Видеокарты Настольные компьютеры

Обзор

Когда впервые на ПК стали работать с фотографиями? Какие из этих систем вошли в историю, а какие остались практически неизвестными? Следующий обзор - это попытка ответа на эти и сопутствующие вопросы с техническими деталями. Конечно, это про Амигу, но не только.

SmartEngines 26 дек в 10:15

Томографический калейдоскоп, или подведение итогов уходящего 2023 года вместе с STE

Простой

9 мин

624

Блог компании Smart Engines Алгоритмы *Обработка изображений *Математика *Софт

Привет, Хабр. На пороге Новый год. Как всегда в конце года хочется понять, а чем же был для нас, компании Smart Engines, год уходящий? Продуктивным - да, и бизнес-результаты, и научные достижения, и технологии - как игрушки на елке - радуют. А где же игрушки - спросите вы и будете правы. Ведь один их сверкающий вид открывает двери празднику. А ниже они обязательно будут. Сегодня мы поделимся с вами нашим взглядом на 12 месяцев, а поможет в этом наш STE. Тот самый продукт для томографической реконструкции, над которым мы не устаем трудиться, дополняя, стабилизируя и запуская, как проходческий щит, в неосвоенные туннели условий томографической съемки.

Результат наших трудов покажем на томографии 12 объектов, каждый из которых символизирует один из 12 месяцев года. Да-да, интересная задача перед нами стояла в декабре - собрать 12 объектов, сфотографировать, сделать томографию и соорудить календарь из них. Кстати, и ты, дорогой читатель, можешь стать обладателем календаря от Smart Engines, но обо всем по порядку!

PatientZero 21 дек в 10:48

Зернистые градиенты на CSS и SVG

Простой

5 мин

2.7K

CSS *Обработка изображений *Графический дизайн *

Туториал

Перевод

Изучая графику на Dribbble или Behance, вы найдёте там дизайнеров, использующих простую технику добавления в изображения текстур: шум. Добавление шума делает сплошные цвета или плавные градиенты, например, тени, более реалистичными. Но несмотря на любовь дизайнеров к текстурам, шум редко применяется в веб-дизайне.

В этой статье мы при помощи CSS и SVG сгенерируем цветной шум, позволяющий добавлять текстуру к градиенту.

+17

kucev 19 дек в 12:18

Заблуждения о семантической сегментации

4 мин

889

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Семантическая сегментация — это задача компьютерного зрения, заключающаяся в помещении в один класс связанных элементов изображения.

Семантическая сегментация состоит из трёх этапов:

Классификация: обнаружение и классификация определённого объекта на изображении.

Локализация: нахождение предмета и отрисовка вокруг него ограничивающего прямоугольника.

Сегментация: процесс группировки пикселей в локализованном изображении при помощи маски сегментации.

Существует множество подтипов семантической сегментации, но все они возникают вследствие выбора пары параметров из двух категорий: размерности данных и разрешения выходных аннотаций.

Читать дальше →

NewTechAudit 14 дек в 07:07

Я знаю, что ты делал этой ночью

Средний

11 мин

15K

Python *Обработка изображений *Машинное обучение *

Кейс

Привет, Хабр!

Сегодня с вами участники профессионального сообщества NTA Промкин Михаил, Мымрин Дмитрий и Господарикова Ирина.

Одной из областей применения ИИ сегодня является автоматизация контроля за сотрудниками. В данном посте мы рассмотрим приложение технологий ML к задаче детектирования спящих людей (в частности, охранников на рабочем месте) по видеозаписям камер наблюдения.

Обсудим технические аспекты этого процесса, а также потенциальные преимущества и перспективы, которые предоставляет применение искусственного интеллекта в обеспечении безопасности на рабочем месте.

Узнать больше

ferluht 10 дек в 13:48

Как обучить нейросеть рисовать в стиле любого художника

Средний

4 мин

10K

Обработка изображений *Искусственный интеллект Будущее здесь

Туториал

Прошло 3 года с момента когда я обучал StyleGAN на панельках и мне стало интересно что там сейчас с генерацией картинок. А там - ого - можно дообучить целый stable diffusion на любом стиле любого художника! Как? А вот щас расскажу

+26

SmartEngines 8 дек в 11:46

Российской OCR – 30 лет. Вспоминаем, как появилась первая отечественная технология распознавания (Часть 1. OCR Tiger)

Простой

11 мин

2.8K

Блог компании Smart Engines Программирование *Обработка изображений *История IT Искусственный интеллект

Ретроспектива

В 2023 году первой российской коммерческой технологии распознавания текста исполнилось ровно 30 лет. В честь этой знаковой даты мы решили подготовить серию материалов о том, когда появились и что из себя представляли первые отечественные OCR. Кто был главными участниками в гонке по созданию систем распознаванию? Как так вышло, что в середине 90-х OCR была признана второй по значимости софтовой разработкой после ОС? Как выглядела первая OCR-ка для Mac? Ответим на эти и многие другие вопросы, присаживайтесь поудобнее.

Во время подготовки текстов мы побеседовали с директором по науке и душой нашей компании, доктором технических наук, профессором, членом-корреспондентом РАН Владимиром Львовичем Арлазаровым. Он – как, кстати, и еще несколько членов нашей команды Smart Engines – принимал непосредственное участие в создании первых систем автоматического ввода текста.

Сегодня речь пойдет про OCR Tiger и про то, как эта система работает.

+14

atomnijpchelovek 5 дек в 15:55

Один бот против тысяч мемов, или как я создал бота-полицейского для мем-чата

Простой

7 мин

2.6K

Python *Обработка изображений *

Кейс

Привет, я Дима Абакумов, разработчик в диджитал-агентстве ДАЛЕЕ. Расскажу, как я написал бота на Python, который находит дубли мемов в нашем мем-чате, и какие методы сравнения изображений для этого использовал.

zoldaten 5 дек в 12:34

Перевод игры The Invincible на другой язык

6 мин

1.5K

Работа с видео *Обработка изображений *Игры и игровые консоли Natural Language Processing *

Туториал

Относительно недавно вышедшая игра «The Invincible» не имеет альтернативной озвучки — только чопорный английский. Возможно ли силами одного человека за относительно короткий срок (1-2 дня) перевести игру (сделать «озвучку»), например, на «великий, могучий, правдивый и свободный» язык? Попробуем.

Читать дальше →

hukenovs 1 дек в 10:48

GigaChat и русский жестовый язык

Средний

4 мин

1.6K

Блог компании SberDevices Обработка изображений *Accessibility *Машинное обучение *Искусственный интеллект

Всем привет! Меня зовут Капитанов Александр, я отвечаю за направление компьютерного зрения в SberDevices. В этой статье я расскажу о том, как моя команда Vision RnD разработала серию моделей SignFlow, обеспечивающих перевод с жестового языка на русский и американский английский в реальном времени с высокой метрикой качества. На основе этих моделей мы реализовали прототип общения с генеративной языковой моделью GigaChat, что является первым в мире открытым решением задачи общения с искусственным интеллектом при помощи русского жестового языка (РЖЯ). Далее я расскажу о разработке модели, тонкостях обучения, демо-стенде и интеграции с GigaChat.

+18

klimensky 22 ноя в 14:44

Как настольная игра и небоскребы вдохновили на разработку QR-кода

13 мин

4.7K

Блог компании FirstVDS Обработка изображений *Сжатие данных *История IT Научно-популярное

Ретроспектива

Про QR код на том же Хабре есть огромное количество информации. Ничего удивительного: сейчас сложно найти отрасль, где бы он не применялся. Тут и банковские операции, и идентификация товаров, и цифровые визитки. Преимущества очевидны: считывается мгновенно любым смартфоном, причем даже если треть QR кода повреждена, а еще хранит до 2935 байт двоичного кода.

Но сегодня поговорим не про технические нюансы. Вы знали, что его придумали благодаря любви к играм и небоскребам? Если не знали, устраивайтесь поудобнее — поговорим об истории появления QR кода.

+19

kuznetsoff87 22 ноя в 12:00

Kandinsky Video — первая российская модель генерации видео по тексту

Сложный

8 мин

9.3K

Блог компании Сбер Блог компании SberDevices Обработка изображений *Машинное обучение *Natural Language Processing *

Обзор

Если несколько предметов, постоянно меняющих форму и положение, будут последовательно возникать перед глазами через очень короткие промежутки времени и на маленьком расстоянии друг от друга, то изображения, которые они вызывают на сетчатке, сольются, не смешиваясь, и человеку покажется, что он видел предмет, постоянно меняющий форму и положение.

Жозеф Плато, август 1833 года

В недавней статье мы рассказали о возможности создания анимированных видеороликов на основе комбинации синтеза изображений и различных способов преобразования этих изображений (сдвиги в стороны, масштабирование и т. д.). Сегодня же речь пойдёт про нашу новую технологию синтеза полноценного видео по текстовому описанию, которую мы назвали Kandinsky Video (для затравки пара примеров приведена на рисунке 1).

+36

ddimitrov 22 ноя в 11:54

Kandinsky 3.0 — новая модель генерации изображений по тексту

Средний

10 мин

28K

Блог компании Сбер Блог компании SberDevices Обработка изображений *Машинное обучение *Natural Language Processing *

Обзор

Без чувства современности художник останется непризнанным.

Михаил Пришвин

В прошлом году на АI Journey мы представили модель Kandinsky 2.0 — первую диффузионную мультиязычную модель генерации изображений по тексту, которая может генерировать изображения на основе русскоязычного текста. За ней последовали новые версии — Kandinsky 2.1 и Kandinsky 2.2, которые значительно отличались по качеству и своим возможностям от версии 2.0, и стали для нашей команды серьёзными вехами на пути к достижению лучшего качества генерации.

Спустя год после релиза нашей первой диффузионной модели мы представляем новую версию модели генерации изображений по тексту — Kandinsky 3.0! Это результат длительной работы нашей команды, которую мы вели параллельно с разработками версий Kandinsky 2.1 и 2.2. Мы провели много экспериментов по выбору архитектуры и проделали большую работу с данными, чтобы сделать понимание текста и качество генераций лучше, а саму архитектуру — проще и лаконичнее. Также мы сделали нашу модель более «отечественной»: теперь она значительно лучше ориентируется в российском и советском культурном поле.

В этой статье я кратко опишу ключевые моменты новой архитектуры, стратегию работы с данными и, конечно, продемонстрирую возможности нашей модели на примере генераций.

+58

Weilard 20 ноя в 15:19

«Галоп пикселя — часть шестая» — Анимация персонажей. Бег

Средний

48 мин

7.1K

Разработка игр *Обработка изображений *Компьютерная анимация *

Туториал

«Галоп пикселя», часть I — базовые понятия, этапы взросления, прикладные упражнения (линк)
«Галоп пикселя», часть II — перспектива, цвет, анатомия и прикладные упражнения (линк)
«Галоп пикселя», часть III — Анимация (линк)
«Галоп пикселя», часть IV — Анимация света и тени (линк)
«Галоп пикселя», часть V — Анимация персонажей. Ходьба (линк)
«Галоп пикселя», часть VI — Анимация персонажей. Бег (линк)

Доброго времени суток, Хабр. Мы продолжаем цикл «Галоп Пикселя». И хотя паузы между главами этой саги достигли практически четырехлетнего перерыва — я рад (надеюсь и вы тоже) продолжить двигаться вперёд. Миля за милей, дорога за дорогой, в этой вечной былине о пиксель-арте. Пространном повествовании о пикселях, их жизни, способе их создания, приёмах и уловках в работе с ними.

На этот раз речь пойдёт о создании анимации бега, от истоков малых кадрами и цветами — к ренессансу больших разрешений и буйству цветов. В статье будут разобраны примеры самых разных типов анимаций, будет определена разница между шагом и бегом. Мы затронем как создание игровых ассетов, так и сущности близкие к анимационным заставкам, в простонародье известные как синематики.

Сегодняшняя публикация станет ещё одной вехой, которая могла бы стать финальным аккордом в нашей истории. Но мне думается, что это… скорее окончание базового цикла, но не истории в целом, которую можно продолжать ещё долго. Существует масса неисследованных территорий, нехоженых дорог и мест, куда ещё не ступала нога пытливых археологов от мира любителей пиксель-арта. Лопаты в руки, друзья. Лопаты в руки.

Лопатить пиксели

+92

antipov_dmitry 20 ноя в 11:40

Приключение SAM в Японии или как компьютерное зрение видит гейшу

Средний

13 мин

1.9K

Data Mining *Обработка изображений *Машинное обучение *Искусственный интеллект

FAQ

Привет! Я занимаюсь разметкой данных для ИИ: экспертно и с большой любовью. Задачи компьютерного зрения — одни из самых популярных и поэтому поговорим про них.

Прочитав статью вы узнаете как алгоритму отличить гейшу от китаянки, кто такая майко, как не перепутать лапшу с автобусом и правильно найти тунца.

Практически сразу после выхода zero-shot модели SAM (Segment Anything Model) для компьютерного зрения мы с командой активно ее внедрили в свою платформу разметки данных и стали использовали в разных задачах.

Хочется поделиться опытом и ответить на самый популярный вопрос — насколько SAM ускоряет разметку данных?

В статье будет очень много гифок и интерактива.

+10

SmartEngines 20 ноя в 11:00

Рассеяние вокруг нас: что это такое и какое место оно занимает в компьютерной томографии?

Простой

14 мин

1.1K

Блог компании Smart Engines Обработка изображений *Математика *Физика

Обзор

Мы в компании Smart Engines разрабатываем томографическое программное обеспечение и стараемся делать это как можно качественнее, без появления на изображении реконструкции визуальных искажений, так называемых артефактов. Одной из причин возникновения артефактов является несоответствие модели формирования изображения в измерениях и модели описания данных для алгоритмов томографической реконструкции.

В классической постановке КТ описанием внутренней структуры образца служит пространственное распределение коэффициента ослабления рентгеновского излучения, причем зондирующее излучение считается монохроматическим. Однако в реальных установках это не так, существенное влияние на изменение модели формирования изображений оказывают эффекты второго порядка. Одним из которых является рассеянное излучение. Что такое рассеяние, каким оно бывает и как выглядят артефакты рассеяния в томографии, - расскажем в сегодняшней нашей статье.

Ilya12c 16 ноя в 13:04

Из фото в 3D, ч.2: калибровка камеры

Сложный

13 мин

Блог компании Magnus Tech Алгоритмы *Обработка изображений *Математика *Фототехника

Туториал

Фото до (слева) и после (справа) калибровки камеры

В первой части статьи мы немного поупражнялись на яблоках, чтобы понять, как 3D-объекты проецируются на 2D-плоскость фотографии. Заодно мы описали математическую модель камеры и ее параметры.

Знаешь параметры — ~~живешь в Сочи~~ можешь восстановить 3D-сцену или ее характеристики: высоту здания, расстояние до пешехода, загруженность самосвала. Словом, сплошная польза для целого ряда отраслей.

А вот как именно определить эти заветные параметры, так и осталось за кадром. К тому же мы рассматривали простейшую модель pinhole, но в реальной жизни все сложнее. У большинства камер есть линзы, которые искажают изображения (вспомните эффект fisheye). Все эти «рыбьи глаза»‎ и другие отклонения нужно как-то корректировать.

О том, как восстанавливать параметры камеры (калибровать ее) и нивелировать искажения (дисторсию), читайте в этой публикации.

Также из нее вы узнаете:

• как выглядит математическая модель калибровки и дисторсии;

• как собрать датасет для калибровки;

• какие есть методы калибровки;

• детали одного из этих методов.

+14

2 3 ...

49 50

Обработка изображений *

Обработка изображений и видео на смартфонах: handcrafted-алгоритмы против глубокого обучения

Новости

Монтаж уличной ip-камеры и вывод изображения по RTSP (python, raspberry pi)

Что нового в Midjourney 6? 5 видимых отличий от 5.2

Цветные фотки на первых ПК

Истории

Томографический калейдоскоп, или подведение итогов уходящего 2023 года вместе с STE

Зернистые градиенты на CSS и SVG

Заблуждения о семантической сегментации

Я знаю, что ты делал этой ночью

Как обучить нейросеть рисовать в стиле любого художника

Российской OCR – 30 лет. Вспоминаем, как появилась первая отечественная технология распознавания (Часть 1. OCR Tiger)

Один бот против тысяч мемов, или как я создал бота-полицейского для мем-чата

Перевод игры The Invincible на другой язык

GigaChat и русский жестовый язык

Ближайшие события

Как настольная игра и небоскребы вдохновили на разработку QR-кода

Kandinsky Video — первая российская модель генерации видео по тексту

Kandinsky 3.0 — новая модель генерации изображений по тексту

«Галоп пикселя — часть шестая» — Анимация персонажей. Бег

Приключение SAM в Японии или как компьютерное зрение видит гейшу

Рассеяние вокруг нас: что это такое и какое место оно занимает в компьютерной томографии?

Из фото в 3D, ч.2: калибровка камеры

Вклад авторов