Обработка изображений

Работаем с фото и видео

Словарь визуальных слов: как создать, зачем использовать, где применять

Блог компании ABBYYОбработка изображенийМашинное обучениеИскусственный интеллект

Автоматическое извлечение информации из деловых документов (счетов-фактур, квитанций, ID) все еще остается сложной задачей из-за отсутствия единого стандарта оформления: несмотря на то, что любой подобный документ содержит определенный набор полей, которые можно извлечь (дата, валюта, общая сумма), расположение элементов сильно отличается в зависимости от типа документа или компании. Также определенные трудности вызывают неоднозначное расположение границ документа, например, из-за смещения изображения на скан-копии. Этот фактор тоже может повлиять на положение искомых областей.

Использование словарей (кодовых книг) визуальных слов, аналогичных Bag-of-Words (BoW), раньше было довольно популярно для обработки изображений (к примеру, для поиска или классификации изображений документов). Мы решили создать принципиально новое решение для извлечения информации из документов, которое бы решало перечисленные выше проблемы предшествующих подходов и базировалось бы на построении и использовании оптимизированного словаря визуальных слов. При этом дополнительным достоинством нашей разработки является то, что обнаружение полей основано только на данных изображения и не требует больших размеченных наборов данных для обучения (fine-tuning) системы на стороне пользователя.

Подробно о том, как был создан словарь визуальных слов, его работе и результатах читайте тут, а переведенный сокращенный вариант — под катом.

641

smikhai1 вчера в 10:15

Киберпанк, который мы заслужили, или как Prisma превращает ваши селфи в произведение искусства

Блог компании Prisma LabsОбработка изображенийМашинное обучениеИскусственный интеллектIT-компании

Привет, Хабр! Я Миша, R&D инженер в Prisma Labs. Наш отдел занимается разработкой новых фичей для мобильных приложений Prisma и Lensa. Prisma это AI-based фоторедактор, который по нажатию одной кнопки всего за пару секунд переносит художественный стиль с картин на ваши фотографии. Недавно мы решили расширить его функционал и дать пользователям возможность переносить стиль с портретов, нарисованных художниками, на свои селфи. В этом посте я расскажу про особенности задачи портретного Style Transfer, о существующих методах, которые мы попробовали, и о том, как адаптировали их под смартфоны.

+13

2.7K

smirnovevgeny 2 августа в 15:03

Распознавание блюд в кафетерии банка

Блог компании Альфа-БанкОбработка изображенийМашинное обучениеУчебный процесс в ITИскусственный интеллект

В кафетерии Альфа-Банка в обеденный час-пик образуются большие очереди. Процесс обслуживания замедляется на линиях раздачи горячих блюд и в кассовой зоне. При помощи современных методов компьютерного зрения можно автоматизировать процесс определения списка блюд на подносе. Решение поможет сократить время, проведенное сотрудниками в кафетерии, и издержки за счет автоматизации ручного труда, а также повысить имидж банка.

kucev 29 июля в 12:58

Топ-5 инструментов для разметки данных в 2021 году

Data MiningОбработка изображенийBig DataМашинное обучение

Перевод

Программы для разметки данных (data labeling) необходимы для прокачки машинного обучения и создания обучающих наборов данных. Поэтому мы решили изучить наилучшие решения из этой области, имеющиеся сегодня на рынке.

2.4K

TezRomacH 29 июля в 12:08

Нечего надеть? Computer Vision в помощь

Блог компании LamodaОбработка изображенийМашинное обучение

Привет, Хабр! Меня зовут Роман Тезиков, я Data Scientist, специализируюсь на Computer Vision в Lamoda.

В R&D Lamoda мы постоянно имеем дело с различного рода рекомендациями. Когда покупатели не знают, какая вещь им нужна, они формируют ее абстрактный образ и пытаются найти что-то похожее с помощью привычных инструментов поиска. На сегодняшний день нейронные сети отлично справляются с задачей распознавания образов. Мы поставили перед собой цель — переосмыслить процесс выбора одежды с учетом Computer Vision. И сегодня я расскажу:

какие проекты мы делаем с помощью компьютерного зрения;
как учим сети распознавать одежду и даже оценивать стиль;
с какими особенностями индустрии мы уже столкнулись;
какие у нас планы на будущее.

В процессе мы научились решать задачу из знаменитого фильма «Бриллиантовая рука», где главный герой просит найти такое же платье, но с перламутровыми пуговицами.

Читать дальше →

+17

2.5K

FenixFly 27 июля в 09:22

Detect it to pop it — используем “взрослые” инструменты Intel для решения “детской” задачи

Блог компании IntelОбработка изображенийМашинное обучениеУчебный процесс в ITИскусственный интеллект

Задачу обнаружения различных объектов сейчас модно решать на основе глубокого обучения. Но для этого нужно собрать и разметить датасет, сконструировать глубокую нейросеть, обучить ее и запустить “в продакшн”. И если недавно для всего этого приходилось самостоятельно писать код, то сейчас можно воспользоваться готовыми инструментами от опытных разработчиков. Мы воспользуемся CVAT для разметки датасета, OpenVINO Training Extensions для обучения модели и OpenVINO Object Detection Demo для ее инференса. И не напишем ни строчки кода (команды консоли не в счет).

danil_e71 22 июля в 17:15

Golang+FFmpeg

Работа с видеоОбработка изображенийGo

Долго искал более-менее живую Golang-библиотеку для работы с rtsp.

Изначально наткнулся на github.com/nareix/joy4, но там оказался устаревший C-код и rtp был на Golang, а декодинг на FFmpeg. (~~немало deprecated варнингов~~).

Изначально форкнул ее, что-то поправил, но с китайскими камерами (~~о чем, много уже, написано на хабре~~), часто были битые кадры, отвалы коннекта и т.д.

Поискал по Go-go! telegram-чату - понял, что нет хороших решений.

Ну и как любят делать на JS - нужно написать свой фреймворк.

2.4K

saul 22 июля в 09:40

OpenVINO Toolkit Tutorial — лучше один раз увидеть

Блог компании IntelВысокая производительностьОбработка изображенийИскусственный интеллект

Open Visual Inference & Neural Network Optimization (OpenVINO) toolkit — это набор библиотек, средств оптимизации и информационных ресурсов для разработки софта, использующего машинное зрение и Deep Learning. Цель OpenVINO — упростить процесс создания систем компьютерного зрения, предоставляя программистам среду разработки и шаблоны, а также оптимизировать код этих продуктов, требующий больших вычислительных затрат, под разнообразные аппаратные платформы Intel.

За последний год мы в блоге опубликовали добрый десяток статей, посвященных OpenVINO, и останавливаться на этом не собираемся, поскольку считаем тему очень важной. Этот пост предназначен для начинающих пользователей OpenVINO; в нем приведены ссылки на экспресс-видеокурс, с помощью которого вы буквально за час-другой познакомитесь с азами OpenVINO и научитесь использовать его для различных нужд.

Читать дальше →

715

wadik69 22 июля в 00:53

Автоматический анализ документов

PythonОбработка изображенийМашинное обучение

Привет, Хабр! В этой статье я расскажу о том, как восстановить структуру таблицы и извлечь рукописные числа из отсканированного документа такого плана.

7.1K

Galperin_Mark 21 июля в 12:25

Каждому лицу по… баллу, или Как работает система социальной оценки граждан Китая

Блог компании ITSOFTОбработка изображенийИсследования и прогнозы в ITЧитальный залУрбанизм

Китайская система «социального кредита» ранжирует граждан, и наказывает их в частности ограничением скорости доступа в интернет. Есть и другие ограничения, хотя и пряники тоже дают.

А всё начиналось вполне безобидно. Джек Ма, владелец компании Alibaba в 2015 году представил биометрическую систему распознавания лиц, которая позволяла пользователям производить оплату товаров в он-лайне без длительной процедуры аутентификации личности. Разработка по своей природе не нова и берет начало из далеких 60-х прошлого века. Но в нынешнее время благодаря развитию искусственного интеллекта и другим наработкам стало возможным идентифицировать человека в парике или в толпе. Помимо оплаты товаров система оценивала и поведение покупателей – собирала данные о пристрастиях покупателей, платежеспособности, о том, обманывали они продавцов в прошлом или нет.

Мимо такого лакомого кусочка, безусловно, власти Китая пройти не могли. Полгода назад, после нескольких лет тестирования они официально внедрили систему так называемого социального кредита, на основе которого действия граждан Китая подлежат постоянной оценке.

Лице...мерие

13K

195

belyalova 20 июля в 13:29

Копнём поглубже: сравниваем популярные алгоритмы оптимизации с менее известными

Блог компании PrequelАлгоритмыОбработка изображенийМашинное обучениеИскусственный интеллект

Привет, Хабр! Меня зовут Мария Белялова, и я занимаюсь data science в мобильном фоторедакторе Prequel.

Эта статья открывает наш цикл материалов со сравнением алгоритмов оптимизации для обучения нейросетей. Помимо классических методов, которые давно зарекомендовали себя, мы рассмотрим и менее известные методы, и совсем новые: например, алгоритм MADGRAD, разработанный в Facebook в этом году. В первой статье мы сравним поведение алгоритмов на тестовых функциях, во второй — посмотрим, как они ведут себя на игрушечной задаче по распознаванию цифр из датасета MNIST, а в третьей — проверим эти алгоритмы в бою на реальной задаче из продакшена.

Читать дальше →

+15

2.4K

Dmitry_Po 20 июля в 13:11

Алгоритм коррекции геометрических искажений, вносимых объективом «рыбий глаз» в изображения и видео

Работа с видеоАлгоритмыОбработка изображенийМатематика

Из песочницы

Перевод

Tutorial

Рассматривается новый алгоритм коррекции геометрических искажений, вносимых объективом "рыбий глаз" в изображения и видео. Этот алгоритм позволяет осуществлять более точную коррекцию дисторсии при меньших потерях информации на краях изображений и видеокадров по сравнению с широко распространенным методом Brown-Conrady.

Алгоритм разработан при реализации одного из проектов компании Оксаджайл (Oxagile)

+22

2.7K

ZlodeiBaal 19 июля в 11:43

ComputerVision и стиль

Блог компании RecognitorАлгоритмыОбработка изображенийМашинное обучениеИскусственный интеллект

Несколько месяцев назад я писал статью про тихую революцию в ComputerVision - про трансформеры. А сейчас я хочу поговорить про другую революцию в CV. Уже не такую тихую (статьи тут куда более известные). Рассказ будет про GAN'ы. Как ими сегодня умеют управлять, и что достигли. В первую очередь это StyleGan и его производные.
В последний год-полтора появилось много различных способов управлять GAN-сетями и улучшилось их качество. Ещё чуть чуть и… Что? Можно будет генерить фильмы по описанию? Игры? Нужно ли будет рисовать крутые текстуры, или их можно будет создать?Попробую показать куда дошла современная технология, и чего ожидать от GAN’ов.

+64

zoldaten 16 июля в 12:20

Приятная капча и ее решение

Работа с иконкамиPythonОбработка изображений

Tutorial

В статье пойдет речь о решении визуально привлекательной капчи, решение которой не только немного расслабляет и погружает в транс медитации, но также позволяет немного стряхнуть пыль с фреймворка selenium для python, а также пакета opencv. Именно эти инструменты и будут использоваться на капче, которая относится к так называемому виду капч «с перетаскиванием». Но, для начала, присказка.

Читать дальше →

2.1K

Dmytro_Kikot 14 июля в 14:00

Лица там, где их нет: парейдолия и восприятие эмоций

Блог компании ua-hosting.companyОбработка изображенийНаучно-популярноеМозгБиология

Если глаза это зеркало души, то лицо это инструмент, играя струнами которого, мы способны выразить невообразимо широкий спектр эмоций, не произнеся ни слова. Для человека, как для социального существа, передача информации, в том числе и эмоциональной, от особи к особи является крайне важным элементом социализации. Порой достаточно одного лишь взгляда или приподнятого уголка губ, чтобы понять настроение собеседника. Кто-то подмечает такие мелкие детали лучше других, а кто-то не способен увидеть злость на лице, даже если оно будет пурпурным и перекошенным от этой малоприятной эмоции. Тем не менее, для человека распознавать лица это навык по своей природности сравнимый с навыком дышать. Однако порой мы видим лица там, где их быть не должно. Ученые из Сиднейского университета (Австралия) провели исследование этого необычного явления. Видим ли мы реальные лица лучше иллюзорных, как мы оцениваем эмоции нереальных лиц, и что является основой парейдолии? Ответы на эти вопросы мы найдем в докладе ученых. Поехали.

Читать дальше →

+20

4.5K

modernToking 13 июля в 16:13

Определение позы для нескольких людей с Mediapipe

АлгоритмыОбработка изображенийМашинное обучение

Оценка позы человека из видео применяется в различных приложениях, таких как распознавание языка жестов и управление жестами всего тела. Существуют также применения в классификации последовательности движений при физической активности, такой как йога, упражнения и танцы, что позволяет количественно определять движения с помощью определения ориентиров на теле.

1.1K

Dmytro_Kikot 9 июля в 14:00

Мир глазами грызуна: камера, имитирующая зрение мыши

Блог компании ua-hosting.companyОбработка изображенийНаучно-популярноеМозгБиология

Мир, окружающий нас, это совокупность сенсорной информации, собранной нашими органами чувств. Это, конечно, не очень поэтично, зато верно. Окружающая среда наполнена информацией, которую мы слышим, видим, ощущаем на вкус и запах, осязаем. Каждый из этих аспектов отдельно или в совокупности позволяет нам создавать картину окружающей среды и функционировать в соответствии с ее условиями. То, как видят, слышат и т.д. разные виды напрямую связано с их ареалом обитания, гастрономическими предпочтениями, а также с их принадлежностью к охотникам или добыче. Визуальная информация считается чуть ли ни самой главной. А потому понимание того, что именно видят глаза, как обрабатываются эти данные, и какие нейронные процессы протекают в этот момент позволяет лучше понять работу одного из самых загадочных органов — мозга. Для этого ученые из университета имени Людвига и Максимилиана (Мюнхен, Германия) разработали камеру, имитирующую зрение мыши. Что же видят грызуны, почему их зрение можно назвать «двойным», и какая от него польза? Ответы на эти вопросы мы найдем в докладе ученых. Поехали.

Читать дальше →

+23

7.5K

ru_vds 7 июля в 16:01

Вывод чётких изображений на экранах с высокой плотностью пикселей

Блог компании RUVDS.comРазработка веб-сайтовОбработка изображений

Перевод

Много лет тому назад существовали мониторы с разными разрешениями, а после того, как индустрия перешагнула отметку в 1024x768, экраны, с увеличением разрешения, становились больше.

Потом появились мобильные телефоны, подходящие для работы в интернете, оснащённые полноцветными экранами. Правда, ситуация оставалась практически такой же. Экраны у них были маленькие, как и разрешения этих экранов.

Далее, в 2010 году, вышел iPhone 4 (ёшкин кот, 11 лет назад), разрешение его экрана составляло 640x960. А в iPhone 3 имелся экран почти такого же размера, но с разрешением 320x480. Разрешение выросло вдвое, а физический размер экрана остался примерно таким же, как раньше. В результате вдвое выросла плотность пикселей экрана.

Нельзя было, без изменений, запускать старые приложения на новых экранах, так как нечто вроде текстов и кнопок выглядело бы слишком маленьким. Поэтому компания Apple удвоила (Прим.: справедливости ради, в 4 раза) размеры всех экранных элементов. 1 логический пиксель превратился в 2 физических пикселя.

В веб-разработке соотношение логических и физических пикселей известно как DPR (Device Pixel Ratio). DPR iPhone 4 равняется 2 (иногда такие экраны называют «2x-экранами» или «2dppx-экранами»).

Теперь, немного коснувшись истории, перейдём к более современным вещам.

Читать дальше →

+24

7.3K

abondarev 5 июля в 11:47

Benchmark OpenCV на STM32

Блог компании EmboxНенормальное программированиеOpen sourceОбработка изображенийПрограммирование микроконтроллеров

Сегодня обработка изображений прочно вошла в нашу жизнь. Никого не удивляет распознавание лиц или дорожной разметки. Самой распространенной библиотекой для этих целей на данный момент является OpenCV. На сегодняшний день OpenCV ориентирован прежде всего на большие платформы. И хотя старшие модели современных микроконтроллеров обладают ресурсами сопоставимыми с Pentium II, запуск на них OpenCV все еще является очень редким, даже экзотическим явлением.

Какое-то время назад мы показали, что существует принципиальная возможность использовать OpenCV на STM32 (и других микроконтроллерах подобного класса). Тогда нашей целью было продемонстрировать возможность использования данной библиотеки на подобных аппаратных платформах. Поэтому, хотя мы и получили очень низкую производительность, мы не стали разбираться в ее причинах. На текущий момент мы исправили очевидные недостатки первого решения, что позволило добиться приемлемой производительности. В данной статье приведены результаты замеров производительности для различных примеров использования OpenCV на платформе STM32F7.

Читать дальше →

+10

2.1K

NewTechAudit 30 июня в 07:47

Анализ и обработка изображений с использованием операций математической морфологии, python и библиотеки OPEV

ПрограммированиеОбработка изображенийМашинное обучение

Математическая морфология — это теория, которая зародилась еще в 1964 году, когда Джордж Матерон изучал соотношение геометрии пористой среды и их проницаемости. В то же время Жан Серра попытался количественно оценить петрографию (т.е. макроскопические и микроскопические исследования горных пород) железных руд, а также результаты исследования Серра в 1982 году.

Теоретически, математическая морфология может применяться в любой области обработки изображений, где форма играет некую роль. Это может быть обработка объектов, обработка шума, выделение краев, сегментация, анализ текстуры, классификация, описание формы и т.д.

Для освоения материала подразумевается, что читатель обладает минимальными знаниями в области.

1.3K

2 3 ...

49 50

Обработка изображений

Словарь визуальных слов: как создать, зачем использовать, где применять

Новости

Киберпанк, который мы заслужили, или как Prisma превращает ваши селфи в произведение искусства

Распознавание блюд в кафетерии банка

Топ-5 инструментов для разметки данных в 2021 году

Нечего надеть? Computer Vision в помощь

Detect it to pop it — используем “взрослые” инструменты Intel для решения “детской” задачи

Golang+FFmpeg

OpenVINO Toolkit Tutorial — лучше один раз увидеть

Автоматический анализ документов

Каждому лицу по… баллу, или Как работает система социальной оценки граждан Китая

Копнём поглубже: сравниваем популярные алгоритмы оптимизации с менее известными

Алгоритм коррекции геометрических искажений, вносимых объективом «рыбий глаз» в изображения и видео

ComputerVision и стиль

Приятная капча и ее решение

Лица там, где их нет: парейдолия и восприятие эмоций

Определение позы для нескольких людей с Mediapipe

Мир глазами грызуна: камера, имитирующая зрение мыши

Вывод чётких изображений на экранах с высокой плотностью пикселей

Benchmark OpenCV на STM32

Анализ и обработка изображений с использованием операций математической морфологии, python и библиотеки OPEV

Вклад авторов

Ваш аккаунт

Разделы

Информация

Услуги