Обработка изображений *

Работаем с фото и видео

kucev 5 октября в 11:36

Руководство по типам аннотирования изображений

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Задаётесь вопросом, какой тип аннотирования изображений лучше всего подойдёт для вашего проекта?

Аннотирование изображений — одна из наших основных специальностей, и мы с радостью поделимся информацией о плюсах и минусах каждого типа: от простых ограничивающих прямоугольников до полномасштабной попиксельной семантической сегментации.

Учтите, что это руководство относится только к типу визуального аннотирования, но на уровне изображений или объектов можно создавать дополнительные метаданные. К ним относятся строки, числа, булевы значения, выбор одного или нескольких вариантов, и т.п. Например, ограничивающий прямоугольник для автомобилей в сцене может содержать такие метки, как цвет, производителя, регистрационный номер и т.д.

Читать дальше →

491

krvtmr 1 октября в 14:33

Как нужно обрабатывать изображения, чтобы не расстраивать математику?

Блог компании twin3d Работа с 3D-графикой *Алгоритмы *Обработка изображений *Математика *

Мы часто расстраиваем математику, выполняя привычные операции с изображениями — например, когда мы масштабируем их или применяем к ним фильтры. Одним словом — тогда, когда мы производим арифметические операции (+,-,*,/) над значениями цветовых каналов. Обычно это не заметно, но иногда это может доставить неприятности.

Из статьи вы узнаете, почему при решении задач компьютерного зрения (и не только) важно использовать гамма-коррекцию или линейные цветовые пространства. В конце статьи будет показано, как это отражается на задаче 3D-реконструкции человеческих лиц.

+44

9.1K

NapoleonIT 30 сентября в 14:46

Компьютерное зрение в ритейле: как мы научили нейронную сеть распознавать товары по фото

Обработка изображений *Машинное обучение *IT-компании

Мы запускаем серию статей про CV в ритейле. За несколько лет работы с технологиями искусственного интеллекта у нас появилось много опыта и накопилось несколько успешных кейсов внедрения компьютерного зрения в реальный бизнес. И нам есть чем поделиться: распознавание ценников, прайсов сигарет, разметка полок. В этой статье расскажем про то, как мы научились распознавать товары на фото, как отличить водку от яйца и не дать нейронке принять тебя за древесный уголь.

2.5K

man_of_letters 29 сентября в 16:00

Апскейл, который смог

Блог компании RUVDS.com Обработка изображений *Машинное обучение *

Термин «апскейл» используется для обозначения процесса увеличения разрешения цифровых изображений с фокусом на создание иллюзии «настоящего» высокого разрешения. Правда, 90% таких продуктов — это барахло, больше намёк на перспективы, чем волшебство. Недавно мои ручки добрались до двух алгоритмов повышения чёткости, которые оказались настолько хороши, что появилась эта статья. Будут субъективные и объективные тесты алгоритма Real-ESRGAN для увеличения разрешения и алгоритма GFPGAN для детализации лиц.

Traffic_Warning: в статье демонстрируется множество примеров.

Читать дальше →

+155

28K

OlegSivchenko 29 сентября в 12:30

Членимая калейдоскопическая сложность. Об устройстве и потенциале фасеточного глаза

Обработка изображений *Научно-популярное Биотехнологии Видеотехника Физика

Некоторое время назад я планировал разместить здесь откровенно антирелигиозную статью и пройтись по излюбленному примеру креационистов, связанному с нечленимой сложностью. Я хотел разобрать казус с отказом признавать эволюцию глаз, но обнаружил на Хабре превосходную статью Вячеслава Пуговкина @ra3vdx, в которой разобрана именно эта проблема. Поэтому я решил изменить акценты и развернуть не менее интересную тему: рассказать об устройстве и бионическом потенциале фасеточного глаза. Давайте об этом поговорим – и начну я, пожалуй, с ваятельницы Лин, главной героини гротескного романа, написанного Чайной Мьевилем.

+23

4.4K

MrNightSky 29 сентября в 12:00

Дообучаем готовую нейросеть для классификации данных

Блог компании FUNCORP Python *Обработка изображений *Машинное обучение *Data Engineering *

В прошлой статье мы научились классифицировать данные без разметки с помощью понижения размерности и методов кластеризации. По итогам получили первичную разметку данных и узнали, что это картинки. С такими начальными условиями можно придумать что-то более серьёзное, например, дообучить существующую нейросеть на наши классы, даже если до этого она их никогда не видела. В iFunny на первом уровне модерации мы выделяем три основных класса:

• approved — картинки идут в раздел collective (развлекательный контент и мемы);
• not suitable — не попадают в общую ленту, но остаются в ленте пользователя (селфи, пейзажи и другие);
• risked — получают бан и удаляются из приложения (расизм, порнография, расчленёнка и всё, что попадает под определение «противоправный контент»).

Сегодня расскажу на наглядных примерах, как мы перестраивали модель под наши классы, обучали её и выделяли паттерны распознавания картинок. Технические подробности — под катом.

+46

4.2K

SolarDozor 29 сентября в 10:00

Распознавание печатей: нейронные сети против SIFT, и причем тут Госзакупки

Блог компании Ростелеком-Солар Информационная безопасность *Алгоритмы *Обработка изображений *Машинное обучение *

Tutorial

Привет, Хабр! Сегодня мы расскажем, как делали в нашей группе анализа данных прототип для уже успешно работающего внутри DLP-системы Solar Dozor движка детектирования графических объектов на изображениях. Покажем это на примере одного его представителя - оттисков печатей на изображениях документов. Вспомним о противоречивых требованиях к решению задачи и очертим бизнес-метрики, определяющие успешное решение. В процессе подберем фильтр наличия печатей из арсенала компьютерного зрения и сравним подходы к детектированию объектов - популярных движках CNN, SIFT и их вариациях. А также поведаем об интересных находках в части создания датасетов. Здесь, как оказалось, немало места для творчества и экспериментов. В общем, запасайтесь попкорном.

Читать дальше →

1.8K

Blacksorld 28 сентября в 10:15

О чём не пишут в научных статьях или что на самом деле выделяет ваш маттинг?

Блог компании Prisma Labs Обработка изображений *Машинное обучение *Искусственный интеллект IT-компании

Современные фоторедакторы используют нейросетевые модели маттинга/сегментации для реализации большой доли своих инструментов, таких как замена фона и боке. Приложение Lensa не стала исключением из этого правила. Но правда ли, что информации из научных статей достаточно для объяснения поведения обученных моделей для ваших приложений?

В какой-то момент у нас появилась идея: “А почему бы не использовать маску маттинга для того, чтобы понимать, есть ли человек на фото или нет?” На первый взгляд, задумка кажется весьма простой в реализации, ведь раз модель умеет выделять людей, то определить по предсказанной маске, есть ли человек на фото, не должно составить труда. На практике мы столкнулись с довольно неожиданным эффектом. Оказалось, что сетка, обученная только на людях, также выделяет животных, статуи, еду и другие объекты.

Меня зовут Дима, работаю в R&D отделе Prisma Labs и в этом посте хочу рассказать, чем обусловлен такой эффект и ещё как его можно использовать у себя в приложении.

+14

1.5K

Itelma 27 сентября в 21:31

Как сделать 248MP фотографию Солнца

Блог компании НПП ИТЭЛМА Обработка изображений *Научно-популярное Фототехника Астрономия

Перевод

Это изображение диска нашего Солнца создано с помощью большого рефракторного (линзового) телескопа и высокоскоростной монохромной CMOS-камеры.

Каждый день над нашими головами висит большой шар света. Он там всегда, и никто не обращает на него внимания. Разумеется, мы не советуем вам долго смотреть на него и при этом ослепнуть, тем не менее, наука дала нам возможность смотреть прямо на солнце совершенно безопасно.

Поскольку техника стала более доступной, обычный человек может заглянуть в многочисленные слои Солнца с помощью специального оборудования, которое может купить в любом хорошем магазине телескопов.

В этой статье мы подробно рассмотрим слой, известный как хромосфера: область Солнца, видимая в оранжево-красном спектре. При помощи специального фильтра это устройство блокирует весь нежелательный свет, пропуская при этом определенный диапазон частот, который нас интересует.

Читать дальше →

+19

5.4K

ru_vds 26 сентября в 17:00

Вектор? Растр? А может — и то, и другое?

Блог компании RUVDS.com Работа с векторной графикой *Серверная оптимизация *Обработка изображений *Графический дизайн *

Перевод

На этой неделе я столкнулся с интересным классом задач, для решения которых, как я теперь понимаю, можно было использовать гораздо более удачный подход и раньше. Но существует ли такой подход?

Изображение для верхней части сайта

Речь идёт о подготовке изображения, рассчитанного на использовании в верхней правой части сайта jamstackconf.com. Мы, в маркетинговой команде Netlify, используем Figma. Первая моя попытка экспорта этого изображения для использования его на сайте оказалась далеко не самой удачной.

Читать дальше →

+35

4.4K

kucev 22 сентября в 11:52

Лучшие платформы аннотирования изображений для компьютерного зрения на 2019 год

Data Mining *Обработка изображений *Big Data *Машинное обучение *

Перевод

Мы постоянно находимся в поиске лучших платформ аннотирования, обеспечивающих широкую функциональность, имеющих инструменты управления проектами и оптимизацию процесса аннотирования (когда нужно аннотировать 50 тысяч изображений, важна экономия даже одной секунды на каждом).

На основании своего опыта работы с каждой из платформ мы делимся своими честными обзорами, надеясь, что они будут полезны дата-саентистам, которым необходимо вручную размечать свои данные.

Мы используем следующие критерии:

Цена
Разнообразие функций, инструментов и форматов
Управление проектами и простота использования

Читать дальше →

803

mamchyts 16 сентября в 12:44

Сравнение инструментов для генерации thumbnails: imgproxy, thumbor, imaginary, picfit, imageproxy и weserv/images

Разработка веб-сайтов *PHP *IT-инфраструктура *Виртуализация *Обработка изображений *

Жил был один новостной проект. Время шло, одни фичи добавлялись, вторые удалялись... Одной из важнейший фишек была генерация превьюшек к картинкам (thumbnails), а именно - быстрая генерация (до 5 минут) всех thumbnails. Все было хорошо, пока не начали поступать жалобы, что, иногда, генерация не успевает за 5 минут все сделать. Начали "копать" и обнаружили интересную вещь: мы генерим 112 превьюшек к одной картинке. Нашей "радости" не было предела. После небольших дискуссий было решено увеличить maxReplicas до 60 в HPA (проблема возникала когда загружалось больше 80 картинок), так как это самое быстрое и дешевое решение.

1.3K

qwertyforce 16 сентября в 12:41

Фотогалерея на максималках

Python *JavaScript *Обработка изображений *Машинное обучение *Искусственный интеллект

~1 год назад я начал разрабатывать свою фотогалерею (~~песочницу для теста всяких технологий~~). Данная статья – это описание её архитектуры, а также различные твики/лайфхаки/микрогайды которые я узнал за время разработки + немного про производительность.

+22

5.5K

kucev 14 сентября в 12:35

Лучшие инструменты разметки изображений для компьютерного зрения 2020 года

Data Mining *Обработка изображений *Big Data *Машинное обучение *

Перевод

В 2018 году мы опубликовали обзор лучших инструментов аннотирования, которыми регулярно пользуемся. Статью с энтузиазмом восприняли и профессионалы в сфере ИИ, и неспециалисты.

С нами даже связались несколько новых платформ, попросив провести бета-тестирование их инструментов и написать отзывы об UX и UI на основе нашего личного опыта управления крупномасштабными проектами разметки для ИИ.

С 2018 года произошёл большой прогресс в сфере платформ разметки, в том числе успешный фандрайзинг Labelbox, упрочивший его ведущую позицию в этой области, а также заявления о потрясающих новых функциях нашего любимого Supervise.ly, который мы продолжаем использовать в большинстве проектов.

Мы решили, что настало подходящее время для рассказа о самых потрясающих новых инструментах, появившихся за последнее время. В предыдущей статье мы оценивали продукты по следующим параметрам:

Цена
Функции
Управление проектами

Но решили, что стоит добавить ещё один:

Автоматизация

Ведь каждый из этих новых инструментов имеет отличные новые способы оптимизации ручного процесса аннотирования.

Читать дальше →

1.6K

WildChlamydia 14 сентября в 10:20

Как увидеть в фильме больше, чем способен человеческий глаз?

Блог компании SberDevices Работа с видео *Обработка изображений *Машинное обучение *Искусственный интеллект

Обращали ли вы когда-нибудь внимание на то, сколько всего в кадре упускает наш мозг при просмотре фильма? Каждый раз, когда вы пересматриваете своё любимое кино, вы замечаете что-то новое.

Возьмём для примера великое – “Назад в будущее”. Главное, что захватывает в фильме, это, конечно, сюжет. Но ~~во сколько лет~~ на какой просмотр вы узнали, что в конце фильма магазин "Две сосны" поменял своё название на "Одинокая сосна"? Это происходит потому, что Марти сбивает дерево на ферме Пибоди, влетев в прошлое на DeLorean DMC-12. В первый раз это тяжеловато увидеть, но это важная деталь сюжета.

А помните ли вы диван, на котором так уютно сидели “Друзья” в квартире Моники и Рейчел? Наверняка, у нас всех в памяти хранится его общий вид, но когда заходишь в магазин и хочешь купить такой же, вряд ли вспомнишь всё в деталях.

В момент просмотра фильма, мы часто сфокусированы на сюжете и происходящем на переднем плане, из-за чего можем упускать детали, без которых фильм может показаться не столь продуманным.

Но не беспокойтесь. В 2021 это больше не проблема, ведь теперь есть платформа компьютерного зрения Layer, которая смотрит кино вместе с вами. От неё никаким деталям не спрятаться и не скрыться. Давайте заглянем “под капот”?

Давайте!

+16

kitaisky 13 сентября в 15:24

Детекция объектов с помощью YOLOv5

Обработка изображений *Машинное обучение *

Tutorial

Пошаговый туториал для детекции кастомных объектов на изображении.

2.1K

princeparadoxes 9 сентября в 12:40

Оптимизируем отображение 10 000 объектов на карте

Блог компании Циан Программирование *Разработка под Android *Обработка изображений *

В приложении ЦИАН размещены десятки тысяч объявлений о недвижимости. Нашим пользователям важно видеть географическое расположение этих объявлений на карте. Самым популярным способом отображения оказался вариант, когда каждое объявление показано отдельной точкой. Внутри команды такой вариант мы назвали «Горошек на карте».

Проблема в том, что объявлений очень много: в одной только Москве более 10 000. Из-за этого наша карта работала не очень стабильно: при зуме и движении были тормоза, дёргалась и лагала картинка. С этим нужно было что-то делать. Чтобы разобраться в причинах проблем и найти решения, мы засучили рукава и начали копаться в используемых механизмах. Под катом подробно опишем весь путь оптимизации карт в Android-приложении: от постановки задачи до результата.

+30

6.2K

prudent 8 сентября в 11:02

Поиграем в слова? Автоматическое распознавание букв и нахождение слов в игре Слово

Python *Программирование *Разработка под iOS *Алгоритмы *Обработка изображений *

В данной статье на примере проекта, архитектура которого приведена на фото, вы сможете найти ответы на следующие вопросы:

- Как работает алгоритм нахождения слов в игре типа Boggle?
- Как предобработать изображение для дальнейшего распознавания букв с помощью OpenCV?
- Как распознать буквы с помощью pytesseract?
- Как происходит клиент-серверное взаимодействие через TCP сокеты?
- Как связать Shortcut и приложение Pythonista?
- Как пробросить порты для взаимодействия с сервером в Docker?

2.5K

MrNightSky 7 сентября в 14:30

Как классифицировать данные без разметки

Блог компании FUNCORP Python *Обработка изображений *Машинное обучение *Data Engineering *

Пользователи iFunny ежедневно загружают в приложение около 100 000 единиц контента, среди которого не только мемы, но и расизм, насилие, порнография и другие недопустимые вещи.

Раньше мы отсматривали это вручную, а сейчас разрабатываем автоматическую модерацию на основе свёрточных нейросетей. Систему уже обучили на разделение контента по трём классам: она распознает, что пропустить в ленты пользователей, что удалить, а что скрыть из общей ленты. Чтобы сделать алгоритмы точнее, решили добавить конкретизацию причины удаления контента, у которого до этого не было подобной разметки.

Как мы это в итоге сделали — расскажу под катом на наглядном примере. Статья рассчитана на тех, кто знаком с Python (при этом необязательно разбираться в Data Science и Machine Learning).

+54

6.7K

kucev 7 сентября в 14:11

Лучшие инструменты аннотирования для компьютерного зрения в 2021 году

Data Mining *Обработка изображений *Big Data *Машинное обучение *Управление персоналом *

Перевод

Мы уже долгое время занимались регулярной публикацией обзоров лучших инструментов аннотирования на рынке. Радостно видеть, что экосистема всегда динамична, а у платформ аннотирования появляются всё более мощные функции.

Все наши обзоры совершенно честны и основаны на личном опыте аннотирования тысяч изображений и видео для различных проектов и областей применения.

В этом году мы хотим поделиться списком лучших инструментов для разметки и аннотирования в 2021 году (вне какого-либо порядка).

Как и в предыдущих списках, мы оценивали инструменты по следующим параметрам:

Функции
Автоматизация
Управление проектами

Читать дальше →

1.9K

2 3 ...

49 50

Обработка изображений *

Руководство по типам аннотирования изображений

Как нужно обрабатывать изображения, чтобы не расстраивать математику?

Компьютерное зрение в ритейле: как мы научили нейронную сеть распознавать товары по фото

Апскейл, который смог

Членимая калейдоскопическая сложность. Об устройстве и потенциале фасеточного глаза

Дообучаем готовую нейросеть для классификации данных

Распознавание печатей: нейронные сети против SIFT, и причем тут Госзакупки

О чём не пишут в научных статьях или что на самом деле выделяет ваш маттинг?

Как сделать 248MP фотографию Солнца

Вектор? Растр? А может — и то, и другое?

Лучшие платформы аннотирования изображений для компьютерного зрения на 2019 год

Сравнение инструментов для генерации thumbnails: imgproxy, thumbor, imaginary, picfit, imageproxy и weserv/images

Фотогалерея на максималках

Лучшие инструменты разметки изображений для компьютерного зрения 2020 года

Как увидеть в фильме больше, чем способен человеческий глаз?

Детекция объектов с помощью YOLOv5

Оптимизируем отображение 10 000 объектов на карте

Поиграем в слова? Автоматическое распознавание букв и нахождение слов в игре Слово

Как классифицировать данные без разметки

Лучшие инструменты аннотирования для компьютерного зрения в 2021 году

Вклад авторов

Ваш аккаунт

Разделы

Информация

Услуги