Обработка изображений *

Работаем с фото и видео

Статьи Посты Авторы Компании

m1rko 15 мар 2018 в 14:49

Cжатие и улучшение рукописных конспектов

9 мин

37K

Open source *Python *Алгоритмы *Обработка изображений *

Перевод

Я написал программу для очистки отсканированных конспектов с одновременным уменьшением размера файла.

Исходное изображение и результат:

Слева: исходный скан на 300 DPI, 7,2 МБ PNG / 790 КБ JPG. Справа: результат с тем же разрешением, 121 КБ PNG ^[1]

Примечание: описанный здесь процесс более-менее совпадает с работой приложения Office Lens. Есть другие аналогичные программы. Я не утверждаю, что придумал нечто радикальное новое — это просто моя реализация полезного инструмента.

Если торопитесь, просто посмотрите репозиторий GitHub или перейдите в раздел результатов, где можно поиграться с интерактивными 3D-диаграммами цветовых кластеров.

Читать дальше →

+124

samuraisoft 12 мар 2018 в 19:07

Пакетная обработка изображений в Windows с ImageMagick. Часть I

6 мин

25K

Разработка веб-сайтов *Обработка изображений *Сжатие данных *

Из песочницы

ImageMagick — свободный и кроссплатформенный редактор для работы с графикой.
Он состоит из нескольких консольных утилит. Его возможностей не счесть, как звезд на небе.
В сети есть множество примеров, как пользоваться им. Но большинство из них для Linux или PHP. Для Windows же их кот наплакал. Настало время восполнить пробел.

Читать дальше →

+13

alatobol 7 мар 2018 в 00:09

Щи, или Распознавание 330 млн лиц на скорости 400 фото / сек

11 мин

42K

Блог компании Одноклассники Data Mining *Обработка изображений *Big Data *Машинное обучение *

Распознаванием лиц в 2018 году никого не удивишь – каждый студент, может, даже школьник, его делал. Но всё становится немного сложнее, когда у вас не датасет на 1 млн пользователей, а:

330 миллионов пользовательских аккаунтов;
ежедневно заливается 20 млн пользовательских фотографий;
максимальное время на обработку одного фото не должно превышать 0.2 сек;
ограниченные объемы оборудования для решения задачи.

В этой статье мы поделимся опытом разработки и запуска системы распознавания лиц на пользовательских фотографиях в социальной сети Одноклассники и расскажем про все ”от А до Я”:

математический аппарат;
техническую реализацию;
результаты запуска;
и акцию StarFace, которую мы использовали для PR-а нашего решения.

Распознавание лиц Одноклассников в деталях

+61

NIX_Solutions 6 мар 2018 в 11:09

Удаление фона с помощью глубокого обучения

14 мин

19K

Блог компании NIX Обработка изображений *Машинное обучение *

Перевод

Перевод Background removal with deep learning.

На протяжении последних нескольких лет работы в сфере машинного обучения нам хотелось создавать настоящие продукты, основанные на машинном обучении.

Несколько месяцев назад, после прохождения отличного курса Fast.AI, звезды совпали, и у нас появилась такая возможность. Современные достижения в технологиях глубокого обучения позволили осуществить многое из того, что раньше казалось невозможным, появились новые инструменты, которые сделали процесс внедрения более доступным, чем когда-либо.

Мы поставили перед собой следующие цели:

Улучшить наши навыки работы с глубоким обучением.
Совершенствовать наши навыки внедрения продуктов, основанных на ИИ.
Создать полезный продукт с перспективами на рынке.
Весело провести время (и помочь весело провести время нашим пользователям).
Обменяться опытом.

Читать дальше →

+21

DataArt 27 фев 2018 в 19:13

Классификация объектов в режиме реального времени

5 мин

39K

Блог компании DataArt Python *Обработка изображений *Машинное обучение *Разработка для интернета вещей *

Автор: Игорь Пантелеев, Software Developer, DataArt

Распознавание изображений очень широко используется в машинном обучении. В этой области существует множество различных решений, однако потребностям нашего проекта ни оно из них не удовлетворяло. Нам понадобилось полностью локальное решение, которое способно работать на крошечном компьютере и передавать результаты распознавания на облачный сервис. В этой статье описывается наш подход к созданию решения для распознавания изображений с помощью TensorFlow.

Читать дальше →

+27

m1rko 23 фев 2018 в 23:19

Глубинное обучение с подкреплением пока не работает

33 мин

30K

Разработка игр *Алгоритмы *Обработка изображений *Машинное обучение *Разработка робототехники *

Перевод

Об авторе. Алекс Ирпан — разработчик из группы Brain Robotics в Google, до этого работал в лаборатории Berkeley Artificial Intelligence Research (BAIR).

Здесь в основном цитируются статьи из Беркли, Google Brain, DeepMind и OpenAI за последние несколько лет, потому что их работы наиболее заметны с моей точки зрения. Почти наверняка я что-то упустил из более старой литературы и от других организаций, так что прошу прощения — я всего лишь один человек, в конце концов.

Введение

Однажды в Facebook я заявил следующее.

Когда кто-то спрашивает, может ли обучение с подкреплением (RL) решить их проблему, я сразу отвечаю, что не может. Думаю, что это верно как минимум в 70% случаев.

Глубинное обучение с подкреплением сопровождается массой шумихи. И на то есть хорошие причины! Обучение с подкреплением (RL) — невероятно общая парадигма. В принципе, надёжная и высокопроизводительная система RL должна быть прекрасна во всём. Слияние этой парадигмы с эмпирической силой глубинного обучения очевидно само по себе. Глубинное RL — это то, что больше всего похоже на сильный ИИ, и это своего рода мечта, которая подпитывает миллиарды долларов финансирования.

К сожалению, в реальности эта штука пока не работает.

Но я верю, что она выстрелит. Если бы не верил, то не варился бы в этой теме. Но впереди куча проблем, многие из которых фундаментально сложны. Прекрасные демки обученных агентов скрывают всю кровь, пот и слёзы, что пролились в процессе их создания.

Читать дальше →

+59

ErmIg 20 фев 2018 в 10:49

Ускоряем метод Виолы-Джонса (Viola-Jones)

11 мин

8.5K

C++ *Алгоритмы *Обработка изображений *

В последнее время метод Виолы-Джонса, который долгое время был основным способом детектирования объектов на изображении, отступает под натиском более новых и совершенных алгоритмов. Тем не менее, актуальность этого метода еще сохраняется и в настоящем времени.

Да, каскадный классификатор основанный на признаках Хаара (метод Виолы-Джонса) уступает в скорости работы каскадному LBP классификатору. Он менее точен, чем детектор, основанный на HOG признаках, и тем более детектор, базирующийся на сверточных нейронных сетях. И все же у него есть определенная ниша, когда требуется точность выше, чем у LBP каскада, но скорость работы более точных детекторов недостаточна высока. Не менее важным фактором является то, что для каскадного Хаар классификатора существует большое количество уже обученных каскадов, в том числе в стандартной поставке библиотеки OpenCV. Поэтому скорость работы этого алгоритма весьма важна. Что и побудило автора в свое время занятся его оптимизацией.

Ну и какая статья об детектировании лиц, может обойтись без фотографии Лены?

Читать дальше →

+19

ContentAI_Team 15 фев 2018 в 12:03

Как мы помогали оцифровать вековую историю наблюдений за погодой в Бразилии

5 мин

5.9K

Блог компании Content AI Обработка изображений *

Ученые Национального института метеорологии Бразилии с 1909 года записывают всю информацию о погодных условиях и изменениях климата в стране. Исследователи анализируют эти данные и строят на их основе прогнозы. За сто лет специалисты собрали более 3 миллионов страниц записей о погоде в знойном Рио-де-Жанейро, на грохочущих водопадах Игуасу, в сумрачных лесах Амазонки и в туманном Сан-Паулу. Но вся информация хранилась в бумажном виде. С каждым годом ее копилось все больше, а старые записи приходили в негодность. Исследователям становилось все сложнее работать с документами.

Сегодня мы расскажем о том, как с помощью нашей технологии ABBYY FlexiCapture Engine Национальный институт метеорологии Бразилии оцифровал архив наблюдений за погодой, который ученые собирали более 100 лет.

Читать дальше →

+33

snakers4 14 фев 2018 в 07:46

Из спутниковых снимков в графы (cоревнование SpaceNet Road Detector) — попадание топ-10 и код (перевод)

8 мин

8.8K

Python *Обработка изображений *Big Data *Машинное обучение *

Привет, Хабр! Представляю вам перевод статьи.

Это Вегас с предоставленной разметкой, тестовым датасетом и вероятно белые квадраты — это отложенная валидация (приват). Выглядит прикольно. Правда эта панорама лучшая из всех четырех городов, так вышло из-за данных, но об этом чуть ниже.

0. TLDR

Ссылка на соревнование и подробное описание.

Быстрая картинка сайта, кому лень ходить.

Мы закончили предварительно на 9-м месте, но позиция может измениться после дополнительного тестирования сабмитов организаторами.

Также я потратил некоторое время на написание хорошего читаемого кода на PyTorch и генераторов данных. Его можно без застенчивости использовать для своих целей (только поставьте плюсик). Код максимально простой и модульный, плюс читайте дальше про best practices для семантической сегментации.

Кроме того, не исключено, что мы напишем пост про понимание и разбор Skeleton Network, которую в итоге использовали все финалисты в топе соревнования для преобразования маски изображения в граф.

Суть соревнования на 1 картинке

Читать дальше →

+32

snakers4 7 фев 2018 в 16:58

Соревнование Pri-matrix Factorization на DrivenData с 1ТБ данных — как мы заняли 3 место (перевод)

11 мин

7.4K

Работа с видео *Python *Обработка изображений *Машинное обучение *

Из песочницы

Привет, Хабр! Представляю вашему вниманию перевод статьи "Animal detection in the jungle — 1TB+ of data, 90%+ accuracy and 3rd place in the competition".

Или чему мы научились, как выигрывать призы в таких соревнованиях, полезные советы + некоторые мелочи

TLDR

Суть соревнования — например, вот это случайное видео с леопардом. Все видеоролики длятся 15 секунд, а их 400 тысяч...

Заключительные результаты в 3 часа ночи, когда конкурс закончился — я был в поезде, но мой коллега засабмитил заявку за 10 минут до окончания конкурса

Если вам интересно узнать как мы справились, чему научились, и как вам участвовать в подобном, то прошу под кат.

+40

Uris 5 фев 2018 в 14:10

Особенности промышленной аэрофотосъемки

12 мин

17K

Глобальные системы позиционирования *Анализ и проектирование систем *Обработка изображений *Геоинформационные сервисы *Визуализация данных *

Если отвлечься от съемки с помощью беспилотных летательных аппаратов (БПЛА) свадеб, торжеств и юбилеев, то становится очевидным, что в арсенале специалистов по картографированию территорий, экологов и военных появился мощный инструмент в работе — промышленные беспилотные аппараты, которые способны решать различные задачи по построению качественной картографической информации, подробных ортофотопланов территорий, лесов, сельскохозяйственных угодий и городских территорий. Учитывая тот факт, что получить качественный фотографический материал для построения 3D моделей местности только с первого взгляда кажется простым делом, в действительности — задача имеет массу всяческих особенностей. Захотелось поделиться собственным опытом организации промышленной аэрофотосъемки, местом расположения граблей, на которые пришлось наступить, а вернее — на которые пришлось налететь. За всеми подробностями прошу под кат.

+30

AloneCoder 2 фев 2018 в 21:02

Четыре способа обмануть нейросеть глубокого обучения

6 мин

31K

Блог компании VK Анализ и проектирование систем *Обработка изображений *Математика *Машинное обучение *

Туториал

Перевод

Нейросети используются уже довольно широко. Чат-боты, распознавание изображений, преобразование речи в текст и автоматические переводы с одного языка на другой — вот лишь некоторые сферы применения глубокого обучения, которое активно вытесняет другие подходы. И причина в основном в более широких возможностях обобщения при обработке больших объёмов данных.

Читать дальше →

+62

searchag 1 фев 2018 в 18:48

Распознавание объектов с помощью PowerAI Vision

6 мин

7.4K

Блог компании IBM Облачные вычисления *Обработка изображений *Машинное обучение *

Туториал

Разработчики программного обеспечения уже несколько лет активно работают с библиотеками машинного обучения, решая задачи компьютерного зрения и обнаружения объектов. Но реализация таких задач (а каждую модель машинного обучения необходимо спроектировать, развернуть, собственно обучить, настроить и установить) обычно требует глубоких знаний и навыков. С новым продуктом IBM PowerAI Vision Вы можете этого избежать. Этот продукт предоставляет интерфейс, в котором можно обучать, настраивать и тестировать свою собственную модель, не углубляясь в детали реализации машинного обучения.

В этой инструкции я расскажу как использовать PowerAI Vision, чтобы обучить систему и создать готовый к использованию сервис REST API, который можно использовать для обнаружения и распознавания объектов в Ваших приложениях.

Подробная инструкция

+11

sahsAGU 30 янв 2018 в 12:15

Машинное обучение и шоколадные конфеты

9 мин

6.8K

Блог компании Microsoft Алгоритмы *Обработка изображений *Машинное обучение *

Перевод

Говорят, что у мерчендайзеров есть негласное правило: никогда не класть рядом батончики Nesquik и Snickers. Кто знает, миф это или нет, но технологии, которые позволяют проверить условия хранения и выкладки шоколадных конфет на витрины — существуют. В этой статье мы углубимся в них и расскажем о модели машинного обучения, предназначенной как раз для этих целей.

Читать дальше →

+25

roryorangepants 26 янв 2018 в 10:16

Xception: компактная глубокая нейронная сеть

6 мин

29K

Python *Алгоритмы *Обработка изображений *Машинное обучение *

В последние несколько лет нейронные сети пробрались во все отрасли машинного обучения, но самый большой фурор они бесспорно произвели в области компьютерного зрения. В рамках соревнований ImageNet было представлено множество различных архитектур свёрточных сетей, которые затем разошлись по фреймворкам и библиотекам.

Чтобы улучшить качество распознавания своих сетей, исследователи старались добавлять в сети больше слоёв, однако со временем пришло понимание, что иногда ограничения производительности попросту не позволяют обучать и использовать настолько глубокие сети. Это стало мотивацией для использования depthwise separable convolutions и создания архитектуры Xception.

Если вы хотите узнать, что это такое, и посмотреть, как использовать такую сеть на практике, чтобы научиться отличать котов от собак, добро пожаловать под кат.

Читать дальше →

+26

DataArt 24 янв 2018 в 20:24

Знакомые лица: алгоритмы создания «типичного» портрета

4 мин

8.3K

Блог компании DataArt C++ *Обработка изображений *Машинное обучение *

Автор: Андрей Сорокин, Senior Developer DataArt

В конце прошлого года мы завершили R&D-проект, посвященный методам машинного зрения в обработке изображений. В результате мы создали ряд усредненных портретов IT-специалистов, работающих с разными технологиями. В этой статье я расскажу об изображениях «типичных» Java и .NET-программистов, подходящих для этого фреймворках и оптимизации процесса.

Тема машинного зрения меня интересует еще с аспирантуры — моя кандидатская была посвящена распознаванию рукописных текстов. За последние несколько лет произошли существенные изменения в методологии и программном обеспечении для машинного зрения, появились новые инструменты и фреймворки, которые хотелось попробовать. В этом проекте мы не претендовали на изобретение уникального решения — главный вклад мы внесли в оптимизацию обработки изображений.

Читать дальше →

+19

BeloborodovDS 24 янв 2018 в 15:34

Обнаружение лиц на видео с помощью Movidius Neural Compute Stick

6 мин

10K

C++ *Обработка изображений *Машинное обучение *

Из песочницы

Не так давно в свет вышло устройство Movidius Neural Compute Stick (NCS), представляющее собой аппаратный ускоритель для нейронных сетей с USB интерфейсом. Меня заинтересовала потенциальная возможность применения устройства в области робототехники, поэтому я приобрел его и задумал запустить какую-нибудь нейросеть. Однако большинство существующих примеров для NCS решают задачу классификации изображений, а мне хотелось попробовать кое-что другое, а именно обнаружение лиц. В этой публикации я хотел бы поделиться опытом, полученным в ходе такого эксперимента.

Весь код можно найти на GitHub.

Читать дальше →

+23

Tsar111 18 янв 2018 в 10:19

Безопасность футбольных стадионов: некоторые неявные особенности

6 мин

24K

Блог компании КРОК Информационная безопасность *IT-инфраструктура *Обработка изображений *

Пример монтажа на стадионе ЦСКА

Итальянские и английские футбольные фанаты считались самыми агрессивными. Но теперь они дома не бузят. Почему? Потому что их лишают пожизненно права посещения стадионов. Поэтому они бузят на евро, на ЧМ, во Франции. У нас тоже начинается такое: особо эмоциональные фанаты легко могут словить запрет на посещение арены на достаточно продолжительный срок.

Начну с того, что если вы набедокурите, то сотрудники безопасности стадиона заботливо занесут ваши биометрические данные лица в систему видеонаблюдения согласно законному решению суда. Когда вы в следующий раз появитесь на стадионе, вас уверенно распознают и сообщат об этом сотрудникам безопасности. Вопрос с персональными данными и свободой договора (билет — это договор) решается элегантно: на стадии «набедокурил» на вас просто подают в суд и получают заключение, с которым уже можно действовать дальше.

Вообще, есть два мифа про безопасность на стадионах:

Что видеонаблюдение не помогает в предотвращении преступлений.
И что биодетекторы — это прошлый век.

Читать дальше →

+61

m1rko 6 янв 2018 в 14:07

Итоги развития компьютерного зрения за один год

12 мин

28K

Работа с видео *Алгоритмы *Обработка изображений *Машинное обучение *

Перевод

Часть первая. Классификация/локализация, обнаружение объектов и слежение за объектом

Этот фрагмент взят из недавней публикации, которую составила наша научно-исследовательская группа в области компьютерного зрения. В ближайшие месяцы мы опубликуем работы на разные темы исследований в области Искусственного Интеллекта — о его экономических, технологических и социальных приложениях — с целью предоставить образовательные ресурсы для тех, кто желает больше узнать об этой удивительной технологии и её текущем состоянии. Наш проект надеется внести свой вклад в растущую массу работ, которые обеспечивают всех исследователей информацией о самых современных разработках ИИ.

Введение

Компьютерным зрением обычно называют научную дисциплину, которая даёт машинам способность видеть, или более красочно, позволяя машинам визуально анализировать своё окружение и стимулы в нём. Этот процесс обычно включает в себя оценку одного или нескольких изображений или видео. Британская ассоциация машинного зрения (BMVA) определяет компьютерное зрение как «автоматическое извлечение, анализ и понимание полезной информации из изображения или их последовательности».

Термин понимание интересно выделяется на фоне механического определения зрения — и демонстрирует одновременно и значимость, и сложность области компьютерного зрения. Истинное понимание нашего окружения достигается не только через визуальное представление. На самом деле визуальные сигналы проходят через оптический нерв в первичную зрительную кору и осмысливаются мозгом в сильно стилизованном смысле. Интерпретация этой сенсорной информации охватывает почти всю совокупность наших естественных встроенных программ и субъективного опыта, то есть как эволюция запрограммировала нас на выживание и что мы узнали о мире в течение жизни.

Читать дальше →

+19

SmartEngines 28 дек 2017 в 12:23

Сравнительное тестирование Smart IDReader на 5 вычислительных комплексах с процессорами Эльбрус

6 мин

15K

Блог компании Smart Engines Программирование *Алгоритмы *Обработка изображений *Машинное обучение *

Smart IDReader — приложение, позволяющее распознавать удостоверяющие документы на различных платформах. Различные режимы распознавания позволяют извлекать данные держателя документа из видеопотока, фотографий или сканов документов.

Сегодня мы решили рассказать вам о том как мы тестировали Smart IDReader на семействе вычислительных систем Российского производства — Эльбрус. На чем будем тестировать? Как работает распознавание документов на новой машине Эльбрус-8.4? Если интересно, идем под кат.

Читать дальше →

+19

1 2 ...

48 49

Обработка изображений *

Cжатие и улучшение рукописных конспектов

Пакетная обработка изображений в Windows с ImageMagick. Часть I

Щи, или Распознавание 330 млн лиц на скорости 400 фото / сек

Удаление фона с помощью глубокого обучения

Истории

Классификация объектов в режиме реального времени

Глубинное обучение с подкреплением пока не работает

Введение

Ускоряем метод Виолы-Джонса (Viola-Jones)

Как мы помогали оцифровать вековую историю наблюдений за погодой в Бразилии

Из спутниковых снимков в графы (cоревнование SpaceNet Road Detector) — попадание топ-10 и код (перевод)

0. TLDR

Соревнование Pri-matrix Factorization на DrivenData с 1ТБ данных — как мы заняли 3 место (перевод)

Или чему мы научились, как выигрывать призы в таких соревнованиях, полезные советы + некоторые мелочи

TLDR

Особенности промышленной аэрофотосъемки

Четыре способа обмануть нейросеть глубокого обучения

Распознавание объектов с помощью PowerAI Vision

Машинное обучение и шоколадные конфеты

Xception: компактная глубокая нейронная сеть

Знакомые лица: алгоритмы создания «типичного» портрета

Обнаружение лиц на видео с помощью Movidius Neural Compute Stick

Безопасность футбольных стадионов: некоторые неявные особенности

Итоги развития компьютерного зрения за один год

Введение

Сравнительное тестирование Smart IDReader на 5 вычислительных комплексах с процессорами Эльбрус

Вклад авторов