Как стать автором
Обновить
52.08

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Cжатие и улучшение рукописных конспектов

Время на прочтение 9 мин
Количество просмотров 37K
Open source *Python *Алгоритмы *Обработка изображений *
Перевод
Я написал программу для очистки отсканированных конспектов с одновременным уменьшением размера файла.

Исходное изображение и результат:


Слева: исходный скан на 300 DPI, 7,2 МБ PNG / 790 КБ JPG. Справа: результат с тем же разрешением, 121 КБ PNG [1]

Примечание: описанный здесь процесс более-менее совпадает с работой приложения Office Lens. Есть другие аналогичные программы. Я не утверждаю, что придумал нечто радикальное новое — это просто моя реализация полезного инструмента.

Если торопитесь, просто посмотрите репозиторий GitHub или перейдите в раздел результатов, где можно поиграться с интерактивными 3D-диаграммами цветовых кластеров.
Читать дальше →
Всего голосов 124: ↑124 и ↓0 +124
Комментарии 50

Пакетная обработка изображений в Windows с ImageMagick. Часть I

Время на прочтение 6 мин
Количество просмотров 25K
Разработка веб-сайтов *Обработка изображений *Сжатие данных *
Из песочницы
ImageMagick — свободный и кроссплатформенный редактор для работы с графикой.
Он состоит из нескольких консольных утилит. Его возможностей не счесть, как звезд на небе.
В сети есть множество примеров, как пользоваться им. Но большинство из них для Linux или PHP. Для Windows же их кот наплакал. Настало время восполнить пробел.
Читать дальше →
Всего голосов 17: ↑15 и ↓2 +13
Комментарии 5

Щи, или Распознавание 330 млн лиц на скорости 400 фото / сек

Время на прочтение 11 мин
Количество просмотров 42K
Блог компании Одноклассники Data Mining *Обработка изображений *Big Data *Машинное обучение *

Распознаванием лиц в 2018 году никого не удивишь – каждый студент, может, даже школьник, его делал. Но всё становится немного сложнее, когда у вас не датасет на 1 млн пользователей, а:


  • 330 миллионов пользовательских аккаунтов;
  • ежедневно заливается 20 млн пользовательских фотографий;
  • максимальное время на обработку одного фото не должно превышать 0.2 сек;
  • ограниченные объемы оборудования для решения задачи.


В этой статье мы поделимся опытом разработки и запуска системы распознавания лиц на пользовательских фотографиях в социальной сети Одноклассники и расскажем про все ”от А до Я”:


  • математический аппарат;
  • техническую реализацию;
  • результаты запуска;
  • и акцию StarFace, которую мы использовали для PR-а нашего решения.

Распознавание лиц Одноклассников в деталях
Всего голосов 65: ↑63 и ↓2 +61
Комментарии 25

Удаление фона с помощью глубокого обучения

Время на прочтение 14 мин
Количество просмотров 19K
Блог компании NIX Обработка изображений *Машинное обучение *
Перевод


Перевод Background removal with deep learning.

На протяжении последних нескольких лет работы в сфере машинного обучения нам хотелось создавать настоящие продукты, основанные на машинном обучении.

Несколько месяцев назад, после прохождения отличного курса Fast.AI, звезды совпали, и у нас появилась такая возможность. Современные достижения в технологиях глубокого обучения позволили осуществить многое из того, что раньше казалось невозможным, появились новые инструменты, которые сделали процесс внедрения более доступным, чем когда-либо.

Мы поставили перед собой следующие цели:

  1. Улучшить наши навыки работы с глубоким обучением.
  2. Совершенствовать наши навыки внедрения продуктов, основанных на ИИ.
  3. Создать полезный продукт с перспективами на рынке.
  4. Весело провести время (и помочь весело провести время нашим пользователям).
  5. Обменяться опытом.
Читать дальше →
Всего голосов 29: ↑25 и ↓4 +21
Комментарии 5

Истории

Классификация объектов в режиме реального времени

Время на прочтение 5 мин
Количество просмотров 39K
Блог компании DataArt Python *Обработка изображений *Машинное обучение *Разработка для интернета вещей *


Автор: Игорь Пантелеев, Software Developer, DataArt

Распознавание изображений очень широко используется в машинном обучении. В этой области существует множество различных решений, однако потребностям нашего проекта ни оно из них не удовлетворяло. Нам понадобилось полностью локальное решение, которое способно работать на крошечном компьютере и передавать результаты распознавания на облачный сервис. В этой статье описывается наш подход к созданию решения для распознавания изображений с помощью TensorFlow.
Читать дальше →
Всего голосов 29: ↑28 и ↓1 +27
Комментарии 15

Глубинное обучение с подкреплением пока не работает

Время на прочтение 33 мин
Количество просмотров 30K
Разработка игр *Алгоритмы *Обработка изображений *Машинное обучение *Разработка робототехники *
Перевод
Об авторе. Алекс Ирпан — разработчик из группы Brain Robotics в Google, до этого работал в лаборатории Berkeley Artificial Intelligence Research (BAIR).

Здесь в основном цитируются статьи из Беркли, Google Brain, DeepMind и OpenAI за последние несколько лет, потому что их работы наиболее заметны с моей точки зрения. Почти наверняка я что-то упустил из более старой литературы и от других организаций, так что прошу прощения — я всего лишь один человек, в конце концов.


Введение


Однажды в Facebook я заявил следующее.
Когда кто-то спрашивает, может ли обучение с подкреплением (RL) решить их проблему, я сразу отвечаю, что не может. Думаю, что это верно как минимум в 70% случаев.
Глубинное обучение с подкреплением сопровождается массой шумихи. И на то есть хорошие причины! Обучение с подкреплением (RL) — невероятно общая парадигма. В принципе, надёжная и высокопроизводительная система RL должна быть прекрасна во всём. Слияние этой парадигмы с эмпирической силой глубинного обучения очевидно само по себе. Глубинное RL — это то, что больше всего похоже на сильный ИИ, и это своего рода мечта, которая подпитывает миллиарды долларов финансирования.

К сожалению, в реальности эта штука пока не работает.

Но я верю, что она выстрелит. Если бы не верил, то не варился бы в этой теме. Но впереди куча проблем, многие из которых фундаментально сложны. Прекрасные демки обученных агентов скрывают всю кровь, пот и слёзы, что пролились в процессе их создания.
Читать дальше →
Всего голосов 59: ↑59 и ↓0 +59
Комментарии 34

Ускоряем метод Виолы-Джонса (Viola-Jones)

Время на прочтение 11 мин
Количество просмотров 8.5K
C++ *Алгоритмы *Обработка изображений *
В последнее время метод Виолы-Джонса, который долгое время был основным способом детектирования объектов на изображении, отступает под натиском более новых и совершенных алгоритмов. Тем не менее, актуальность этого метода еще сохраняется и в настоящем времени.

Да, каскадный классификатор основанный на признаках Хаара (метод Виолы-Джонса) уступает в скорости работы каскадному LBP классификатору. Он менее точен, чем детектор, основанный на HOG признаках, и тем более детектор, базирующийся на сверточных нейронных сетях. И все же у него есть определенная ниша, когда требуется точность выше, чем у LBP каскада, но скорость работы более точных детекторов недостаточна высока. Не менее важным фактором является то, что для каскадного Хаар классификатора существует большое количество уже обученных каскадов, в том числе в стандартной поставке библиотеки OpenCV. Поэтому скорость работы этого алгоритма весьма важна. Что и побудило автора в свое время занятся его оптимизацией.

image

Ну и какая статья об детектировании лиц, может обойтись без фотографии Лены?
Читать дальше →
Всего голосов 19: ↑19 и ↓0 +19
Комментарии 10

Как мы помогали оцифровать вековую историю наблюдений за погодой в Бразилии

Время на прочтение 5 мин
Количество просмотров 5.9K
Блог компании Content AI Обработка изображений *
image

Ученые Национального института метеорологии Бразилии с 1909 года записывают всю информацию о погодных условиях и изменениях климата в стране. Исследователи анализируют эти данные и строят на их основе прогнозы. За сто лет специалисты собрали более 3 миллионов страниц записей о погоде в знойном Рио-де-Жанейро, на грохочущих водопадах Игуасу, в сумрачных лесах Амазонки и в туманном Сан-Паулу. Но вся информация хранилась в бумажном виде. С каждым годом ее копилось все больше, а старые записи приходили в негодность. Исследователям становилось все сложнее работать с документами.

Сегодня мы расскажем о том, как с помощью нашей технологии ABBYY FlexiCapture Engine Национальный институт метеорологии Бразилии оцифровал архив наблюдений за погодой, который ученые собирали более 100 лет.
Читать дальше →
Всего голосов 35: ↑34 и ↓1 +33
Комментарии 2

Из спутниковых снимков в графы (cоревнование SpaceNet Road Detector) — попадание топ-10 и код (перевод)

Время на прочтение 8 мин
Количество просмотров 8.8K
Python *Обработка изображений *Big Data *Машинное обучение *

Привет, Хабр! Представляю вам перевод статьи.



Это Вегас с предоставленной разметкой, тестовым датасетом и вероятно белые квадраты — это отложенная валидация (приват). Выглядит прикольно. Правда эта панорама лучшая из всех четырех городов, так вышло из-за данных, но об этом чуть ниже.


0. TLDR


Ссылка на соревнование и подробное описание.


Быстрая картинка сайта, кому лень ходить.


Мы закончили предварительно на 9-м месте, но позиция может измениться после дополнительного тестирования сабмитов организаторами.


Также я потратил некоторое время на написание хорошего читаемого кода на PyTorch и генераторов данных. Его можно без застенчивости использовать для своих целей (только поставьте плюсик). Код максимально простой и модульный, плюс читайте дальше про best practices для семантической сегментации.


Кроме того, не исключено, что мы напишем пост про понимание и разбор Skeleton Network, которую в итоге использовали все финалисты в топе соревнования для преобразования маски изображения в граф.


Суть соревнования
Суть соревнования на 1 картинке

Читать дальше →
Всего голосов 36: ↑34 и ↓2 +32
Комментарии 4

Соревнование Pri-matrix Factorization на DrivenData с 1ТБ данных — как мы заняли 3 место (перевод)

Время на прочтение 11 мин
Количество просмотров 7.4K
Работа с видео *Python *Обработка изображений *Машинное обучение *
Из песочницы

Привет, Хабр! Представляю вашему вниманию перевод статьи "Animal detection in the jungle — 1TB+ of data, 90%+ accuracy and 3rd place in the competition".


Или чему мы научились, как выигрывать призы в таких соревнованиях, полезные советы + некоторые мелочи


TLDR



Суть соревнования — например, вот это случайное видео с леопардом. Все видеоролики длятся 15 секунд, а их 400 тысяч...



Заключительные результаты в 3 часа ночи, когда конкурс закончился — я был в поезде, но мой коллега засабмитил заявку за 10 минут до окончания конкурса


Если вам интересно узнать как мы справились, чему научились, и как вам участвовать в подобном, то прошу под кат.

Всего голосов 44: ↑42 и ↓2 +40
Комментарии 5

Особенности промышленной аэрофотосъемки

Время на прочтение 12 мин
Количество просмотров 17K
Глобальные системы позиционирования *Анализ и проектирование систем *Обработка изображений *Геоинформационные сервисы *Визуализация данных *
Если отвлечься от съемки с помощью беспилотных летательных аппаратов (БПЛА) свадеб, торжеств и юбилеев, то становится очевидным, что в арсенале специалистов по картографированию территорий, экологов и военных появился мощный инструмент в работе — промышленные беспилотные аппараты, которые способны решать различные задачи по построению качественной картографической информации, подробных ортофотопланов территорий, лесов, сельскохозяйственных угодий и городских территорий. Учитывая тот факт, что получить качественный фотографический материал для построения 3D моделей местности только с первого взгляда кажется простым делом, в действительности — задача имеет массу всяческих особенностей. Захотелось поделиться собственным опытом организации промышленной аэрофотосъемки, местом расположения граблей, на которые пришлось наступить, а вернее — на которые пришлось налететь. За всеми подробностями прошу под кат.

Всего голосов 30: ↑30 и ↓0 +30
Комментарии 13

Четыре способа обмануть нейросеть глубокого обучения

Время на прочтение 6 мин
Количество просмотров 31K
Блог компании VK Анализ и проектирование систем *Обработка изображений *Математика *Машинное обучение *
Туториал
Перевод

Нейросети используются уже довольно широко. Чат-боты, распознавание изображений, преобразование речи в текст и автоматические переводы с одного языка на другой — вот лишь некоторые сферы применения глубокого обучения, которое активно вытесняет другие подходы. И причина в основном в более широких возможностях обобщения при обработке больших объёмов данных.

Читать дальше →
Всего голосов 62: ↑62 и ↓0 +62
Комментарии 24

Распознавание объектов с помощью PowerAI Vision

Время на прочтение 6 мин
Количество просмотров 7.4K
Блог компании IBM Облачные вычисления *Обработка изображений *Машинное обучение *
Туториал


Разработчики программного обеспечения уже несколько лет активно работают с библиотеками машинного обучения, решая задачи компьютерного зрения и обнаружения объектов. Но реализация таких задач (а каждую модель машинного обучения необходимо спроектировать, развернуть, собственно обучить, настроить и установить) обычно требует глубоких знаний и навыков. С новым продуктом IBM PowerAI Vision Вы можете этого избежать. Этот продукт предоставляет интерфейс, в котором можно обучать, настраивать и тестировать свою собственную модель, не углубляясь в детали реализации машинного обучения.

В этой инструкции я расскажу как использовать PowerAI Vision, чтобы обучить систему и создать готовый к использованию сервис REST API, который можно использовать для обнаружения и распознавания объектов в Ваших приложениях.
Подробная инструкция
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 3

Машинное обучение и шоколадные конфеты

Время на прочтение 9 мин
Количество просмотров 6.8K
Блог компании Microsoft Алгоритмы *Обработка изображений *Машинное обучение *
Перевод
Говорят, что у мерчендайзеров есть негласное правило: никогда не класть рядом батончики Nesquik и Snickers. Кто знает, миф это или нет, но технологии, которые позволяют проверить условия хранения и выкладки шоколадных конфет на витрины — существуют. В этой статье мы углубимся в них и расскажем о модели машинного обучения, предназначенной как раз для этих целей.

Читать дальше →
Всего голосов 25: ↑25 и ↓0 +25
Комментарии 5

Xception: компактная глубокая нейронная сеть

Время на прочтение 6 мин
Количество просмотров 29K
Python *Алгоритмы *Обработка изображений *Машинное обучение *
В последние несколько лет нейронные сети пробрались во все отрасли машинного обучения, но самый большой фурор они бесспорно произвели в области компьютерного зрения. В рамках соревнований ImageNet было представлено множество различных архитектур свёрточных сетей, которые затем разошлись по фреймворкам и библиотекам.

Чтобы улучшить качество распознавания своих сетей, исследователи старались добавлять в сети больше слоёв, однако со временем пришло понимание, что иногда ограничения производительности попросту не позволяют обучать и использовать настолько глубокие сети. Это стало мотивацией для использования depthwise separable convolutions и создания архитектуры Xception.

Если вы хотите узнать, что это такое, и посмотреть, как использовать такую сеть на практике, чтобы научиться отличать котов от собак, добро пожаловать под кат.
Читать дальше →
Всего голосов 30: ↑28 и ↓2 +26
Комментарии 7

Знакомые лица: алгоритмы создания «типичного» портрета

Время на прочтение 4 мин
Количество просмотров 8.3K
Блог компании DataArt C++ *Обработка изображений *Машинное обучение *

Автор: Андрей Сорокин, Senior Developer DataArt

В конце прошлого года мы завершили R&D-проект, посвященный методам машинного зрения в обработке изображений. В результате мы создали ряд усредненных портретов IT-специалистов, работающих с разными технологиями. В этой статье я расскажу об изображениях «типичных» Java и .NET-программистов, подходящих для этого фреймворках и оптимизации процесса.

Тема машинного зрения меня интересует еще с аспирантуры — моя кандидатская была посвящена распознаванию рукописных текстов. За последние несколько лет произошли существенные изменения в методологии и программном обеспечении для машинного зрения, появились новые инструменты и фреймворки, которые хотелось попробовать. В этом проекте мы не претендовали на изобретение уникального решения — главный вклад мы внесли в оптимизацию обработки изображений.
Читать дальше →
Всего голосов 25: ↑22 и ↓3 +19
Комментарии 11

Обнаружение лиц на видео с помощью Movidius Neural Compute Stick

Время на прочтение 6 мин
Количество просмотров 10K
C++ *Обработка изображений *Машинное обучение *
Из песочницы
Не так давно в свет вышло устройство Movidius Neural Compute Stick (NCS), представляющее собой аппаратный ускоритель для нейронных сетей с USB интерфейсом. Меня заинтересовала потенциальная возможность применения устройства в области робототехники, поэтому я приобрел его и задумал запустить какую-нибудь нейросеть. Однако большинство существующих примеров для NCS решают задачу классификации изображений, а мне хотелось попробовать кое-что другое, а именно обнаружение лиц. В этой публикации я хотел бы поделиться опытом, полученным в ходе такого эксперимента.

Весь код можно найти на GitHub.

image

Читать дальше →
Всего голосов 23: ↑23 и ↓0 +23
Комментарии 12

Безопасность футбольных стадионов: некоторые неявные особенности

Время на прочтение 6 мин
Количество просмотров 24K
Блог компании КРОК Информационная безопасность *IT-инфраструктура *Обработка изображений *

Пример монтажа на стадионе ЦСКА

Итальянские и английские футбольные фанаты считались самыми агрессивными. Но теперь они дома не бузят. Почему? Потому что их лишают пожизненно права посещения стадионов. Поэтому они бузят на евро, на ЧМ, во Франции. У нас тоже начинается такое: особо эмоциональные фанаты легко могут словить запрет на посещение арены на достаточно продолжительный срок.

Начну с того, что если вы набедокурите, то сотрудники безопасности стадиона заботливо занесут ваши биометрические данные лица в систему видеонаблюдения согласно законному решению суда. Когда вы в следующий раз появитесь на стадионе, вас уверенно распознают и сообщат об этом сотрудникам безопасности. Вопрос с персональными данными и свободой договора (билет — это договор) решается элегантно: на стадии «набедокурил» на вас просто подают в суд и получают заключение, с которым уже можно действовать дальше.

Вообще, есть два мифа про безопасность на стадионах:

  1. Что видеонаблюдение не помогает в предотвращении преступлений.
  2. И что биодетекторы — это прошлый век.
Читать дальше →
Всего голосов 63: ↑62 и ↓1 +61
Комментарии 46

Итоги развития компьютерного зрения за один год

Время на прочтение 12 мин
Количество просмотров 28K
Работа с видео *Алгоритмы *Обработка изображений *Машинное обучение *
Перевод
Часть первая. Классификация/локализация, обнаружение объектов и слежение за объектом

Этот фрагмент взят из недавней публикации, которую составила наша научно-исследовательская группа в области компьютерного зрения. В ближайшие месяцы мы опубликуем работы на разные темы исследований в области Искусственного Интеллекта  —  о его экономических, технологических и социальных приложениях — с целью предоставить образовательные ресурсы для тех, кто желает больше узнать об этой удивительной технологии и её текущем состоянии. Наш проект надеется внести свой вклад в растущую массу работ, которые обеспечивают всех исследователей информацией о самых современных разработках ИИ.

Введение


Компьютерным зрением обычно называют научную дисциплину, которая даёт машинам способность видеть, или более красочно, позволяя машинам визуально анализировать своё окружение и стимулы в нём. Этот процесс обычно включает в себя оценку одного или нескольких изображений или видео. Британская ассоциация машинного зрения (BMVA) определяет компьютерное зрение как «автоматическое извлечение, анализ и понимание полезной информации из изображения или их последовательности».

Термин понимание интересно выделяется на фоне механического определения зрения — и демонстрирует одновременно и значимость, и сложность области компьютерного зрения. Истинное понимание нашего окружения достигается не только через визуальное представление. На самом деле визуальные сигналы проходят через оптический нерв в первичную зрительную кору и осмысливаются мозгом в сильно стилизованном смысле. Интерпретация этой сенсорной информации охватывает почти всю совокупность наших естественных встроенных программ и субъективного опыта, то есть как эволюция запрограммировала нас на выживание и что мы узнали о мире в течение жизни.
Читать дальше →
Всего голосов 23: ↑21 и ↓2 +19
Комментарии 14

Сравнительное тестирование Smart IDReader на 5 вычислительных комплексах с процессорами Эльбрус

Время на прочтение 6 мин
Количество просмотров 15K
Блог компании Smart Engines Программирование *Алгоритмы *Обработка изображений *Машинное обучение *

Smart IDReader — приложение, позволяющее распознавать удостоверяющие документы на различных платформах. Различные режимы распознавания позволяют извлекать данные держателя документа из видеопотока, фотографий или сканов документов.



Сегодня мы решили рассказать вам о том как мы тестировали Smart IDReader на семействе вычислительных систем Российского производства — Эльбрус. На чем будем тестировать? Как работает распознавание документов на новой машине Эльбрус-8.4? Если интересно, идем под кат.

Читать дальше →
Всего голосов 21: ↑20 и ↓1 +19
Комментарии 15

Вклад авторов