Обработка изображений *

Работаем с фото и видео

Большому художнику – большой критик: новые версии модели ruCLIP для ранжирования результатов ruDALL-E (и не только)

Блог компании Сбер Блог компании SberCloud Обработка изображений *Машинное обучение *Искусственный интеллект

В 2021 году особенно активно развивались языковые и визуальные трансформеры, что привело к появлению новых разработок в сфере мультимодального анализа данных. Ярким примером стала модель синтеза изображений по текстовым описаниям DALL-E от OpenAI. Команды Сбера - Sber AI и SberDevices - успешно ворвались в эту гонку трансформеров и обучили модели: ruDALL-E XL, которая доступна на GitHub, эксклюзивную ruDALL-E XXL (доступна в DataHub SberCloud ML Space), ruDALL-E Emojich для синтеза эмоджи, первую версию мультимодальной мультитаск архитектуры Fusion Brain, а с введением понятия гипермодальности создали универсальную модель ruDOLPH (про которую обязательно расскажем подробнее в одной из следующих статей).

Мы также не могли обойти стороной другое полезное приложение языковых и визуальных трансформеров, – модель CLIP от OpenAI, задача которой – определять “смысловую” близость текстов на естественном (английском) языке и изображений. Успешное обучение модели командой OpenAI уже позволило с уверенностью говорить о возможности решения таких задач компьютерного зрения, как, например, zero-shot классификация или zero-shot детекция объектов. В итоге мы поставили перед собой цель качественно “русифицировать” CLIP, чтобы модель можно было использовать напрямую на русском языке и обходить применение переводчиков в связке с англоязычной моделью CLIP. Первые шаги в этом направлении были сделаны нами ещё в начале 2021 года - тогда мы представляли модель ruCLIP Small (Russian Contrastive Language – Image Pre-training). Сейчас же мы хотим рассказать об ещё 6 версиях модели ruCLIP, которые мы обучили за это время.

+12

1.7K

MagisterLudi 18 января в 16:00

Анализ теней: 5 примеров использования SunCalc для OSINT расследований

Блог компании Timeweb Cloud Информационная безопасность *Open source *Обработка изображений *Научно-популярное

SunCalc — это инструмент, который помогает толковым людям по теням на фотографии или видео вычислить местоположение. SunCalc создан из готовых элементов с минимальным программированием. Выглядит как гугл-карты на стероидах.

На сайте вы задаете точку на карте и в результате видите круг виртуального небосклона. Дугой оранжевого цвета отмечается сегодняшний путь Солнца по небу. Та часть небосвода, где Солнце бывает хоть когда-нибудь, закрашивается светло-желтым. Так же показывается направление на Солнце на восходе, на закате и в текущий момент времени. Вы можете найти местоположение Солнца в непогожий день.

Есть два проекта: SunCalc.org и SunCalc.net. Последний на досуге разработал хабраюзер Mourner в 2010 году и написал пост на Хабре, а через год выложил библиотеку в открытый доступ (а какой-то ушлый немец без упоминания автора её форкнул).

Под катом несколько примеров, как по теням на кадрах видео и фото можно вычислить недостающую информацию: местоположение или время.

Читать дальше →

+35

4.5K

kucev 17 января в 12:07

Разметка данных для машинного обучения: обзор рынка, методики и компании

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Большая доля data science и машинного обучения зависит от чистых и корректных источников данных, поэтому неудивительно, что скорость роста рынка разметки данных продолжает увеличиваться. В этой статье мы расскажем о многих крупных игроках отрасли, а также об используемых ими методиках, чтобы вы могли иметь возможность выбора наилучшего партнёра в соответствии со своими требованиями.

Рынок разметки данных развивается невиданными ранее темпами. В прошлом году его сегмент сторонних решений достиг более 1 миллиарда долларов; ожидается, что он продолжит стабильное расширение в течение следующих пяти лет, и к 2027 году превзойдёт 7 миллиардов долларов. Наблюдая впечатляющий ежегодный рост на 25-30%, некоторые источники, в том числе и Grand View Research, считают, что к 2028 году рынок будет стоить не менее 8,2 миллиарда.

Читать дальше →

-2

2.4K

herase 13 января в 22:25

Оператор Собеля-Фельдмана или Зачем нам так много фильтров

Обработка изображений *

Из песочницы

Во время изучения градиентных фильтров у меня возникало множество вопросов. Почему фильтр сделан именно так, а не иначе? В чём разница между разными фильтрами? В данной статье я собрал найденные мной ответы на эти вопросы. Предполагается, что читатель знаком с формулами на уровне чтения википедии, и поэтому я не объясняю, как перемножать матрицу коэффициентов фильтра с интенсивностями пикселов, просто чтобы не раздувать текст.

Важно: для индексации пикселов используется индексация, принятая в сообществе linux, когда пикселы нумеруются от левого верхнего угла изображения, ибо это правильно).

+24

2.4K

skleg 13 января в 13:45

Кластеризация изображений с помощью нейросети CLIP

Блог компании FUNCORP Python *Обработка изображений *Машинное обучение *Data Engineering *

В статье пойдёт речь о том, как можно автоматически разделить датасет изображений на кластеры, которые поделены по качественному контекстному признаку, благодаря эмбедингам из нашумевшей нейронной сети CLIP от компании Илона Маска. Расскажу на примере контента из нашего приложения iFunny.

Кластеризация считается unsupervised задачей — это значит, что нет никакой явной разметки целевых значений, то есть нет «учителя». В нашем случае мы загружаем некий датасет картинок и хотим произвольно, но качественно побить его на кластеры.

Например, набор изображений животных может разделиться на кластеры по виду, по полосатости, по количеству лап или другим признакам. В любом случае ожидается понятная логика разбивки, которую можно дальше использовать для других задач.

Под катом расскажу, как мы построили логичную кластеризацию с помощью библиотеки HDBSCAN и векторов из нейронной сети CLIP, и каких результатов добились на выходе.

+51

3.7K

kucev 12 января в 11:51

Почему я изменил своё мнение о слабой разметке для ML

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Когда чуть больше года назад я впервые услышал о слабой разметке, то поначалу отнёсся к ней скептически. Суть слабой разметки (weak labelling) заключается в том, что можно заменить аннотированные вручную данные на данные, созданные по эвристическим правилам, написанным специалистами в соответствующей области. Мне это показалось совершенно нелогичным. Если можно создать очень хорошую систему на основе правил, то почему бы просто не использовать эту систему? А если правила недостаточно хороши, то разве не будет плохой и модель, обученная на шумных данных? Это казалось мне возвратом в мир конструирования признаков, которому должно было прийти на смену глубокое обучение.

Однако за последний год моё отношение полностью переменилось. Я поработал над множеством NLP-проектов, в которых было задействовано извлечение данных, и намного сильнее углубился в изучение литературы про обучение со слабым контролем. Также я пообщался с руководителями команд ML в таких компаниях, как Apple, где услышал истории о том, как целые системы заменяли за считанные недели — благодаря сочетанию слабого контроля и машинного обучения им удавалось создать обширные наборы данных для языков, ресурсов по которым было мало и которые раньше попросту не обслуживались!

Поскольку теперь я обладаю энтузиазмом новообращённого, мне хочется рассказать о том, что такое слабый контроль, чему я научился и почему, на мой взгляд, в области аннотирования данных он дополняет такие техники, как активное обучение.

Читать дальше →

+11

ABBYYTeam 12 января в 10:40

ABBYY FastML: новый подход к машинному обучению на стороне клиента для обработки большого потока документов

Блог компании ABBYY Обработка изображений *Машинное обучение *Искусственный интеллект

Привет, Хабр!

Нашим заказчикам часто приходится работать с большим потоком документов, многие из которых очень похожи друг на друга, но не одинаковы. Поскольку обрабатывать такое количество информации с каждым годом становилось все сложнее, мы придумали технологическое решение, которое способно автоматизировать эту задачу с высокой точностью.

Например, представим, что на обработку поступают десятки тысяч инвойсов от сотен разных контрагентов. Раньше, чтобы автоматизировать их классификацию и извлечение информации, требовалось наработать базу поставщиков, а для каждого из типов документов — создать вручную гибкое описание (задать информацию о линейных отношениях полей относительно друг друга). Внедрение такого решения у клиента длилось от 3 до 6 месяцев.

Чтобы упростить и ускорить эту задачу и в целом облегчить работу нашим заказчикам, мы создали новый механизм кластеризации и разработали технологию FastML, а затем объединили их работу.

В нашем решении кластеризация избавляет от необходимости вести базу данных вендоров, а FastML способен работать, основываясь на пользовательском обучении: технология делит поток документов на определенные группы, на каждой из которых учит свою модель поиска. В результате новое решение лучше адаптируется к внешним отличиям документов и работает в несколько раз быстрее.

Но обо всем по порядку.

+14

4.6K

honyaki 11 января в 20:40

Как с помощью суперпикселей улучшить аннотацию данных

Блог компании SkillFactory Python *Программирование *Обработка изображений *Машинное обучение *

Перевод

К старту флагманского курса по Data Science рассказываем о суперпикселях, которые улучшают сегментацию данных, и знакомим читателей с платформой Kili Technologies, в инструментах которой они реализованы. Под катом подробности и ссылка на код быстрой реализации алгоритма сегментации SLIC.

1.6K

19blackadder97 8 января в 18:13

ViT — на кухне фаворит

Обработка изображений *Машинное обучение *

Прошедший 2021-й год ознаменовался настоящей революцией в области компьютерного зрения.

Трансформеры, подобно новым штамма Ковида, вытеснившие конкурентов в области обработки естественного языка (NLP) и задачах, связанных с обработкой звука, добрались и до компьютерного зрения.

Сверточные сети, чье место на Олимпе в различных бенчмарках компьютерного зрения и первые места в топах на PapersWithCode казались незыблемы (в том смысле, что против лома нет приема, если нет другого лома) были сброшены с них рядом архитектур частично или полностью основанных на механизме внимания.

В данном обзоре я хотел бы рассказать о нескольких самых ярких прорывах и идеях в совершенствовании архитектур и обучении ViT-ов (Visual Transformers).

+21

3.4K

avsmal 8 января в 12:00

Курсы Computer Science клуба в 2021 году: верификация, фотограмметрия, статистика, логика, теория игр и другие

Блог компании Образовательные проекты JetBrains Алгоритмы *Обработка изображений *Математика *Статистика в IT

Все курсы Computer Science клуба в 2021 году проходили в онлайн режиме. Мы собрали для вас подборку видеозаписей лекций, которые выложены на нашем youtube канале.

+14

3.5K

aarner 5 января в 15:51

Создаем точные датасеты для сегментации (доступны на kaggle)

Обработка изображений *Машинное обучение *

Начнем с простого примера: как думаете, легко найти более или менее адекватный датасет, который позволил бы ну хоть как-то поработать с квадрокоптерами?

Вполне может оказаться, что среди первых достойных результатов окажется именно этот набор. Обновил его совсем недавно, увеличив примерно вдвое. Под катом больше деталей (включая парусную яхту А, которая уже в прошлом году путешествовала в несколько странном виде), но если интересны исключительно датасеты: список доступных на текущий момент (пополняется). Да, пожалуйста, напишите какие датасеты могут быть полезны именно вам.

1.2K

MagisterLudi 4 января в 10:48

Инструменты OSINT: изображения и видео

Блог компании Timeweb Cloud Информационная безопасность *Open source *Обработка изображений *Научно-популярное

OSINT, Open-source intelligence — разведка по открытым источникам включает в себя поиск, выбор и сбор разведывательной информации из общедоступных источников, а также её анализ.

Предлагаем вашему вниманию подборку инструментов для анализа изображений и видео. Теперь вы будете 100 раз задумываться, прежде чем выкладывать фотки с видом из окна или видео.

Читать дальше →

+27

6.4K

vovaf709 1 января в 23:18

Обзор архитектуры Swin Transformer

Обработка изображений *Машинное обучение *

Трансформеры шагают по планете! В статье вспомним/узнаем как работает visual attention, поймём что с ним не так, а главное как его поправить, чтобы получить на выходе best paper ICCV21.

Автоботы, трансформируемся!

SmartEngines 29 декабря 2021 в 16:37

Проникающий взгляд: что в мешке у Деда Мороза?

Блог компании Smart Engines Алгоритмы *Обработка изображений *Искусственный интеллект

Новый Год - чудесный праздник: веселый, сказочный, волшебный. Наряженные елки, запах мандаринов в воздухе. Идут последние недели декабря, настроение праздничное, и на работе тоже пора заниматься праздничными делами. Вот мы и решили побаловать наших читателей новогодней томографической статьей. Самая прекрасная традиция - дарить подарки на Новый год. Ко всем детям на планете приходят Дед Мороз, Санта Клаус и другие герои культурного наследия и приносят разные подарки. Вот и под нашим пристальным рентгеновским взором оказались новогодние игрушки - детские подарки. В статье мы расскажем об ожиданиях, полученных результатах и наконец ответим на вопрос, что же скрывается в мешке у Деда Мороза.

1.3K

NapoleonIT 29 декабря 2021 в 16:35

Как на выходных 3 джуна и офис-менеджер спасали леса и зверушек от пожаров с помощью компьютерного зрения

Обработка изображений *Хакатоны Машинное обучение *

Рассказываем про опыт участия команды Napoleon IT под кодовым названием Night-stress-testing в хакатоне "Цифровой прорыв" и решение кейса от республики Тыва по детекции источников лесных пожаров.

В Napoleon IT есть идейный генератор и любитель хакатонов - Вова. Этим летом он выиграл с ребятами один из хакатонов "Цифрового прорыва", что очень вдохновило нашу команду на участие. Было несколько месяцев изучить и посмотреть все актуальные ИТ-соревнования. К ноябрю мы наконец решились на участие в хакатоне по компьютерному зрению "Цифрового прорыва".

2.2K

ilgrad 29 декабря 2021 в 13:47

Как мы распознаем фото документов пользователей. Часть II

Блог компании inDriver Python *Обработка изображений *Машинное обучение *

В прошлой статье я кратко описал методы и подходы, которые мы используем в inDriver при распознавании фото документов. Во второй части подробно опишу архитектуру CRAFT и CRNN, а также варианты их использования. Прошу под кат!

+13

2.1K

kucev 28 декабря 2021 в 13:09

Методика машинного обучения Human-in-the-Loop

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Human-in-the-loop AI — это технология автоматизации, устраняющая многие проблемы разработки и внедрения машинного обучения.

Большинство проектов создания ИИ завершается провалом. 80% никогда не доберётся до стадии внедрения. Ещё большее количество никогда не вернёт вложенные в них инвестиции. Проблема заключается в том, что разработка ИИ — это процесс экспериментирования, однако при традиционном подходе об этом забывают.

Многие команды разработчиков сегодня начинают применять технологию под названием human-in-the-loop AI (HITL). Технология подразумевает, что можно быстро развернуть работающую модель с меньшим количеством данных и с гарантированно качественными прогнозами. Это похоже на чудо, но в своей статье мы расскажем, что такое HITL и как вы можете использовать эту технологию в собственных проектах разработки ИИ.

Если говорить в общих чертах, при HITL система ИИ и команда людей совместно работают над реализацией задачи.

Читать дальше →

Stantin 27 декабря 2021 в 16:56

Выбираем быстрый детектор людей в 2021

Python *Обработка изображений *Машинное обучение *Искусственный интеллект

В новом хобби проекте мне потребовалось детектировать людей на видео. Это одна из основных задач, решаемых искусственным интеллектом, но я давно этим не занимался и несколько отстал от жизни.

Поэтому решил почитать про самые актуальные методы и пощупать их руками. На примере футбольной картинки получил несколько неожиданные результаты.

3.8K

MagisterLudi 25 декабря 2021 в 15:10

Лучшие оптические иллюзии 2021 года

Обработка изображений *Научно-популярное Мозг

В сериале «Доктор Хаус» (Сезон 6, серия 3) есть эпизод, где он лечит соседа Уилсона, вредного ветерана, от фантомных болей в ампутированной руке при помощи картонной коробки и зеркала. Есть даже специальный вид терапии: Mirror therapy, изобретенная Вилейануром Рамачандраном (тут реальное видео из реальной терапии).

Японские экспериментаторы Yutaro Sato, Kento Imai и Kenri Kodaka из Nagoya City University пошли дальше. Эксперимент очень прост и каждый может повторить его дома. Теперь у вас есть возможность обмануть свой мозг и испытать на своей шкуре, каково быть человеком-резиной.

Испытуемый кладет руку так, что она закрывается зеркалом и глаза видят только «лизуна» (резиновую слизь). То есть как бы мы подменяем реальную руку другим объектом, а потом подключаем сенсорные ощущения. Экспериментатор пощипывает реальную руку и одновременно пощипывает слизь в том месте, где глаза видят эту слизь вместо настоящей руки. Потом он немного оттягивает реальную кожу на реальной руке, а резиновую слизь тянет и тянет далего за пределы тянучести реальной руки и мозг верещит от необычности происходящего, но потом привыкает.

Оптическая иллюзия «Slime Hand» заняла 7-е место на всемирном конкурсе оптических иллюзий Best Illusion of The Year Contest. Под катом — остальные призёры.

Канал в телеграм Cognitive Illusions, от которого зависнет не только ваш комп/смартфон, но и разум.

Читать дальше →

+61

17K

luckyFox 24 декабря 2021 в 09:32

23 решения одной задачи: как мы делали соревнование по Computer Vision

Блог компании 2ГИС Обработка изображений *Машинное обучение *Искусственный интеллект

Осенью команда 2ГИС участвовала в конкурсе в рамках AI Journey, который организовали ребята из Сбера. Команды учеников школ соревновались в решении ML-задач разных сервисов — Ситимобила, Sber AR/VR, Neurolab, Работы.ру и многих других.

У нашей задачи — распознавания направления движения по полосам на двух дорожных знаках — было 23 решения. Но я расскажу только про финальные, к которым ребята и мы в итоге пришли.

Начну без спойлеров, но с вопроса — как думаете, какое решение победило в конкурсе?

1.6K

2 3 ...

49 50

Обработка изображений *

Большому художнику – большой критик: новые версии модели ruCLIP для ранжирования результатов ruDALL-E (и не только)

Новости

Анализ теней: 5 примеров использования SunCalc для OSINT расследований

Разметка данных для машинного обучения: обзор рынка, методики и компании

Оператор Собеля-Фельдмана или Зачем нам так много фильтров

Кластеризация изображений с помощью нейросети CLIP

Почему я изменил своё мнение о слабой разметке для ML

ABBYY FastML: новый подход к машинному обучению на стороне клиента для обработки большого потока документов

Как с помощью суперпикселей улучшить аннотацию данных

ViT — на кухне фаворит

Курсы Computer Science клуба в 2021 году: верификация, фотограмметрия, статистика, логика, теория игр и другие

Создаем точные датасеты для сегментации (доступны на kaggle)

Инструменты OSINT: изображения и видео

Обзор архитектуры Swin Transformer

Проникающий взгляд: что в мешке у Деда Мороза?

Как на выходных 3 джуна и офис-менеджер спасали леса и зверушек от пожаров с помощью компьютерного зрения

Как мы распознаем фото документов пользователей. Часть II

Методика машинного обучения Human-in-the-Loop

Выбираем быстрый детектор людей в 2021

Лучшие оптические иллюзии 2021 года

23 решения одной задачи: как мы делали соревнование по Computer Vision

Вклад авторов

Ваш аккаунт

Разделы

Информация

Услуги