Обработка изображений *

Работаем с фото и видео

kucev 4 ноября в 10:28

Почему 87% проектов data science не добираются до продакшена?

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

«Если ваши конкуренты применяют ИИ и они нашли способ, позволяющий им ускориться, то они оторвутся от вас очень быстро», — поделилась CTO компании IBM по data science и ИИ Дебора Лефф на сцене Transform 2019.

В другом докладе, «Что вообще такое — работать с ИИ?» Лефф и старший вице-президент Gap по данным и аналитике Крис Чапо углубились в рассуждения о том, почему многие компании по-прежнему зря тратят время или терпят поражение, пытаясь реализовать стратегии работы с ИИ. И всё это несмотря на то, что преимущество, которым обладали крупные компании перед мелкими, теперь исчезло, а парадигма полностью изменилась. Благодаря ИИ быстрые компании обгоняют по эффективности медленные, вне зависимости от их размера. А крошечные безымянные компании отбирают долю рынка у гигантов.

Но если понимание того, что ИИ действительно даёт конкурентное преимущество, есть у всех, то почему до стадии продакшена добирается всего 13% проектов data science, или почти каждый десятый?

Читать дальше →

3.2K

BootSector 3 ноября в 16:00

Рисуем вместе с CLIP Guided Diffusion HQ

Блог компании RUVDS.com Обработка изображений *Машинное обучение *Дизайн Будущее здесь

UPD: эта статья была написана до выхода интереснейшего материала о нейросети ruDALL-E. Мы решили всё равно её опубликовать — таким образом у читателей будет возможность сравнить изображения, сгенерированные отечественной и зарубежной сетями. Дальнейший текст публикуется без изменений.

Во времена старого Баша мне запомнилась одна цитата:

kok:
Подскажите какой прогой перегонять книги из txt в mp3
Izzzum:
^^^^^ No Comment а почему сразу не в 3gp или XviD?
kok:
А в каком по твоему формате аудиокниги?
kok:
Или ты думаешь, что какойто дурень сидит и начитывает перед микрофоном?

Что ж, если не предъявлять слишком высоких требований к реалистичности результата, можно сказать, что сегодня у нас такие «проги» есть. Речь, конечно же, о нейросетях, которые умеют генерировать практически любые виды контента.

Читать дальше →

+53

3.1K

kucev 3 ноября в 11:49

Пять альтернатив Scale AI

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Выбор подходящего инструмента для аннотирования данных — непростая задача, поэтому чтобы принять верное решение, необходимо знать все возможные варианты. В этой статье мы расскажем о лучших, по нашему мнению, альтернативах Scale AI.

Проекты машинного обучения и глубокого обучения стали сегодня мейнстримом.

Однако несмотря на огромные трудозатраты, только некоторым компаниям удалось превратить свои модели в продукты.

Согласно данным Gartner, для более чем 85% ИИ-проектов есть риск обеспечения плохих результатов из-за погрешностей в данных, алгоритмах или заблуждений разработчиков.

В частности, слабым звеном в ML/DL является качество данных, поскольку успех проектов сильно зависит от объёмов высококачественных размеченных данных, которые способна регулярно создавать команда.

Scale AI одним из первых воспользовался возможностью совершенствования и автоматизации управления, аннотирования и интегрирования данных.

Но Scale — не единственный мощный инструмент в области разметки данных для обучения ИИ.

Читать дальше →

647

ddimitrov 2 ноября в 14:34

ruDALL-E: генерируем изображения по текстовому описанию, или Самый большой вычислительный проект в России

Блог компании Сбер Блог компании SberDevices Обработка изображений *Машинное обучение *Искусственный интеллект

2021 год в машинном обучении ознаменовался мультимодальностью — активно развиваются нейросети, работающие одновременно с изображениями, текстами, речью, музыкой. Правит балом, как обычно, OpenAI, но, несмотря на слово «open» в своём названии, не спешит выкладывать модели в открытый доступ. В начале года компания представила нейросеть DALL-E, генерирующую любые изображения размером 256×256 пикселей по текстовому описанию. В качестве опорного материала для сообщества были доступны статья на arxiv и примеры в блоге.

С момента выхода DALL-E к проблеме активно подключились китайские исследователи: открытый код нейросети CogView позволяет решить ту же проблему — получать изображения из текстов. Но что в России? Разобрать, понять, обучить — уже, можно сказать, наш инженерный девиз. Мы нырнули с головой в новый проект и сегодня рассказываем, как создали с нуля полный пайплайн для генерации изображений по описаниям на русском языке.

В проекте активно участвовали команды SberAI, SberDevices, Самарского университета, AIRI и SberCloud.

Мы обучили две версии модели разного размера и дали им имена великих российских абстракционистов – Василия Кандинского и Казимира Малевича:

1. ruDALL-E Kandinsky (XXL) с 12 миллиардами параметров;

2. ruDALL-E Malevich (XL), содержащая 1,3 миллиарда параметров.

Некоторые версии наших моделей доступны в open source уже сейчас:

1. ruDALL-E Malevich (XL) [GitHub, HuggingFace]

2. Sber VQ-GAN [GitHub, HuggingFace]

3. ruCLIP Small [GitHub, HuggingFace]

4. Super Resolution (Real ESRGAN) [GitHub, HuggingFace]

Две последние модели встроены в пайплайн генерации изображений по тексту (об этом расскажем ниже).

Версии моделей ruDALL-E Malevich (XL), ruDALL-E Kandinsky (XXL), ruCLIP Small, ruCLIP Large, Super Resolution (Real ESRGAN) также скоро будут доступны в DataHub.

Обучение нейросети ruDALL-E на кластере Christofari стало самой большой вычислительной задачей в России:

1. Модель ruDALL-E Kandinsky (XXL) обучалась 37 дней на 512 GPU TESLA V100, а затем ещё 11 дней на 128 GPU TESLA V100 — всего 20 352 GPU-дней;

2. Модель ruDALL-E Malevich (XL) обучалась 8 дней на 128 GPU TESLA V100, а затем еще 15 дней на 192 GPU TESLA V100 – всего 3 904 GPU-дня.

Таким образом, суммарно обучение обеих моделей заняло 24 256 GPU-дней.

Разберём возможности наших генеративных моделей.

+100

39K

160

kucev 28 октября в 13:53

Почему за автоматической разметкой данных будущее?

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Автоматическая разметка данных — новая функция, о которой сегодня часто говорят. Некоторые даже считают её решением проблемы кропотливого и ресурсоёмкого аннотирования вручную.

Для обработки одного набора данных ручной разметкой (аннотированием) требуются многие часы. Автоматическая разметка данных предоставляет более простой, быстрый и современный способ обработки данных при помощи самого ИИ.

Читать дальше →

1.7K

kucev 27 октября в 09:33

Как Hasty использует автоматизацию и быструю обратную связь для обучения моделей ИИ

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

CEO Hasty Тристан Руиллар (в центре), сооснователи компании Константин Проскудин (слева) и Александр Веннман (справа)

Компьютерное зрение становится всё важнее для различных промышленных сфер, от слежения за строительными работами до реализации умного сканирования штрих-кодов на складах. Однако обучение искусственного интеллекта точному распознаванию изображений может быть медленным и затратным трудом, не гарантирующим результаты. Молодой немецкий стартап Hasty стремится помочь в решении этой задачи, обещая предоставить инструменты нового поколения, способные ускорить весь процесс аннотирования изображений для обучаемой модели.

Основанный в 2019 году в Берлине Hasty заявляет сегодня, что ему удалось получить 3,7 миллиона долларов в первом раунде финансирования, проведённом Shasta Ventures. Эта венчурная фирма из Кремниевой долины провела уже множество значимых выводов: Nest (куплен Google), Eero (куплен Amazon) и Zuora (IPO). Другими участниками раунда стали iRobot Ventures и Coparion.

Читать дальше →

622

XadrZ 26 октября в 14:56

Как сделали нейросеть для оцифровки паспортов и отправили её в облако

Python *Обработка изображений *Машинное обучение *Искусственный интеллект

Из песочницы

Новая нейросеть захватывает разворот паспорта и выдает результат в течение 2-5 секунд. 95 процентов информации распознаётся с точностью 99 процентов. Случаи неуверенного распознавания отправляются на ручную проверку удаленно подключенному (не на стороне заказчика) оператору верификации данных, информация приходит ему в деперсонализированном виде.

Сеть написана на Python с применением фреймворка PyTorch — одного из самых гибких инструментов, используя который можно глубже исследовать любой предмет. Массив для обучения составил 500 тыс. синтетических паспортных разворотов + провели тест на 20 тысячах реальных документов. Размер сети - около 16 млн. параметров.

-2

3.2K

dsb42 25 октября в 12:58

Компьютерное зрение на Java? Элементарно вместе с OpenCV

Работа с видео *Программирование *Java *Обработка изображений *Робототехника

Из песочницы

Ас-саляму алейкум, братья!

Думаю многие в своей жизни хотели разобраться с тем как при помощи программного кода обрабатывать изображения и видео. Применений у этого навыка бессчётное количество, у кого на что фантазии хватит. Можно начать с автоматической коррекции огромного числа фотографий, а закончить deep fake видео с участием " Олега Тинькова ".

Какой же инструмент для этого применить, да если ещё учесть что вы закоренелый джавист? Думаю лучшим инструментом в этом случае будет библиотека OpenCV. Исходя из всего вышеперечисленного представляю вам серию видеороликов в которых Я подробно расскажу вам о том как установить библиотеку OpenCV, её функционале и работе с изображением и видео на языке Java.

Ознакомиться

EVRAZ 22 октября в 14:40

Цифровизация в металлургии: ЕВРАЗ проводит хакатон по Data Science

Блог компании ЕВРАЗ Python *Обработка изображений *Машинное обучение *Искусственный интеллект

Металлургия меняется. Сегодня у нас нет предприятий, которые работают без поддержки IT-технологий.

Но с чем конкретно работают IT-специалисты в промышленности? Пощупать реальные кейсы могут все желающие на хакатоне EVRAZ AI Challenge (вы еще можете на него успеть — регистрация продлится до 26 октября).

Подробнее о хакатоне, его задачах и другие детали — под катом.

Хочу подробности

1.9K

kucev 15 октября в 15:04

Как размечать данные для машинного обучения

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Искусственный интеллект (ИИ, AI) двигает человечество в будущее, и чтобы иметь конкурентное преимущество, вам нужно быть к нему готовым.

Машинное обучение (МЛ, ML) — подмножество ИИ, позволяющее программным приложениям распознавать паттерны и делать точные прогнозы. Благодаря ML у нас есть беспилотные автомобили, фильтрация спама в электронной почте, распознавание дорожного движения и многое другое.

Для обучения высококачественных моделей ML необходимо предоставить их алгоритму точно размеченные данные.

В этом посте мы расскажем всё, что вам нужно знать о разметке данных, чтобы принимать осознанные решения для своего бизнеса. Пост отвечает на следующие вопросы:

Что такое разметка данных?
Как она работает?
Какие оптимальные практики разметки данных существуют?
Как компании размечают свои данные?
Нужна ли мне платформа инструментария для разметки данных?

Читать дальше →

-2

2.8K

belyalova 12 октября в 15:17

Копнем поглубже: сравниваем популярные алгоритмы оптимизации с менее известными. Часть 2

Блог компании Prequel Алгоритмы *Обработка изображений *Машинное обучение *Искусственный интеллект

Еще раз здравствуй, Хабр! Меня зовут Мария Белялова, и я занимаюсь data science в мобильном фоторедакторе Prequel. Кстати, именно в нём и обработана фотография из шапки поста.

Эта вторая статья в нашем цикле материалов про сравнение алгоритмов оптимизации для обучения нейросетей. В первой части мы сравнивали поведение 39 алгоритмов на тестовых функциях. Если вы ее еще не читали, то советуем начать с нее. Также в прошлой статье мы кратко рассказали, в связи с чем появляется так много разных оптимизаторов для нейросетей.

В этой статье мы посмотрим, как они ведут себя на игрушечной задаче — распознавании цифр из датасета MNIST. В следующей части мы проверим эти алгоритмы в бою на реальной задаче из продакшена. Код для этой и предыдущей части находится здесь.

Читать дальше →

2.9K

neuroonet 8 октября в 03:33

Мнение: дипфейки совсем скоро смогут сделать правду неотделимой от вымысла

Блог компании Neuro.net Обработка изображений *Искусственный интеллект Будущее здесь

Перевод

Искусственный интеллект, т.е. слабая его форма, дает человечеству большое количество благ, включая экономические, научные, социальные и все прочие. Но есть у ИИ обратная сторона — это дипфейки и все, что с ними связано.

Уже сейчас достаточно высококачественных подделок — якобы реальных видеозаписей политиков, актеров и других знаменитостей. Пока что специалисты могут отличить дипфейк от настоящего видео, но не за горами время, когда это может стать невозможным.

Читать дальше →

3.8K

kucev 5 октября в 11:36

Руководство по типам аннотирования изображений

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Задаётесь вопросом, какой тип аннотирования изображений лучше всего подойдёт для вашего проекта?

Аннотирование изображений — одна из наших основных специальностей, и мы с радостью поделимся информацией о плюсах и минусах каждого типа: от простых ограничивающих прямоугольников до полномасштабной попиксельной семантической сегментации.

Учтите, что это руководство относится только к типу визуального аннотирования, но на уровне изображений или объектов можно создавать дополнительные метаданные. К ним относятся строки, числа, булевы значения, выбор одного или нескольких вариантов, и т.п. Например, ограничивающий прямоугольник для автомобилей в сцене может содержать такие метки, как цвет, производителя, регистрационный номер и т.д.

Читать дальше →

722

krvtmr 1 октября в 14:33

Как нужно обрабатывать изображения, чтобы не расстраивать математику?

Блог компании twin3d Работа с 3D-графикой *Алгоритмы *Обработка изображений *Математика *

Мы часто расстраиваем математику, выполняя привычные операции с изображениями — например, когда мы масштабируем их или применяем к ним фильтры. Одним словом — тогда, когда мы производим арифметические операции (+,-,*,/) над значениями цветовых каналов. Обычно это не заметно, но иногда это может доставить неприятности.

Из статьи вы узнаете, почему при решении задач компьютерного зрения (и не только) важно использовать гамма-коррекцию или линейные цветовые пространства. В конце статьи будет показано, как это отражается на задаче 3D-реконструкции человеческих лиц.

+47

10K

NapoleonIT 30 сентября в 14:46

Компьютерное зрение в ритейле: как мы научили нейронную сеть распознавать товары по фото

Обработка изображений *Машинное обучение *IT-компании

Мы запускаем серию статей про CV в ритейле. За несколько лет работы с технологиями искусственного интеллекта у нас появилось много опыта и накопилось несколько успешных кейсов внедрения компьютерного зрения в реальный бизнес. И нам есть чем поделиться: распознавание ценников, прайсов сигарет, разметка полок. В этой статье расскажем про то, как мы научились распознавать товары на фото, как отличить водку от яйца и не дать нейронке принять тебя за древесный уголь.

3.1K

man_of_letters 29 сентября в 16:00

Апскейл, который смог

Блог компании RUVDS.com Обработка изображений *Машинное обучение *

Термин «апскейл» используется для обозначения процесса увеличения разрешения цифровых изображений с фокусом на создание иллюзии «настоящего» высокого разрешения. Правда, 90% таких продуктов — это барахло, больше намёк на перспективы, чем волшебство. Недавно мои ручки добрались до двух алгоритмов повышения чёткости, которые оказались настолько хороши, что появилась эта статья. Будут субъективные и объективные тесты алгоритма Real-ESRGAN для увеличения разрешения и алгоритма GFPGAN для детализации лиц.

Traffic_Warning: в статье демонстрируется множество примеров.

Читать дальше →

+160

33K

OlegSivchenko 29 сентября в 12:30

Членимая калейдоскопическая сложность. Об устройстве и потенциале фасеточного глаза

Обработка изображений *Научно-популярное Биотехнологии Видеотехника Физика

Некоторое время назад я планировал разместить здесь откровенно антирелигиозную статью и пройтись по излюбленному примеру креационистов, связанному с нечленимой сложностью. Я хотел разобрать казус с отказом признавать эволюцию глаз, но обнаружил на Хабре превосходную статью Вячеслава Пуговкина @ra3vdx, в которой разобрана именно эта проблема. Поэтому я решил изменить акценты и развернуть не менее интересную тему: рассказать об устройстве и бионическом потенциале фасеточного глаза. Давайте об этом поговорим – и начну я, пожалуй, с ваятельницы Лин, главной героини гротескного романа, написанного Чайной Мьевилем.

+24

4.8K

MrNightSky 29 сентября в 12:00

Дообучаем готовую нейросеть для классификации данных

Блог компании FUNCORP Python *Обработка изображений *Машинное обучение *Data Engineering *

В прошлой статье мы научились классифицировать данные без разметки с помощью понижения размерности и методов кластеризации. По итогам получили первичную разметку данных и узнали, что это картинки. С такими начальными условиями можно придумать что-то более серьёзное, например, дообучить существующую нейросеть на наши классы, даже если до этого она их никогда не видела. В iFunny на первом уровне модерации мы выделяем три основных класса:

• approved — картинки идут в раздел collective (развлекательный контент и мемы);
• not suitable — не попадают в общую ленту, но остаются в ленте пользователя (селфи, пейзажи и другие);
• risked — получают бан и удаляются из приложения (расизм, порнография, расчленёнка и всё, что попадает под определение «противоправный контент»).

Сегодня расскажу на наглядных примерах, как мы перестраивали модель под наши классы, обучали её и выделяли паттерны распознавания картинок. Технические подробности — под катом.

+47

5.2K

SolarDozor 29 сентября в 10:00

Распознавание печатей: нейронные сети против SIFT, и причем тут Госзакупки

Блог компании Ростелеком-Солар Информационная безопасность *Алгоритмы *Обработка изображений *Машинное обучение *

Tutorial

Привет, Хабр! Сегодня мы расскажем, как делали в нашей группе анализа данных прототип для уже успешно работающего внутри DLP-системы Solar Dozor движка детектирования графических объектов на изображениях. Покажем это на примере одного его представителя - оттисков печатей на изображениях документов. Вспомним о противоречивых требованиях к решению задачи и очертим бизнес-метрики, определяющие успешное решение. В процессе подберем фильтр наличия печатей из арсенала компьютерного зрения и сравним подходы к детектированию объектов - популярных движках CNN, SIFT и их вариациях. А также поведаем об интересных находках в части создания датасетов. Здесь, как оказалось, немало места для творчества и экспериментов. В общем, запасайтесь попкорном.

Читать дальше →

2.1K

Blacksorld 28 сентября в 10:15

О чём не пишут в научных статьях или что на самом деле выделяет ваш маттинг?

Блог компании Prisma Labs Обработка изображений *Машинное обучение *Искусственный интеллект IT-компании

Современные фоторедакторы используют нейросетевые модели маттинга/сегментации для реализации большой доли своих инструментов, таких как замена фона и боке. Приложение Lensa не стала исключением из этого правила. Но правда ли, что информации из научных статей достаточно для объяснения поведения обученных моделей для ваших приложений?

В какой-то момент у нас появилась идея: “А почему бы не использовать маску маттинга для того, чтобы понимать, есть ли человек на фото или нет?” На первый взгляд, задумка кажется весьма простой в реализации, ведь раз модель умеет выделять людей, то определить по предсказанной маске, есть ли человек на фото, не должно составить труда. На практике мы столкнулись с довольно неожиданным эффектом. Оказалось, что сетка, обученная только на людях, также выделяет животных, статуи, еду и другие объекты.

Меня зовут Дима, работаю в R&D отделе Prisma Labs и в этом посте хочу рассказать, чем обусловлен такой эффект и ещё как его можно использовать у себя в приложении.

+14

1.7K

2 3 ...

49 50

Обработка изображений *

Почему 87% проектов data science не добираются до продакшена?

Новости

Рисуем вместе с CLIP Guided Diffusion HQ

Пять альтернатив Scale AI

ruDALL-E: генерируем изображения по текстовому описанию, или Самый большой вычислительный проект в России

Почему за автоматической разметкой данных будущее?

Как Hasty использует автоматизацию и быструю обратную связь для обучения моделей ИИ

Как сделали нейросеть для оцифровки паспортов и отправили её в облако

Компьютерное зрение на Java? Элементарно вместе с OpenCV

Цифровизация в металлургии: ЕВРАЗ проводит хакатон по Data Science

Как размечать данные для машинного обучения

Копнем поглубже: сравниваем популярные алгоритмы оптимизации с менее известными. Часть 2

Мнение: дипфейки совсем скоро смогут сделать правду неотделимой от вымысла

Руководство по типам аннотирования изображений

Как нужно обрабатывать изображения, чтобы не расстраивать математику?

Компьютерное зрение в ритейле: как мы научили нейронную сеть распознавать товары по фото

Апскейл, который смог

Членимая калейдоскопическая сложность. Об устройстве и потенциале фасеточного глаза

Дообучаем готовую нейросеть для классификации данных

Распознавание печатей: нейронные сети против SIFT, и причем тут Госзакупки

О чём не пишут в научных статьях или что на самом деле выделяет ваш маттинг?

Вклад авторов

Ваш аккаунт

Разделы

Информация

Услуги