Как стать автором
Обновить
46.15
Рейтинг

Обработка изображений *

Работаем с фото и видео

Сначала показывать
  • Новые
  • Лучшие
Порог рейтинга
  • Все
  • ≥0
  • ≥10
  • ≥25
  • ≥50
  • ≥100

Почему 87% проектов data science не добираются до продакшена?

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод

«Если ваши конкуренты применяют ИИ и они нашли способ, позволяющий им ускориться, то они оторвутся от вас очень быстро», — поделилась CTO компании IBM по data science и ИИ Дебора Лефф на сцене Transform 2019.

В другом докладе, «Что вообще такое — работать с ИИ?» Лефф и старший вице-президент Gap по данным и аналитике Крис Чапо углубились в рассуждения о том, почему многие компании по-прежнему зря тратят время или терпят поражение, пытаясь реализовать стратегии работы с ИИ. И всё это несмотря на то, что преимущество, которым обладали крупные компании перед мелкими, теперь исчезло, а парадигма полностью изменилась. Благодаря ИИ быстрые компании обгоняют по эффективности медленные, вне зависимости от их размера. А крошечные безымянные компании отбирают долю рынка у гигантов.

Но если понимание того, что ИИ действительно даёт конкурентное преимущество, есть у всех, то почему до стадии продакшена добирается всего 13% проектов data science, или почти каждый десятый?
Читать дальше →
Всего голосов 4: ↑3 и ↓1 +2
Просмотры 3.2K
Комментарии 12

Новости

Рисуем вместе с CLIP Guided Diffusion HQ

Блог компании RUVDS.com Обработка изображений *Машинное обучение *Дизайн Будущее здесь
UPD: эта статья была написана до выхода интереснейшего материала о нейросети ruDALL-E. Мы решили всё равно её опубликовать — таким образом у читателей будет возможность сравнить изображения, сгенерированные отечественной и зарубежной сетями. Дальнейший текст публикуется без изменений.


Во времена старого Баша мне запомнилась одна цитата:
kok:
Подскажите какой прогой перегонять книги из txt в mp3
Izzzum:
^^^^^ No Comment а почему сразу не в 3gp или XviD?
kok:
А в каком по твоему формате аудиокниги?
kok:
Или ты думаешь, что какойто дурень сидит и начитывает перед микрофоном?
Что ж, если не предъявлять слишком высоких требований к реалистичности результата, можно сказать, что сегодня у нас такие «проги» есть. Речь, конечно же, о нейросетях, которые умеют генерировать практически любые виды контента.

Читать дальше →
Всего голосов 55: ↑54 и ↓1 +53
Просмотры 3.1K
Комментарии 7

Пять альтернатив Scale AI

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод
Выбор подходящего инструмента для аннотирования данных — непростая задача, поэтому чтобы принять верное решение, необходимо знать все возможные варианты. В этой статье мы расскажем о лучших, по нашему мнению, альтернативах Scale AI.


Проекты машинного обучения и глубокого обучения стали сегодня мейнстримом.

Однако несмотря на огромные трудозатраты, только некоторым компаниям удалось превратить свои модели в продукты.

Согласно данным Gartner, для более чем 85% ИИ-проектов есть риск обеспечения плохих результатов из-за погрешностей в данных, алгоритмах или заблуждений разработчиков.

В частности, слабым звеном в ML/DL является качество данных, поскольку успех проектов сильно зависит от объёмов высококачественных размеченных данных, которые способна регулярно создавать команда.

Scale AI одним из первых воспользовался возможностью совершенствования и автоматизации управления, аннотирования и интегрирования данных.

Но Scale — не единственный мощный инструмент в области разметки данных для обучения ИИ.
Читать дальше →
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 647
Комментарии 0

ruDALL-E: генерируем изображения по текстовому описанию, или Самый большой вычислительный проект в России

Блог компании Сбер Блог компании SberDevices Обработка изображений *Машинное обучение *Искусственный интеллект

2021 год в машинном обучении ознаменовался мультимодальностью — активно развиваются нейросети, работающие одновременно с изображениями, текстами, речью, музыкой. Правит балом, как обычно, OpenAI, но, несмотря на слово «open» в своём названии, не спешит выкладывать модели в открытый доступ. В начале года компания представила нейросеть DALL-E, генерирующую любые изображения размером 256×256 пикселей по текстовому описанию. В качестве опорного материала для сообщества были доступны статья на arxiv и примеры в блоге

С момента выхода DALL-E к проблеме активно подключились китайские исследователи: открытый код нейросети CogView позволяет решить ту же проблему — получать изображения из текстов. Но что в России? Разобрать, понять, обучить — уже, можно сказать, наш инженерный девиз. Мы нырнули с головой в новый проект и сегодня рассказываем, как создали с нуля полный пайплайн для генерации изображений по описаниям на русском языке.

В проекте активно участвовали команды SberAI, SberDevices, Самарского университета, AIRI и SberCloud.

Мы обучили две версии модели разного размера и дали им имена великих российских абстракционистов – Василия Кандинского и Казимира Малевича:

1. ruDALL-E Kandinsky (XXL) с 12 миллиардами параметров;

2. ruDALL-E Malevich (XL), содержащая 1,3 миллиарда параметров.

Некоторые версии наших моделей доступны в open source уже сейчас:

1. ruDALL-E Malevich (XL) [GitHub, HuggingFace]

2. Sber VQ-GAN [GitHub, HuggingFace]

3. ruCLIP Small [GitHub, HuggingFace]

4. Super Resolution (Real ESRGAN) [GitHub, HuggingFace]

Две последние модели встроены в пайплайн генерации изображений по тексту (об этом расскажем ниже).

Версии моделей ruDALL-E Malevich (XL), ruDALL-E Kandinsky (XXL), ruCLIP Small, ruCLIP Large, Super Resolution (Real ESRGAN) также скоро будут доступны в DataHub.

Обучение нейросети ruDALL-E на кластере Christofari стало самой большой вычислительной задачей в России: 

1. Модель ruDALL-E Kandinsky (XXL) обучалась 37 дней на 512 GPU TESLA V100, а затем ещё 11 дней на 128 GPU TESLA V100 — всего 20 352 GPU-дней;

2. Модель ruDALL-E Malevich (XL) обучалась 8 дней на 128 GPU TESLA V100, а затем еще 15 дней на 192  GPU TESLA V100 – всего 3 904 GPU-дня.

Таким образом, суммарно обучение обеих моделей заняло 24 256 GPU-дней.

Разберём возможности наших генеративных моделей.

Читать далее
Всего голосов 110: ↑105 и ↓5 +100
Просмотры 39K
Комментарии 160

Почему за автоматической разметкой данных будущее?

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод

Автоматическая разметка данных — новая функция, о которой сегодня часто говорят. Некоторые даже считают её решением проблемы кропотливого и ресурсоёмкого аннотирования вручную.

Для обработки одного набора данных ручной разметкой (аннотированием) требуются многие часы. Автоматическая разметка данных предоставляет более простой, быстрый и современный способ обработки данных при помощи самого ИИ.
Читать дальше →
Рейтинг 0
Просмотры 1.7K
Комментарии 2

Как Hasty использует автоматизацию и быструю обратную связь для обучения моделей ИИ

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод

CEO Hasty Тристан Руиллар (в центре), сооснователи компании Константин Проскудин (слева) и Александр Веннман (справа)

Компьютерное зрение становится всё важнее для различных промышленных сфер, от слежения за строительными работами до реализации умного сканирования штрих-кодов на складах. Однако обучение искусственного интеллекта точному распознаванию изображений может быть медленным и затратным трудом, не гарантирующим результаты. Молодой немецкий стартап Hasty стремится помочь в решении этой задачи, обещая предоставить инструменты нового поколения, способные ускорить весь процесс аннотирования изображений для обучаемой модели.

Основанный в 2019 году в Берлине Hasty заявляет сегодня, что ему удалось получить 3,7 миллиона долларов в первом раунде финансирования, проведённом Shasta Ventures. Эта венчурная фирма из Кремниевой долины провела уже множество значимых выводов: Nest (куплен Google), Eero (куплен Amazon) и Zuora (IPO). Другими участниками раунда стали iRobot Ventures и Coparion.
Читать дальше →
Рейтинг 0
Просмотры 622
Комментарии 0

Как сделали нейросеть для оцифровки паспортов и отправили её в облако

Python *Обработка изображений *Машинное обучение *Искусственный интеллект
Из песочницы

Новая нейросеть захватывает разворот паспорта и выдает результат в течение 2-5 секунд. 95 процентов информации распознаётся с точностью 99 процентов. Случаи неуверенного распознавания отправляются на ручную проверку удаленно подключенному (не на стороне заказчика) оператору верификации данных, информация приходит ему в деперсонализированном виде.

Сеть написана на Python с применением фреймворка PyTorch — одного из самых гибких инструментов, используя который можно глубже исследовать любой предмет. Массив для обучения составил 500 тыс. синтетических паспортных разворотов + провели тест на 20 тысячах реальных документов. Размер сети - около 16 млн. параметров.

Читать далее
Всего голосов 4: ↑1 и ↓3 -2
Просмотры 3.2K
Комментарии 8

Компьютерное зрение на Java? Элементарно вместе с OpenCV

Работа с видео *Программирование *Java *Обработка изображений *Робототехника
Из песочницы

Ас-саляму алейкум, братья!

Думаю многие в своей жизни хотели разобраться с тем как при помощи программного кода обрабатывать изображения и видео. Применений у этого навыка бессчётное количество, у кого на что фантазии хватит. Можно начать с автоматической коррекции огромного числа фотографий, а закончить deep fake видео с участием " Олега Тинькова ".

Какой же инструмент для этого применить, да если ещё учесть что вы закоренелый джавист? Думаю лучшим инструментом в этом случае будет библиотека OpenCV. Исходя из всего вышеперечисленного представляю вам серию видеороликов в которых Я подробно расскажу вам о том как установить библиотеку OpenCV, её функционале и работе с изображением и видео на языке Java.

Ознакомиться
Всего голосов 9: ↑6 и ↓3 +3
Просмотры 4K
Комментарии 8

Цифровизация в металлургии: ЕВРАЗ проводит хакатон по Data Science

Блог компании ЕВРАЗ Python *Обработка изображений *Машинное обучение *Искусственный интеллект

Металлургия меняется. Сегодня у нас нет предприятий, которые работают без поддержки IT-технологий.

Но с чем конкретно работают IT-специалисты в промышленности? Пощупать реальные кейсы могут все желающие на хакатоне EVRAZ AI Challenge (вы еще можете на него успеть — регистрация продлится до 26 октября).

Подробнее о хакатоне, его задачах и другие детали — под катом.

Хочу подробности
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 1.9K
Комментарии 0

Как размечать данные для машинного обучения

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод

Искусственный интеллект (ИИ, AI) двигает человечество в будущее, и чтобы иметь конкурентное преимущество, вам нужно быть к нему готовым.

Машинное обучение (МЛ, ML) — подмножество ИИ, позволяющее программным приложениям распознавать паттерны и делать точные прогнозы. Благодаря ML у нас есть беспилотные автомобили, фильтрация спама в электронной почте, распознавание дорожного движения и многое другое.

Для обучения высококачественных моделей ML необходимо предоставить их алгоритму точно размеченные данные.

В этом посте мы расскажем всё, что вам нужно знать о разметке данных, чтобы принимать осознанные решения для своего бизнеса. Пост отвечает на следующие вопросы:

  • Что такое разметка данных?
  • Как она работает?
  • Какие оптимальные практики разметки данных существуют?
  • Как компании размечают свои данные?
  • Нужна ли мне платформа инструментария для разметки данных?
Читать дальше →
Всего голосов 8: ↑3 и ↓5 -2
Просмотры 2.8K
Комментарии 0

Копнем поглубже: сравниваем популярные алгоритмы оптимизации с менее известными. Часть 2

Блог компании Prequel Алгоритмы *Обработка изображений *Машинное обучение *Искусственный интеллект


Еще раз здравствуй, Хабр! Меня зовут Мария Белялова, и я занимаюсь data science в мобильном фоторедакторе Prequel. Кстати, именно в нём и обработана фотография из шапки поста.

Эта вторая статья в нашем цикле материалов про сравнение алгоритмов оптимизации для обучения нейросетей. В первой части мы сравнивали поведение 39 алгоритмов на тестовых функциях. Если вы ее еще не читали, то советуем начать с нее. Также в прошлой статье мы кратко рассказали, в связи с чем появляется так много разных оптимизаторов для нейросетей.

В этой статье мы посмотрим, как они ведут себя на игрушечной задаче — распознавании цифр из датасета MNIST. В следующей части мы проверим эти алгоритмы в бою на реальной задаче из продакшена. Код для этой и предыдущей части находится здесь.
Читать дальше →
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 2.9K
Комментарии 1

Мнение: дипфейки совсем скоро смогут сделать правду неотделимой от вымысла

Блог компании Neuro.net Обработка изображений *Искусственный интеллект Будущее здесь
Перевод
image

Искусственный интеллект, т.е. слабая его форма, дает человечеству большое количество благ, включая экономические, научные, социальные и все прочие. Но есть у ИИ обратная сторона — это дипфейки и все, что с ними связано.

Уже сейчас достаточно высококачественных подделок — якобы реальных видеозаписей политиков, актеров и других знаменитостей. Пока что специалисты могут отличить дипфейк от настоящего видео, но не за горами время, когда это может стать невозможным.
Читать дальше →
Всего голосов 14: ↑11 и ↓3 +8
Просмотры 3.8K
Комментарии 11

Руководство по типам аннотирования изображений

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод

Задаётесь вопросом, какой тип аннотирования изображений лучше всего подойдёт для вашего проекта?

Аннотирование изображений — одна из наших основных специальностей, и мы с радостью поделимся информацией о плюсах и минусах каждого типа: от простых ограничивающих прямоугольников до полномасштабной попиксельной семантической сегментации.

Учтите, что это руководство относится только к типу визуального аннотирования, но на уровне изображений или объектов можно создавать дополнительные метаданные. К ним относятся строки, числа, булевы значения, выбор одного или нескольких вариантов, и т.п. Например, ограничивающий прямоугольник для автомобилей в сцене может содержать такие метки, как цвет, производителя, регистрационный номер и т.д.
Читать дальше →
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 722
Комментарии 0

Как нужно обрабатывать изображения, чтобы не расстраивать математику?

Блог компании twin3d Работа с 3D-графикой *Алгоритмы *Обработка изображений *Математика *

Мы часто расстраиваем математику, выполняя привычные операции с изображениями — например, когда мы масштабируем их или применяем к ним фильтры. Одним словом — тогда, когда мы производим арифметические операции (+,-,*,/) над значениями цветовых каналов. Обычно это не заметно, но иногда это может доставить неприятности.

Из статьи вы узнаете, почему при решении задач компьютерного зрения (и не только) важно использовать гамма-коррекцию или линейные цветовые пространства. В конце статьи будет показано, как это отражается на задаче 3D-реконструкции человеческих лиц.

Читать далее
Всего голосов 47: ↑47 и ↓0 +47
Просмотры 10K
Комментарии 33

Компьютерное зрение в ритейле: как мы научили нейронную сеть распознавать товары по фото

Обработка изображений *Машинное обучение *IT-компании

Мы запускаем серию статей про CV  в ритейле. За несколько лет работы с технологиями искусственного интеллекта у нас появилось много опыта и накопилось несколько успешных кейсов внедрения компьютерного зрения в реальный бизнес. И нам есть чем поделиться: распознавание ценников, прайсов сигарет, разметка полок. В этой статье расскажем про то, как мы научились распознавать товары на фото, как отличить водку от яйца и не дать нейронке принять тебя за древесный уголь.  

Читать далее
Всего голосов 10: ↑9 и ↓1 +8
Просмотры 3.1K
Комментарии 2

Апскейл, который смог

Блог компании RUVDS.com Обработка изображений *Машинное обучение *
Термин «апскейл» используется для обозначения процесса увеличения разрешения цифровых изображений с фокусом на создание иллюзии «настоящего» высокого разрешения. Правда, 90% таких продуктов — это барахло, больше намёк на перспективы, чем волшебство. Недавно мои ручки добрались до двух алгоритмов повышения чёткости, которые оказались настолько хороши, что появилась эта статья. Будут субъективные и объективные тесты алгоритма Real-ESRGAN для увеличения разрешения и алгоритма GFPGAN для детализации лиц.
Traffic_Warning: в статье демонстрируется множество примеров.
Читать дальше →
Всего голосов 164: ↑162 и ↓2 +160
Просмотры 33K
Комментарии 78

Членимая калейдоскопическая сложность. Об устройстве и потенциале фасеточного глаза

Обработка изображений *Научно-популярное Биотехнологии Видеотехника Физика

Некоторое время назад я планировал разместить здесь откровенно антирелигиозную статью и пройтись по излюбленному примеру креационистов, связанному с нечленимой сложностью. Я хотел разобрать казус с отказом признавать эволюцию глаз, но обнаружил на Хабре превосходную статью Вячеслава Пуговкина @ra3vdx, в которой разобрана именно эта проблема. Поэтому я решил изменить акценты и развернуть не менее интересную тему: рассказать об устройстве и бионическом потенциале фасеточного глаза. Давайте об этом поговорим – и начну я, пожалуй, с ваятельницы Лин, главной героини гротескного романа, написанного Чайной Мьевилем.

Читать далее
Всего голосов 26: ↑25 и ↓1 +24
Просмотры 4.8K
Комментарии 13

Дообучаем готовую нейросеть для классификации данных

Блог компании FUNCORP Python *Обработка изображений *Машинное обучение *Data Engineering *

В прошлой статье мы научились классифицировать данные без разметки с помощью понижения размерности и методов кластеризации. По итогам получили первичную разметку данных и узнали, что это картинки. С такими начальными условиями можно придумать что-то более серьёзное, например, дообучить существующую нейросеть на наши классы, даже если до этого она их никогда не видела. В iFunny на первом уровне модерации мы выделяем три основных класса: 

• approved — картинки идут в раздел collective (развлекательный контент и мемы);
• not suitable — не попадают в общую ленту, но остаются в ленте пользователя (селфи, пейзажи и другие);
• risked — получают бан и удаляются из приложения (расизм, порнография, расчленёнка и всё, что попадает под определение «противоправный контент»).

Сегодня расскажу на наглядных примерах, как мы перестраивали модель под наши классы, обучали её и выделяли паттерны распознавания картинок. Технические подробности — под катом.

Читать далее
Всего голосов 49: ↑48 и ↓1 +47
Просмотры 5.2K
Комментарии 0

Распознавание печатей: нейронные сети против SIFT, и причем тут Госзакупки

Блог компании Ростелеком-Солар Информационная безопасность *Алгоритмы *Обработка изображений *Машинное обучение *
Tutorial

Привет, Хабр! Сегодня мы расскажем, как делали в нашей группе анализа данных прототип для уже успешно работающего внутри DLP-системы Solar Dozor движка детектирования графических объектов на изображениях. Покажем это на примере одного его представителя - оттисков печатей на изображениях документов. Вспомним о противоречивых требованиях к решению задачи и очертим бизнес-метрики, определяющие успешное решение. В процессе подберем фильтр наличия печатей из арсенала компьютерного зрения и сравним подходы к детектированию объектов - популярных движках CNN, SIFT и их вариациях. А также поведаем об интересных находках в части создания датасетов. Здесь, как оказалось, немало места для творчества и экспериментов. В общем, запасайтесь попкорном.

Читать дальше →
Всего голосов 11: ↑10 и ↓1 +9
Просмотры 2.1K
Комментарии 2

О чём не пишут в научных статьях или что на самом деле выделяет ваш маттинг?

Блог компании Prisma Labs Обработка изображений *Машинное обучение *Искусственный интеллект IT-компании

Современные фоторедакторы используют нейросетевые модели маттинга/сегментации для реализации большой доли своих инструментов, таких как замена фона и боке. Приложение Lensa не стала исключением из этого правила. Но правда ли, что информации из научных статей достаточно для объяснения поведения обученных моделей для ваших приложений?

В какой-то момент у нас появилась идея: “А почему бы не использовать маску маттинга для того, чтобы понимать, есть ли человек на фото или нет?” На первый взгляд, задумка кажется весьма простой в реализации, ведь раз модель умеет выделять людей, то определить по предсказанной маске, есть ли человек на фото, не должно составить труда. На практике мы столкнулись с довольно неожиданным эффектом. Оказалось, что сетка, обученная только на людях, также выделяет животных, статуи, еду и другие объекты.

Меня зовут Дима, работаю в R&D отделе Prisma Labs и в этом посте хочу рассказать, чем обусловлен такой эффект и ещё как его можно использовать у себя в приложении.

Читать далее
Всего голосов 14: ↑14 и ↓0 +14
Просмотры 1.7K
Комментарии 2

Вклад авторов