Как стать автором
Обновить
246.91
Рейтинг

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
  • Новые
  • Лучшие
Порог рейтинга
  • Все
  • ≥0
  • ≥10
  • ≥25
  • ≥50
  • ≥100

Involution: Attention is not what you need, или Как скрестить Self-Attention из NLP и Convolution в задачах CV

Python *Алгоритмы *Машинное обучение *
Из песочницы

Если говорить про Self-Attention в картиночных моделях, то тут есть 2 варианта. Олдскульный  “давайте просто перевзвесим фичи” в разных вариантах: поканально, пространственно, в некоторой проекции. И новомодный "давайте обучим трансформер" с представлением патчей как визуальных слов. Первый подход рабочий, но не дает значительного улучшения в плане метрик. Второй подход слишком вычислительно сложный и часто заточен на размер картинок.

Подход коллег из ByteDance AI Lab и университета Пекина сильно отличается от этих крайностей и является переосмыслением Attention-механизма трансформеров в работе свёрток.

Читать подробнее об Involution
Всего голосов 6: ↑6 и ↓0 +6
Просмотры 541
Комментарии 0

Фотогалерея на максималках

Python *JavaScript *Обработка изображений *Машинное обучение *Искусственный интеллект

~1 год назад я начал разрабатывать свою фотогалерею (песочницу для теста всяких технологий). Данная статья – это описание её архитектуры, а также различные твики/лайфхаки/микрогайды которые я узнал за время разработки + немного про производительность.

Читать далее
Всего голосов 16: ↑16 и ↓0 +16
Просмотры 2.3K
Комментарии 0

Дата Кампус: может ли школьник освоить машинное обучение за 10 дней?

Data Mining *Машинное обучение *Учебный процесс в IT Карьера в IT-индустрии

Всем привет. В этой статье хотим поделиться нашим опытом организации и проведения “Дата Кампуса” - буткемпа по Data Science, который проводится для старшеклассников в разных регионах России.

Читать далее
Всего голосов 4: ↑2 и ↓2 0
Просмотры 1.6K
Комментарии 3

Как мы “повернули реки вспять” на Emergency DataHack 2021, объединив гидрологию и AutoML

Open source *Python *Хакатоны Машинное обучение *Искусственный интеллект

Хабр, привет! 

Под катом хотелось бы поговорить об опыте участия нашей команды из лаборатории моделирования природных систем Национального центра когнитивных разработок Университета ИТМО в хакатоне Emergency DataHack 2021. И победы в нём :)

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 785
Комментарии 0

REALM — интеграция извлеченной информации в модели языковых представлений

Машинное обучение *
Перевод

Последние достижения в области обработки естественного языка (Natural Language Processing, NLP) в значительной степени основаны на успехах предварительного обучения без учителя, с помощью которого можно обучать универсальные языковые модели на большом количестве текстов без ручной разметки или меток. Было показано, что такие предобученные модели, вроде BERT и RoBERTa, запоминают удивительно большое количество общих знаний о мире, например «место рождения Франческо Бартоломео Конти», «разработчик JDK» и «владелец Border TV». Хотя способность кодировать знания особенно важна для определенных задач обработки естественного языка, таких как ответы на вопросы, поиск информации и генерация текста, эти модели запоминают знания неявно, т. е. знания о мире фиксируются абстрактным образом в весах модели, что затрудняет определение, какие знания были сохранены и где именно они хранятся в модели. Кроме того, объем памяти и, следовательно, точность модели ограничены размером нейронной сети. Чтобы получить больше знаний о мире, стандартной практикой является обучение все более крупных сетей, что, однако, может сильно замедлять и удорожать процесс.

Читать дальше →
Рейтинг 0
Просмотры 493
Комментарии 2

Точная сегментация лица в Keras и Python

Машинное обучение *
Tutorial
image

Привет, Хабр.

Будем тренировать сеть для сегментации человеческого лица с помощью Keras ,Python и segmentation_models используя бесплатный Google Colaboratory.

Спойлер
Посмотреть как это работает и не заморачиваться с Python можно в Windows, скачайте написанную мной программу и натренированную модель TFLite, так же у вас должны быть в системе файлы visual c++ redistributable

image
image
image
image
Читать дальше →
Всего голосов 10: ↑9 и ↓1 +8
Просмотры 1.7K
Комментарии 20

Как принципы ResponsibleAI помогают ML-моделям работать по максимуму?

Блог компании Первая грузовая компания (ПГК) Машинное обучение *

С помощью ML-моделей сегодня выдают кредиты, регулируют движение на дорогах, определяют цены на товары и многое другое. Однако, процесс их разработки и вывода в продуктивную среду сложен и полон подводных камней. Очень часто качество прогноза, основанного на реальных данных, не соответствует ожиданиям пользователей. Меня зовут Надежда Костякова, я руковожу управлением анализа данных и машинного обучения в Первой грузовой компании (ПГК). В статье расскажу о принципах, которым следует наша команда Data Science, чтобы гарантировать надежную работу алгоритмов машинного обучения в продуктивной среде.

Какие проблемы возникают при использовании ML-моделей?

В 2013 году на площадке Kaggle было запущено соревнование. Его участники должны были отличить звук, издаваемый китом, от остальных звуков. Запуск прошел нормально, и люди начали загружать свои результаты. Один из них поразил организаторов: он был сильно выше ожидаемого и достигал невероятного показателя 0,99 ROC AUC. Как выяснилось, результат этот был достигнут даже без чтения звуковых файлов. Что же произошло?

Оказалось, что файлы с записью китов отличались по продолжительности от остальных, имели другой формат даты и были сгруппированы по времени. Организаторы и участники столкнулись с проблемой Data Leakage – когда не основные данные, а метаинформация помогла достичь результата. Это огромная проблема при использовании модели в «проде»: в реальных условиях у модели не будет таких метаданных, и ее результат будет крайне низким. В бизнесе это может привести к значительному экономическому ущербу.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 687
Комментарии 0

Распознавание и анализ речи с помощью библиотеки SPEECH RECOGNITION, PYAUDIO и LIBROSA

Python *Программирование *Машинное обучение *Natural Language Processing *

В основе систем распознавания речи стоит скрытая марковская модель, суть модели заключается в том, что при рассмотрении сигнала в промежутке небольшой длительности (от пяти до 10 миллисекунд), возможна его аппроксимация как при стационарном процессе.

Если простыми словами скрытую марковскую модель можно объяснить на примере.

Читать далее
Всего голосов 7: ↑4 и ↓3 +1
Просмотры 1.7K
Комментарии 4

Лучшие инструменты разметки изображений для компьютерного зрения 2020 года

Data Mining *Обработка изображений *Big Data *Машинное обучение *
Перевод

В 2018 году мы опубликовали обзор лучших инструментов аннотирования, которыми регулярно пользуемся. Статью с энтузиазмом восприняли и профессионалы в сфере ИИ, и неспециалисты.

С нами даже связались несколько новых платформ, попросив провести бета-тестирование их инструментов и написать отзывы об UX и UI на основе нашего личного опыта управления крупномасштабными проектами разметки для ИИ.

С 2018 года произошёл большой прогресс в сфере платформ разметки, в том числе успешный фандрайзинг Labelbox, упрочивший его ведущую позицию в этой области, а также заявления о потрясающих новых функциях нашего любимого Supervise.ly, который мы продолжаем использовать в большинстве проектов.

Мы решили, что настало подходящее время для рассказа о самых потрясающих новых инструментах, появившихся за последнее время. В предыдущей статье мы оценивали продукты по следующим параметрам:

  • Цена
  • Функции
  • Управление проектами

Но решили, что стоит добавить ещё один:

  • Автоматизация

Ведь каждый из этих новых инструментов имеет отличные новые способы оптимизации ручного процесса аннотирования.
Читать дальше →
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 1.2K
Комментарии 0

Как увидеть в фильме больше, чем способен человеческий глаз?

Блог компании SberDevices Работа с видео *Обработка изображений *Машинное обучение *Искусственный интеллект

Обращали ли вы когда-нибудь внимание на то, сколько всего в кадре упускает наш мозг при просмотре фильма? Каждый раз, когда вы пересматриваете своё любимое кино, вы замечаете что-то новое.

Возьмём для примера великое – “Назад в будущее”. Главное, что захватывает в фильме, это, конечно, сюжет. Но во сколько лет на какой просмотр вы узнали, что в конце фильма магазин "Две сосны" поменял своё название на "Одинокая сосна"? Это происходит потому, что Марти сбивает дерево на ферме Пибоди, влетев в прошлое на DeLorean DMC-12. В первый раз это тяжеловато увидеть, но это важная деталь сюжета.

А помните ли вы диван, на котором так уютно сидели “Друзьяв квартире Моники и Рейчел? Наверняка, у нас всех в памяти хранится его общий вид, но когда заходишь в магазин и хочешь купить такой же, вряд ли вспомнишь всё в деталях.

В момент просмотра фильма, мы часто сфокусированы на сюжете и происходящем на переднем плане, из-за чего можем упускать детали, без которых фильм может показаться не столь продуманным.

Но не беспокойтесь. В 2021 это больше не проблема, ведь теперь есть платформа компьютерного зрения Layer, которая смотрит кино вместе с вами. От неё никаким деталям не спрятаться и не скрыться. Давайте заглянем “под капот”?

Давайте!
Всего голосов 15: ↑14 и ↓1 +13
Просмотры 5K
Комментарии 5

[Антикейс] Прогнозирование и планирование потребления электроэнергии с помощью machine learning (эксперимент)

Промышленное программирование *Машинное обучение *Исследования и прогнозы в IT Инженерные системы
Из песочницы

Большинство статей на Хабре на тему ML прогноза - про применяемые алгоритмы, подходы, инструментарий, но без фокуса на практическое решение задач.

Мы решили поделиться своим опытом и результатами применения машинного обучения для прикладной задачи крупных промышленных предприятий, которые последние 15-20 лет прогнозируют электропотребление «ручным» способом.

На Хабре есть близкая к этой теме публикация-перевод, но она как раз технически-обучающая и без результатов практического применения.

Энергоёмкие промышленные компании являются крупными потребителями электроэнергии и обязаны каждый день подавать заявки с информацией, сколько они планируют закупить электроэнергии в ближайшие сутки в разбивке по часам. Отклонения фактического потребления от прогнозной заявки и в большую, и в меньшую сторону оплачиваются по отдельной ставке. Чем точнее их прогноз, тем меньше оплата.

Очевидный прямой эффект от повышения точности почасового прогнозирования дал старт нашей исследовательской работе. Всё просто: повышаем точность прогноза на n% → заказчик получает меньший счёт от сбытовой компании или рынка → мы «в одну строчку» защищаем бюджет на такие системы.

Однако, на то это и эксперимент, чтобы получить реальный, а не теоретический ответ на вопросы: где можно повысить точность и сложно ли это сделать? 1-2-3% - это сколько в рублях?

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 1.8K
Комментарии 3

Надоело настраивать кластер? Используйте Ray Lightning

Блог компании SkillFactory Open source *Программирование *IT-инфраструктура *Машинное обучение *
Перевод
Tutorial

PyTorch Lightning позволяет распараллелить Deep Learning на GPU, но настраивать и объединять процессоры в сеть сложно даже в управляемом кластере SLURM. Проблему решает пакет Ray Lightning, обзором которого делимся к старту потока курса по Data Science.

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Просмотры 1.1K
Комментарии 0

Нейродайджест: главное из области машинного обучения за август 2021

Python *Машинное обучение *Искусственный интеллект TensorFlow *

Новая архитектура-генералист для работы с комбинированными типами данных от DeepMind, генерация внешности от младенчества до глубокой старости, синтез фотореалистичных изображений по наброску и многое другое в августовской подборке. 

Перейти к обзору
Всего голосов 15: ↑15 и ↓0 +15
Просмотры 3K
Комментарии 0

Последние обновления моделей распознавания речи из Silero Models

Big Data *Машинное обучение *Развитие стартапа Natural Language Processing *Голосовые интерфейсы

quality_growth


Мы опубликовали уже пятую версию наших моделей для распознавания английского языка и четвертую — для немецкого. На картинке выше — прогресс роста качества для английского языка.


В этот раз мы можем порадовать вас:


  • Как большими, так и маленькими моделями;
  • Постоянным ростом качества на всех доменах аудио, снижением размера и ускорением моделей;
  • Как обычно — качество на уровне премиум моделей Google (причем в этот раз к премиум моделями 2020 года подобрались уже даже маленькие Community Edition модели);
  • Супер компактными моделями (small и скоро ожидается xsmall) и их квантизованными версиями;
Читать дальше →
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 911
Комментарии 0

Как нейросети помогают делать ремастеры

Блог компании Playgendary Разработка игр *Машинное обучение *Искусственный интеллект Игры и игровые приставки
Перевод

Наиболее очевидный способ освежить игру — увеличить в ней разрешение, обновить текстуры и можно снова выкладывать в стор. В том числе по этой причине GTA V выходит уже на третьем поколении консолей, но сейчас не об этом. 

Есть примеры и легендарных проектов, которым переиздание было просто необходимо. Среди таких, например, Mass Effect Legendary Edition. Игра стала одним из первых AAA-ремастеров, где разработчики, чтобы облегчить себе жизнь, использовали нейросети для апскейлинга текстур. Наткнулись на подробный разбор, что это за технология, чем отличается от DLSS и как работает. Примеры тоже имеются. Подробности — под катом.

Читать далее
Всего голосов 32: ↑32 и ↓0 +32
Просмотры 5.2K
Комментарии 5

Смещение в датасетах

Блог компании МТС Data Mining *Машинное обучение *Natural Language Processing *

Эта статья – дистиллят моих разведочных исследований о смещении в датасетах. В ней я расскажу, что такое смещение и как оно влияет на работу модели. А еще – о том, как мы воспринимаем результаты работы модели и какие есть подходы для борьбы со смещением. Детальнее расскажу о двух способах избавления от него.

Смещение в датасетах (артефакты) – нежелательные взаимосвязи между входными и выходными данными, в частности, между признаками и метками, которые могут эксплуатироваться моделями машинного обучения в качестве опоры при предсказании. Часто они возникают там, где совсем не ожидаешь.

Простой пример смещения можно представить следующим образом: нам нужно определить оскорбительные посты в социальной сети. Высока вероятность, что оскорбительные посты будут содержать нецензурные слова и модель будет опираться на них при принятии решения. Некоторые пользователи могут использовать нецензурные слова и в обычных, нейтральных постах. Те же нецензурные слова могут быть использованы и для выражения позитивных эмоций. В результате, модель, обученная на датасете, в котором мало других примеров: нейтральных или позитивных, будет считать пост оскорбительным, когда в нем есть нецензурные слова. Если тестирование модели провести на похожей тестовой выборке, где нецензурные слова представлены только в оскорбительных постах, то тест подтвердит высокое качество модели. При реальном использовании эта модель будет давать ложно положительные срабатывания. Из-за смещения складывается ложное чувство, что модель работает хорошо, но это происходит ровно до того, как она начинает использоваться в реальности.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 861
Комментарии 1

Выполняем глубокое обучение быстро при помощи Fast AI

Python *Программирование *Машинное обучение *

Нейронные сети повсеместно используются для выполнения самых разных задач, можно даже сказать, что это самый настоящий «универсальный солдат». Однако, может показаться, что начать работать с нейросетями довольно сложно, несмотря на наличие огромного количества информации в источниках, существование готовых фреймворков, например, tensorflow, pytorch и других.

И всё же, существует инструмент, позволяющий легко совершить «быстрый старт» и опробовать нейронные сети в деле самостоятельно – это fast ai. Вообще, fast ai – это прежде всего группа исследователей, занимающихся вопросами искусственного интеллекта и глубокого обучения в частности, которая выпустила одноимённую библиотеку в свободное пользование в 2018 году. Если говорить простыми словами – fast ai представляет собой надстройку над упомянутым выше фреймворком pytorch и упрощает работу с ним, делает это быстрее. Отсюда и слово «быстро» в названии статьи.

Пожалуй, перейдём к практике и покажем, насколько просто работать с fast ai на простом примере задачи классификации изображений – постараемся обучить нейронную сеть различать две модели автомобильной марки Subaru: Impreza и Legacy. Как и обычно, в первую очередь выполняем установку библиотеки, выполнив в консоли команду:

Читать далее
Всего голосов 10: ↑8 и ↓2 +6
Просмотры 2.6K
Комментарии 4

Вот так выглядит нейросеть без фреймворков

Блог компании SkillFactory Python *Программирование *Математика *Машинное обучение *
Перевод
Tutorial

Чтобы лучше понять глубокое обучение, Data Scientist из Hewleet Packard написал нейросеть только при помощи NumPy. Знать свои инструменты необходимо любому специалисту, поэтому наш курс по науке о данных включает раздел «Математика для Data Science». Под катом вы найдёте не только реализацию нейронной сети. Статья начинается со знакомства с книгой автора, которая, по его словам, будет полезна, если вы хотите создать достойное портфолио Machine Learning.

Читать далее
Всего голосов 34: ↑19 и ↓15 +4
Просмотры 12K
Комментарии 8

Закончишь за пару недель? 8 самых раздражающих вопросов к Data Scientist

Блог компании SkillFactory Машинное обучение *Учебный процесс в IT Карьера в IT-индустрии Читальный зал
Перевод

Сооснователь компании Gramener, занятой в Data Science, рассказывает о 8 заблуждениях в ML в форме вопросов и утверждений. По его словам, в начале карьеры эти заблуждения подобны гранатам, которые могут бросить в вас. Инструкцией по безопасности делимся к старту флагманского курса по Data Science.

Читать далее
Всего голосов 13: ↑7 и ↓6 +1
Просмотры 9.3K
Комментарии 13

Вклад авторов