Open Data Science, Москва - Крупнейшее русскоязычное Data Science сообщество / Статьи / Хабр

Профиль Блог 139 Вакансии Подписчики 8.2K Сотрудники 115

boygenius 14 февраля в 13:30

Проблемы современного машинного обучения

Блог компании Open Data Science Машинное обучение *Научно-популярное Искусственный интеллект Natural Language Processing *

Во многих популярных курсах машинного и глубокого обучения вас научат классифицировать собак и кошек, предсказывать цены на недвижимость, покажут еще десятки задач, в которых машинное обучение, вроде как, отлично работает. Но вам расскажут намного меньше (или вообще ничего) о тех случаях, когда ML-модели не работают так, как ожидалось.

Частой проблемой в машинном обучении является неспособность ML-моделей корректно работать на большем разнообразии примеров, чем те, что встречались при обучении. Здесь идет речь не просто о других примерах (например, тестовых), а о других типах примеров. Например, сеть обучалась на изображениях коровы, в которых чаще всего корова был на фоне травы, а при тестировании требуется корректное распознавание коровы на любом фоне. Почему ML-модели часто не справляются с такой задачей и что с этим делать – мы рассмотрим далее. Работа над этой проблемой важна не только для решения практических задач, но и в целом для дальнейшего развития ИИ.

+100

19K

madrugado 9 февраля в 14:18

Новый запуск курса Natural Language Processing

Блог компании Open Data Science Блог компании Huawei Машинное обучение *Искусственный интеллект Natural Language Processing *

TL;DR: Этой весной сообщество Open Data Science и компания Huawei делают новый запуск курса по обработке естесственного языка. Регистрироваться на сайте ODS.ai, в заявке укажите course-nlp-huawei

2.2K

boygenius 21 января в 14:02

CatBoost, XGBoost и выразительная способность решающих деревьев

Блог компании Open Data Science Программирование *Математика *Машинное обучение *Искусственный интеллект

Сейчас существенная часть машинного обучения основана на решающих деревьях и их ансамблях, таких как CatBoost и XGBoost, но при этом не все имеют представление о том, как устроены эти алгоритмы "изнутри".

Данный обзор охватывает сразу несколько тем. Мы начнем с устройства решающего дерева и градиентного бустинга, затем подробно поговорим об XGBoost и CatBoost. Среди основных особенностей алгоритма CatBoost:

• Упорядоченное target-кодирование категориальных признаков
• Использование решающих таблиц
• Разделение ветвей по комбинациям признаков
• Упорядоченный бустинг
• Возможность работы с текстовыми признаками
• Возможность обучения на GPU

В конце обзора поговорим о методах интерпретации решающих деревьев (MDI, SHAP) и о выразительной способности решающих деревьев. Удивительно, но ансамбли деревьев ограниченной глубины, в том числе CatBoost, не являются универсальными аппроксиматорами: в данном обзоре приведено собственное исследование этого вопроса с доказательством (и экспериментальным подтверждением) того, что ансамбль деревьев глубины N не способен сколь угодно точно аппроксимировать функцию $y = x_1 x_2 \dots x_{N+1}$ . Поговорим также о выводах, которые можно из этого сделать.

+48

11K

boygenius 13 января в 15:34

Интерпретация моделей и диагностика сдвига данных: LIME, SHAP и Shapley Flow

Блог компании Open Data Science Алгоритмы *Машинное обучение *Статистика в IT Искусственный интеллект

В этом обзоре мы рассмотрим, как методы LIME и SHAP позволяют объяснять предсказания моделей машинного обучения, выявлять проблемы сдвига и утечки данных, осуществлять мониторинг работы модели в production и искать группы примеров, предсказания на которых объясняются схожим образом.

Также поговорим о проблемах метода SHAP и его дальнейшем развитии в виде метода Shapley Flow, объединяющего интерпретацию модели и многообразия данных.

+34

4.1K

Overclocked1827 23 декабря 2021 в 14:14

Выбираем инструмент для разметки текста (и не только!)

Блог компании Open Data Science Open source *Data Mining *Машинное обучение *Искусственный интеллект

Рано или поздно перед любой компанией которая хочет внедрить системы машинного обучения в свою инфрастуктуру встает вопрос разметки данных. Чистые данные в достаточно большом количестве - залог хорошей модели, все мы прекрасно знаем правило "Garbage in - garbage out". Такой вопрос недавно встал и передо мной. В этом посте я поделюсь своим опытом поиска инструментов для разметки текста и звука под in-house разметчиков, постараюсь описать их плюсы и минусы, а в конце расскажу на чем мы в итоге остановились и что из этого вышло. Задачи на данном этапе относительно стандартные для NLP: классификация, NER, потенциально также может понадобиться entity-linking и разметка аудио под задачи ASR, но это пока менее приоритетно. Инструмент в идеале нужен open-source, но если будет приемлимый ценник за какие-то нужные фичи - мы готовы заплатить.

Заранее скажу, что этот пост никем не спонсировался, а все написанное ниже является сугубым ИМХО. Также имейте ввиду, что впечатления об использовании различных инструментов были составлены на момент написания статьи - осень-зима 2021-го года. Если вы смотрите на эти инструменты сильно позднее - возможно, информация будет уже не актуальной. Ну а теперь, поехали!

+34

3.5K

ternaus 9 декабря 2021 в 15:59

Рождение Albumentations

Блог компании Open Data Science Python *Алгоритмы *Обработка изображений *Машинное обучение *

В этом посте я расскажу историю появления Open Source библиотеки Albumentations как я ее запомнил. Я не буду углубляться в технические детали. Основная задача текста - логирование, то есть надо написать историю, которую мне будет интересно прочитать через 20 лет.

История будет затянутая, с лишними подробностями, более того - основная часть будет о том, как все начиналось, а уже процесс итеративных улучшений будет покрыт меньше.

+57

4.6K

boygenius 29 ноября 2021 в 14:13

Обзор архитектуры AlphaFold 2

Блог компании Open Data Science Алгоритмы *Машинное обучение *Биотехнологии Искусственный интеллект

В данном обзоре мы подробно рассмотрим нейронную сеть AlphaFold 2 от компании DeepMind, с помощью которой недавно был совершен прорыв в одной из важных задач биологии и медицины: определении трехмерной структуры белка по его аминокислотной последовательности.

В первых трех разделах обзора описывается задача, формат входных данных и общая архитектура AlphaFold 2. Далее, начиная с раздела «Input feature embeddings», описываются детали архитектуры. В разделе «Резюме» кратко суммируется основная информация из обзора.

+52

3.9K

madrugado 17 сентября 2021 в 17:37

Новый запуск курса Natural Language Processing

Блог компании Open Data Science Блог компании Huawei Машинное обучение *Искусственный интеллект Natural Language Processing *

TL;DR: Этой осенью сообщество Open Data Science и компания Huawei делают новый запуск курса. Регистрироваться на сайте ODS.ai

посмотреть, что внутри

+10

egorborisov 26 августа 2021 в 14:06

Анализ вакансий и зарплат в Data Science

Блог компании Open Data Science Big Data *Машинное обучение *Карьера в IT-индустрии Искусственный интеллект

Привет, Хабр!

Делимся нашим исследованием вакансий и зарплат в сфере data science и data engineering. Спрос на специалистов растет, или рынок уже насытился, какие технологии теряют, а какие набирают популярность, размер зарплатных вилок и от чего они зависят?

Для анализа мы использовали вакансии, публикуемые в сообществе ODS. По правилам сообщества все вакансии должны иметь зарплатную вилку от и до и подробное описание вакансии - есть что анализировать. К статье прилагается репозиторий с ноутбуком и исходными данными.

+33

30K

SemyonSinchenko 4 августа 2021 в 14:00

О квантовых компьютерах, биткоине и превосходстве. Лекция открытого курса qmlcourse

Блог компании Open Data Science Машинное обучение *Научно-популярное Квантовые технологии

Это первая статья из планируемого цикла статей в рамках открытого курса по квантовому машинному обучению. В этой статье мы попытаемся ответить на самые частые вопросы, которые можно встретить в комментариях к статьям к хабе "Квантовые технологии". А именно, мы поговорим о том, что это за компьютеры вообще, какие задачи они могут решать и для чего все так хотят их создать. Дальше мы постараемся оценить тот размер квантовых компьютеров, который необходим для того, чтобы они стали практически полезными и сравним его с теми размерами, которые имеют самые топовые квантовые компьютеры сегодня. В конце немного обсудим тему квантового превосходства, а именно, что это такое ну и немного поговорим о том, сколько стоит сегодня запустить что-то на настоящем квантовом компьютере в облаке.

Поехали!

+28

7.5K

fartuk 3 июня 2021 в 10:25

Создание и балансировка инвестиционного портфеля с помощью ML

Блог компании Open Data Science Data Mining *Машинное обучение *Искусственный интеллект Финансы в IT

В прошлой статье я писал про свои ML-модели для оценки отдельных компаний, но вопрос формирования итогового портфеля совсем не затрагивал. В этом посте хочу рассказать о том, как я собираю свой личный портфель, а так же поделиться сайтом, на котором реализую весь описанный в статье функционал http://stocks.ml. Дисклеймер: у автора нет экономического образования и все выводы и суждения в статье делаются на основе житейского опыта и здравого смысла.

+19

18K

Safronov 1 июня 2021 в 14:00

Учиться, учиться, и ещё раз учиться?

Блог компании Open Data Science Анализ и проектирование систем *Машинное обучение *Управление проектами *Управление продуктом *

TLDR: крохотные модельки обошли модные графовые нейронки в предсказании свойств молекул.
Код: здесь. Берегите Природу.

^{ФОТО: Андерс Хеллберг для Wikimedia Commons, модель — Грета Тунберг}

Необученная графовая свёрточная нейронная сеть [1] (uGCN) со случайной инициализацией весов уже пару лет занимает первое место в моём списке алгоритмов для задач машинного обучения на графах из-за копеечной стоимости, простоты реализации, да вполне очевидной элегантности решения. В то же время, насколько мне известно, никто ещё не не проводил соревнований между этой простой моделью и её старшей сестрой — полноценно обученной графовой свёрточной нейронной сетью (GCN) в режиме обучения с учителем. Вот я сделал.

Мотивация: показать, что uGCN выдаёт качественные представления, которые можно использовать в последующих задачах машинного обучения в индуктивном режиме, когда модели обобщаются к не виденным ранее данным (вдохновлено недавним отчётом [2] о производительности простых моделей в трансдуктивном случае).

Полученные результаты — занимательны. В худшем случае простые модели (uGCN + degree kernel + random forest) показали счёт 54:90 против полноценно обученных GCN, в то время как реалистичный сценарий закончился разгромным реваншем 93:51, указывающим на то, что мы можем позволить себе почти бесплатные эмбеддинги, которые превосходят или показывают результаты на уровне полноценно обученных GCN в задаче предсказания свойств графа (например — эффекта медикаментов: яд или лекарство) за долю стоимости. Простые модели обучались ~10 минут в то время как весь эксперимент продлился ~4 часа. Перейдём же к деталям и разберёмся с тем, что произошло!

Читать дальше →

+28

13K

Moryshka 30 марта 2021 в 13:27

DeepPavlov стал частью Google Summer of Code в 2021 году

Блог компании Open Data Science Машинное обучение *Искусственный интеллект Natural Language Processing *Удалённая работа

В этом году открытая платформа для обработки естественного языка DeepPavlov, разрабатываемая лабораторией нейронных систем и глубокого обучения МФТИ, впервые стала частью ежегодной программы для молодых разработчиков Google Summer of Code.

Google Summer of Code (GSoC) — это ежегодное событие, проводимое компанией Google для привлечения молодых разработчиков к разработке проектов с открытым исходным кодом в их свободное летнее время. К участию допускаются студенты высших учебных заведений (бакалавриат, магистратура, аспирантура) и колледжей. Это отличная возможность не только развить навыки программирования, но и заработать!

Работать можно в любой организации, которая есть в соответствующем списке на странице Google Summer of Code, но мы предлагаем вам участвовать в рамках сообщества DeepPavlov. И сегодня мы расскажем подробнее о приеме и задачах, которые готовы предложить студентам этим летом. Вместе с вами мы выведем сообщество разработчиков ПО с открытым исходным кодом на новый уровень.

2.9K

fartuk 29 марта 2021 в 16:15

Мои machine learning тулы для инвестирования

Блог компании Open Data Science Data Mining *Машинное обучение *Венчурные инвестиции Искусственный интеллект

В последнее время все больше людей приходит к тому, чтобы не держать деньги под матрасом, а куда-то их инвестировать в надежде сохранить и преумножить свой капитал. Вариант с матрасом плох тем, что с повышением цен на товары и услуги(инфляция) покупательная способность денег падает и через какое-то время купить на них можно значительно меньше, чем раньше. Есть много вариантов, куда вложить деньги(недвижимость, банковский вклад, ценные металлы), но в последнее время популярным становится инвестирование в акции. Только у брокера Тинькофф Инвестиции за несколько лет число клиентов превысило 3.5 млн. В статье я постараюсь описать свой подход к выбору бумаг и поделюсь инструментами, которые для этого разрабатываю.

+53

29K

snakers4 16 марта 2021 в 13:58

Собираем Свой Суперкомпьютер Недорого

Блог компании Open Data Science Обработка изображений *Машинное обучение *Развитие стартапа Компьютерное железо

thumbnail

Нынче никого не удивишь достижениями ~~искусственного интеллекта~~ машинного обучения (ML) в самых разных областях. При этом доверчивые граждане редко задают два вопроса: (i) а какая собственно цена экспериментов и финальной системы и (ii) имеет ли сделанное хоть какую-то целесообразность? Самым важным компонентом такой цены являются как ни странно цена на железо и зарплаты людей. В случае если это все крутится в облаке, нужно еще умножать стоимость железа в 2-3 раза (маржа посредника).

И тут мы неизбежно приходим к тому, что несмотря на то, что теперь даже в официальные билды PyTorch добавляют бета-поддержку ROCm, Nvidia де-факто в этом цикле обновления железа (и скорее всего следующем) остается монополистом. Понятно, что есть TPU от Google и мифические IPU от Graphcore, но реальной альтернативы не в облаке пока нет и не предвидится (первая версия CUDA вышла аж 13 лет назад!).

Что делать и какие опции есть, когда зачем-то хочется собрать свой "суперкомпьютер", но при этом не хочется платить маржу, заложенную в продукты для ультра-богатых [мысленно вставить комментарий про госдолг США, майнинг, крах Бреттон-Вудсткой системы, цены на здравоохранение в странах ОЭСР]? Чтобы попасть в топ-500 суперкомпьютеров достаточно купить DGX Superpod, в котором от 20 до 100 с лишним видеокарт. Из своей практики — де-факто серьезное машинное обучение сейчас подразумевает карточки Nvidia в количестве примерно 8-20 штук (понятно что карточки бывают разные).

Читать дальше →

+42

25K

belgraviton 2 марта 2021 в 14:39

Рубрика «Читаем статьи за вас». Сентябрь — октябрь 2020 года

Блог компании Open Data Science Алгоритмы *Обработка изображений *Математика *Машинное обучение *

Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!

Статьи на сегодня:

1. A Better Use of Audio-Visual Cues : Dense Vid eo Captioning with Bi-modal Transformer (Tampere University, Finland, 2020)
2. Fast Bi-la yer Neural Synthesis of One-Shot Reali stic He ad Avatars (Samsung AI Center, 2020)
3. Enhancing the Locality and Bre aking th e Memory Bottleneck of Transformer on Time Series Forecasting (University of California, USA, 2019)
4. Whitening for Self-Supervised Representation Learning (University of Trento, Italy, 2020)
5. MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis (Lyrebird AI and University of Montreal, 2019)
6. StyleFlow: Attribute-conditioned Exploration of StyleGAN-Generated Images using Conditional Continuous Normalizing Flows (KAUST, Adobe, 2020)

+34

Alex_Donchuk 12 января 2021 в 14:04

Пора избавляться от мышки или Hand Pose Estimation на базе LiDAR за 30 минут

Блог компании Open Data Science Python *Программирование *Машинное обучение *DIY или Сделай сам

Tutorial

Всем привет! Пока киберпанк еще не настолько вошел в нашу жизнь, и нейроинтерфейсы далеки от идеала, первым этапом на пути к будущему манипуляторов могут стать LiDAR. Поэтому, чтобы не скучать на праздниках, я решил немного пофантазировать на тему средств управления компьютером и, предположительно, любым устройством, вплоть до экскаватора, космического корабля, дрона или кухонной плиты.

+84

28K

Arseny_Info 28 октября 2020 в 19:38

Шесть степеней свободы: 3D object detection и не только

Блог компании Open Data Science Алгоритмы *Обработка изображений *Машинное обучение *

В компьютерном зрении часто приходится работать с двумерными изображениями, и значительно реже - с 3D объектами. Из-за этого многие ML инженеры чувствуют себя неуверенно в этой области: много незнакомых слов, непонятно, куда тут применить старых друзей Resnet и Unet. Поэтому сегодня я хотел бы немного поговорить о 3D на примере задачи определения шести степеней свободы, что в каком-то виде синонимично 3D object detection. Я разберу одну из свежих работ на эту тему с некоторыми отступлениями.

Кратко о задаче

Для начала давайте определимся, что такое шесть степеней свободы (6 DoF - degrees of freedom). Представим себе некоторый ригидный (неизменяемый, т.е. при трансформации все точки будут оставаться на той же дистанции друг от друга) объект в трехмерном мире. Чтобы описать его положение относительно наблюдателя понадобится 6 измерений: три будут отвечать за повороты по разным осям, а еще три - за смещение по соответствующим осям. Соответственно, имея эти шесть чисел, мы представляем, как объект расположен относительно какого-то базиса (например, точки, с которой ведется фотосъемка). Эта задача является классической для робототехники (где находится объект, который нужно схватить роборукой?), дополненной реальности (где нарисовать маску в MSQRD, ушки в Snapchat или кроссовки в Wanna Kicks) , беспилотных автомобилей и других доменов.

Я буду рассматривать статью MobilePose: Real-Time Pose Estimation for Unseen Objects with Weak Shape Supervision (Hou et al., 2020). Эта статья, написанная авторами из Google Research, предлагает надежный и, что немаловажно, быстрый пайплайн для решения задачи, будет уместно разобрать его по частям.

+38

6.3K

belgraviton 14 октября 2020 в 14:12

Рубрика «Читаем статьи за вас». Июль — август 2020 года

Блог компании Open Data Science Алгоритмы *Обработка изображений *Математика *Машинное обучение *

Статьи на сегодня:

High-Resolution Neural Face Swapping for Visual Effects (Disney Research Studios, ETH Zurich, 2020)
Beyond Accuracy: Behavioral Testing of NLP Models with CheckList (USA, 2020)
Thieves on Sesame Street! Model Extraction of BERT-based APIs (UMass & Google Research, ICLR, 2019)
Time-Aware User Embeddings as a Service (Yahoo! Research, Temple University, 2020)
Are Labels Necessary for Neural Architecture Search? (Johns Hopkins University, Facebook AI Research, 2020)
GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding (Google, 2020)
Data Shapley: Equitable Valuation of Data for Machine Learning (USA, 2019)
Language-agnostic BERT Sentence Embedding (Google AI, 2020)
Self-Supervised Learning for Large-Scale Unsupervised Image Clustering (Technion, Israel, 2020)
Batch-Channel Normalization and Weight Standardization (2 papers, Johns HopkinsUniversity, USA, 2019)

Читать дальше →

+27

5.1K

Moryshka 18 сентября 2020 в 14:00

Data Fest 2020 — полностью в Online уже завтра

Блог компании Open Data Science Машинное обучение *Конференции Искусственный интеллект

Data Fest пройдет в этом году в онлайн формате 19 и 20 сентября 2020. Фестиваль организован сообществом Open Data Science и как обычно соберет исследователей, инженеров и разработчиков в области анализа данных, искусственного интеллекта и машинного обучения.

Регистрация. Ну а дальше к деталям.

Читать дальше →

+37

2 3 ...

6 7

Проблемы современного машинного обучения

Новый запуск курса Natural Language Processing

CatBoost, XGBoost и выразительная способность решающих деревьев

Интерпретация моделей и диагностика сдвига данных: LIME, SHAP и Shapley Flow

Выбираем инструмент для разметки текста (и не только!)

Рождение Albumentations

Обзор архитектуры AlphaFold 2

Новый запуск курса Natural Language Processing

Анализ вакансий и зарплат в Data Science

О квантовых компьютерах, биткоине и превосходстве. Лекция открытого курса qmlcourse

Создание и балансировка инвестиционного портфеля с помощью ML

Учиться, учиться, и ещё раз учиться?

DeepPavlov стал частью Google Summer of Code в 2021 году

Мои machine learning тулы для инвестирования

Собираем Свой Суперкомпьютер Недорого

Рубрика «Читаем статьи за вас». Сентябрь — октябрь 2020 года

Пора избавляться от мышки или Hand Pose Estimation на базе LiDAR за 30 минут

Шесть степеней свободы: 3D object detection и не только

Рубрика «Читаем статьи за вас». Июль — август 2020 года

Data Fest 2020 — полностью в Online уже завтра

Информация

Ваш аккаунт

Разделы

Информация

Услуги