Машинное обучение *

Основа искусственного интеллекта

Работа в Data Science: что важно знать и как этому научиться

Big Data *Машинное обучение *Карьера в IT-индустрии Искусственный интеллект

Из песочницы

Сегодня словосочетания вроде Data Science, Machine Learning, Artificial Intelligence очень популярны. При этом нередко под ними понимаются довольно разные вещи. Это зачастую смущает и запутывает людей, желающих войти в специальность: трудно разобраться, с чего начать, что действительно нужно, а что необязательно для начала. Не претендуя на общность, расскажем, как это видится на основе десятка лет опыта c решением такого рода задач для крупных клиентов со всего мира (сервис / заказная разработка / аутсорс – подставьте термин по вкусу).

1.1K

Friflex_dev 27 мая в 18:17

Собираем генератор данных на Blender. Часть 1: Объекты

Блог компании Friflex Python *Машинное обучение *Искусственный интеллект

Tutorial

Привет, Хабр! Меня зовут Глеб. Я работаю в компании Friflex над проектами по оцифровке спорта. Работая над idChess (приложением для распознавания и аналитики шахматных партий), мы расширяем наш датасет синтетическими данными. В качестве движка используем Blender. В этой статье рассмотрим основы взаимодействия с объектами, получение доступа через API, перемещение, масштабирование и вращение.

1.3K

Data_center_MIRAN 27 мая в 14:57

Не все герои носят плащи. Программист-энтузиаст построил кластер Nvidia GeForce 1080 Ti для лечения рака

Блог компании Дата-центр «Миран» Обработка изображений *Машинное обучение *Научно-популярное

Перевод

Люди часто жалуются, что их работа не имеет особого смысла и не приносит большой пользы. Мол, её можно вообще не делать — и практически ничего не изменится. Никому не станет хуже.

Но мало кто находит силы, чтобы изменить ситуацию и начать полезное, важное дело, пусть и не прибыльное. Даже если окружающие цинично хмыкают, мол, идея не оригинальная, ничего у тебя не получится, да и вообще ты не подумал о том и этом…

Ниже история программиста, который решил в свободное от работы время сделать полезное для этого мира — спасти жизни людей. Может, его пример кого-то вдохновит.

Читать дальше →

+77

12K

xAnGGx 27 мая в 13:07

Модели для последовательностей != рекуррентные сети, или «все гениальное — просто»

Машинное обучение *

Из песочницы

Недавно нашел статью 2018 года, в которой авторы поставили себе целью продемонстрировать, что не стоит смотреть на задачи, входы/выходы в которых являют собой последовательности, исключительно сквозь призму рекуррентных сетей, а в результате не только добились своей цели, но еще и улучшили state-of-the-art на модификации небезызвестного MNIST, но обо всем по порядку.

О чем, собственно, речь?

Авторы статьи, как они сами утверждают, стремятся показать, что для решения задач с последовательными данными в качестве стартовой точки должен рассматриваться именно сверточный, а не рекуррентный поход, и, чтобы доказать свою точку зрения, предлагают общую и вполне прямолинейную модель Temporal Convolutional Network (TCN) и сравнивают ее с рекуррентными решениями на, что называется, "домашнем поле" последних, а именно датасетах, которые часто используются для сравнения качества рекуррентных моделей.

883

bicikar 27 мая в 11:31

Подгон под MNIST-овский датасет

Python *Машинное обучение *TensorFlow *

Из песочницы

Перевод

В интернете можно найти 1000 и 1 статью по тренингу мнистовского датасета для распознавания рукописных чисел. Однако когда дело доходит до практики и начинаешь распознавать собственные картинки, то модель справляется плохо или не справляется вовсе. Преобразуем произвольное изображение числа под MNIST-овский датасет.

628

Picard 26 мая в 23:48

StyleGAN3 — изображения в разном стиле одним кликом

Блог компании SkillFactory Python *Машинное обучение *Дизайн игр *

Перевод

Tutorial

В конце 2018 года в nVidia выпустили первую StyleGAN — и сегодня любители технологий с воодушевлением смотрят в будущее безграничных развлекательных медиа, генерируемых ИИ. Это будущее на практике показывает автор, материалом которого делимся к старту флагманского курса по Data Science.

+15

4.1K

Hardrockmaniac 26 мая в 17:31

Классификация гистологических изображений со светлоклеточным раком почки, используя Keras

Python *Машинное обучение *Искусственный интеллект TensorFlow *

Из песочницы

Мой первый любительский проект по классификации изображений со светлоклеточным раком почки, используя модели глубокого обучения, имплементированные на Keras. Весь пайплайн включал такие этапы, как:

1) Получение полнослайдовых изображений (WSI) – подготовка датасета.

2) Аннотация изображений

3) Получение готового датасета (Train, Validation и Test)

4) Выбор и тренировка моделей

5) Тестирование моделей

1.2K

Asphaltoozy 26 мая в 11:00

Академия Аналитиков Авито: новый набор

Блог компании Авито Машинное обучение *Учебный процесс в IT Аналитика мобильных приложений *Карьера в IT-индустрии

Открыт приём заявок на новый поток Академии Аналитиков Авито. В этом году мы набираем студентов сразу на два направления: будем учить аналитиков данных и Data Science-инженеров. Обе программы бесплатные.

Подать заявку можно до 13 июня. Занятия начнутся в сентябре, а вся программа продлится 13 месяцев — до конца сентября 2023 года. За это время студенты-аналитики освоят основные навыки от прикладной статистики и SQL до ML и теории экспериментов. Будущие DS-инженеры тоже разберутся с ML, а также алгоритмами и датасетами.

2.2K

alenusch 26 мая в 10:46

Как автоматически переписать текст другими словами, сохранив смысл? Рассказываем про рерайт-сервис

Блог компании SberDevices Python *Машинное обучение *Искусственный интеллект Natural Language Processing *

Часто при работе с текстами мы хотим не только выделить главное из больших отрывков, но и переписать текст, сохранив его смысл. В предыдущем посте мы рассказали, как команда SberDevices делала AI Service суммаризатора. Сегодня давайте поговорим про наш опыт создания не просто парафразера, а именно рерайтера текста. В связке эти инструменты могут быть полезны для множества практических задач. Демо обоих сервисов доступны в маркетплейсе AI Services.

gubanovpa 26 мая в 07:22

Повышение конверсии сайта и персонализация CRM коммуникаций с машинным обучением

Машинное обучение *Веб-аналитика *Интернет-маркетинг Медийная реклама Повышение конверсии *

Всем привет. В этой статье я расскажу о том как мы решали задачу повышения конверсии форм на сайтах клиента с использованием машинного обучения. Расскажу какие факты и проблемы перед нами стояли, как мы собирали данные, обучали модель, расскажу об архитектуре решения, а также немного о результатах проекта.

-1

530

app1606 25 мая в 20:09

Оптимизируем футбол с помощью Machine Learning

Машинное обучение *

Из песочницы

Обзор статьи, которая поможет определить правильные решения в напряженные моменты матча, заставить критиков замолчать и вычислить тренеров-шарлатанов с помощью машинного обучения.

2.8K

iwram 25 мая в 18:09

Аналитика содержимого аудиоразговоров (пробуем, пытаемся)

Python *Анализ и проектирование систем *Машинное обучение *

Приветствую. Данная статья не является новшеством. Это скорее сборка использования различных технологий для достижения одной цели — определение и анализ полученных данных. В моем случае - это аналитика аудиосодержимого. Нет, у меня не будет графиков по правилам Котельникова. Мы будем складывать полученные данные в различные базы данных и последовательно анализировать полученное, а также пытаться автономно на существующих мощностях переопределять речь в текст. К сожалению, в первой части больше теории.

1.6K

RUBDA 25 мая в 15:58

Что такое Brain2Logic: Data Science без кода для юниоров

Блог компании Ассоциация больших данных Big Data *Машинное обучение *

Современное машинное обучение не только перенимает крутые математические методы, но и подстраивается под стремление человека автоматизировать управление процессами. Природа явления остаётся загадкой. То ли мы добиваемся лаконичности, то ли убиваемся собственной ленью — неважно, если результат оправдывает затраты.

Одним из таких результатов стала AutoML-платорма Brain2Logic стартапа Mavericka, которая недавно была пропилотирована в песочнице Ассоциации больших данных. Платформу помог протестировать Билайн, поставив задачу построить модели для рекомендаций фильмов. В этой статье представлен общий взгляд на современные AutoML-решения с акцентом на проект Brain2Logic (B2L).

Если вам интересно, что смогли придумать в Mavericka, посмотреть на тестирование и почитать наши рассуждения про AutoML — добро пожаловать под кат.

673

Olga_Mokshina 25 мая в 12:19

Как начать работать с библиотекой для машинного обучения Metaflow

Блог компании VK Big Data *Машинное обучение *

Перевод

Metaflow — одна из лучших библиотек для машинного обучения, по мнению автора статьи, которая содержит простые аннотации на Python для создания Reproducible Data Engineering, обучения, валидации моделей и других этапов рабочего процесса. А еще модель позволяет выполнять их в локальной среде или в облаке.

Команда VK Cloud Solutions перевела статью об этом опенсорсном решении, которое используют Netflix и многие другие компании для рабочих процессов в сфере машинного обучения и Data Science.

Читать дальше →

+28

2.8K

Rybolos 25 мая в 11:47

Это наконец произошло: нейросеть и человек написали книгу. Вместе! Рассказываем, как им помогали разработчики

Блог компании SberDevices Python *Машинное обучение *Искусственный интеллект Natural Language Processing *

На этой неделе в издательстве Individuum вышел сборник рассказов «Пытаясь проснуться», написанных писателем и художником Павлом Пепперштейном и генеративной нейросетью ruGPT-3, разработанной командой SberDevices.

«Пытаясь проснуться» — это первый в мире сборник рассказов, родившийся в результате сотрудничества писателя и его «двойника»-нейросети. Из 24 текстов в нём только половина принадлежит Пепперштейну — ещё дюжину сочинила генеративная нейросеть ruGPT-3, дополнительно обученная на рассказах Павла.

В этом тексте мы расскажем, как обучали Нейроличность — двойника писателя — и что теперь будет с литературой (спойлер: а всё очень даже хорошо будет!).

+23

3.3K

kot_review 25 мая в 11:00

TinyML — машинное обучение на микроконтроллерах

Блог компании FirstVDS Программирование *Машинное обучение *Программирование микроконтроллеров *Разработка под Arduino *

В настоящее время мы все, так или иначе, пользуемся последними достижениями в сфере так называемого «искусственного интеллекта», который на самом деле представляет собой зачастую просто интеллектуальные алгоритмы на базе нейросетей.

Тем не менее подобные интеллектуальные решения всё сильнее входят в жизнь и начинают захватывать всё новые и новые сферы.

Одним из достаточно жарких направлений в современной микроэлектронике и интеллектуальных системах является тема встраивания подобных алгоритмов в маленькие неэнергозатратные системы (потребление которых при работе этих алгоритмов измеряется милливаттами). Подобный подход называется TinyML — алгоритмы машинного обучения на микроконтроллерах. Об этом и поговорим в статье ниже.

Читать дальше →

+16

2.8K

Unidata 25 мая в 10:00

Data profiling, и с чем его едят

Блог компании Юнидата Data Mining *Машинное обучение *Data Engineering *

Всем привет. В этой статье хотим представить инструмент для профилирования данных. Расскажем об особенностях инструмента, о профилировании данных, и кому это будет полезно. И, конечно, его уже можно опробовать: ссылка будет в тексте статьи.

802

Efaldgent 24 мая в 14:00

Интерпретируемость в машинном обучении: итоги 2021 г

Блог компании Open Data Science Big Data *Машинное обучение *Искусственный интеллект

В 2021-2022 годах уже ни для кого не секрет, что понимать логику работы моделей машинного обучения важно и нужно. Иначе можно насобирать множество проблем: от того, что модель не будет принята конечным пользователем, потому что непонятна, до того, что она будет работать неправильно, а поймем мы это уже слишком поздно.

Для интерпретируемости в машинном обучении устоялись термины Interpretable ML и Explainable AI (XAI). Объединяет их одно - стремление сделать модели машинного обучения понятными для конечного пользователя.

Под катом поговорим о том, что интересного произошло в интерпретируемости в 2021 г.

+21

2.8K

Cloud4Y 24 мая в 12:41

GPT-4 уже на за горами. Что мы о нём знаем

Блог компании Cloud4Y Алгоритмы *Машинное обучение *Искусственный интеллект

Перевод

Возможно, вы помните, что о появлении GPT-3 объявили в мае 2020 года. Его запустили через год после GPT-2, который также появился спустя год после первой версии GPT. Если бы эта тенденция сохранялась, то GPT-4 уже был бы доступен. Увы, четвёртой версии мы пока не дождались. Но генеральный директор OpenAI Сэм Альтман недавно заявил, что GPT-4 на подходе. Некоторые эксперты полагают, что релиз состоится где-то в июле-августе 2022 года.

Удивительно то, что информации о GPT-4 очень мало. На что он будет похож, какие у этой модели особенности и возможности. Точно известно, что у GPT-4 не будет 100 триллионов параметров (т.е. в 500 раз больше, чем заложено в GPT-3). Для создания такой большой модели нужно больше времени.

Давайте попробуем разобраться, что ещё известно о четвёртом поколении алгоритма обработки естественного языка от OpenAI.

3.6K

rucola-team 24 мая в 12:02

Насколько естественен естественный язык? Представляем датасет RuCoLA

Open source *GitHub Машинное обучение *Исследования и прогнозы в IT Natural Language Processing *

В последние годы в области NLP произошла настоящая революция: огромные нейросети, предобученные на сотнях гигабайт текстов, бьют все известные рекорды качества. Но обладают ли такие нейросети чутьём на «естественность» текста, которое есть у носителей языка? Оценка предложения по внутреннему чутью в лингвистике получила название приемлемости; умение давать подобную оценку — ещё один шаг на пути к общему пониманию языка. Чтобы узнать, насколько хорошо нейросети для русского языка справляются с этой задачей, мы публикуем RuCoLA (Russian Corpus of Linguistic Acceptability) — датасет русскоязычных предложений, размеченных по бинарной шкале приемлемости. Это совместный труд команды исследователей и NLP-разработчиков из SberDevices, ABBYY, Yandex Research, Huawei Noah’s Ark Lab и Факультета компьютерных наук ВШЭ. Также мы открываем лидерборд на данных RuCoLA, чтобы любой желающий мог проверить способности своих моделей или поучаствовать в развитии методов для оценки приемлемости.

Читать дальше →

+33

4.1K