Как стать автором
Обновить
180.66
Рейтинг

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга

Работа в Data Science: что важно знать и как этому научиться

Big Data *Машинное обучение *Карьера в IT-индустрии Искусственный интеллект
Из песочницы

Сегодня словосочетания вроде Data Science, Machine Learning, Artificial Intelligence очень популярны. При этом нередко под ними понимаются довольно разные вещи. Это зачастую смущает и запутывает людей, желающих войти в специальность: трудно разобраться, с чего начать, что действительно нужно, а что необязательно для начала. Не претендуя на общность, расскажем, как это видится на основе десятка лет опыта c решением такого рода задач для крупных клиентов со всего мира (сервис / заказная разработка / аутсорс – подставьте термин по вкусу).

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Просмотры 1.1K
Комментарии 0

Новости

Собираем генератор данных на Blender. Часть 1: Объекты

Блог компании Friflex Python *Машинное обучение *Искусственный интеллект
Tutorial

Привет, Хабр! Меня зовут Глеб. Я работаю в компании Friflex над проектами по оцифровке спорта. Работая над idChess (приложением для распознавания и аналитики шахматных партий), мы расширяем наш датасет синтетическими данными. В качестве движка используем Blender. В этой статье рассмотрим основы взаимодействия с объектами, получение доступа через API, перемещение, масштабирование и вращение.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 1.3K
Комментарии 3

Не все герои носят плащи. Программист-энтузиаст построил кластер Nvidia GeForce 1080 Ti для лечения рака

Блог компании Дата-центр «Миран» Обработка изображений *Машинное обучение *Научно-популярное
Перевод


Люди часто жалуются, что их работа не имеет особого смысла и не приносит большой пользы. Мол, её можно вообще не делать — и практически ничего не изменится. Никому не станет хуже.

Но мало кто находит силы, чтобы изменить ситуацию и начать полезное, важное дело, пусть и не прибыльное. Даже если окружающие цинично хмыкают, мол, идея не оригинальная, ничего у тебя не получится, да и вообще ты не подумал о том и этом…

Ниже история программиста, который решил в свободное от работы время сделать полезное для этого мира — спасти жизни людей. Может, его пример кого-то вдохновит.
Читать дальше →
Всего голосов 77: ↑77 и ↓0 +77
Просмотры 12K
Комментарии 30

Модели для последовательностей != рекуррентные сети, или «все гениальное — просто»

Машинное обучение *
Из песочницы

Недавно нашел статью 2018 года, в которой авторы поставили себе целью продемонстрировать, что не стоит смотреть на задачи, входы/выходы в которых являют собой последовательности, исключительно сквозь призму рекуррентных сетей, а в результате не только добились своей цели, но еще и улучшили state-of-the-art на модификации небезызвестного MNIST, но обо всем по порядку.

О чем, собственно, речь?

Авторы статьи, как они сами утверждают, стремятся показать, что для решения задач с последовательными данными в качестве стартовой точки должен рассматриваться именно сверточный, а не рекуррентный поход, и, чтобы доказать свою точку зрения, предлагают общую и вполне прямолинейную модель Temporal Convolutional Network (TCN) и сравнивают ее с рекуррентными решениями на, что называется, "домашнем поле" последних, а именно датасетах, которые часто используются для сравнения качества рекуррентных моделей.

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 883
Комментарии 0

Подгон под MNIST-овский датасет

Python *Машинное обучение *TensorFlow *
Из песочницы
Перевод

В интернете можно найти 1000 и 1 статью по тренингу мнистовского датасета для распознавания рукописных чисел. Однако когда дело доходит до практики и начинаешь распознавать собственные картинки, то модель справляется плохо или не справляется вовсе. Преобразуем произвольное изображение числа под MNIST-овский датасет.

Читать далее
Всего голосов 9: ↑7 и ↓2 +5
Просмотры 628
Комментарии 0

StyleGAN3 — изображения в разном стиле одним кликом

Блог компании SkillFactory Python *Машинное обучение *Дизайн игр *
Перевод
Tutorial

В конце 2018 года в nVidia выпустили первую StyleGAN — и сегодня любители технологий с воодушевлением смотрят в будущее безграничных развлекательных медиа, генерируемых ИИ. Это будущее на практике показывает автор, материалом которого делимся к старту флагманского курса по Data Science.

Читать далее
Всего голосов 15: ↑15 и ↓0 +15
Просмотры 4.1K
Комментарии 0

Классификация гистологических изображений со светлоклеточным раком почки, используя Keras

Python *Машинное обучение *Искусственный интеллект TensorFlow *
Из песочницы

Мой первый любительский проект по классификации изображений со светлоклеточным раком почки, используя модели глубокого обучения, имплементированные на Keras. Весь пайплайн включал такие этапы, как:

1)    Получение полнослайдовых изображений (WSI) – подготовка датасета.

2)    Аннотация изображений

3)    Получение готового датасета (Train, Validation и Test)

4)    Выбор и тренировка моделей

5)    Тестирование моделей

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 1.2K
Комментарии 4

Академия Аналитиков Авито: новый набор

Блог компании Авито Машинное обучение *Учебный процесс в IT Аналитика мобильных приложений *Карьера в IT-индустрии

Открыт приём заявок на новый поток Академии Аналитиков Авито. В этом году мы набираем студентов сразу на два направления: будем учить аналитиков данных и Data Science-инженеров. Обе программы бесплатные. 

Подать заявку можно до 13 июня. Занятия начнутся в сентябре, а вся программа продлится 13 месяцев — до конца сентября 2023 года. За это время студенты-аналитики освоят основные навыки от прикладной статистики и SQL до ML и теории экспериментов. Будущие DS-инженеры тоже разберутся с ML, а также алгоритмами и датасетами. 

Читать далее
Всего голосов 3: ↑2 и ↓1 +1
Просмотры 2.2K
Комментарии 0

Как автоматически переписать текст другими словами, сохранив смысл? Рассказываем про рерайт-сервис

Блог компании SberDevices Python *Машинное обучение *Искусственный интеллект Natural Language Processing *

Часто при работе с текстами мы хотим не только выделить главное из больших отрывков, но и переписать текст, сохранив его смысл. В предыдущем посте мы рассказали, как команда SberDevices делала AI Service суммаризатора. Сегодня давайте поговорим про наш опыт создания не просто парафразера, а именно рерайтера текста. В связке эти инструменты могут быть полезны для множества практических задач. Демо обоих сервисов доступны в маркетплейсе AI Services.

Читать далее
Всего голосов 13: ↑10 и ↓3 +7
Просмотры 2K
Комментарии 22

Повышение конверсии сайта и персонализация CRM коммуникаций с машинным обучением

Машинное обучение *Веб-аналитика *Интернет-маркетинг Медийная реклама Повышение конверсии *

Всем привет. В этой статье я расскажу о том как мы решали задачу повышения конверсии форм на сайтах клиента с использованием машинного обучения. Расскажу какие факты и проблемы перед нами стояли, как мы собирали данные, обучали модель, расскажу об архитектуре решения, а также немного о результатах проекта.

Читать далее
Всего голосов 1: ↑0 и ↓1 -1
Просмотры 530
Комментарии 3

Оптимизируем футбол с помощью Machine Learning

Машинное обучение *
Из песочницы

Обзор статьи, которая поможет определить правильные решения в напряженные моменты матча, заставить критиков замолчать и вычислить тренеров-шарлатанов с помощью машинного обучения.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 2.8K
Комментарии 6

Аналитика содержимого аудиоразговоров (пробуем, пытаемся)

Python *Анализ и проектирование систем *Машинное обучение *

Приветствую. Данная статья не является новшеством. Это скорее сборка использования различных технологий для достижения одной цели — определение и анализ полученных данных. В моем случае - это аналитика аудиосодержимого. Нет, у меня не будет графиков по правилам Котельникова. Мы будем складывать полученные данные в различные базы данных и последовательно анализировать полученное, а также пытаться автономно на существующих мощностях переопределять речь в текст. К сожалению, в первой части больше теории.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Просмотры 1.6K
Комментарии 12

Что такое Brain2Logic: Data Science без кода для юниоров

Блог компании Ассоциация больших данных Big Data *Машинное обучение *

Современное машинное обучение не только перенимает крутые математические методы, но и подстраивается под стремление человека автоматизировать управление процессами. Природа явления остаётся загадкой. То ли мы добиваемся лаконичности, то ли убиваемся собственной ленью — неважно, если результат оправдывает затраты.

Одним из таких результатов стала AutoML-платорма Brain2Logic стартапа Mavericka, которая недавно была пропилотирована в песочнице Ассоциации больших данных. Платформу помог протестировать Билайн, поставив задачу построить модели для рекомендаций фильмов. В этой статье представлен общий взгляд на современные AutoML-решения с акцентом на проект Brain2Logic (B2L).

Если вам интересно, что смогли придумать в Mavericka, посмотреть на тестирование и почитать наши рассуждения про AutoML — добро пожаловать под кат.

Читать далее
Рейтинг 0
Просмотры 673
Комментарии 0

Как начать работать с библиотекой для машинного обучения Metaflow

Блог компании VK Big Data *Машинное обучение *
Перевод


Metaflow — одна из лучших библиотек для машинного обучения, по мнению автора статьи, которая содержит простые аннотации на Python для создания Reproducible Data Engineering, обучения, валидации моделей и других этапов рабочего процесса. А еще модель позволяет выполнять их в локальной среде или в облаке. 

Команда VK Cloud Solutions перевела статью об этом опенсорсном решении, которое используют Netflix и многие другие компании для рабочих процессов в сфере машинного обучения и Data Science.
Читать дальше →
Всего голосов 28: ↑28 и ↓0 +28
Просмотры 2.8K
Комментарии 0

Это наконец произошло: нейросеть и человек написали книгу. Вместе! Рассказываем, как им помогали разработчики

Блог компании SberDevices Python *Машинное обучение *Искусственный интеллект Natural Language Processing *

На этой неделе в издательстве Individuum вышел сборник рассказов «Пытаясь проснуться», написанных писателем и художником Павлом Пепперштейном и генеративной нейросетью ruGPT-3, разработанной командой SberDevices. 

«Пытаясь проснуться» — это первый в мире сборник рассказов, родившийся в результате сотрудничества писателя и его «двойника»-нейросети. Из 24 текстов в нём только половина принадлежит Пепперштейну — ещё дюжину сочинила генеративная нейросеть ruGPT-3, дополнительно обученная на рассказах Павла. 

В этом тексте мы расскажем, как обучали Нейроличность — двойника писателя — и что теперь будет с литературой (спойлер: а всё очень даже хорошо будет!).

Читать далее
Всего голосов 27: ↑25 и ↓2 +23
Просмотры 3.3K
Комментарии 31

TinyML — машинное обучение на микроконтроллерах

Блог компании FirstVDS Программирование *Машинное обучение *Программирование микроконтроллеров *Разработка под Arduino *


В настоящее время мы все, так или иначе, пользуемся последними достижениями в сфере так называемого «искусственного интеллекта», который на самом деле представляет собой зачастую просто интеллектуальные алгоритмы на базе нейросетей.

Тем не менее подобные интеллектуальные решения всё сильнее входят в жизнь и начинают захватывать всё новые и новые сферы.

Одним из достаточно жарких направлений в современной микроэлектронике и интеллектуальных системах является тема встраивания подобных алгоритмов в маленькие неэнергозатратные системы (потребление которых при работе этих алгоритмов измеряется милливаттами). Подобный подход называется TinyML — алгоритмы машинного обучения на микроконтроллерах. Об этом и поговорим в статье ниже.

Читать дальше →
Всего голосов 16: ↑16 и ↓0 +16
Просмотры 2.8K
Комментарии 11

Data profiling, и с чем его едят

Блог компании Юнидата Data Mining *Машинное обучение *Data Engineering *

Всем привет. В этой статье хотим представить инструмент для профилирования данных. Расскажем об особенностях инструмента, о профилировании данных, и кому это будет полезно. И, конечно, его уже можно опробовать: ссылка будет в тексте статьи.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 802
Комментарии 0

Интерпретируемость в машинном обучении: итоги 2021 г

Блог компании Open Data Science Big Data *Машинное обучение *Искусственный интеллект

В 2021-2022 годах уже ни для кого не секрет, что понимать логику работы моделей машинного обучения важно и нужно. Иначе можно насобирать множество проблем: от того, что модель не будет принята конечным пользователем, потому что непонятна, до того, что она будет работать неправильно, а поймем мы это уже слишком поздно.

Для интерпретируемости в машинном обучении устоялись термины Interpretable ML и Explainable AI (XAI). Объединяет их одно - стремление сделать модели машинного обучения понятными для конечного пользователя.

Под катом поговорим о том, что интересного произошло в интерпретируемости в 2021 г.

Читать далее
Всего голосов 21: ↑21 и ↓0 +21
Просмотры 2.8K
Комментарии 0

GPT-4 уже на за горами. Что мы о нём знаем

Блог компании Cloud4Y Алгоритмы *Машинное обучение *Искусственный интеллект
Перевод

Возможно, вы помните, что о появлении GPT-3 объявили в мае 2020 года. Его запустили через год после GPT-2, который также появился спустя год после первой версии GPT. Если бы эта тенденция сохранялась, то GPT-4 уже был бы доступен. Увы, четвёртой версии мы пока не дождались. Но генеральный директор OpenAI Сэм Альтман недавно заявил, что GPT-4 на подходе. Некоторые эксперты полагают, что релиз состоится где-то в июле-августе 2022 года.

Удивительно то, что информации о GPT-4 очень мало. На что он будет похож, какие у этой модели особенности и возможности. Точно известно, что у GPT-4 не будет 100 триллионов параметров (т.е. в 500 раз больше, чем заложено в GPT-3). Для создания такой большой модели нужно больше времени.

Давайте попробуем разобраться, что ещё известно о четвёртом поколении алгоритма обработки естественного языка от OpenAI.

Читать далее
Всего голосов 9: ↑6 и ↓3 +3
Просмотры 3.6K
Комментарии 5

Насколько естественен естественный язык? Представляем датасет RuCoLA

Open source *GitHub Машинное обучение *Исследования и прогнозы в IT Natural Language Processing *


В последние годы в области NLP произошла настоящая революция: огромные нейросети, предобученные на сотнях гигабайт текстов, бьют все известные рекорды качества. Но обладают ли такие нейросети чутьём на «естественность» текста, которое есть у носителей языка? Оценка предложения по внутреннему чутью в лингвистике получила название приемлемости; умение давать подобную оценку — ещё один шаг на пути к общему пониманию языка. Чтобы узнать, насколько хорошо нейросети для русского языка справляются с этой задачей, мы публикуем RuCoLA (Russian Corpus of Linguistic Acceptability) — датасет русскоязычных предложений, размеченных по бинарной шкале приемлемости. Это совместный труд команды исследователей и NLP-разработчиков из SberDevices, ABBYY, Yandex Research, Huawei Noah’s Ark Lab и Факультета компьютерных наук ВШЭ. Также мы открываем лидерборд на данных RuCoLA, чтобы любой желающий мог проверить способности своих моделей или поучаствовать в развитии методов для оценки приемлемости.
Читать дальше →
Всего голосов 35: ↑34 и ↓1 +33
Просмотры 4.1K
Комментарии 14

Вклад авторов

Работа

Data Scientist
107 вакансий