Машинное обучение *

Основа искусственного интеллекта

Таблица актуальности фактических данных как архитектурное решение

Python*Программирование*Машинное обучение*

Таблица актуальности фактических данных как архитектурное решение

В этой статье речь пойдёт об архитектуре данных, где необходимо хранить статусы записей, получая информацию об их актуальности.

Суть задачи.

На основе информации из базы платежей выявить категории получателей платежей и вывести сводную информацию по категориям в отчёт для руководства.

Каждый платёж проходит в два этапа: средства переводятся внутри организации на внешний счёт и второй транзакцией происходит выплата средств получателям платежа. Между этими двумя сущностями нет прямой зависимости внутри БД, есть только поля описания платежа и поля описания получателя, которые заполняются сотрудниками бухгалтерии вручную, они зачастую могут иметь отличия. Например, первый платёж описан так:

500

EVRAZ вчера в 14:46

Хитрый сплав: как мы соединили дата-сайентистов, разработчиков и технологов и чем это помогло металлургии

Блог компании ЕВРАЗПромышленное программирование*Машинное обучение*Управление разработкой*Data Engineering*

Мы — ЕВРАЗ. Горно-металлургическая компания. В рамках производственного процесса мы производим кокс — твёрдое топливо для доменных печей, где выплавляют чугун. Чтобы получить качественное топливо (кокс), нам нужно подобрать правильную шихту — смесь разных углей в определённой пропорции. Но до сих пор приходилось подбирать по наитию. От решения этой задачи фактически зависит прибыль предприятия, но ни один исследовательский институт ещё не смог разработать подходящую математическую формулу.

Мы попробовали соединить в одной команде технологов, разработчиков и дата-сайентистов. Дополнили это накопленной базой знаний о параметрах кокса и угольных шихт, из которых он получен. Потратили время, чтобы понять технологический процесс и химию в его основе. И не пожалели: через восемь месяцев получили работающую модель предсказания, которая преодолела скепсис технологов и экономит нам сотни миллионов рублей в год.

2.6K

egorborisov вчера в 14:06

Анализ вакансий и зарплат в Data Science

Блог компании Open Data ScienceBig Data*Машинное обучение*Карьера в IT-индустрииИскусственный интеллект

Привет, Хабр!

Делимся нашим исследованием вакансий и зарплат в сфере data science и data engineering. Спрос на специалистов растет, или рынок уже насытился, какие технологии теряют, а какие набирают популярность, размер зарплатных вилок и от чего они зависят?

Для анализа мы использовали вакансии, публикуемые в сообществе ODS. По правилам сообщества все вакансии должны иметь зарплатную вилку от и до и подробное описание вакансии - есть что анализировать. К статье прилагается репозиторий с ноутбуком и исходными данными.

+28

9.4K

9851754 вчера в 13:02

Преобразования целевой переменной в задачах линейной регрессии

Машинное обучение*

Если у тебя есть целевая переменная и ты в отчаянии не знаешь, что с ней делать, и потерял всякий покой, потому что метрика не растет, загляни сюда, тебе может понравится...

Обрести покой

622

redmadrobot вчера в 10:34

Как мы внедряем машинное зрение на Стойленском ГОКе

Блог компании red_mad_robotМашинное обучение*Искусственный интеллект

Вместе с группой НЛМК рассказываем, как машинное зрение сделает процесс по перевозке сырья на Стойленском горно-обогатительном комбинате безопаснее и в перспективе позволит сократить издержки на семьдесят миллионов рублей в год.

846

mryab вчера в 10:07

DeDLOC: обучаем большие нейросети всем миром

Блог компании ЯндексOpen source*Машинное обучение*Распределённые системы*Искусственный интеллект

Как показывает опыт последних лет, самые интересные результаты в deep learning получаются при использовании больших нейросетей, обученных на массивах неразмеченных данных. Правда, для создания этих моделей нужен суперкомпьютер с десятками или сотнями мощных видеокарт, а также быстрым соединением между серверами. Но что делать, если таких ресурсов нет, а в открытом доступе хорошей модели под вашу задачу не нашлось?

Сегодня я расскажу про технологию, которая позволяет учить нейросети, объединяя через интернет вычислительные мощности энтузиастов из любой точки мира. В её основе лежит совместная научная работа Yandex Research, Hugging Face, студентов ШАД, ВШЭ и МФТИ, а также профессора Университета Торонто. Технология уже получила боевое крещение в ходе реального эксперимента, подробно описанного ниже. В конце статьи вы узнаете, как поставить такой эксперимент самостоятельно — модель и код доступны всем желающим.

Претрейн для всех, и пусть никто не уйдёт обиженным

За последние несколько лет во многих областях deep learning (например, в обработке естественного языка) стала популярной идея self-supervised learning. Оказалось, что для получения полезных в целевой задаче представлений не нужна большая размеченная выборка. Достаточно обучить модель на какой-то простой сигнал, построенный из неразмеченных данных, которых чаще всего в достатке. В частности, известные многим архитектуры BERT, GPT и языковая модель YaLM обучаются именно так.

Читать дальше →

+34

3.9K

sahsAGU вчера в 10:00

Создание приложения для анализа данных машинного обучения

Блог компании MicrosoftPython*Машинное обучение*Разработка под Windows*Искусственный интеллект

Нейронные сети очень мощны для выполнения предиктивного анализа и решения аналитических задач. Они широко используются для классификации данных, чтобы обнаруживать закономерности и делать прогнозы. Бизнес-кейсы варьируются от классификации и защиты данных клиентов до классификации текста, поведения потребителей и многих других задач.

Чтобы показать, как создать приложение для выполнения анализа данных для решения задач классификации, команда Windows ML создала руководство «Анализ данных с помощью Pytorch и машинного обучения Windows». В этом руководстве показано, как обучить модель нейронной сети на основе табличного набора данных с помощью библиотеки PyTorch и как развернуть эту модель в приложении машинного обучения Windows, которое может работать на любом устройстве Windows.

Хотя в этом руководстве используется набор данных в форматах Excel или csv, описанный в нем процесс работает для любого табличного набора данных и научит вас, как выполнять прогнозы и использовать возможности Windows ML для вашего собственного уникального бизнес-кейса.

softley 25 августа в 16:48

Разобучите это: что такое machine unlearning и почему это важно

Блог компании SelectelМатематика*Машинное обучение*Искусственный интеллектБудущее здесь

^{Источник}

Судя по всему, искусственный интеллект узнал о человечестве достаточно. Пора ему уже кое-что забыть, а именно персональные данные людей. Решение этой задачи человечество ищет с помощью новой области знаний под названием machine unlearning. Разбираемся, что это, как поможет победить восстание машин в зародыше и успеет ли человечество разработать эффективный machine unlearning быстрее, чем станет слишком поздно.

Читать дальше →

+23

3.2K

MaxRokatansky 25 августа в 15:32

NLP — Преобразование текста: Word2Vec

Блог компании OTUSМашинное обучение*

Перевод

— Статья, которая поможет вам разобраться в принципе работы и идее, стоящей за Word2Vec.

Источник: Google

В предыдущей статье я рассказывал об основах NLP (Natural Language Processing — обработка естественного языка), и сегодня мы продолжим изучение этой темы.

Если вы еще не читали мою предыдущую статью, то советую вам сделать это: NLP - Text Encoding: A Beginner's Guide

Перед тем, как мы начнем, обратите внимание на несколько моментов, касаемых статьи:

-2

1.4K

Tkinai 25 августа в 10:00

Оплата не отходя от девайса: как мы реализовали персонализацию в устройствах Sber с помощью распознавания голоса и лица

Блог компании SberDevicesМашинное обучение*Искусственный интеллектГолосовые интерфейсы

Сегодня на рынке изобилие умных домашних устройств. Часто они становятся своего рода центром дома – инструментом, к которому обращаются домочадцы с разными задачами: узнать погоду, найти фильм, заказать еду или такси. Некоторые сценарии платные, и проводить оплату хочется, с одной стороны, быстро и удобно, без лишних телодвижений – чтобы не нужно было брать в руки телефон, заходить в онлайн-банк, вводить реквизиты или коды из пуш-уведомлений. А с другой стороны, хочется безопасности и защищённости, чтобы ребенок, например, не заказал ящик мороженого без ведома взрослых. Мы в SberDevices занялись вопросом персонализированных оплат на наших умных устройствах и придумали, как это сделать с помощью распознавания лица и голоса пользователя. В области лицевой биометрии нашим технологическим партнёром стала команда VisionLabs.

1.4K

kucev 24 августа в 11:35

5 трендов в аннотировании данных в 2021 году

Data Mining*Big Data*Машинное обучение*Управление персоналом*Софт

Перевод

Бум искусственного интеллекта продолжается, поэтому развиваются технологии разметки и аннотирования данных. Какой бы ни была область машинного обучения, от computer vision до автономных автомобилей, ей обычно требуется аннотировать огромное количество данных. По данным Cognilytica, рынок решений подготовки данных для машинного обучения к концу 2024 года вырастет до 3,5 миллиарда долларов. Чтобы справляться с этим растущим спросом, поставщики услуг разметки данных стратегически продумывают способы возможного масштабирования процессов аннотирования, функций инструментов и количества сотрудников с сохранением точности и качества. В этой статье мы перечислим внедряемые в рабочий процесс новшества, способные повысить его эффективность и скорость.

Читать дальше →

872

DRaevsky 24 августа в 11:04

Оценка коммерческой недвижимости с точки зрения технологий: Machine Learning, методика и другие нюансы

Блог компании РайффайзенбанкBig Data*ХакатоныМашинное обучение*Конференции

Привет, Хабр! Меня зовут Дмитрий Раевский, я дата-сайентист в Райффайзенбанке, занимаюсь цифровизацией кредитов и кредитного контроля. Сегодня я хочу рассказать про оценку коммерческой недвижимости — объектов, которые используются для извлечения прибыли. Поскольку мы на Хабре, то разговор пойдет не об оценке в вакууме, а о привлечении технологий для решения этой задачи.

Мой рассказ я решил разделить на два смысловых раздела. В первом немного расскажу об оценке коммерческой недвижимости как задаче — что это, для чего нужно, как выполняется, какие есть сложности и т.п. Во втором — покажу, как эту задачу можно решить при помощи технологий. И бонусом — анонсирую большой хакатон по оценке коммерческой недвижимости от Райффайзенбанка.

1.2K

FenixFly 24 августа в 09:04

Статья для тех, кто не попал на Летнюю школу по компьютерному зрению

Блог компании IntelПрограммирование*Обработка изображений*Машинное обучение*Учебный процесс в IT

Полноценных школ по компьютерному зрению, таких, чтобы участники могли получить опыт от разработчиков алгоритмов из крупных технологических компаний, осталось очень немного. В этом плане больше всего повезло студентам из Нижнего Новгорода, ведь каждое лето силами преподавателей Университета Лобачевского и инженеров компании Intel проводится Computer Vision Summer Camp - Летняя школа по компьютерному зрению. А для тех, кому не удалось на нее попасть, мы расскажем самое важное и интересное…

1.8K

NewTechAudit 23 августа в 08:29

Особенности валидации моделей на Xgboost

Python*Программирование*Машинное обучение*

Машинное обучение все чаще используется аналитиками для упрощения работы при решении текущих задач, для реализации новых проектов или для выявления каких-либо ошибок и отклонений.

На данный момент одной из лидеров в машинном обучении для многих задач является библиотека XGBoost, основанная на алгоритме дерева решений и реализующая методы градиентного бустинга. Почему? Библиотека наиболее эффективна при построении моделей предсказания на структурированных больших данных, XGBoost поддерживает реализацию на Hadoop, имеется встроенная регуляризация и правила для обработки пропущенных значений, а также с помощью множества настроек можно улучшать качество прогнозирования модели за кратчайшие сроки, ведь имеется возможность параллельной обработки.

-1

942

KayserSW 22 августа в 18:18

Краткий обзор исследования «News recommender system: a review of recent progress, challenges, and opportunities»

Машинное обучение*

Из песочницы

По итогам прочтения статьи «News recommender system: a review of recent progress, challenges, and opportunities» написал тут небольшие заметки о наиболее интересных, с моей точки зрения, моментах этого исследования.

Излишне говорить о важности систем рекомендации новостей, не буду пересказывать статистику о том, как вокруг нас растёт информационный поток, но надо отметить, что в дополнение к этому росту сейчас также довольно остро встаёт проблема fake news, что делает задачу персонализации новостной ленты еще более важной и требует применения подходом, когда анализируется не только meta-информация о контенте (что сейчас применяется в большинстве движков) но и сам контент, который становится все больше мультимодальными (представляет собой текст, аудио или изображение/видеоряд).

NRS (news recommendation system), так же как и рекомендательная система для любого другого контента имеет свои особенности, сложности и вызовы. Как отдельная доменная область, новости имеют особенности.

362

itmo 21 августа в 15:25

Что там в Университете ИТМО: новые технологии, разработки, приложения и проекты ученых — подборка материалов

Блог компании Университет ИТМОХранение данных*Машинное обучение*Учебный процесс в ITРобототехника

На днях мы продолжили делиться на Хабре нашими открытыми проектами, поговорили о проблемах, связанных с продвижением технологических продуктов, и начали обсуждать исследование «публичного образа» Санкт-Петербурга. Сегодня мы подобрали дополнительные материалы о достижениях и работе ученых, специалистов, аспирантов, магистров и других представителей Университета ИТМО.

+10

F5Habr 20 августа в 19:52

Как прогнозные модели сокращают количество отказов и преждевременных ремонтных работ

Блог компании Factory5Big Data*Машинное обучение*

Разбираем, что такое прогнозные модели, как они устроены и почему им можно доверить вашу технику — на примере прогнозной модели для масляного насоса дизель-генераторной установки тепловоза.

Масляный насос — важный элемент оборудования, который отвечает за непрерывную подачу масла в двигатель и за его циркуляцию. От работы насоса зависит срок жизни двигателя, расход топлива и уровень вредных выбросов. О неисправности узла может говорить повышенный расход масла, а также снижение или рост давления масла в двигателе. Однако выявлять потенциальную проблему лучше до таких проявлений — это снизит расходы на ремонт, а также случаи выхода техники из строя и остановки производственного процесса.

Крупная сервисная компания попросила нас разработать систему, которая поможет оценивать состояние масляных насосов дизель-генераторных установок тепловозов. Рассказываем, какой инструмент применили для анализа, как собирали данные и какие получили результаты.

kmoseenk 20 августа в 16:21

predict_proba в Python не прогнозирует вероятности (и как с этим бороться)

Блог компании OTUSPython*Машинное обучение*

Перевод

Специалисты по анализу данных часто оценивают свои прогностические модели с точки зрения точности и погрешности, но редко спрашивают себя:

«Способна ли моя модель спрогнозировать реальные вероятности?»

Однако точная оценка вероятности чрезвычайно ценна с точки зрения бизнеса (иногда она даже ценнее погрешности). Хотите пример?

Представьте, что ваша компания продает два вида кружек: обычные белые кружки и кружки с котятами. Вам нужно решить, какую из кружек показать клиенту. Для этого нужно предсказать вероятность того, что пользовать может купить ту или другую кружку. Вы обучили пару моделей и у вас есть следующие результаты:

+12

3.1K

Jaylla 20 августа в 14:55

Рекомендательные системы: проблемы и методы решения. Часть 2

Блог компании PrequelАлгоритмы*Машинное обучение*Искусственный интеллект

Привет! Меня зовут Екатерина Ванская, и я занимаюсь data science в компании Prequel. В этой статье я продолжу обзор рекомендательных алгоритмов, которым мы начали в предыдущем моем материале

(вот ссылка на первую часть).

Область рекомендаций усложняется по мере расширения сферы ее применения, с каждым новым вызовом и нюансом использования. По мере увеличения объемов данных и усложнения задач появлялись новые подходы, отличные от рассмотренных ранее простых коллаборативных моделей.

1.5K

torquey 19 августа в 16:15

NLP At Scale: вся правда о предобученных моделях в Почте Mail.ru (часть 1)

Блог компании Mail.ru GroupСпам и антиспамИнформационная безопасность*Машинное обучение*

Антиспам Почты Mail.ru — это симбиоз продуктовой логики и инфраструктурных технологий, про который мы решили более подробно рассказать. В основе конечно же лежит инфраструктура, с помощью которой мы получаем возможности для развития моделей машинного обучения, а также платформа ядра, которая обеспечивает работу антиспама в онлайне. Продуктовая логика представлена в виде большого количества эвристик (куда без них) и ручных правил. На вершине продуктовой пирамиды пребывает стек моделей машинного обучения, хотя положение на вершине в данном случае достаточно условно.

В этой статье мы заберемся на эту вершину, где в последнее время часто вбивают новые колышки текстовые модели. Мы спроецируем мир текстовых ML-моделей на наш сервис, поговорим про эволюцию и решение задач Почты, связанных с текстами. Запасайтесь кислородом и свободным временем.

Читать дальше →

+14

2 3 ...

49 50

Машинное обучение *

Таблица актуальности фактических данных как архитектурное решение

Новости

Хитрый сплав: как мы соединили дата-сайентистов, разработчиков и технологов и чем это помогло металлургии

Анализ вакансий и зарплат в Data Science

Преобразования целевой переменной в задачах линейной регрессии

Как мы внедряем машинное зрение на Стойленском ГОКе

DeDLOC: обучаем большие нейросети всем миром

Претрейн для всех, и пусть никто не уйдёт обиженным

Создание приложения для анализа данных машинного обучения

Разобучите это: что такое machine unlearning и почему это важно

NLP — Преобразование текста: Word2Vec

Оплата не отходя от девайса: как мы реализовали персонализацию в устройствах Sber с помощью распознавания голоса и лица

5 трендов в аннотировании данных в 2021 году

Оценка коммерческой недвижимости с точки зрения технологий: Machine Learning, методика и другие нюансы

Статья для тех, кто не попал на Летнюю школу по компьютерному зрению

Особенности валидации моделей на Xgboost

Краткий обзор исследования «News recommender system: a review of recent progress, challenges, and opportunities»

Что там в Университете ИТМО: новые технологии, разработки, приложения и проекты ученых — подборка материалов

Как прогнозные модели сокращают количество отказов и преждевременных ремонтных работ

predict_proba в Python не прогнозирует вероятности (и как с этим бороться)

Рекомендательные системы: проблемы и методы решения. Часть 2

NLP At Scale: вся правда о предобученных моделях в Почте Mail.ru (часть 1)

Вклад авторов

Ваш аккаунт

Разделы

Информация

Услуги