Машинное обучение *

Основа искусственного интеллекта

Чат-боты в банке: где и как их применять?

Блог компании Московский кредитный банк Разработка под e-commerce *Машинное обучение *Искусственный интеллект

Меня зовут Дмитрий Литвинов, в Московском кредитном банке (МКБ) я курирую направление автоматизации внутренних сервисных подразделений – это операционный департамент, контактный центр и ряд других функций. Чат-боты стали довольно полезным инструментом для бизнесов любого размера и технология активно применяется в организациях самого разного профиля. Я бы хотел поговорить о том, какие технологические решения используются для создания ботов и как оптимально определить зоны их применения.

517

laut87 вчера в 12:34

Как мы предсказывали поломки нефтяных насосов: когда big data – это в прямом смысле нефть

Data Mining *Big Data *Машинное обучение *Научно-популярное

Привет, меня зовут Сергей Алямкин, я CTO компании Expasoft. В сфере моих профессиональных интересов: ML/DL, нейросети, квантизация, компьютерное зрение (полный список). В своей первой статье на Хабре хочу поделиться нашим пилотным проектом – как мы разрабатывали модель предиктивного обслуживания нефтедобывающих насосов для компаний из Северной Америки и России.

1.6K

Cloud4Y вчера в 10:17

Как ИИ сделает вас стройнее. Часть 2

Блог компании Cloud4Y Обработка изображений *Машинное обучение *Графический дизайн *

Перевод

Недавно мы писали о том, как ИИ помогает корректировать фигуру на фото. Тогда речь шла о проекте от Alibaba, который в целом неплохо справлялся с задачей, но имел ощутимый недостаток: если тело становилось стройнее, фон по краям мог “поехать”.

Новый проект от китайских исследователей предлагает альтернативный метод изменения формы человеческого тела, который "вылечил" эту проблему.

996

NewTechAudit 31 марта в 14:51

Нерешённые проблемы кибербезопасности в ML

Информационная безопасность *Программирование *Машинное обучение *

Искусственный интеллект (ИИ) имеет свойство не только помогать людям в бизнесе, творчестве и жизни в целом, но и вызвать всевозможные проблемы. Вопросы корректности, этичности и применение ИИ для угроз различным системам заставили людей серьезно относиться к исследованию способов сделать искусственный интеллект и машинное обучение (ML) более безопасными.

В данной статье я постараюсь кратко изложить некоторые из нерешённых проблем, связанных с кибербезопасностью, на которые исследователи в области машинного обучения советуют обратить внимание уже сейчас, во избежание рисков в будущем.

778

Dreamlone 31 марта в 14:01

Чистый AutoML для “грязных” данных: как и зачем автоматизировать предобработку таблиц в машинном обучении

Блог компании Open Data Science Open source *Python *Открытые данные *Машинное обучение *

Обработка табличных данных средствами Python для использования в моделях машинного обучения - что может быть банальнее. Казалось бы. Иногда табличные данные бывают настолько "грязными", что их вычистка занимает гораздо больше времени, чем подготовка самой модели. Так зачем это делать самому, если с этим не хуже справится AutoML...

Ну и насколько они грязные

+12

1.1K

AliExpress_Russia 31 марта в 13:39

ML-митап команды AliTech

Блог компании AliExpress Россия Машинное обучение *

Поговорим о том, как готовить данные и обучать алгоритмы, чтобы находить совпадения среди миллионов товаров (а на AliExpress их больше 2 млрд), причем разберем не только истории успешного успеха, но и попытки, которые ни к чему не привели — на первом митапе команды AliTech 7 апреля, в 18:00.

В программе:

275

kucev 31 марта в 11:44

Хотите усовершенствовать цикл обработки данных? Попробуйте задействовать людей

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

На саммите iMerit ML Data Ops глава отдела искусственного интеллекта Cruise Хуссейн Мехенна провёл с Рагаваном Сринивасаном из Facebook AI беседу, озаглавленную Emerging AI Companies are Driving a Paradigm Shift.

В беседе они обсудили важность объединения цикла обработки данных ИИ с циклом обработки данных людьми, а также поговорили о том, что люди играют критическую роль в выявлении и разрешении пограничных случаев. Сочетание лучших практик human-in-the-loop, бесперебойного сотрудничества в цикле обработки данных и образ мышления, ставящий на первое место безопасность, в конечном итоге позволят достичь высочайшей степени успеха в сфере ИИ и ML.

Важность Humans-in-the-Loop

Успех таких ИИ-продуктов, как беспилотные автомобили, зависит от усложнения цикла обработки данных, на которых они построены. Надёжные циклы работы с данными одновременно генерируют, аннотируют и непрерывно применяют новые данные в продакшене. Однако для улучшения циклов работы с данными, например, в компании Cruise, интегрируется участие человека.

Благодаря участию человека в циклах обработки данных гарантируется безопасное и эффективное выполнение высокоуровневых действий в ИИ-системах. Humans-in-the-loop непрерывно оценивают характеристики автомобиля, и обеспечивают выполнение всех связанных с автомобилем действий так, как это делал бы человек.

Читать дальше →

395

PatientZero 31 марта в 09:12

Новый ИИ DeepMind позволил историкам расшифровать древнегреческие тексты

Машинное обучение *Научно-популярное Искусственный интеллект

Перевод

На этом фрагменте надписи зафиксирован указ, касающийся афинского Акрополя, датируемый 485-484 годами до н. э.

Google DeepMind совместно с учёными создали новый ИИ-инструмент, использующий глубокие нейросети для расшифровки текста повреждённых древнегреческих надписей. Новая система под названием Ithaca построена на основе системы восстановления текста Pythia.

Согласно новой статье, опубликованной командой исследователей в журнале «Nature», Ithaca не просто помогает историкам восстанавливать текст, но и способна определять его происхождение, а также дату создания. Ithaca уже использовали для разрешения спора о корректной датировке нескольких древнеафинских указов. Интерактивная версия Ithaca доступна бесплатно, а сейчас команда переводит её код в open source.

Читать дальше →

+18

kucev 29 марта в 12:51

Ускорение семантической сегментации при помощи машинного обучения

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Зачем создавать процесс разметки данных на основе ML?

Быстрое создание высококачественной разметки данных — сложная задача. Парсинг и правильное аннотирование изображений и видео, обычно используемых в сфере беспилотного транспорта или робототехники, могут быть композиционно сложны даже для людей. Наша компания использует машинное обучение, чтобы дополнить реализуемые людьми рабочие процессы, позволяя повысить и качество, и скорость разметки. Так как модели глубокого обучения могут испытывать трудности с устойчивой производительностью в предметных областях с большим разнообразием данных, например, в сценах с участием беспилотных автомобилей, для обеспечения стабильно высокого качества необходимо найти оптимальный баланс между ML-автоматизацией и человеческим контролем.

Читать дальше →

573

MediascopeTeam 29 марта в 12:48

Применение Propensity Score Adjustment для коррекции смещений в онлайн-панелях

Блог компании Mediascope Data Mining *Big Data *Математика *Машинное обучение *

Это вторая часть нашего рассказа о работе со смещениями оценок медиа активности респондентов онлайн-панелей. В предыдущей статье мы разобрали саму проблему, причины возникновения смещений и способы их коррекции, а теперь более подробно остановимся на практическом применении алгоритма Propensity Score Adjustment для коррекции реальных онлайн-данных.

Читать

250

MediascopeTeam 29 марта в 12:47

Как работать со смещениями онлайн-панелей: методы и ML-алгоритмы коррекции

Блог компании Mediascope Data Mining *Big Data *Математика *Машинное обучение *

Если вы проводите панельные исследования, то обязательно столкнетесь с одним из главных вызовов – набрать выборку достаточного размера, которая будет достоверно отражать важные для исследования параметры генеральной совокупности. Набрать большую и качественную, а значит несмещенную выборку с применением оффлайн-рекрутмента дорого и проблематично. Однако существует альтернативный вариант – это онлайн-рекрутмент, который давно зарекомендовал себя как максимально быстрый, простой и дешевый способ привлечь респондентов для различных исследований. В то же время выборки, набранные в интернете, являются неслучайными и, как правило, искажены по ряду параметров, даже если процедура рекрутирования была хорошо спланирована. В этой статье мы расскажем о методе Propensity Score Adjustment, который применили для коррекции смещений и улучшения данных, полученных на онлайн-панелях. Этот алгоритм помогает калибровать (уточнять) вклад респондентов, набранных в панель онлайн.

Читать

347

Asimandia 28 марта в 17:00

Оптимальный маршрут доставки, скидки от срока годности и подбор одежды онлайн: 3 примера машинного обучения в e-com

Big Data *Машинное обучение *Управление e-commerce *

Чем больше у компании клиентов, тем выше объем полезных данных, на которых аналитики могут обучить предсказательные модели. Поэтому для развития логистических алгоритмов особый интерес представляют научные публикации исследователей из крупных азиатских, европейских и американских компаний.

Дата-сайентист из команды СберМаркета Дмитрий Руденко рассмотрел три научных статьи, посвященных применению машинного обучения для доставки товаров в международной компании Zalando и в двух китайских компаниях Meituan и Alibaba.

Читать дальше →

1.4K

NewTechAudit 28 марта в 08:00

Учим модели определять мошенников

Информационная безопасность *Программирование *Машинное обучение *

В 21 веке лавинообразно распространяется телефонное мошенничество, а доля разоблачения и поимки таких преступников мала. Можно ли определять мошенников в первые минуты разговора, если их телефонные номера постоянно меняются? Рассмотрим в статье.

В какой-то момент устав от проблемы телефонных мошенников, мы задались вопросом их идентификации до того момента, когда они полностью завладеют нашим вниманием и нашими средствами. Да, крупные компании предлагают установить бесплатные определители номера, которые оповещают о подозрительных номерах. Но принимая во внимание, что телефонные номера у мошенников постоянно меняются, обозначенные определители не дают высокого уровня защиты.

Помимо номера есть ещё голос мошенников. В данном ключе неопределённость о том, что мошенник может намеренно менять голос с помощью технических средств, мы опускаем в связи со сложностью их технической реализации, а навыки подражателя для ML моделей не страшны. Поэтому мы хотим создать модель, которая будет работать параллельно разговору и идентифицировать говорящего.

Так, набрав базу из записанных телефонных разговоров и выбрав точно определённые беседы, мы сможем обучить модель на нужных голосах.

Базовый подход к работе со звуковыми данными в ML заключается в предобработке записей:

1.5K

meacca 26 марта в 14:48

Нейросетевой подход к моделированию транзакций расчетного счета

Блог компании Альфа-Банк Big Data *Машинное обучение *Искусственный интеллект Natural Language Processing *

Из песочницы

Естественным источником информации в банке о покупках клиента являются карточные транзакции – любые операции, проводимые по дебетовым или кредитным картам. При этом денежные операции клиента не ограничиваются транзакциями, проводимыми с помощью карт. Оплата ЖКХ, оплата образования, крупные покупки и другие денежные переводы – это примеры транзакций, которые никак не привязаны к карте клиента, но при этом они ассоциируются с другой банковской сущностью – расчетным счетом.

Про то, как мы в Альфа-Банке применяем карточные транзакции в моделировании, мы уже рассказывали в этом посте. Логичным развитием идеи использования карточной транзакционной истории клиента является использование данных, которые содержатся в клиентской истории транзакций расчетного счета.

2.1K

NewTechAudit 25 марта в 08:00

Сказки от TENSORFLOW и LSTM

Машинное обучение *Natural Language Processing *TensorFlow *

Представляем разбор применения алгоритмов машинного обучения с использованием технологий LSTM для создания текстов.

В итоге должен получиться генератор более-менее осмысленного текста. Способы создания текстов на специальную, определенную пользователем, тему затронуты не будут – но в целом, текст будет создан в том стиле, в котором написана «обучающая выборка».

Кстати об обучающей выборке: в качестве оной будут использованы народные сказки братьев Гримм. Эти тексты будут обработаны, разбиты на биграммы уровня символов, из которых будет составлен словарь из уникальных биграмм.

999

iKintosh 24 марта в 19:26

Как прогнозировать временные ряды с ETNA

Блог компании TINKOFF Open source *Python *Машинное обучение *

Tutorial

Меня зовут Андрей, я разработчик библиотеки ETNA в Тинькофф. В статье расскажу, как быстро и легко анализировать временные ряды с помощью ETNA, зачем временным рядам столько фич, и покажу, что даже простой линейной моделью можно получить хороший результат прогнозирования.

[Под катом много картинок и GIF]

+13

2.5K

Bee_brightside 24 марта в 12:57

Как мы создавали нашу аудиоаналитику и что она умеет

Блог компании билайн бизнес Big Data *Машинное обучение *

Речевые технологии шагнули далеко вперед, спасибо машинному обучению и не только. Голосовые помощники больше не похожи на плохо смазанных роботов, у которых всегда одна интонация, да и та раздражает. Они научились (более или менее) нормально понимать запросы человека и гораздо адекватнее на них отвечать.

При этом нужно помнить, что речь — это тоже данные. И, как любые данные, речь тоже можно анализировать. А в ряде случаев — нужно. Меня зовут Алексей Новгородов, я ведущий разработчик дирекции по продуктам и технологиям больших данных. Сегодня я расскажу вам про один из наших продуктов — аудиоаналитику.

+11

1.4K

XHuviX 24 марта в 12:16

Что лучше: Spark Structured Streaming или полное прекращение работы прода?

Блог компании Ozon Tech Python *Big Data *Машинное обучение *Data Engineering *

Tutorial

Правильное построение ETL-процессов (преобразования данных) — сложная задача, а при большом объёме обрабатываемых данных неизбежно возникают проблемы с ресурсами. Поэтому нам требуется выискивать новые архитектурные решения, способные обеспечить стабильность расчётов и доступность данных, а при необходимости и масштабируемость — с минимальными усилиями.

Когда я пришел в Ozon, мне пришлось столкнуться с огромным количеством ETL-джоб. Прежде чем применить модель машинного обучения, сырые данные проходят множество этапов обработки. А само применение модели (то, ради чего существует команда) занимает всего 5% времени.

+12

2.1K

SergeyDavydenko 23 марта в 14:51

Проверка ценников в магазине с помощью YOLOv4-Tiny+EasyOCR

Блог компании Samsung Python *Алгоритмы *Машинное обучение *Искусственный интеллект

Привет всем читателям Хабра! Нас зовут Сергей и Павел, мы студенты Томского государственного университета систем управления и радиоэлектроники (ТУСУР). В прошлом году мы победили в треке “Искусственный интеллект” IV Межвузовского конкурса выпускных проектов «‎IT Академии Samsung»‎. Там мы представили проект, использующий нейронные сети для анализа информации на ценниках.

Мы распознавали ценники сети магазинов “Лента” при помощи нейронных сетей для сегментации и OCR и теперь хотим рассказать о том, как проходила работа над проектом и что мы узнали за это время.

+14

5.7K

ykobozev 22 марта в 16:30

Оптимизируй, если сможешь: как мы рассчитываем спрос на подарки с помощью ML

Блог компании Flowwow Математика *Машинное обучение *Контекстная реклама Управление продажами *

Привет, Хабр! Я работаю в компании Flowwow аналитиком по закупке трафика. Мне нравится использовать альтернативное название должности — поставщик аналитических рекомендаций. Звучит! Что собственно я делаю: обучаю ML-модели строить прогнозы и отвечать на бизнес-вопросы, сколько денег нужно заложить на маркетинговые расходы, чтобы привлекать достаточно клиентов?

В этой статье хочу поделиться, что уже умеет наша ML-модель в плане прогнозирования повторных покупок и привлечения новых клиентов.