Как стать автором
Обновить
124.94
Рейтинг

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга

Чат-боты в банке: где и как их применять?

Блог компании Московский кредитный банк Разработка под e-commerce *Машинное обучение *Искусственный интеллект

Меня зовут Дмитрий Литвинов, в Московском кредитном банке (МКБ) я курирую направление автоматизации внутренних сервисных подразделений – это операционный департамент, контактный центр и ряд других функций. Чат-боты стали довольно полезным инструментом для бизнесов любого размера и технология активно применяется в организациях самого разного профиля. Я бы хотел поговорить о том, какие технологические решения используются для создания ботов и как оптимально определить зоны их применения.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 517
Комментарии 3

Новости

Как мы предсказывали поломки нефтяных насосов: когда big data – это в прямом смысле нефть

Data Mining *Big Data *Машинное обучение *Научно-популярное

Привет, меня зовут Сергей Алямкин, я CTO компании Expasoft. В сфере моих профессиональных интересов: ML/DL, нейросети, квантизация, компьютерное зрение (полный список). В своей первой статье на Хабре хочу поделиться нашим пилотным проектом – как мы разрабатывали модель предиктивного обслуживания нефтедобывающих насосов для компаний из Северной Америки и России.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 1.6K
Комментарии 3

Как ИИ сделает вас стройнее. Часть 2

Блог компании Cloud4Y Обработка изображений *Машинное обучение *Графический дизайн *
Перевод

Недавно мы писали о том, как ИИ помогает корректировать фигуру на фото. Тогда речь шла о проекте от Alibaba, который в целом неплохо справлялся с задачей, но имел ощутимый недостаток: если тело становилось стройнее, фон по краям мог “поехать”.

Новый проект от китайских исследователей предлагает альтернативный метод изменения формы человеческого тела, который "вылечил" эту проблему.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 996
Комментарии 0

Нерешённые проблемы кибербезопасности в ML

Информационная безопасность *Программирование *Машинное обучение *

Искусственный интеллект (ИИ) имеет свойство не только помогать людям в бизнесе, творчестве и жизни в целом, но и вызвать всевозможные проблемы. Вопросы корректности, этичности и применение ИИ для угроз различным системам заставили людей серьезно относиться к исследованию способов сделать искусственный интеллект и машинное обучение (ML) более безопасными.

В данной статье я постараюсь кратко изложить некоторые из нерешённых проблем, связанных с кибербезопасностью, на которые исследователи в области машинного обучения советуют обратить внимание уже сейчас, во избежание рисков в будущем.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 778
Комментарии 0

Чистый AutoML для “грязных” данных: как и зачем автоматизировать предобработку таблиц в машинном обучении

Блог компании Open Data Science Open source *Python *Открытые данные *Машинное обучение *

Обработка табличных данных средствами Python для использования в моделях машинного обучения - что может быть банальнее. Казалось бы. Иногда табличные данные бывают настолько "грязными", что их вычистка занимает гораздо больше времени, чем подготовка самой модели. Так зачем это делать самому, если с этим не хуже справится AutoML...

Ну и насколько они грязные
Всего голосов 14: ↑13 и ↓1 +12
Просмотры 1.1K
Комментарии 0

ML-митап команды AliTech

Блог компании AliExpress Россия Машинное обучение *

Поговорим о том, как готовить данные и обучать алгоритмы, чтобы находить совпадения среди миллионов товаров (а на AliExpress их больше 2 млрд), причем разберем не только истории успешного успеха, но и попытки, которые ни к чему не привели — на первом митапе команды AliTech 7 апреля, в 18:00.

В программе:

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 275
Комментарии 2

Хотите усовершенствовать цикл обработки данных? Попробуйте задействовать людей

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод

На саммите iMerit ML Data Ops глава отдела искусственного интеллекта Cruise Хуссейн Мехенна провёл с Рагаваном Сринивасаном из Facebook AI беседу, озаглавленную Emerging AI Companies are Driving a Paradigm Shift.

В беседе они обсудили важность объединения цикла обработки данных ИИ с циклом обработки данных людьми, а также поговорили о том, что люди играют критическую роль в выявлении и разрешении пограничных случаев. Сочетание лучших практик human-in-the-loop, бесперебойного сотрудничества в цикле обработки данных и образ мышления, ставящий на первое место безопасность, в конечном итоге позволят достичь высочайшей степени успеха в сфере ИИ и ML.

Важность Humans-in-the-Loop


Успех таких ИИ-продуктов, как беспилотные автомобили, зависит от усложнения цикла обработки данных, на которых они построены. Надёжные циклы работы с данными одновременно генерируют, аннотируют и непрерывно применяют новые данные в продакшене. Однако для улучшения циклов работы с данными, например, в компании Cruise, интегрируется участие человека.

Благодаря участию человека в циклах обработки данных гарантируется безопасное и эффективное выполнение высокоуровневых действий в ИИ-системах. Humans-in-the-loop непрерывно оценивают характеристики автомобиля, и обеспечивают выполнение всех связанных с автомобилем действий так, как это делал бы человек.
Читать дальше →
Рейтинг 0
Просмотры 395
Комментарии 0

Новый ИИ DeepMind позволил историкам расшифровать древнегреческие тексты

Машинное обучение *Научно-популярное Искусственный интеллект
Перевод
image

На этом фрагменте надписи зафиксирован указ, касающийся афинского Акрополя, датируемый 485-484 годами до н. э.

Google DeepMind совместно с учёными создали новый ИИ-инструмент, использующий глубокие нейросети для расшифровки текста повреждённых древнегреческих надписей. Новая система под названием Ithaca построена на основе системы восстановления текста Pythia.

Согласно новой статье, опубликованной командой исследователей в журнале «Nature», Ithaca не просто помогает историкам восстанавливать текст, но и способна определять его происхождение, а также дату создания. Ithaca уже использовали для разрешения спора о корректной датировке нескольких древнеафинских указов. Интерактивная версия Ithaca доступна бесплатно, а сейчас команда переводит её код в open source.
Читать дальше →
Всего голосов 18: ↑18 и ↓0 +18
Просмотры 2K
Комментарии 1

Ускорение семантической сегментации при помощи машинного обучения

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод

Зачем создавать процесс разметки данных на основе ML?


Быстрое создание высококачественной разметки данных — сложная задача. Парсинг и правильное аннотирование изображений и видео, обычно используемых в сфере беспилотного транспорта или робототехники, могут быть композиционно сложны даже для людей. Наша компания использует машинное обучение, чтобы дополнить реализуемые людьми рабочие процессы, позволяя повысить и качество, и скорость разметки. Так как модели глубокого обучения могут испытывать трудности с устойчивой производительностью в предметных областях с большим разнообразием данных, например, в сценах с участием беспилотных автомобилей, для обеспечения стабильно высокого качества необходимо найти оптимальный баланс между ML-автоматизацией и человеческим контролем.
Читать дальше →
Рейтинг 0
Просмотры 573
Комментарии 0

Применение Propensity Score Adjustment для коррекции смещений в онлайн-панелях

Блог компании Mediascope Data Mining *Big Data *Математика *Машинное обучение *

Это вторая часть нашего рассказа о работе со смещениями оценок медиа активности респондентов онлайн-панелей. В предыдущей статье мы разобрали саму проблему, причины возникновения смещений и способы их коррекции, а теперь более подробно остановимся на практическом применении алгоритма Propensity Score Adjustment для коррекции реальных онлайн-данных.

Читать
Рейтинг 0
Просмотры 250
Комментарии 0

Как работать со смещениями онлайн-панелей: методы и ML-алгоритмы коррекции

Блог компании Mediascope Data Mining *Big Data *Математика *Машинное обучение *

Если вы проводите панельные исследования, то обязательно столкнетесь с одним из главных вызовов – набрать выборку достаточного размера, которая будет достоверно отражать важные для исследования параметры генеральной совокупности. Набрать большую и качественную, а значит несмещенную выборку с применением оффлайн-рекрутмента дорого и проблематично. Однако существует альтернативный вариант – это онлайн-рекрутмент, который давно зарекомендовал себя как максимально быстрый, простой и дешевый способ привлечь респондентов для различных исследований. В то же время выборки, набранные в интернете, являются неслучайными и, как правило, искажены по ряду параметров, даже если процедура рекрутирования была хорошо  спланирована.  В этой статье мы расскажем о методе  Propensity Score Adjustment, который применили для коррекции смещений и улучшения данных, полученных на онлайн-панелях. Этот алгоритм помогает калибровать (уточнять) вклад респондентов, набранных в панель онлайн.

Читать
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 347
Комментарии 0

Оптимальный маршрут доставки, скидки от срока годности и подбор одежды онлайн: 3 примера машинного обучения в e-com

Big Data *Машинное обучение *Управление e-commerce *
image

Чем больше у компании клиентов, тем выше объем полезных данных, на которых аналитики могут обучить предсказательные модели. Поэтому для развития логистических алгоритмов особый интерес представляют научные публикации исследователей из крупных азиатских, европейских и американских компаний.

Дата-сайентист из команды СберМаркета Дмитрий Руденко рассмотрел три научных статьи, посвященных применению машинного обучения для доставки товаров в международной компании Zalando и в двух китайских компаниях Meituan и Alibaba.
Читать дальше →
Всего голосов 9: ↑8 и ↓1 +7
Просмотры 1.4K
Комментарии 4

Учим модели определять мошенников

Информационная безопасность *Программирование *Машинное обучение *

В 21 веке лавинообразно распространяется телефонное мошенничество, а доля разоблачения и поимки таких преступников мала. Можно ли определять мошенников в первые минуты разговора, если их телефонные номера постоянно меняются? Рассмотрим в статье.

В какой-то момент устав от проблемы телефонных мошенников, мы задались вопросом их идентификации до того момента, когда они полностью завладеют нашим вниманием и нашими средствами. Да, крупные компании предлагают установить бесплатные определители номера, которые оповещают о подозрительных номерах. Но принимая во внимание, что телефонные номера у мошенников постоянно меняются, обозначенные определители не дают высокого уровня защиты.

Помимо номера есть ещё голос мошенников. В данном ключе неопределённость о том, что мошенник может намеренно менять голос с помощью технических средств, мы опускаем в связи со сложностью их технической реализации, а навыки подражателя для ML моделей не страшны. Поэтому мы хотим создать модель, которая будет работать параллельно разговору и идентифицировать говорящего.

Так, набрав базу из записанных телефонных разговоров и выбрав точно определённые беседы, мы сможем обучить модель на нужных голосах.

Базовый подход к работе со звуковыми данными в ML заключается в предобработке записей:

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 1.5K
Комментарии 2

Нейросетевой подход к моделированию транзакций расчетного счета

Блог компании Альфа-Банк Big Data *Машинное обучение *Искусственный интеллект Natural Language Processing *
Из песочницы

Естественным источником информации в банке о покупках клиента являются карточные транзакции – любые операции, проводимые по дебетовым или кредитным картам. При этом денежные операции клиента не ограничиваются транзакциями, проводимыми с помощью карт. Оплата ЖКХ, оплата образования, крупные покупки и другие денежные переводы – это примеры транзакций, которые никак не привязаны к карте клиента, но при этом они ассоциируются с другой банковской сущностью – расчетным счетом. 

Про то, как мы в Альфа-Банке применяем карточные транзакции в моделировании, мы уже рассказывали в этом посте. Логичным развитием идеи использования карточной транзакционной истории клиента является использование данных, которые содержатся в клиентской истории транзакций расчетного счета.

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 2.1K
Комментарии 0

Сказки от TENSORFLOW и LSTM

Машинное обучение *Natural Language Processing *TensorFlow *

Представляем разбор применения алгоритмов машинного обучения с использованием технологий LSTM для создания текстов.

В итоге должен получиться генератор более-менее осмысленного текста. Способы создания текстов на специальную, определенную пользователем, тему затронуты не будут – но в целом, текст будет создан в том стиле, в котором написана «обучающая выборка».

Кстати об обучающей выборке: в качестве оной будут использованы народные сказки братьев Гримм. Эти тексты будут обработаны, разбиты на биграммы уровня символов, из которых будет составлен словарь из уникальных биграмм.

Читать далее
Всего голосов 3: ↑2 и ↓1 +1
Просмотры 999
Комментарии 0

Как прогнозировать временные ряды с ETNA

Блог компании TINKOFF Open source *Python *Машинное обучение *
Tutorial

Меня зовут Андрей, я разработчик библиотеки ETNA в Тинькофф. В статье расскажу, как быстро и легко анализировать временные ряды с помощью ETNA, зачем временным рядам столько фич, и покажу, что даже простой линейной моделью можно получить хороший результат прогнозирования.

[Под катом много картинок и GIF]

Читать далее
Всего голосов 13: ↑13 и ↓0 +13
Просмотры 2.5K
Комментарии 0

Как мы создавали нашу аудиоаналитику и что она умеет

Блог компании билайн бизнес Big Data *Машинное обучение *

Речевые технологии шагнули далеко вперед, спасибо машинному обучению и не только. Голосовые помощники больше не похожи на плохо смазанных роботов, у которых всегда одна интонация, да и та раздражает. Они научились (более или менее) нормально понимать запросы человека и гораздо адекватнее на них отвечать. 

При этом нужно помнить, что речь — это тоже данные. И, как любые данные, речь тоже можно анализировать. А в ряде случаев — нужно. Меня зовут Алексей Новгородов, я ведущий разработчик дирекции по продуктам и технологиям больших данных. Сегодня я расскажу вам про один из наших продуктов — аудиоаналитику.

Читать далее
Всего голосов 15: ↑13 и ↓2 +11
Просмотры 1.4K
Комментарии 2

Что лучше: Spark Structured Streaming или полное прекращение работы прода?

Блог компании Ozon Tech Python *Big Data *Машинное обучение *Data Engineering *
Tutorial

Правильное построение ETL-процессов (преобразования данных) — сложная задача, а при большом объёме обрабатываемых данных неизбежно возникают проблемы с ресурсами. Поэтому нам требуется выискивать новые архитектурные решения, способные обеспечить стабильность расчётов и доступность данных, а при необходимости и масштабируемость — с минимальными усилиями.

Когда я пришел в Ozon, мне пришлось столкнуться с огромным количеством ETL-джоб. Прежде чем применить модель машинного обучения, сырые данные проходят множество этапов обработки. А само применение модели (то, ради чего существует команда) занимает всего 5% времени.

Читать далее
Всего голосов 14: ↑13 и ↓1 +12
Просмотры 2.1K
Комментарии 7

Проверка ценников в магазине с помощью YOLOv4-Tiny+EasyOCR

Блог компании Samsung Python *Алгоритмы *Машинное обучение *Искусственный интеллект

Привет всем читателям Хабра! Нас зовут Сергей и Павел, мы студенты Томского государственного университета систем управления и радиоэлектроники (ТУСУР). В прошлом году мы победили в треке “Искусственный интеллект” IV Межвузовского конкурса выпускных проектов «‎IT Академии Samsung»‎. Там мы представили проект, использующий нейронные сети для анализа информации на ценниках.

Мы распознавали ценники сети магазинов “Лента” при помощи нейронных сетей для сегментации и OCR и теперь хотим рассказать о том, как проходила работа над проектом и что мы узнали за это время.

Читать далее
Всего голосов 16: ↑15 и ↓1 +14
Просмотры 5.7K
Комментарии 26

Оптимизируй, если сможешь: как мы рассчитываем спрос на подарки с помощью ML

Блог компании Flowwow Математика *Машинное обучение *Контекстная реклама Управление продажами *

Привет, Хабр! Я работаю в компании Flowwow аналитиком по закупке трафика. Мне нравится использовать альтернативное название должности — поставщик аналитических рекомендаций. Звучит! Что собственно я делаю: обучаю ML-модели строить прогнозы и отвечать на бизнес-вопросы, сколько денег нужно заложить на маркетинговые расходы, чтобы привлекать достаточно клиентов? 

В этой статье хочу поделиться, что уже умеет наша ML-модель в плане прогнозирования повторных покупок и привлечения новых клиентов.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 770
Комментарии 7

Вклад авторов

Работа

Data Scientist
87 вакансий