Как стать автором

Data Mining *

Глубинный анализ данных

Статьи Посты Новости Авторы Компании

digitalsibur 29 янв 2019 в 13:13

Как победить в цифровом WorldSkills? На практическом примере

6 мин

6K

Блог компании Цифровой СИБУРСпортивное программирование*Data Mining*ХакатоныМашинное обучение*

Привет, Хабр!

В декабре наш коллега от направления «Продвинутая аналитика» Леонид Шерстюк занял первое место в компетенции Машинное обучение и большие данные во II отраслевом чемпионате DigitalSkills. Это «цифровая» ветка известных профессиональных конкурсов, которые устраивает WorldSkills Russia. Всего в чемпионате приняли участие более 200 человек, соревновались за лидерство по 25 цифровым компетенциям – Корпоративная защита от внутренних угроз ИБ, Интернет-маркетинг, Разработка компьютерных игр и мультимедийных приложений, Квантовые технологии, Интернет вещей, Промышленный дизайн и т.д.

В качестве кейса для Машинного обучения была предложена задача по мониторингу и обнаружению дефектов трубопроводов АЭС, нефтяных и газотрубопроводов с помощью системы полуавтоматического ультразвукового контроля.

О том, что было на конкурсе и как ему удалось победить, Леонид расскажет под катом.

Читать дальше →

+19

Kostya_Klyuch 29 янв 2019 в 11:00

Почему работой CarPrice управляет искусственный интеллект?

8 мин

6.7K

Блог компании CarPriceData Mining*Алгоритмы*Машинное обучение*Искусственный интеллект

О нейросетях последние года три было написано и сказано немало. Подумав, мы тоже решили рассказать, как мы используем «искусственный разум» в повседневной работе. Тем более что со многими рутинными операциями он справляется значительно лучше людей.

В продажах автомобилей все основные операции традиционно завязаны на людях — эмоциональных и в разной степени надежных. Ежегодно CarPrice проводит до 150 тысяч аукционов, а значит в недрах компании накапливается терабайты статистики по каждой модели авто, от ее реального состояния и до динамики цены в зависимости от места продажи и времени суток. Можно ли, анализируя массивы информации увеличивать конверсию в продажу? Можно и нужно!

Читать дальше →

+20

Porfus 25 янв 2019 в 19:04

Делаем рейтинг городов России по качеству дорог

9 мин

20K

Data Mining*Машинное обучение*Исследования и прогнозы в IT*Искусственный интеллект

Из песочницы

В очередной раз проезжая на машине по родному городу и объезжая очередную яму я подумал: а везде ли в нашей стране такие «хорошие» дороги и решил — надо объективно оценить ситуацию с качеством дорог в нашей стране.

Читать дальше →

+87

crazybrake 23 янв 2019 в 15:58

FPGA митап в Санкт-Петербурге

1 мин

3.6K

Data Mining*Машинное обучение*FPGA*Криптовалюты

Update. Видео выступлений выложены на YouTube:
1) про быстрые платы с FPGA
2) про 10G на Cyclone 10 GX

Более 15 лет мы разрабатываем устройства на FPGA и переносим сложные и разные алгоритмы в FPGA, а площадки для офф-лайн общения в России найти не смогли. Поэтому решили, что надо развивать направление самостоятельно: для начала организуем встречу в Санкт-Петербурге в «митап»-формате для разработчиков FPGA и интересующихся этой тематикой.

Собираемся для неформального общения 29 января в 19:00. Событие называется «Байки FPGA-шников». Будет пара докладов про то, с чем пришлось столкнуться в 2018 году в процессе разработки, разговоры на около-FPGA'шные темы и кофе-плюшки-пицца.

Подробности по ссылке (там же адрес и регистрация).

Читать дальше →

+28

m31 22 янв 2019 в 13:18

Опрос Data Science Tools 2019

1 мин

2.9K

Data Mining*Big Data*R*Машинное обучение*Искусственный интеллект

Хабр, привет! Хочу пригласить всех дата-сайентистов принять участие в опросе об инструментах, которые вы используете в своей работе. Результаты опроса обязательно опубликую в отдельном посте.

+11

redmadrobot 15 янв 2019 в 11:35

Чисти, размечай: как мы учили чатбот различать клиентские вопросы

11 мин

4.4K

Блог компании red_mad_robotData Mining*Big Data*Машинное обучение*Искусственный интеллект

Антон Чайников, разработчик Data Science, Redmadrobot
Привет, Хабр! Сегодня я расскажу о терниях на пути к чатботу, облегчающему работу операторам чата страховой компании. А точнее, как мы учили бота отличать друг от друга запросы с помощью машинного обучения. С какими моделями экспериментировали и какие получили результаты. Как сделали четыре подхода к чистке и обогащению данных приличного качества и пять попыток чистки данных качества «неприличного».

Читать дальше →

+9

Dreamastiy 10 янв 2019 в 11:01

Использовать машинное обучение не сложно. Для этого достаточно в течение недели…

5 мин

17K

Блог компании SASData Mining*Big Data*Машинное обучение*

В прошлых статьях я попытался рассказать про основы ценообразования и построения дерева принятия решений покупателя для классического ритейла. В данной статье расскажу про очень нестандартный кейс и постараюсь убедить вас, что использовать машинное обучение не так сложно, как кажется. Статья менее техничная и скорее призвана показать, что можно начать с малого и это уже принесет ощутимую пользу для бизнеса.

Читать дальше →

+17

Plarium 9 янв 2019 в 15:01

Data Science: книги для начального уровня

3 мин

72K

Блог компании PlariumPython*Data Mining*Big Data*Машинное обучение*

Data Science — наука о данных, возникшая на стыке нескольких обширных направлений: программирования, математики и машинного обучения. Этим обусловлен высокий порог вхождения в профессию и необходимость постоянно получать новые знания.

Ключевыми навыками для начинающих специалистов являются:

умение писать код (Python);
способность визуализировать свои результаты;
понимание того, что происходит «под капотом».

На эти три категории разделены книги, которые специалисты Plarium Krasnodar подобрали для читателей с начальными знаниями в Data Science.

Читать дальше →

+17

info_habr 28 дек 2018 в 15:34

Обзор NeurIPS-2018 (ex. NIPS)

20 мин

4.8K

Блог компании МТСData Mining*Математика*Машинное обучение*Искусственный интеллект

В начале декабря в Монреале прошла 32-ая ежегодная конференция Neural Information Processing Systems, посвященная машинному обучению. По неофициальному табелю о рангах эта конференция является топ-1 событием подобного формата в мире. Все билеты на конференцию в этом году были раскуплены за рекордные 13 минут. У нас большая команда data scientist’ов МТС, но лишь одному из них – Марине Ярославцевой (magoli) – посчастливилось попасть в Монреаль. Вместе с Данилой Савенковым (danila_savenkov), который остался без визы и следил за конференцией из Москвы, мы расскажем о работах, показавшихся нам наиболее интересными. Эта выборка очень субъективна, но, надеемся, она заинтересует вас.

Читать дальше →

+15

dimakul 28 дек 2018 в 13:25

Вия, Уая, Вая, Вайя – “трудности перевода”, или что скрывается за новой платформой SAS Viya (Вайя)

12 мин

5.8K

Блог компании SASData Mining*Облачные вычисления*Big Data*Визуализация данных*

В сети можно найти огромное количество разнообразных статей о методах использования алгоритмов математической статистики, о нейронных сетях и в целом о пользе машинного обучения. Данные направления способствуют существенному улучшению жизни человека и светлому будущему роботов. Например, заводы нового поколения, способные работать полностью или частично без вмешательства человека или машины с автопилотом.

Разработчики объединяют комбинации этих подходов и методов машинного обучения в различные направления. Эти направления впоследствии получают названия, оригинальные и не очень, например: IOT (Internet Of Things), WOT (Web Of Things), Индустрия 4.0 (Industry 4.0), Artificial Intelligence (AI) и другие. Данные концепции объединяет то, что их описание является верхнеуровневым, то есть не рассматриваются ни конкретные инструменты и технологии, ни уже готовые к внедрению системы, а основной целью является визуализация желаемого результата. Но технологии уже существуют, хотя часто не имеют единой платформы.

Читать дальше →

+10

640509-040147 25 дек 2018 в 14:36

Предсказываем время решения тикета с помощью машинного обучения

21 мин

6.9K

Блог компании DINSPython*Data Mining*Машинное обучение*

Оформляя тикет в системе управления проектами и отслеживания задач, каждый из нас рад видеть ориентировочные сроки решения по своему обращению.
Получая поток входящих тикетов, человеку/команде необходимо выстроить их в очередь по приоритету и по времени, которое займет решение каждого обращения.
Все это позволяет эффективнее планировать своё время обеим сторонам.

Под катом я расскажу о том, как проводил анализ и обучал ML модели, предсказывающие время решения оформляемых в нашу команду тикетов.

Читать дальше →

+14

1appleapple0 24 дек 2018 в 23:28

Я у мамы алготрейдер: ищем бесплатные фреймворки для тестирования гипотез и запуска в боевом режиме (Python)

9 мин

16K

Python*Data Mining*Алгоритмы*Финансы в ITDIY или Сделай сам

Допустим, вы имели какое-то отношение к фондовому рынку раньше. Или, не имея такового, увлеклись горячей (но в последние месяцы уже заметно похолодевшей....) темой криптовалют. Также предположим, что вы пошли еще дальше и решили, что «ручное управление» полетами уже неэффективно и надо бы автоматизировать свои светлые идеи и превратить мартышкин труд в нечто более технологичное. Ровно на этом моменте начинаются вопросы, которые я хотел бы обсудить в статье, а именно: есть ли готовое решение для бэктестинга торговых идей (бесплатное желательно), где взять исторические данные (в идеале бесплатно), а также что с этим всем потом делать, т.е. какие существуют решения для боевого запуска автоматизированных торговых систем, успешно проверенных на бэктесте? Примечание первое и второе: статья написана для Python-based библиотек и систем, как дела с доступностью для других языков судить не могу; в приоритете — зарубежные рынки и/или криптовалюты, относительно применимости к фондовому рынку РФ судить также не берусь.

Читать дальше →

+2

randall 24 дек 2018 в 12:57

Face Recognition Ivideon: самая доступная система распознавания лиц для бизнеса

5 мин

13K

Блог компании IvideonData Mining*Обработка изображений*Облачные сервисы*Будущее здесь

Мы долго шли к этому дню. Ещё в 2012 году на Хабре мы объявили конкурс на создание демонстрационного приложения с использованием OpenCV для слежения за несколькими объектами и, в конечном счете, для запуска сервиса детекции лиц.

Наша цель – сделать функции видеоанализа, которые присутствуют в дорогостоящих профессиональных решениях, доступными для любого пользователя. Мы думали, что быстро достигнем намеченной цели, но недооценили сложность задачи.

Проблему можно было решить, создав собственную систему. Но оказалось, что это долго и дорого для клиентов. Мы выбрали второй путь – стать интеграционной платформой для сторонних поставщиков модулей распознавания лиц.

Хотя за кадром остаются годы поиска и тестов, давайте сразу посмотрим, как сейчас работает наше решение для малого и среднего бизнеса. Почему для них? Раньше системы такого уровня устанавливали в аэропортах, метро или в периметре крупных предприятий. Теперь Ivideon запускает бета-релиз модуля распознавания лиц по доступным для всех тарифам от 1 700 рублей.

+11

Dreamastiy 20 дек 2018 в 11:18

Как вы выбираете продукты в магазине?

5 мин

14K

Блог компании SASData Mining*Машинное обучение*Социальные сети и сообщества

Самая главная формула успеха — знание, как обращаться с людьми. Теодор Рузвельт

В прошлой статье попытался рассказать про основы аналитики ценообразования. Теперь давайте поговорим о более интересных вещах.

Вы когда-нибудь задумывались о том, почему вы покупаете определенные продукты в магазинах, как выбираете среди множества аналогов? Скорее всего, четкого ответа под все возможные походы в магазин дать не получится, многие из них спонтанны. Но общая идея очевидна – при походе в магазин вы пытаетесь закрыть имеющуюся потребность (в еде, гаджетах, развлечениях, блэкджеке). В данной статье на примере продуктовых ритейлеров расскажу об имеющемся опыте, как используя некоторые базовые логические предположения и анализ сообществ в графах, можно определить, как именно покупатели выбирают товар.

Читать дальше →

+23

stleznev 19 дек 2018 в 11:10

Как с помощью компьютерного зрения оценить состояние автомобиля. Опыт Яндекс.Такси

10 мин

34K

Блог компании ЯндексData Mining*Алгоритмы*Обработка изображений*Машинное обучение*

Мы стремимся к тому, чтобы после заказа такси к пользователю приезжал чистый, исправный автомобиль той марки, того цвета и с тем номером, которые отображаются в приложении. И для этого мы используем дистанционный контроль качества (ДКК).

Сегодня я расскажу читателям Хабра о том, как с помощью машинного обучения снизить затраты на контроль качества в быстро растущем сервисе с сотнями тысяч машин и не выпустить на линию машину, которая не соответствует правилам сервиса.

Читать дальше →

+43

Matshishkapeu 17 дек 2018 в 17:27

Сравнительный анализ рынков б.у. Автомобилей Германии и Франции в B и C сегменте

7 мин

8K

Data Mining*Визуализация данных*IT-эмиграция

Из песочницы

Привет, Хабр!

В этом посте я хотел поделиться опытом использования нескольких питоновых инструментов для сравнительного анализа рынка подержанных машин в Европе на примере Германии и Франции.

Читать дальше →

+13

MaxRokatansky 13 дек 2018 в 18:41

Открытый урок «Feature Engineering на примере классического датасета Титаника»

5 мин

6.9K

Блог компании OTUSПрограммирование*Data Mining*Big Data*

И снова привет!

В декабре у нас стартует обучение очередной группы «Data scientist», поэтому открытых уроков и прочих активностей становится всё больше. Например, буквально на днях прошёл вебинар под длинным названием «Feature Engineering на примере классического датасета Титаника». Его провёл Александр Сизов — опытный разработчик, кандидат технических наук, эксперт по Machine/Deep learning и участник различных коммерческих международных проектов, связанных с искусственным интеллектом и анализом данных.

Открытый урок занял около полутора часов. В ходе вебинара преподаватель рассказал про подбор признаков, преобразование исходных данных (кодирование, масштабирование), настройку параметров, обучение модели и много чего ещё. В процессе проведения урока участникам показывалась тетрадь Jupyter Notebook. Для работы использовались открытые данные с платформы Kaggle (классический датасет про «Титаник», с которого многие начинают знакомство с Data Science). Ниже предлагаем видео и транскрипт прошедшего мероприятия, а тут можно забрать презентацию и коды в юпитеровском ноутбуке.

+14

almiradreamer 13 дек 2018 в 17:12

Как отличить шампунь от шампиньонов, а шампуры от шампанского… Elasticsearch — поиск товаров в магазинных базах данных

10 мин

12K

Data Mining*Natural Language Processing*

Из песочницы

Задача

Одна из больших задач приложения для хранения и анализа покупок — поиск одинаковых или очень близких продуктов в базе данных, где собраны разномастные и непонятные наименования продуктов, полученные из чеков. Есть два вида входного запроса:

Специфичное название с сокращениями, которое может быть понятно только кассирам местного супермаркета, либо заядлым покупателям.
Запрос на естественном языке, введенный пользователем в поисковую строку.

Запросы первого вида, как правило, исходят из продуктов в самом чеке, когда пользователю нужно подыскать продукты подешевле. Наша задача заключается в том, чтобы подобрать максимально похожий аналог товара из чека в других магазинах поблизости. Здесь важно подобрать наиболее соответствующую марку продукта и по возможности объём.

Читать дальше →

+24

MaxRokatansky 6 дек 2018 в 15:28

Модели Sequence-to-Sequence Ч.2

6 мин

2.7K

Блог компании OTUSData Mining*Big Data*Машинное обучение*

Перевод

Всем привет!

Вторая часть перевода, который мы разместили пару недель назад, в рамках подготовки к старту второго потока курса «Data scientist». Впереди ещё один интересный материал и открытый урок.

А пока поехали дальше в дебри моделей.

Модель нейронного перевода

В то время как ядро sequence-to-sequence модели создается функциями из tensorflow/tensorflow/python/ops/seq2seq.py, остается еще пара трюков, использующихся в нашей модели перевода в models/tutorials/rnn/translate/seq2seq_model.py, о которых стоит упомянуть.

Читать дальше →

+11

sannikovdmitry 4 дек 2018 в 16:27

Граали соревнования Telecom Data Cup. Самое жаркое впереди

4 мин

6.4K

Блог компании VKData Mining*Big Data*Машинное обучение*

В начале ноября стартовал чемпионат по машинному обучению и анализу данных под кодовым названием Telecom Data Cup, организаторами которого являются Mail.Ru Group и МегаФон.

Соревнование запущено на уже известной платформе ML Boot Camp. На ней стараемся проводить большинство своих контестов по анализу данных. Это соревнование уже второе по счету в этом году и седьмое за всё время существования проекта. Предыдущие чемпионаты открыты в режиме песочницы, что позволяет вам в любое время дня и ночи тренироваться в решении прошлых заданий.

На текущее соревнование зарегистрировалось свыше 2500 пользователей, 1700 человек скачали датасет, загружено 7800 различных решений, а сообщество в чате перешагнуло отметку в 1600 участников. Завершится соревнование 16 декабря, поэтому пора уже вступать в бойцовский клуб, если вы еще не в нем. Приветствуем и помогаем всем. Кофе или что-то свое собственное и бодрящее вам в помощь :)

В футере статьи вы найдете полезные ссылки и материалы по этому и предыдущим соревнованиям. Главное, что уже сейчас вы погрузитесь в мир задачи Telecom Data Cup, что позволит вам быстро втянуться в процесс и получить удовольствие от настоящих исследований.

Читать дальше →

+27

1 2 ...

50

51 52 ...