Как стать автором
Обновить
85.88
Рейтинг

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга

SLA против дебиторки: как качество сервиса влияет на уровень задолженности жителей за ЖКУ

Data Mining *Бизнес-модели *IT-компании
Из песочницы

Меня зовут Евгений, я – директор по продукту в IT-компании, которая занимается цифровизацией ЖКХ и автоматизирует рутинные процессы в управляющих организациях. 

Взыскание задолженности за коммунальные услуги - головная боль всех управляющих компаний. Лучше предотвращать появление долгов, чем возвращать их.

Один из главных бизнес-процессов в управляющих компаниях - исполнение заявок от жителей. Качество этого процесса можно охарактеризовать SLA (Service Level Agreement), который включает показатели: срок принятия заявки клиента в работу, срок выполнения заявки, маршрут выполнения заявки

В этой статье расскажу, как мы с помощью методов процессной аналитики (Process Mining) проверили гипотезу о наличии зависимости дебиторской задолженности от соблюдения SLA

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 427
Комментарии 2

Новости

Непрерывное обучение для продакшен-систем

Data Mining *Big Data *Машинное обучение *Управление разработкой *Искусственный интеллект
Перевод
image

Жизненный цикл машинного обучения

Введение


Методология agile-разработки ПО, популяризированная примерно в 2010 году манифестом Agile Software Development, продвигает идею адаптивного планирования, эволюционного развития, быстрой доставки и непрерывного совершенствования как ключевых свойств, обеспечивающих быстрый и гибкий отклик на постоянно ускоряющиеся изменения рынка и его требований.

Поскольку линейные каскадные модели, позаимствованные из отраслей производства и строительства, оказались неспособны обеспечить конкурентное преимущество в постоянно усложняющемся и быстро меняющемся мире ПО, модели Agile и Scrum стали де-факто стандартом для современной разработки ПО.

Но что произойдёт, когда мы осуществим переход к Software 2.0?
Читать дальше →
Всего голосов 1: ↑0 и ↓1 -1
Просмотры 467
Комментарии 0

Разбираемся с платформами обработки данных на примере барбершопа «Бородатый сисадмин». Какие бывают и всем ли они нужны

Блог компании Selectel IT-инфраструктура *Data Mining *Big Data *Машинное обучение *

Обычно тексты про работу с данными начинаются с числа, демонстрирующего объем производимых в мире данных. Или пассажа про то, что данные — новые золотые прииски («data is the new oil»). Это недалеко от правды: если раньше для понимания своих пользователей компаниям нужно было заказывать крупные социологические исследования, то сейчас, с глобальной цифровизацией, пользователи сами — осознанно или нет — предоставляет данные о себе.

Обрабатывают данные, то есть вытаскивают из них пользу, совершенно разнопрофильные компании. Даже сеть семейных парикмахерских на районе может вести отчеты в Excel, используя ее как CRM-систему. На основе данных вывели список клиентов, давно не приходивших на стрижку? Самое время кинуть им sms с «индивидуальной» скидкой.

В какой момент бизнесу стоит организовать целую платформу для обработки данных? Всегда ли обработка данных — это про big data? И какие варианты есть сейчас в России? Об этом всем — под катом.
Читать дальше →
Всего голосов 21: ↑21 и ↓0 +21
Просмотры 629
Комментарии 0

«Светофор 3.0»: как мы начали доверять поставщикам на основе рекомендаций машинного обучения

Блог компании Леруа Мерлен Data Mining *Машинное обучение *Управление продуктом *

Привет, Хабр! Сегодня мы хотим рассказать о том, как машинное обучение помогает нам освободить время сотрудников в магазинах от длительного пересчета товаров в прямых поставках и сосредоточиться на работе с клиентами. В этом посте мы расскажем, как работает наш продукт «Светофор 3.0», сколько рабочего времени он позволяет экономить и как мы используем ML для оценки вероятностей наличия расхождений в заказах. Кроме этого, расскажем о тонкостях выстраивания доверия сотрудников рекомендациям умной системы. Всех заинтересованных приглашаем под кат и к обсуждению в комментариях.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 971
Комментарии 2

Как сделать карту цен в Excel без макросов и VBA

Data Mining *Maps API *Визуализация данных *
⚒️ Cезон Data Mining
Tutorial

Считается, что Data Mining — это магическое снадобье из SQL, Python, Power BI и других волшебных компонент. Мало кто знает, что при правильном подходе с Data Mining может совладать офисный планктон с помощью одного лишь Excel.

Если вы абсолютно далеки от Data Mining, но хотите причаститься его таинств, это руководство в картинках по шагам сделано для вас. Особенно полезно тем, кто никогда бы даже не подумал сделать подобное самостоятельно.

Если вы владеете специальными инструментами для работы с данными, то будет интересно узнать ваше мнение о решениях без "рокет сайнс" (как о явлении в целом, так и о данном кейсе).

Читать далее
Всего голосов 22: ↑21 и ↓1 +20
Просмотры 3.2K
Комментарии 11

Анализ временных рядов, применение нейросетей (1 часть)

Data Mining *Big Data *Машинное обучение *Статистика в IT Искусственный интеллект
Tutorial

В этой статье, я опишу некоторые основные понятия в теории анализа временных рядов, классические статистические алгоритмы прогнозирования и интересные алгоритмы машинного обучения, которые применяются для временных рядов

Если Вы готовы погрузиться в одну из очень интересных тем статистики и Вы любитель машинного обучения, продолжайте читать :-)

Читать далее
Всего голосов 14: ↑13 и ↓1 +12
Просмотры 4K
Комментарии 7

Как создать и исследовать лог процесса выполнения программы

Python *Анализ и проектирование систем *Data Mining *

Привет, Хабр!

Анализ исходного кода - давно зарекомендовавшая себя практика для выявления отклонений до выхода приложения на рынок. Проверка на уязвимости, program understanding, поиск логических ошибок в использовании библиотек, code review и многие другие методы статического, динамического и ручного анализа кода широко применяются во многих компаниях занимающихся разработкой программ. 

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 2.3K
Комментарии 0

Проверка автокорреляции с использованием критерия Дарбина-Уотсона средствами Python

Python *Data Mining *Математика *Учебный процесс в IT Статистика в IT
⚒️ Cезон Data Mining
Tutorial

Методический разбор для специалистов DataScience по применению критерия Дарбина-Уотсона для проверки автокорреляции средствами python

Читать далее
Всего голосов 15: ↑15 и ↓0 +15
Просмотры 2.1K
Комментарии 2

JupyterHub или как перестать бояться pip install

Блог компании Ростелеком Системное администрирование *Python *Data Mining *

Всем привет! Сегодня я расскажу о том, как мы переехали на наш велосипед в виде JupyterHub, и он оказался удобным. У нас в компании работают ~20 дата саентистов и в своей работе они используют множество Open Source-инструментов: Airflow, Hadoop, Hive, Spark и т.д. Но в данной статье речь пойдет исключительно о JupyterHub, точнее говоря о боли, которая преследовала администраторов, и как мы успешно ее побороли.

Читать далее
Всего голосов 14: ↑13 и ↓1 +12
Просмотры 2.3K
Комментарии 7

Вариационное исчисление и Вариационные алгоритмы

Data Mining *Математика *Машинное обучение *Искусственный интеллект
Из песочницы

В этой статье буду рассмотрены основные задачи и формулы в вариационном исчислении. Также применение этих алгоритмов в машинном обучении.

В конце статьи будет объяснение теории вероятностных глубоких нейросетей, в котором как раз применяется вариационный вывод

Вариационное исчисление - раздел анализа, в котором изучаются вариации функционалов.

Читать далее
Всего голосов 9: ↑8 и ↓1 +7
Просмотры 4.7K
Комментарии 8

Распознавание речи, генерация субтитров и изучение языков при помощи Whisper

Блог компании Open Data Science Data Mining *Машинное обучение *Искусственный интеллект Natural Language Processing *
⚒️ Cезон Data Mining
Tutorial

Есть ряд платных решений по переводу речи в текст (Automatic Speech Recognition). Сравнительно малыми усилиями можно сделать свое решение, — обучить на целевых данных end2end модель (например, из фреймворка NeMo от NVIDIA) или гибридную модель типа kaldi. Сверху понадобится добавить расстановку пунктуации и денормализацию для улучшения читаемости ("где мои семнадцать лет" → "Где мои 17 лет?").

Недавно в открытый доступ была выложена мультиязычная модель whisper от OpenAI. Попробовал ее large вариант на нескольких языках и расшифровал 30 выпусков "Своей игры" результат понравился, но есть нюансы. Модель транскрибирует тексты вместе с пунктуацией и капитализацией, расставляет временные метки, умеет генерировать субтитры и определять язык. Языков в обучающем датасете порядка ста. Чтобы прикинуть по качеству, нужно посмотреть на их распределение — данных на 100 часов и более было лишь для 30 языков, более 1000 ч. — для 16, ~10 000 часов — у 5 языков, включая русский.

Модель заслуживает внимания так как умеет делать очень много "из коробки". Давайте разберемся подробнее как она устроена и научимся ей пользоваться.

Читать далее
Всего голосов 31: ↑29 и ↓2 +27
Просмотры 3.4K
Комментарии 10

Evidently или как пасти модели в проде

Data Mining *Big Data *Машинное обучение *
⚒️ Cезон Data Mining
Tutorial

Evidently это библиотека, которая помогает анализировать и отслеживать качество данных и качество моделей машинного обучения в процессе их эксплуатации.

Рассмотрим как ее установить и использовать.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 875
Комментарии 0

Первый нейросетевой переводчик для эрзянского языка

Семантика *Data Mining *Машинное обучение *Искусственный интеллект Natural Language Processing *
⚒️ Cезон Data Mining

Эрзянский язык из финно-угорской семьи – один из официальных в республике Мордовия, и на нём говорят сотни тысяч людей, но для него до сих пор не было почти никаких технологий машинного перевода, кроме простых словарей.
Я попробовал создать первую нейросеть, способную переводить с эрзянского на русский (и с натяжкой ещё на 10 языков) и обратно не только слова, но и целые предложения.

Пока её качество оставляет желать лучшего, но пробовать пользоваться уже можно.
Как я собирал для этого тексты и обучал модели – под катом.

Читать далее
Всего голосов 70: ↑69 и ↓1 +68
Просмотры 5.9K
Комментарии 20

Удивительное рядом

Data Mining *Обработка изображений *Машинное обучение *Искусственный интеллект

Одной из самых жутких проблем для любого любителя, как и для профессионала в data science является качество разметки.
Качество разметки способно погубить самую толковую и красивую идею.

Но не всё оказалось так плохо и вашему вниманию предлагается, как и всегда в моих постах, красивая идея с кодами и примером.

Итак, начнем.
Всего голосов 6: ↑5 и ↓1 +4
Просмотры 1.9K
Комментарии 1

Возможности предиктивной аналитики в повышении энергоэффективности оборудования и прогнозе энергопотребления

Блог компании Factory5 Data Mining *Big Data *Машинное обучение *

По данным консалтинговой компании Roland Berger, ведущие электроэнергетические компании по всему миру реализуют программы цифровой трансформации. Повсеместное применение больших данных способствует развитию решений предиктивной аналитики, которые сегодня высоко востребованы в энергетике. Прогнозная аналитика позволяет предсказать выход оборудования из строя, объективно оценивать риски и принимать стратегически верные решения.

В этой статье мы расскажем о том, как с помощью предиктивного анализа реализовать качественный прогноз энергопотребления и повысить энергоэффективность оборудования генерирующих компаний.

Читать далее
Рейтинг 0
Просмотры 572
Комментарии 1

Обучение YOLOv4 в Google Colab

Python *Data Mining *Машинное обучение *Искусственный интеллект
Из песочницы
Перевод

Этот учебник поможет вам легко создать yolov4 в облаке с включенным графическим процессором, чтобы вы могли выполнять обнаружение объектов за миллисекунды!

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 2.1K
Комментарии 0

Бизнес — экосистема CarDamageTest. Как построить удобный сервис для автовладельцев?

Блог компании Финолаб Data Mining *Обработка изображений *Бизнес-модели *

В предыдущей публикации я рассказала о нашем сервисе, который теперь имеет запатентованное название CarDamageTest. Он предназначен для автоматической оценки технического состояния автомобилей на основе технологий искусственного интеллекта. И сейчас мне хотелось бы вынести на ваше обсуждение трансформацию этого сервиса в полноценную цифровую бизнес-экосистему для автовладельцев и компаний, работающих в автомобильном бизнесе.

В статье мы обсудим преимущества бизнес-экосистем по сравнению с обычными сервисами для клиентов, рассмотрим выгоды участия в таких системах для бизнеса, ну а в конце статьи вы найдете ссылки для скачивания нашего сервиса.

Читать далее
Рейтинг 0
Просмотры 421
Комментарии 6

ClearML | Туториал

Data Mining *Big Data *Машинное обучение *
⚒️ Cезон Data Mining
Tutorial

ClearML — это довольно мощный фреймворк, основным предназначением которого является трекинг ML-экспериментов. Для рассмотрения его возможностей построим небольшой пайплайн обучения ML-модели...

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 3.5K
Комментарии 3

Архитектура платформы машинного обучения в продакшене

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод

История машинного обучения (Machine learning, ML) началась в 1950-х, когда появились первые нейронные сети и алгоритмы ML. Однако чтобы стать известным обычному человеку, машинному обучению понадобилось ещё шестьдесят лет. Анализ более чем 16 тысяч статей по data science MIT technologies демонстрирует экспоненциальный рост машинного обучения на протяжении последних двадцати лет, стимулируемый big data и прогрессом в глубоком обучении.

На практике любой, имеющий доступ к данным и компьютеру, может сегодня обучить модель машинного обучения. Возможности автоматизации и создаваемые ML прогнозы имеют множество различных применений. Благодаря им работают современные системы распознавания мошенничества, приложения доставки товаров предсказывают время прибытия на лету, а программы помогают в медицинской диагностике.

Способы создания и применения моделей зависят от потребностей организации и прикладной области ML. Процесс создания моделей машинного обучения подробно описан, однако у ML существует и другая сторона — внедрение моделей в среде продакшена. Модели в продакшене управляются через специальный тип инфраструктуры — конвейеры машинного обучения. В статье мы расскажем о функциях сервисов ML в продакшене и рассмотрим готовые решения.
Читать дальше →
Всего голосов 6: ↑6 и ↓0 +6
Просмотры 2.5K
Комментарии 1

Вклад авторов

Работа

Data Scientist
120 вакансий