Data Mining *

Глубинный анализ данных

SLA против дебиторки: как качество сервиса влияет на уровень задолженности жителей за ЖКУ

Из песочницы

Меня зовут Евгений, я – директор по продукту в IT-компании, которая занимается цифровизацией ЖКХ и автоматизирует рутинные процессы в управляющих организациях.

Взыскание задолженности за коммунальные услуги - головная боль всех управляющих компаний. Лучше предотвращать появление долгов, чем возвращать их.

Один из главных бизнес-процессов в управляющих компаниях - исполнение заявок от жителей. Качество этого процесса можно охарактеризовать SLA (Service Level Agreement), который включает показатели: срок принятия заявки клиента в работу, срок выполнения заявки, маршрут выполнения заявки

В этой статье расскажу, как мы с помощью методов процессной аналитики (Process Mining) проверили гипотезу о наличии зависимости дебиторской задолженности от соблюдения SLA.

427

kucev вчера в 13:16

Непрерывное обучение для продакшен-систем

Data Mining *Big Data *Машинное обучение *Управление разработкой *Искусственный интеллект

Перевод

Жизненный цикл машинного обучения

Введение

Методология agile-разработки ПО, популяризированная примерно в 2010 году манифестом Agile Software Development, продвигает идею адаптивного планирования, эволюционного развития, быстрой доставки и непрерывного совершенствования как ключевых свойств, обеспечивающих быстрый и гибкий отклик на постоянно ускоряющиеся изменения рынка и его требований.

Поскольку линейные каскадные модели, позаимствованные из отраслей производства и строительства, оказались неспособны обеспечить конкурентное преимущество в постоянно усложняющемся и быстро меняющемся мире ПО, модели Agile и Scrum стали де-факто стандартом для современной разработки ПО.

Но что произойдёт, когда мы осуществим переход к Software 2.0?

Читать дальше →

-1

467

lodz вчера в 11:41

Разбираемся с платформами обработки данных на примере барбершопа «Бородатый сисадмин». Какие бывают и всем ли они нужны

Блог компании Selectel IT-инфраструктура *Data Mining *Big Data *Машинное обучение *

Обычно тексты про работу с данными начинаются с числа, демонстрирующего объем производимых в мире данных. Или пассажа про то, что данные — новые золотые прииски («data is the new oil»). Это недалеко от правды: если раньше для понимания своих пользователей компаниям нужно было заказывать крупные социологические исследования, то сейчас, с глобальной цифровизацией, пользователи сами — осознанно или нет — предоставляет данные о себе.

Обрабатывают данные, то есть вытаскивают из них пользу, совершенно разнопрофильные компании. Даже сеть семейных парикмахерских на районе может вести отчеты в Excel, используя ее как CRM-систему. На основе данных вывели список клиентов, давно не приходивших на стрижку? Самое время кинуть им sms с «индивидуальной» скидкой.

В какой момент бизнесу стоит организовать целую платформу для обработки данных? Всегда ли обработка данных — это про big data? И какие варианты есть сейчас в России? Об этом всем — под катом.

Читать дальше →

+21

629

MikhailGariyants вчера в 10:00

«Светофор 3.0»: как мы начали доверять поставщикам на основе рекомендаций машинного обучения

Блог компании Леруа Мерлен Data Mining *Машинное обучение *Управление продуктом *

Привет, Хабр! Сегодня мы хотим рассказать о том, как машинное обучение помогает нам освободить время сотрудников в магазинах от длительного пересчета товаров в прямых поставках и сосредоточиться на работе с клиентами. В этом посте мы расскажем, как работает наш продукт «Светофор 3.0», сколько рабочего времени он позволяет экономить и как мы используем ML для оценки вероятностей наличия расхождений в заказах. Кроме этого, расскажем о тонкостях выстраивания доверия сотрудников рекомендациям умной системы. Всех заинтересованных приглашаем под кат и к обсуждению в комментариях.

971

Robastik вчера в 07:43

Как сделать карту цен в Excel без макросов и VBA

Data Mining *Maps API *Визуализация данных *

⚒️ Cезон Data Mining

Tutorial

Считается, что Data Mining — это магическое снадобье из SQL, Python, Power BI и других волшебных компонент. Мало кто знает, что при правильном подходе с Data Mining может совладать офисный планктон с помощью одного лишь Excel.

Если вы абсолютно далеки от Data Mining, но хотите причаститься его таинств, это руководство в картинках по шагам сделано для вас. Особенно полезно тем, кто никогда бы даже не подумал сделать подобное самостоятельно.

Если вы владеете специальными инструментами для работы с данными, то будет интересно узнать ваше мнение о решениях без "рокет сайнс" (как о явлении в целом, так и о данном кейсе).

+20

3.2K

Asiia_Thabet 16 октября в 03:36

Анализ временных рядов, применение нейросетей (1 часть)

Data Mining *Big Data *Машинное обучение *Статистика в IT Искусственный интеллект

Tutorial

В этой статье, я опишу некоторые основные понятия в теории анализа временных рядов, классические статистические алгоритмы прогнозирования и интересные алгоритмы машинного обучения, которые применяются для временных рядов

Если Вы готовы погрузиться в одну из очень интересных тем статистики и Вы любитель машинного обучения, продолжайте читать :-)

+12

NewTechAudit 14 октября в 18:16

Как создать и исследовать лог процесса выполнения программы

Python *Анализ и проектирование систем *Data Mining *

Привет, Хабр!

Анализ исходного кода - давно зарекомендовавшая себя практика для выявления отклонений до выхода приложения на рынок. Проверка на уязвимости, program understanding, поиск логических ошибок в использовании библиотек, code review и многие другие методы статического, динамического и ручного анализа кода широко применяются во многих компаниях занимающихся разработкой программ.

2.3K

ANazarov 14 октября в 15:48

Проверка автокорреляции с использованием критерия Дарбина-Уотсона средствами Python

Python *Data Mining *Математика *Учебный процесс в IT Статистика в IT

⚒️ Cезон Data Mining

Tutorial

Методический разбор для специалистов DataScience по применению критерия Дарбина-Уотсона для проверки автокорреляции средствами python

+15

2.1K

yumupdate 13 октября в 11:09

JupyterHub или как перестать бояться pip install

Блог компании Ростелеком Системное администрирование *Python *Data Mining *

Всем привет! Сегодня я расскажу о том, как мы переехали на наш велосипед в виде JupyterHub, и он оказался удобным. У нас в компании работают ~20 дата саентистов и в своей работе они используют множество Open Source-инструментов: Airflow, Hadoop, Hive, Spark и т.д. Но в данной статье речь пойдет исключительно о JupyterHub, точнее говоря о боли, которая преследовала администраторов, и как мы успешно ее побороли.

+12

2.3K

Asiia_Thabet 11 октября в 01:14

Вариационное исчисление и Вариационные алгоритмы

Data Mining *Математика *Машинное обучение *Искусственный интеллект

Из песочницы

В этой статье буду рассмотрены основные задачи и формулы в вариационном исчислении. Также применение этих алгоритмов в машинном обучении.

_{В конце статьи будет объяснение теории вероятностных глубоких нейросетей, в котором как раз применяется вариационный вывод}

Вариационное исчисление - раздел анализа, в котором изучаются вариации функционалов.

4.7K

averkij 10 октября в 13:02

Распознавание речи, генерация субтитров и изучение языков при помощи Whisper

Блог компании Open Data Science Data Mining *Машинное обучение *Искусственный интеллект Natural Language Processing *

⚒️ Cезон Data Mining

Tutorial

Есть ряд платных решений по переводу речи в текст (Automatic Speech Recognition). Сравнительно малыми усилиями можно сделать свое решение, — обучить на целевых данных end2end модель (например, из фреймворка NeMo от NVIDIA) или гибридную модель типа kaldi. Сверху понадобится добавить расстановку пунктуации и денормализацию для улучшения читаемости ("где мои семнадцать лет" → "Где мои 17 лет?").

Недавно в открытый доступ была выложена мультиязычная модель whisper от OpenAI. Попробовал ее large вариант на нескольких языках и расшифровал 30 выпусков "Своей игры" результат понравился, но есть нюансы. Модель транскрибирует тексты вместе с пунктуацией и капитализацией, расставляет временные метки, умеет генерировать субтитры и определять язык. Языков в обучающем датасете порядка ста. Чтобы прикинуть по качеству, нужно посмотреть на их распределение — данных на 100 часов и более было лишь для 30 языков, более 1000 ч. — для 16, ~10 000 часов — у 5 языков, включая русский.

Модель заслуживает внимания так как умеет делать очень много "из коробки". Давайте разберемся подробнее как она устроена и научимся ей пользоваться.

+27

3.4K

slivka_83 9 октября в 19:36

Evidently или как пасти модели в проде

Data Mining *Big Data *Машинное обучение *

⚒️ Cезон Data Mining

Tutorial

Evidently это библиотека, которая помогает анализировать и отслеживать качество данных и качество моделей машинного обучения в процессе их эксплуатации.

Рассмотрим как ее установить и использовать.

875

cointegrated 9 октября в 13:00

Первый нейросетевой переводчик для эрзянского языка

Семантика *Data Mining *Машинное обучение *Искусственный интеллект Natural Language Processing *

⚒️ Cезон Data Mining

Эрзянский язык из финно-угорской семьи – один из официальных в республике Мордовия, и на нём говорят сотни тысяч людей, но для него до сих пор не было почти никаких технологий машинного перевода, кроме простых словарей.
Я попробовал создать первую нейросеть, способную переводить с эрзянского на русский (и с натяжкой ещё на 10 языков) и обратно не только слова, но и целые предложения.

Пока её качество оставляет желать лучшего, но пробовать пользоваться уже можно.
Как я собирал для этого тексты и обучал модели – под катом.

+68

5.9K

ChePeter 7 октября в 10:17

Удивительное рядом

Data Mining *Обработка изображений *Машинное обучение *Искусственный интеллект

Одной из самых жутких проблем для любого любителя, как и для профессионала в data science является качество разметки.
Качество разметки способно погубить самую толковую и красивую идею.

Но не всё оказалось так плохо и вашему вниманию предлагается, как и всегда в моих постах, красивая идея с кодами и примером.

Итак, начнем.

1.9K

F5Habr 5 октября в 16:01

Возможности предиктивной аналитики в повышении энергоэффективности оборудования и прогнозе энергопотребления

Блог компании Factory5 Data Mining *Big Data *Машинное обучение *

По данным консалтинговой компании Roland Berger, ведущие электроэнергетические компании по всему миру реализуют программы цифровой трансформации. Повсеместное применение больших данных способствует развитию решений предиктивной аналитики, которые сегодня высоко востребованы в энергетике. Прогнозная аналитика позволяет предсказать выход оборудования из строя, объективно оценивать риски и принимать стратегически верные решения.

В этой статье мы расскажем о том, как с помощью предиктивного анализа реализовать качественный прогноз энергопотребления и повысить энергоэффективность оборудования генерирующих компаний.

572

dimanosov007 5 октября в 10:49

Дообучение EasyOCR

Python *Data Mining *Машинное обучение *Искусственный интеллект

Tutorial

Всем привет!

Представляю краткий tutorial по дообучению EasyOCR. возможно обучение на Google colab.

1.6K

dimanosov007 4 октября в 14:40

Обучение YOLOv4 в Google Colab

Python *Data Mining *Машинное обучение *Искусственный интеллект

Из песочницы

Перевод

Этот учебник поможет вам легко создать yolov4 в облаке с включенным графическим процессором, чтобы вы могли выполнять обнаружение объектов за миллисекунды!

2.1K

ElenaVolchenko 4 октября в 10:33

Бизнес — экосистема CarDamageTest. Как построить удобный сервис для автовладельцев?

Блог компании Финолаб Data Mining *Обработка изображений *Бизнес-модели *

В предыдущей публикации я рассказала о нашем сервисе, который теперь имеет запатентованное название CarDamageTest. Он предназначен для автоматической оценки технического состояния автомобилей на основе технологий искусственного интеллекта. И сейчас мне хотелось бы вынести на ваше обсуждение трансформацию этого сервиса в полноценную цифровую бизнес-экосистему для автовладельцев и компаний, работающих в автомобильном бизнесе.

В статье мы обсудим преимущества бизнес-экосистем по сравнению с обычными сервисами для клиентов, рассмотрим выгоды участия в таких системах для бизнеса, ну а в конце статьи вы найдете ссылки для скачивания нашего сервиса.

421

slivka_83 3 октября в 21:19

ClearML | Туториал

Data Mining *Big Data *Машинное обучение *

⚒️ Cезон Data Mining

Tutorial

ClearML — это довольно мощный фреймворк, основным предназначением которого является трекинг ML-экспериментов. Для рассмотрения его возможностей построим небольшой пайплайн обучения ML-модели...

+11

3.5K

kucev 3 октября в 12:18

Архитектура платформы машинного обучения в продакшене

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

История машинного обучения (Machine learning, ML) началась в 1950-х, когда появились первые нейронные сети и алгоритмы ML. Однако чтобы стать известным обычному человеку, машинному обучению понадобилось ещё шестьдесят лет. Анализ более чем 16 тысяч статей по data science MIT technologies демонстрирует экспоненциальный рост машинного обучения на протяжении последних двадцати лет, стимулируемый big data и прогрессом в глубоком обучении.

На практике любой, имеющий доступ к данным и компьютеру, может сегодня обучить модель машинного обучения. Возможности автоматизации и создаваемые ML прогнозы имеют множество различных применений. Благодаря им работают современные системы распознавания мошенничества, приложения доставки товаров предсказывают время прибытия на лету, а программы помогают в медицинской диагностике.

Способы создания и применения моделей зависят от потребностей организации и прикладной области ML. Процесс создания моделей машинного обучения подробно описан, однако у ML существует и другая сторона — внедрение моделей в среде продакшена. Модели в продакшене управляются через специальный тип инфраструктуры — конвейеры машинного обучения. В статье мы расскажем о функциях сервисов ML в продакшене и рассмотрим готовые решения.

Читать дальше →