Data Mining *

Глубинный анализ данных

PDudukin 29 октября в 10:54

Как улучшить клиентский опыт или зачем нужен Customer Data Platform

Блог компании Россельхозбанк Data Mining *Веб-аналитика *Интернет-маркетинг Контент-маркетинг

В прошлой статье мы рассказывали про инструменты, которые позволяют нам строить отчеты и аналитику для управления клиентском опытом, искать инсайты в данных наших веб-платформ, с которыми взаимодействуют потребители, а также строить ML-модели, управляя их жизненным циклом. В этой статье поделимся, как собираем данные о клиентах и их действиях, как применяем полученные инсайты и мотивируем потребителей на дальнейшее сотрудничество с нами.

421

kucev 28 октября в 13:53

Почему за автоматической разметкой данных будущее?

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Автоматическая разметка данных — новая функция, о которой сегодня часто говорят. Некоторые даже считают её решением проблемы кропотливого и ресурсоёмкого аннотирования вручную.

Для обработки одного набора данных ручной разметкой (аннотированием) требуются многие часы. Автоматическая разметка данных предоставляет более простой, быстрый и современный способ обработки данных при помощи самого ИИ.

Читать дальше →

1.5K

kucev 27 октября в 09:33

Как Hasty использует автоматизацию и быструю обратную связь для обучения моделей ИИ

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

CEO Hasty Тристан Руиллар (в центре), сооснователи компании Константин Проскудин (слева) и Александр Веннман (справа)

Компьютерное зрение становится всё важнее для различных промышленных сфер, от слежения за строительными работами до реализации умного сканирования штрих-кодов на складах. Однако обучение искусственного интеллекта точному распознаванию изображений может быть медленным и затратным трудом, не гарантирующим результаты. Молодой немецкий стартап Hasty стремится помочь в решении этой задачи, обещая предоставить инструменты нового поколения, способные ускорить весь процесс аннотирования изображений для обучаемой модели.

Основанный в 2019 году в Берлине Hasty заявляет сегодня, что ему удалось получить 3,7 миллиона долларов в первом раунде финансирования, проведённом Shasta Ventures. Эта венчурная фирма из Кремниевой долины провела уже множество значимых выводов: Nest (куплен Google), Eero (куплен Amazon) и Zuora (IPO). Другими участниками раунда стали iRobot Ventures и Coparion.

Читать дальше →

584

ady1981 23 октября в 22:48

Бадминтонный трекер BTracker

Data Mining *

Хочу рассказать о своем мобильном приложении BTracker, которое позволяет статистически значимо сравнить силы двух игроков в бадминтонном матче.

1.1K

Egor_Fyodorov 22 октября в 17:25

Реализация кластеризации методом k-средних на Python (с визуализацией)

Python *Data Mining *

Из песочницы

Кластеризация — один из наиболее популярных алгоритмов группировки данных.

Несмотря на множество способов его осуществления, мы рассмотрим и реализуем на языке Python метод k-средних. Он является наиболее ясным и алгоритмически понятным.

Будет уделено внимание визуализации 2-х и 3-х мерных пространств с помощью библиотеки matplotlib.

3.6K

Saygin 22 октября в 12:43

Data Science с нуля. Большая подборка курсов

Data Mining *Big Data *Машинное обучение *Учебный процесс в IT

Курсы упорядочены по степени необходимости, начиная с базовых знаний, без которых будет тяжело даваться дальнейшее изучение (линейная алгебра, статистика, базовое знание python и т.д.), переходя к более сложным. Старался избавиться от избыточности, оставляя только самые ценные, на мой взгляд, курсы. Эти бесплатные курсы легко заменят вам платные.

+12

9.7K

Ferres 20 октября в 13:10

Препарирование нейронок, или TSNE и кластеризация на терабайтах данных

Блог компании NtechLab Python *Data Mining *Машинное обучение *

У вас продакшн нейронные сети, терабайты данных? Вам хочется понять, как работает нейронная сеть, но на таком объеме это сложно сделать? Сложно, но можно. Мы в NtechLab находимся именно в той ситуации, когда данных так много, что привычные инструменты интроспекции нейронных сетей становятся не информативны или вовсе не запускаются. У нас нет привычной разметки для обучения атрибутов. Но нам удалось вытащить из нейронной сети достаточно, чтобы классифицировать все имеющиеся данные на понятные человеку и учтенные нейронной сетью атрибуты. В этом посте мы расскажем, как это сделать.

2.2K

kucev 15 октября в 15:04

Как размечать данные для машинного обучения

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Искусственный интеллект (ИИ, AI) двигает человечество в будущее, и чтобы иметь конкурентное преимущество, вам нужно быть к нему готовым.

Машинное обучение (МЛ, ML) — подмножество ИИ, позволяющее программным приложениям распознавать паттерны и делать точные прогнозы. Благодаря ML у нас есть беспилотные автомобили, фильтрация спама в электронной почте, распознавание дорожного движения и многое другое.

Для обучения высококачественных моделей ML необходимо предоставить их алгоритму точно размеченные данные.

В этом посте мы расскажем всё, что вам нужно знать о разметке данных, чтобы принимать осознанные решения для своего бизнеса. Пост отвечает на следующие вопросы:

Что такое разметка данных?
Как она работает?
Какие оптимальные практики разметки данных существуют?
Как компании размечают свои данные?
Нужна ли мне платформа инструментария для разметки данных?

Читать дальше →

-2

2.7K

NewTechAudit 12 октября в 09:29

Опыт извлечения обучающих данных из генеративных языковых моделей

Python *Программирование *Data Mining *Big Data *Машинное обучение *

Вдохновившись опытом зарубежных коллег по извлечению данных из больших языковых моделей из следующих источников:

A. Extracting Training Data from Large Language Models/Извлечение обучающих данных из больших языковых моделей (генеративных)/Authors: Nicholas Carlini, Florian Tramèr, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee1, Adam Roberts, Tom Brown, Dawn Song, Úlfar Erlingsson, Alina Oprea, Colin Raffel (https://arxiv.org/abs/2012.07805)

B. The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks/Открывающий секреты: оценка и тестирование непреднамеренного запоминания в нейронных сетях/ Nicholas Carlini, Chang Liu, Úlfar Erlingsson, Jernej Kos, Dawn Song. (https://arxiv.org/abs/1802.08232).

C. Membership Inference Attacks Against Machine Learning Models/Атаки на определение членства против моделей машинного обучения/ Reza Shokri, Marco Stronati, Congzheng Song, Vitaly Shmatikov (https://arxiv.org/abs/1610.05820).

D. An Attack on InstaHide: Is Private Learning Possible with Instance Encoding?/Атака на InstaHide: Возможно ли частное (приватное/не допускающее утечек) обучение с помощью кодировния экземпляра при обучении моделей / Nicholas Carlini, Samuel Deng, Sanjam Garg, Somesh Jha, Saeed Mahloujifar, Mohammad Mahmoody, Shuang Song, Abhradeep Thakurta, Florian Tramèr (https://arxiv.org/abs/2011.05315).

E. Comprehensive Privacy Analysis of Deep Learning: Passive and Active White-box Inference Attacks against Centralized and Federated Learning/ Всесторонний анализ конфиденциальности глубокого обучения: Пассивные и активные атаки вывода обучающего набора данных на модель в белом ящике при централизованном и федеративном обучении/ Milad Nasr, Reza Shokri, Amir Houmansadr (https://arxiv.org/abs/1812.00910).

549

nologin 12 октября в 09:19

ML-модели в BI: интеграция с Python через JupyterHub

Блог компании Visiology Python *Data Mining *Машинное обучение *Искусственный интеллект

Привет, Хабр! Мы продолжаем рассматривать конкретный практический вопрос — интеграцию Python для внедрения ML-моделей и расширенной аналитики в BI. В прошлом посте мы уже рассуждали о том, зачем это нужно, и как можно реализовать подобное расширение. Сегодня же мы остановимся на том, как реализована поддержка Python в популярных BI-системах. И сразу спойлер: в существующих системах (в том числе в Visiology) это было сделано неудобно, и чтобы решить эту проблему, мы придумали новую штуку, а именно — интеграцию с JupyterHub. Под катом — подробный рассказ о том, какие мы знаем подходы к работе с Python, и что меняется в этом процессе при подключении Jupyter Hub. Если вы еще не пробовали эту схему, то скорее давайте читать наш пост, а если уже работали таким образом — давайте обсуждать новый подход в комментариях.

1.7K

kvsman 8 октября в 19:43

«Форсайт» – история длиною в жизнь

Блог компании Форсайт Data Mining *Хранилища данных *История IT IT-компании

Привет, Хабр! Меня зовут Константин Шимановский. Почти 20 лет своей жизни я работаю с российской BI-платформой «Форсайт. Аналитическая платформа», и сейчас возглавляю Департамент управления продуктами одноименной компании «Форсайт». Мы с моей командой продуктовых менеджеров, архитекторов, методологических и технологических экспертов определяем вектор развития нашей платформы и вырабатываем best-practice ее применения. Всем своим опытом мы хотим поделиться в цикле статей на Хабре. Следите за новыми публикация. Будет интересно!

В нашем первом посте мы расскажем о истории развития нашей платформы. Сразу наберитесь терпения. История у нас длинная, и статья получилась не очень короткой. Далее обещаем исправиться и будем публиковать более компактные тематические обзоры. А сейчас, если вам интересно, как ИТ-компания за несколько десятков лет прошла путь от маленькой лаборатории в университете до широкого мирового признания, как совершенствовались и развивались ее технологии, чем сейчас живет и «дышит» наша BI-платформа — добро пожаловать под кат!

3.3K

Bee_brightside 5 октября в 17:00

Нам нужны не дата-саентисты, а дата-инженеры

Блог компании билайн бизнес Data Mining *Big Data *Хранение данных *Data Engineering *

Перевод

Данные. Они повсюду и их становится только больше. За последние 5-10 лет data science привлекла множество новичков, пытающихся ощутить вкус этого запретного плода.

Но как сегодня выглядит ситуация с наймом в data science?

Вот краткое изложение статьи в двух предложениях.

TLDR: в компаниях на 70% больше вакансий на должности дата-инженеров, чем на должности дата-саентистов. Так как мы обучаем новое поколение практиков в сфере обработки данных и машинного обучения, давайте сделаем больший упор на инженерные навыки.

Так как моя работа заключается в разработке обучающей платформы для профессионалов в области данных, я много думаю о том, как эволюционирует рынок вакансий, связанных с данными (машинное обучение и data science).

Общаясь с десятками перспективных новичков в сфере данных, в том числе и со студентами лучших вузов мира, я увидел серьёзное недопонимание того, какие навыки являются наиболее важными, помогают выделиться из толпы и подготовиться к карьере.

Дата-саентист может работать в любом сегменте следующих сфер: моделирование машинного обучения, визуализация, очистка и обработка данных (например, преобразование данных для SQL), проектирование и развёртывание на производстве.

С чего вообще начинать рекомендации курса обучения для новичков?

Данные говорят громче слов. Поэтому я решил провести анализ должностей в сфере данных, на которые есть вакансии у компаний, выходивших из Y-Combinator с 2012 года. Вопросы, которыми я руководствовался в своих исследованиях:

+13

5.6K

kucev 5 октября в 11:36

Руководство по типам аннотирования изображений

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Задаётесь вопросом, какой тип аннотирования изображений лучше всего подойдёт для вашего проекта?

Аннотирование изображений — одна из наших основных специальностей, и мы с радостью поделимся информацией о плюсах и минусах каждого типа: от простых ограничивающих прямоугольников до полномасштабной попиксельной семантической сегментации.

Учтите, что это руководство относится только к типу визуального аннотирования, но на уровне изображений или объектов можно создавать дополнительные метаданные. К ним относятся строки, числа, булевы значения, выбор одного или нескольких вариантов, и т.п. Например, ограничивающий прямоугольник для автомобилей в сцене может содержать такие метки, как цвет, производителя, регистрационный номер и т.д.

Читать дальше →

708

PythonAnalyst 4 октября в 13:58

Распознаем медицинские тексты

Python *Data Mining *Big Data *Машинное обучение *Data Engineering *

Это третья публикация в рамках цикла статей по изучению московской базы ковидных больных. В настоящей работе были созданы векторные представления медицинских терминов, которые теперь доступны на Github.

averkij 3 октября в 16:28

Моя маленькая помощь малым языкам

Python *Data Mining *Машинное обучение *Изучение языков Natural Language Processing *

Сложный был год: налоги, катастрофы, бандитизм и стремительное исчезновение малых языков. С последним мириться было нельзя...

На территории России проживает большое количество народов, говорящих более чем на 270 языках. Около 150 языков насчитывает менее 1 тысячи носителей, а за последние 20 лет 7 языков уже исчезло.

Этот проект — мои "пять копеек" по поддержке языкового разнообразия. Его цель — помощь исследователям в области машинного перевода, лингвистам, а также энтузиастам, радеющим за свой родной язык. Помогать будем добыванием параллельных корпусов, — своеобразного "топлива", при помощи которого современные модели все успешнее пытаются понять человеческий язык.

Сегодняшние языки — башкирский и чувашский, с популяризаторами которых я в последнее время тесно общался. Сначала я покажу как в принципе извлечь корпус из двух текстов на разных языках. Затем мы столкнемся с тем, что на рассматриваемых языках предобученная модель не тренировалась и попробуем ее дообучить.

Экспериментировать мы будем в среде Colab'а, чтобы любой исследователь при желании смог повторить этот подход для своего языка.

I. Извлекаем параллельный корпус

Для выравнивания двух текстов я написал на python'е библиотеку lingtrain_aligner. Код у нее открыт. Она использует ряд предобученных моделей, можно подключать и свои. Одной из самых удачных мультиязыковых моделей сейчас является LaBSE. Она обучалась на 109 языках. Так как соотношение текстов смещено в сторону популярных языков, то для них качество эмбеддингов (эмбеддингом называют вектор чисел применительно к данным, которые он описывает) будет лучше.

Colab

Попробовать извлечь корпус на нужном языке можно в этом Colab'e. Дальше пройдемся по шагам более подробно.

Установка

Установим библиотеку командой

pip install lingtrain_aligner

+57

9.9K

PythonAnalyst 3 октября в 15:01

Влияние загрязнения воздуха на тяжесть течения Covid- 19

Python *Data Mining *Машинное обучение *Экология Data Engineering *

Продолжаю цикл статей основанных на анализе базы московских больных. В настоящей второй части я буду анализировать влияние загрязнение воздуха на тяжесть течения заболевания. В этом нам поможет сайт с открытыми данными г. Москвы, на котором представлена информация небольшого количества метеорологических станций.

3.8K

30 сентября

Так вот кто все эти люди: DS-анализ результатов опроса о Data Science

Недавно мы со Сбером проводили опрос о том, кто должен заниматься работой с данными и как это организовано в ваших компаниях. Чтобы не прослыть сапожниками без сапог, для анализа результатов мы использовали DS-подход. Хотите узнать, что у нас получилось? Тогда милости просим под кат.

+21

19K

leragarashchenko 30 сентября в 12:01

Успеть за 12 минут: как мы научились прогнозировать время доставки товаров из Утконос ОНЛАЙН

Блог компании Утконос ОНЛАЙН Data Mining *Big Data *Машинное обучение *

Всем привет! Меня зовут Лера, и я Data Scientist компании Утконос ОНЛАЙН. Мы 20 лет доставляем продукты и товары для дома нашим клиентам. За последние два года требования к скорости доставки и качеству обслуживания сильно выросли. Время в нашем бизнесе — самый важный и критический фактор. Этот показатель, как и другие процессы, нужно постоянно улучшать, иначе сервис не выдержит конкуренции.

В этой статье я расскажу, как мы рассчитываем время обслуживания клиента, почему в этом нам больше помогают данные GPS-координат автомобилей, а не отметки о прибытии на точку, и какую математическую модель мы построили, чтобы оптимизировать работу курьеров.

+15

2.1K

rumatavz 29 сентября в 20:27

Как я искал вбросы на московских выборах и что-то нашел

Информационная безопасность *Data Mining *

Посмотрев видео Анастасии Брюхановой мне очень захотелось найти еще какие то подтверждения наличию вбросов. И я стал думать, что бы сделал бы я сам, если бы мне нужно было сделать вброс. Ну, я бы составил список людей, от которых шли фейковые голоса, сделал бы так, что бы они попали в списки избирателей. Дальше люди или роботы голосовали бы от имени людей по этим спискам.

А значит порядок голосования совпадал бы с порядком регистрации. Вот это гипотезу я и решил проверить.

Так что же я нашел?

+54

20K

kucev 28 сентября в 10:55

Аннотирование текста для машинного обучения

Data Mining *Big Data *Хранение данных *Машинное обучение *Искусственный интеллект

Перевод

Несмотря на масштабный переход к цифровым технологиям, часть наиболее сложных данных по-прежнему хранится в виде текста в статьях или официальных документах. В условиях изобилия публично доступной информации возникают трудности с управлением неструктурированными сырыми данными и их преобразования в понятный для машин вид. С текстом это сделать сложнее, чем с изображениями и видео. Возьмём для примера простое предложение: «They nailed it!». Люди бы поняли его как выражение одобрения, подбадривания или признания заслуг, однако традиционная модель обработки естественного языка (Natural Language Processing, NLP), скорее всего, воспримет только поверхностное понимание слова, упустив смысл. А именно, она бы ассоциировала слово «nail» с забиванием гвоздей молотком. Точные аннотации текста помогают моделям лучше понимать передаваемые им данные, что приводит к безошибочной интерпретации текста.

Читать дальше →

1.4K

2 3 ...

49 50

Data Mining *

Как улучшить клиентский опыт или зачем нужен Customer Data Platform

Новости

Почему за автоматической разметкой данных будущее?

Как Hasty использует автоматизацию и быструю обратную связь для обучения моделей ИИ

Бадминтонный трекер BTracker

Реализация кластеризации методом k-средних на Python (с визуализацией)

Data Science с нуля. Большая подборка курсов

Препарирование нейронок, или TSNE и кластеризация на терабайтах данных

Как размечать данные для машинного обучения

Опыт извлечения обучающих данных из генеративных языковых моделей

ML-модели в BI: интеграция с Python через JupyterHub

«Форсайт» – история длиною в жизнь

Нам нужны не дата-саентисты, а дата-инженеры

Руководство по типам аннотирования изображений

Распознаем медицинские тексты

Моя маленькая помощь малым языкам

I. Извлекаем параллельный корпус

Colab

Установка

Влияние загрязнения воздуха на тяжесть течения Covid- 19

Так вот кто все эти люди: DS-анализ результатов опроса о Data Science

Успеть за 12 минут: как мы научились прогнозировать время доставки товаров из Утконос ОНЛАЙН

Как я искал вбросы на московских выборах и что-то нашел

Аннотирование текста для машинного обучения

Вклад авторов

Ваш аккаунт

Разделы

Информация

Услуги