Как стать автором
Обновить
22.32

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Вышел Savant 0.2.4: компьютерное зрение на базе глубокого обучения для Nvidia Jetson и dGPU

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 1.1K
Python *Data Mining *Алгоритмы *Обработка изображений *Машинное обучение *
Обзор

После месяца напряженной работы мы выпустили новую версию Savant (0.2.4), с новыми функциями и примерами использования.

Savant — это фреймворк компьютерного зрения с открытым исходным кодом для создания приложений компьютерного зрения на базе нейронных сетей, работающий на стеке Nvidia. Он упрощает разработку динамических, отказоустойчивых конвейеров видео‑аналитики, использующих рекомендованные Nvidia инструменты для центров обработки данных и граничных ускорителей.

Savant построен на базе DeepStream и предоставляет высокоуровневый уровень абстракции для быстрой разработки конвейеров компьютерного зрения на базе Nvidia DeepStream.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 2

Новости

Архитектура аналитической платформы Modus: ETL

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 812
Блог компании Modus BI Анализ и проектирование систем *Data Mining *Хранение данных *Хранилища данных *
Обзор

Начинаем цикл статей об архитектуре аналитических платформ. Поговорим об общем устройстве и подробнее остановимся на анатомии ETL на примере Modus. Вы узнаете, из каких компонентов состоит аналитическая система, откуда она получает и как работает с данными, и что мы в Modus делаем такого, чтобы оптимизировать эти процессы.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 0

Градиентный бустинг: как подобрать гиперпараметры модели в 5 раз быстрее, чем обычно?

Уровень сложности Сложный
Время на прочтение 36 мин
Количество просмотров 1.3K
Блог компании Росбанк Data Mining *Apache *Big Data *Data Engineering *
Туториал

В этой статье я расскажу, как, используя недокументированные возможности фреймворка Apache Spark, качественно подобрать гиперпараметры для модели градиентного бустинга всего за один человеко-день вместо обычных пяти.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 4

Аннотирование повреждений автомобилей для обучения искусственного интеллекта

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 939
Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод

Благодаря доступности систем компьютерного зрения на основе ИИ, способных автоматизировать большую часть процессов, в последние годы активно развивается сфера визуального контроля, связанного с технологиями страхования. При помощи мобильных приложений или веб-сайтов пользователи могут выполнять удалённую оценку повреждений и мгновенно получать расчёт цены, что упрощает процесс и сильно снижает стресс пользователей. Эта сфера уже охватила не только оценку повреждений транспорта, но и другие виды собственности, например, недвижимость.

Однако обучение систем визуального контроля при помощи ИИ имеет свои сложности, поскольку требует постоянного наполнения высококачественными и разнообразными данными. Из-за расширения области действия таких сервисов на разные регионы стало необходимым получение из каждого региона данных, аннотированных в точности согласно таксономии каждой страховой компании.
Читать дальше →
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 2

Истории

Мнение большинства для разметки данных в задачах компьютерного зрения

Уровень сложности Средний
Время на прочтение 8 мин
Количество просмотров 1.4K
Блог компании SberDevices Data Mining *Обработка изображений *Машинное обучение *Краудсорсинг
Туториал

Многие прикладные задачи из области компьютерного зрения требуют от разработчиков создания собственных наборов данных, которые можно своевременно обновлять и адаптировать: увеличивать количество классов и сэмплов или делать сэмплы более разнородными по тем или иным признакам. Кроме того, для некоторых задач необходимы доменные и достаточно специфичные данные. Например в SberDevices, для реализации управления умными устройствами с помощью жестов, необходим датасет, на изображениях которого люди показывают жесты перед камерой; для бьютификации в Jazz — фотографии людей на веб-камеру или селфи. Необходимость постоянно создавать и поддерживать собственные наборы данных требует автоматизации их сбора и разметки.

Читать далее
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 4

Топ-10 видеокарт для машинного обучения

Уровень сложности Простой
Время на прочтение 10 мин
Количество просмотров 3.9K
Блог компании HOSTKEY Data Mining *Машинное обучение *Искусственный интеллект Видеокарты
Обзор

Как правильно выбрать видеокарту и максимально эффективно обрабатывать большие объемы данных и выполнять параллельные вычисления.

Читать далее
Всего голосов 10: ↑2 и ↓8 -6
Комментарии 3

Dagster и Great Expectations: Интеграция без боли

Уровень сложности Средний
Время на прочтение 11 мин
Количество просмотров 706
Python *Data Mining *Data Engineering *
Из песочницы

Меня зовут Артем Шнайдер, и я занимаюсь DataScience в Бланке. Сегодня я хочу рассказать вам о том, как можно интегрировать два мощных инструмента – Dagster и Great Expectations.

Great Expectations позволяет определить так называемые ожидания от ваших данных, то есть задать правила и условия, которым данные должны соответствовать. 

Dagster, с другой стороны, это платформа с открытым исходным кодом для управления данными, которая позволяет создавать, тестировать и развертывать пайплайны данных. Написан на python, что позволяет пользователям гибко настраивать и расширять его функциональность.

Исходный код к этой статье на GitHub.

Давайте начнем? :-)

Погнали 🚀
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 0

Вредные советы по подготовке датасета

Уровень сложности Простой
Время на прочтение 8 мин
Количество просмотров 2.8K
Data Mining *Big Data *
Из песочницы

Всем привет! В этой статье разбираю отдельные моменты, связанные с подготовкой к сбору датасета. Технических деталей не будет, оставлю их на вторую статью, а сейчас опишу только "базу", с которой знакомим новых сотрудников.

Статья - лонгрид, поэтому в начале сделал резюме.

Вперед к резюме и советам!
Всего голосов 8: ↑4 и ↓4 0
Комментарии 5

Data Consistency: как быть уверенным, что с данными всё ок

Уровень сложности Средний
Время на прочтение 11 мин
Количество просмотров 3.7K
SQL *Data Mining *Big Data *Data Engineering *
Туториал

Я довольно долгое время работала аналитиком в Яндекс.Метрике - системе web аналитики. Такие системы помогают сайтам собирать и анализировать поведение пользователей на их сайтах.

Естественно, в таких продуктах как аналитические системы, данные - это главная ценность. Поэтому одна из моих задач как аналитика был мониторинг того, что с данными всё ок.

В этой статье я хочу поделиться своим опытом по решению этой комплексной задачи и бонусом покажу примеры использования array функций в ClickHouse, которые могут помочь вам посчитать действительно сложные метрики.

Поехали
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 1

Книга «Python для data science»

Время на прочтение 19 мин
Количество просмотров 6.6K
Блог компании Издательский дом «Питер» Python *Data Mining *Big Data *
image Привет, Хаброжители!

Python — идеальный выбор для манипулирования и извлечения информации из данных всех видов. «Python для data science» познакомит программистов с питоническим миром анализа данных. Вы научитесь писать код на Python, применяя самые современные методы, для получения, преобразования и анализа данных в управлении бизнесом, маркетинге и поддержке принятия решений.

Познакомьтесь с богатым набором встроенных структур данных Python для выполнения основных операций, а также о надежной экосистемы библиотек с открытым исходным кодом для data science, включая NumPy, pandas, scikit-learn, matplotlib и другие. Научитесь загружать данные в различных форматах, упорядочивать, группировать и агрегировать датасеты, а также создавать графики, карты и другие визуализации. На подробных примерах стройте реальные приложения, в том числе: службу такси, использующую геолокацию, анализ корзины для определения товаров, которые обычно покупаются вместе, а также модель машинного обучения для прогнозирования цен на акции.
Читать дальше →
Всего голосов 12: ↑12 и ↓0 +12
Комментарии 1

Фильтруй базар! Как мы параллельный русско-башкирский корпус чистили

Уровень сложности Сложный
Время на прочтение 6 мин
Количество просмотров 1.8K
Python *Семантика *Data Mining *Машинное обучение *Natural Language Processing *

Чтобы обучать нейросети понимать и генерировать человеческие языки, нужно много качественных текстов на нужных языках. «Много» – не проблема в эпоху интернета, но с качеством бывают сложности. В этом посте я предлагаю использовать BERT-подобные модели для двух задач улучшения качества обучающих текстов: исправление ошибок распознавания текста из сканов и фильтрация параллельного корпуса предложений. Я испробовал их на башкирском, но и для других языков эти рецепты могут оказаться полезны.

Читать далее
Всего голосов 17: ↑17 и ↓0 +17
Комментарии 1

Mini-ml-stand для бедных

Уровень сложности Простой
Время на прочтение 17 мин
Количество просмотров 2.6K
Data Mining *Машинное обучение *DevOps *Kubernetes *Data Engineering *
Туториал

Всем привет! Снова на связи General RJ45 с новым прекрасным решением, но на сей раз по теме ML и аналитики.

На моем счету уже два законченных ML проекта и за это время я достаточно много поработал с аналитиками и ML инженерами, да и вообще над созданием ML и аналитических решений и могу сказать что у меня сформировалось своё представление о данных решения и я вижу какие проблемы возникают в данных процессах и что нужно разработчикам для их более эффективной работы, как пример это прозрачность всего процесса чтобы они могли видеть весь процесс от начала до конца и контролировать его.

В рамках данной статьи хочу рассказать как можно максимально просто поднять ML стенд на котором можно будет вести полноценную разработку и ETL процессов, и различных обучений моделей и их переобучений.

Стек того что мы поднимем в рамках этой статьи, также будут и другие инструменты как Nginx, Postgresql но мы их учитываем как часть компонентов ниже:

Развернем свой стенд с мл и etl?
Всего голосов 16: ↑15 и ↓1 +14
Комментарии 0

Анализировать данные — это как варить пиво. Почему дата-анализ и пивоварение — одно и то же с техноизнанки

Время на прочтение 10 мин
Количество просмотров 11K
Блог компании Хабр IT-гид Data Mining *Big Data *Data Engineering *
🧠 Хабр IT-гид

Три года я был эстонским пивоваром: придумывал рецепты и сам варил. Когда начал изучать Python, SQL и анализ данных, понял, что между подготовкой данных и подготовкой сусла много общего: оказывается, в цеху я занимался DS, но не подозревал об этом. Меня зовут Алексей Гаврилов, я сеньор дата-аналитик в ретейле. В этой статье расскажу, чем пивоварение и аналитика данных похожи изнутри.

Читать далее
Всего голосов 40: ↑39 и ↓1 +38
Комментарии 16

Что такое исследование данных и почему оно необходимо — кейс rdl by red_mad_robot и «АгроТерры»

Уровень сложности Средний
Время на прочтение 9 мин
Количество просмотров 920
Блог компании red_mad_robot Data Mining *Data Engineering *
Кейс

Перед тем как проводить исследования на данных, нужно исследовать сами данные. Достаточно ли их для анализа, какие гипотезы и факторы влияют на результат, а какие — чистая рулетка? На эти вопросы отвечает исследование данных — Exploratory Data Analysis (EDA). Его rdl by red_mad_robot и проводил для «АгроТерры».​

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

Модификация алгоритма FP Growth или как правильно ухаживать за своими деревьями

Уровень сложности Сложный
Время на прочтение 8 мин
Количество просмотров 1.5K
Data Mining *Алгоритмы *Математика *Машинное обучение *Data Engineering *
Из песочницы

Привет, Хабр 🙋‍♂️

В поисках варианта алгоритма FP Growth, который мог бы удовлетворить моим потребностям, я столкнулся с неожиданным и крайне удивительным обстоятельством - все решения из коробки не предполагали разбиения данных на батчи (относительно небольшие наборы элементов) и последующем обучении на них. Также они не были способны дообучаться на вновь полученных транзакциях да и в целом были заточены на единовременный анализ всей транзакционной базы данных. Меня это смутило - неужели в эпоху обработки больших данных не было подробно описано или хотя бы выложено на всеобщее обозрение ни одной реализации подобного алгоритма. Возможно, я не первый, кто придумал что-то подобное, и в кулуарах научных статей найдутся схожие идеи - что ж, в любом случае это мой личный опыт и я надеюсь в каком-либо приближении он окажется вам полезен или хотя бы интересен.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 0

PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив

Время на прочтение 9 мин
Количество просмотров 4.9K
Блог компании AvitoTech Python *Data Mining *Big Data *

Тимлид команды аналитики и DS в Авито Александр Ледовский рассказал, как быть, когда нужно посчитать что-то на pySpark, чтобы потом выгрузить.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 15

Как Почта моделирует риски потери отправлений

Уровень сложности Средний
Время на прочтение 7 мин
Количество просмотров 5K
Блог компании Почтатех Data Mining *Big Data *Машинное обучение *
Кейс
💼 Сезон Big Data

Привет! Я Кирилл Мамонов, главный аналитик отдела монетизации данных в Почтатехе. Расскажу, как мы создали модель, которая предсказывает до 97% возможных пропаж международных отправлений.

Читать далее
Всего голосов 18: ↑16 и ↓2 +14
Комментарии 24

Готовы ли вы к прозрачности мозга: корпорации готовятся залезть в головы работников

Время на прочтение 15 мин
Количество просмотров 8.5K
Блог компании Xeovo VPN Data Mining *Управление персоналом *Мозг Будущее здесь
Аналитика

В начале этого года на Всемирном экономическим форуме в Давосе прозвучала презентация профессора Ниты Фарахани о том, как возможности современных датчиков мозговой активности для контроля за сотрудниками могут изменить рабочие места. ИИ позволяет расшифровывать мозговую активность способами, которые раньше не представлялись возможными: носимые датчики (наушники, повязки, миниатюрные наклейки, которые можно спрятать за ухом) могут определять эмоциональное состояние человека; замечать и расшифровывать лица, которые он видит; расшифровывать простые геометрические формы, цифры, ПИН-коды; наручные датчики вроде часов позволяют расшифровывать сигналы на какие нажимать клавиши.

В ходе презентации профессор пыталась вывести на первый план пользу отслеживающих мозговую активность устройств для ментального и физического здоровья сотрудников, рисуя картины контроля за своим состоянием и детектирования любых тревожных звоночков для обращения к врачу. Но даже бизнес-аудитория главного экономического форума планеты прозвучала смятённо, когда в завершение своего выступления профессор Фарахани обратилась к залу с вопросом: «готовы ли вы к этому будущему?»

Читать далее
Всего голосов 33: ↑31 и ↓2 +29
Комментарии 81

Все события в мире синтетических данных за 2022 год

Время на прочтение 12 мин
Количество просмотров 816
Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод

В течение прошлого года мы наблюдали существенный рост в мире синтетических данных и радостные изменения на этом рынке. В своей статье я поделюсь своими заметками о годе мониторинга рынка. Из неё вы узнаете о новых игроках, разработках и перспективах эволюции экосистемы.

Новые игроки и анализ рынка синтетических данных


Когда в 2021 году я опубликовала пост о состоянии рынка синтетических данных, на нём присутствовало 67 поставщиков:

  • 28 поставщиков структурированных синтетических данных,
  • 10 поставщиков синтетических тестовых данных,
  • 6 опенсорсных поставщиков,
  • и 29 поставщиков неструктурированных данных.

Год спустя картина изменилась:


На карте появилось 28 новых поставщиков, а всего продавать продукты и сервисы синтетических данных стали 97 компаний.

Мы добавляем на карту ещё 31 поставщика, что суммарно даёт 100 компаний, занимающихся продажей продуктов и сервисов синтетических данных. Пять компаний закрылось и ещё я убрала с этой карты опенсорсные решения. Обновлённый список компаний, занимающихся синтетическими данными, можно посмотреть в этой статье.
Читать дальше →
Всего голосов 5: ↑4 и ↓1 +3
Комментарии 0

Определение свободного парковочного места с помощью Computer Vision

Уровень сложности Средний
Время на прочтение 8 мин
Количество просмотров 9.4K
Python *Data Mining *Машинное обучение *Искусственный интеллект
Из песочницы

Всем привет! Это моя первая статья на Хабр (поэтому не судите строго).

Дело было так: смотрел я как-то в окно и увидел, как человек сидит в машине на парковке и ждет, когда освободится парковочное место. Бывает, что и я сижу в машине и жду, когда же можно будет припарковать своего верного коня. И тут я подумал, а почему бы не подключить Компьютерное Зрение для этого? Зачем я учился разработке нейросетей, если не могу заставить компьютер работать вместо меня?

Изначально идея заключалась в следующем: Модель на базе компьютерного зрения должна через веб-камеру, установленную дома, отслеживать освободившиеся места на парковке и информировать через telegram-бота если такое место появится. Работать будем на Python.

Итак, ТЗ для меня от меня сформулировано, теперь за дело!

Первое с чем необходимо было определиться, это решить, какую модель детектирования объектов использовать. Сначала мой выбор пал на Fast R-СNN. Модель показывала хорошее качество детектирования. Однако после нескольких дней прокрастинации обдумывания реализации я решил воспользоваться более современными и интересными методами и подключить детектор от YOLO (взял не самую новую 4 версию).

Читать далее
Всего голосов 28: ↑28 и ↓0 +28
Комментарии 30

Вклад авторов

Работа

Data Scientist
117 вакансий