Как стать автором
Обновить
13.2
Рейтинг

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга

Объединение данных с датчиков и интерполяция для Autonomous Vehicles

Data Mining *Big Data *Data Engineering *
Перевод

Товарищи, рассказываю о нюансах сбора и работы с данными для Autonomous Vehicles. Как правило, для создания обучающего датасета используют данные с датчиков LIDAR и камер. Но полученные данные в сыром виде очень разрознены ,и чтобы решить эту проблему, их нужно правильно объединить и интерполировать. И только после этого приступать к 3D Point Cloud разметке.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Просмотры 1.1K
Комментарии 2

Новости

Data profiling, и с чем его едят

Блог компании Юнидата Data Mining *Машинное обучение *Data Engineering *

Всем привет. В этой статье хотим представить инструмент для профилирования данных. Расскажем об особенностях инструмента, о профилировании данных, и кому это будет полезно. И, конечно, его уже можно опробовать: ссылка будет в тексте статьи.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 765
Комментарии 0

Decision Intelligence Framework — Принятие решений на основе данных

Data Mining *Big Data *Машинное обучение *Управление проектами *Управление медиа *
Перевод

Какое место в организации занимает Decision Intelligence? Как вы принимаете решения на основе данных? Что делать если вы хотите принимать решения на основе данных, но не знаете с чего начать?

В своем дебютном посте на Towards Data Science Эрик Балодис излагает новую концепцию, которая выходит за рамки традиционного подхода к принятию решений на данных, и направлена на то, чтобы дать представление о том, какие процессы лежат в основе концепции Decision Intelligence.

Читать по диагонали - 5 минут, читать вдумчиво - 15 минут.

Читать далее
Рейтинг 0
Просмотры 896
Комментарии 0

О чем боятся спросить Junior DS. Оптимизация кода

Python *Data Mining *Data Engineering *

Привет всем! В данной статья я постараюсь ответить на вопросы, связанные с оптимизацией работы кода. Мы затронем различные возможности оптимизации работы кода, которые очевидны опытным специалистам и о них, нередко, даже не задумываются начинающие Data Scientist'ы.


Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Просмотры 2K
Комментарии 6

Ускоряем dplyr: бекенды dtplyr, multidplyr и dbplyr (видео урок + конспект)

SQL *Data Mining *Big Data *R *Data Engineering *
Tutorial

dplyr один из наиболее популярных пакетов для языка R, основным преимуществом которого является удобочитаемый и понятный синтаксис. Из недостатков данного пакета можно отметить, что при работе с данными большого объёма он значительно уступает в скорости вычислений например data.table.

В этом видео уроке мы разберёмся с тем, как можно ускорить вычисления на dplyr, за счёт бекендов dtplyr и multidplyr, а так же узнаем о том, как и зачем можно использовать бекенд dbplyr, предназначенный для работы с базами данных.

Читать далее
Рейтинг 0
Просмотры 348
Комментарии 0

Большое сравнение 400 нейронных сетей для задачи классификации на более 8000 классов

Python *Data Mining *Машинное обучение *Искусственный интеллект Data Engineering *

Думаю, вы знакомы с графиками сравнения точности архитектур. Их применяют в задачах по классификации изображений на ImageNet. 

В каждом сравнении которые я мог встретить ранее в Интернете, как правило это было сравнение небольшого количества архитектур нейросетей, произведенными разными командами, и возможно в разных условиях.

Кроме того в последнее время я наблюдаю изменения: появилось большое количество архитектур. Однако их сравнений с ранее созданными архитектурами я не встречал, либо оно было не столь масштабным.

Мне захотелось столкнуть большое количество существующих архитектур для решения одной задачи, при это объективно посмотреть как поведут себя новые архитектуры типа Трансформер, так и ранее созданные архитектуры.

Читать далее
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 2.1K
Комментарии 17

Категориальные признаки

Python *Data Mining *Data Engineering *
Из песочницы

Не одним One-Hot единым...

В данной статье разберемся с кодированием категориальных данных. В профессиональной среде нередко о существовании чего-то кроме OH или Label Encoder не догадываются не только рядовые Junior DS, но и даже Middle, а иногда и Senior. Исправить данную несправедливость и призвана данная статья.

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Просмотры 1.3K
Комментарии 0

7 элементов продуманной стратегии развития ИИ: опыт Salesforce

Data Mining *Big Data *Машинное обучение *Искусственный интеллект
Перевод

Искусственный интеллект перестал быть вотчиной исключительно крупных компаний. Он становится мейнстримом для бизнеса, однако, по словам президента и исполнительного директора Salesforce Брета Тейлора, успех способствует ему не всегда. Продуманная стратегия развития ИИ должна в первую очередь учитывать интересы клиента и чётко определять результаты для бизнеса, а ключевым аспектом для всего этого являются данные.

В своём докладе на конференции Scale TransformX 2021 Тейлор рассказал об основных вопросах, которые компании любого размера должны учитывать, чтобы выполнять задачи клиентов и достигать стабильных результатов.

В этой статье мы вкратце изложим семь основных выводов из презентации Тейлора. Более подробную информацию можно посмотреть в видео.
Читать дальше →
Рейтинг 0
Просмотры 1.2K
Комментарии 0

Разработчики и колпак

Python *Data Mining *R *Управление разработкой *DevOps *

*«You Only Live Twice», (1967)*
«You Only Live Twice», (1967)


Развитие микроэлектроники, ИТ технологий и широкого спектра программных продуктов открыло новые возможности по контролю всего. Датчики, камеры, цифровые следы… Магнитофон в чемодане уже неактуален.


Разработчики пишут, а компании внедряют различные системы для мониторинга эффективности работы сотрудников. Казалось бы, в зоне опасности банковские операционисты, кассиры, сотрудники колл-центров и т.д, а разработчики на коне.
По факту оказывается, что разработчики могут находиться под куда более жестким контролем.
Как же так???


Все предыдущие публикации.

Читать дальше →
Всего голосов 9: ↑5 и ↓4 +1
Просмотры 4.5K
Комментарии 26

Дата саентист и циклы-циклы-циклы…

Open source *Python *Data Mining *Математика *R *


«How I Met Your Mother», season 6, ep. 7


Коля любит циклы. 
Толя любит циклы. 
Оля любит циклы. 
Все любят циклы. 

И Сережа тоже.

Один Мамба их не любит. И вот почему.


Если опустить философские рассуждения, что все на уровне процессора является циклом или goto, то можно выделить три причины:


  1. При работе с индексами цикла можно легко проглядеть и допустить ошибку. Но тут помощь приходят итераторы.
  2. Очень часто циклы вручную пишутся очень неэффективно с точки зрения манипуляций с памятью — сильная просадка по производительности. А у вложенных циклов еще и накладные на старт цикла.
  3. Нелинейная структура цикла (break, continue) не позволяют сделать хорошую оптимизацию на уровне процессора или компилятора. А это дополнительно означает, что распараллелить цикл по вычислителям будет очень трудно. В решении этого вопроса помогает функциональный подход и итераторы. Если известно о независимости вычислений значений каждого отдельного шага — надо сообщать об этом компилятору явно.

Все предыдущие публикации.

Читать дальше →
Всего голосов 7: ↑5 и ↓2 +3
Просмотры 2.9K
Комментарии 14

Внедрение программы обучения Tableau в inDriver

Блог компании inDriver Data Mining *Визуализация данных Статистика в IT

Всем привет! Хочу поделиться новостями о том, как развивается BI-платформа в inDriver. В прошлом августе я писал о выборе платформы, а сегодня расскажу, как мы внедрили программу обучения Tableau в компании, чтобы развивать нашу self-service аналитику и децентрализовать процесс анализа данных.

Перед тем, как начать рассказ про наш тернистый путь из проб, ошибок и успехов, хочу сделать небольшое лирическое отступление о том, из каких больших структурных блоков состоит наша BI-платформа. Их 3 — архитектура, self-service и репортинг. Подробнее о каждом блоке я буду рассказывать в этой и следующих статьях. 

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 964
Комментарии 0

Коротко о 6 простых и эффективных видах визуализации

Python *Data Mining *Визуализация данных Исследования и прогнозы в IT
Из песочницы

У нас есть несколько способов понимания данных. Зачастую, когда мы анализируем их, то думаем о визуализации в последнюю очередь. Тем не менее, наш разум устроен так, что нам нужна визуальная форма вещей, которые мы хотим исследовать. Поэтому визуализация необходима не только для представления каких-то выводов, но и для выявления закономерностей мира.

Даже работая с некоторой числовой информацией, не относящейся к повседневным вещам, нам часто нужно найти в данных какие-то последовательности и закономерности, чтобы проанализировать их. Если мы увидим картинку, мы сможем сделать это быстрее. Таким образом, основная цель визуализации — создать визуальную форму для лучшего и более эффективного понимания закономерностей, скрытых в данных.

В качестве бонуса: визуализация может иллюстрировать написанные отчеты или статьи для облегчения донесения некоторых идей до читателей.

Тем не менее, данная статья посвящена топу простых видов визуализации. Поэтому с удовольствием поделюсь краткой подборкой вариантов визуализации, которыми пользуюсь почти каждый день.

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 5.6K
Комментарии 12

Основы работы со Spark DataFrame

Python *Программирование *Data Mining *Визуализация данных

При работе с распределенными базами данных, возникают задачи, которые ввиду технических ограничений сложно или невозможно решить с помощью всем привычного пакета Pandas на Python. Решением может стать использование распределенных вычислений Spark и его собственных DataFrame.

Читать далее
Всего голосов 2: ↑1 и ↓1 0
Просмотры 756
Комментарии 0

Оперативная аналитика данных. Knime & MongoDB

Блог компании Специальный Технологический Центр Data Mining *Big Data *Визуализация данных
Tutorial

В предыдущей статье я вкратце упомянул, что Knime умеет работать с базами данных, в том числе с NoSQL базой MongoDB. На мой взгляд, MongoDB является довольно простым и эффективным решением для хранения информации, представленной в виде коллекций документов, состоящих из различных наборов полей и, по сути, являющихся обычными JSON файлами. Мне показалась интересным попробовать связку Knime - MongoDB в действии. Именно этой связке и посвящена данная статья.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 1.1K
Комментарии 0

ML-модели VS осложнения при бурении нефтяных скважин

Блог компании Цифра Data Mining *Машинное обучение *IT-компании

Всем привет. Меня зовут Семён. Я занимаюсь разработкой интеллектуальных приложений для нефтегазовой отрасли в компании «Цифра». В этой статье я и моя коллега Анна Тарасова расскажем, как мы искали решение для проблемы с прихватами при бурении нефтяных скважин с помощью машинного обучения и к чему в результате пришли.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 1.6K
Комментарии 5

Если вы устраняете систематическую ошибку модели, то уже слишком поздно

Data Mining *Big Data *Машинное обучение *Искусственный интеллект Natural Language Processing *
Перевод

Введение


Машинное обучение — это технологический прорыв, случающийся раз в поколение. Однако с ростом его популярности основной проблемой становятся систематические ошибки алгоритма. Если модели ML не обучаются на репрезентативных данных, у них могут развиться серьёзные систематические ошибки, оказывающие существенный вред недостаточно представленным группам и приводящие к созданию неэффективных продуктов. Мы изучили массив данных CoNLL-2003, являющийся стандартом для создания алгоритмов распознавания именованных сущностей в тексте, и выяснили, что в данных присутствует серьёзный перекос в сторону мужских имён. При помощи наших технологии мы смогли компенсировать эту систематическую ошибку:

  1. Мы обогатили данные, чтобы выявить сокрытые систематические ошибки
  2. Дополнили массив данных недостаточно представленными примерами, чтобы компенсировать гендерный перекос

Модель, обученная на нашем расширенном массиве данных CoNLL-2003, характеризуется снижением систематической ошибки и повышенной точностью, и это показывает, что систематическую ошибку можно устранить без каких-либо изменений в модели. Мы выложили в open source наши аннотации Named Entity Recognition для исходного массива данных CoNLL-2003, а также его улучшенную версию, скачать их можно здесь.
Читать дальше →
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 5K
Комментарии 3

Парсинг для взрослых или Инфраструктура для промышленного парсинга

Python *Django *Data Mining *Data Engineering *
Из песочницы
Tutorial

В студенческие годы я написал на заказ много парсеров магазинов и социальных сетей. Со временем парсеры усложнялись и из скриптов превращались в полноценные веб-приложения c базой данных и Rest API. В статье описан шаблон веб-приложения, который использую для создания парсеров.

Читать далее
Всего голосов 13: ↑9 и ↓4 +5
Просмотры 7.7K
Комментарии 12

Датацентрический и моделецентрический подходы в машинном обучении

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод
image

Код и данные — фундамент ИИ-системы. Оба эти компонента играют важную роль в разработке надёжной модели, но на каком из них следует сосредоточиться больше? В этой статье мы сравним методики, ставящие в центр данные, либо модель, и посмотрим, какая из них лучше; также мы поговорим о том, как внедрять датацентрическую инфраструктуру.
Читать дальше →
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 2.8K
Комментарии 1

Process Mining c bupaR

Open source *Data Mining *R *Визуализация данных Бизнес-модели

В настоящее время тема Process Mining продолжает набирать популярность, и все больше применяется при поиске новых путей повышения эффективности бизнес-процессов, в оперативном анализе пилотных проектов и конечно же в задачах аудита. При выборе инструмента для разработки в рамках данной задачи важнейшими критериями становятся доступность, производительность, наличие сообщества.

В этой статье мы рассмотрим bupaR open-source пакет для анализа бизнес-процессов на языке R. В качестве IDE использовалась RStudio.

Допустим, у нас уже есть файл (csv) журнала (лога) событий активностей пользователей в интернет-магазине. Воспользуемся пакетом readr для загрузки лога событий из данного файла и методом  activities_to_eventlog из bupaR для преобразования:

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 1.2K
Комментарии 1

Совместные конфиденциальные вычисления на пальцах

Data Mining *Big Data *Хранилища данных *

В этой небольшой заметке я хочу затронуть тему совместных конфиденциальных вычислений и попробовать кратко изложить суть этих подходов и развеять несколько неоднозначностей, сложившихся в трактовке этого термина в современном информационном поле. Надеюсь получиться 🙂

Начну немного издалека, я в целом интересуюсь темой распределенной обработки данных с сохранением конфиденциальности, в частности активно смотрю на развитие такого направления, как Federated Learning. Часто попадаются статьи и материалы на эту тему, в которых наблюдаю некоторую терминологическую путаницу, тк термины Federated Learning и Confidential Computing часто используют как синонимы, но это не совсем так. Может быть я не совсем прав, но набор методов, для "обучения" (learning) и для "вычислений" вообще-то отличаются и не являются подмножеством друг друга. Поэтому в первую очередь хочу высказаться про мое понимание их фундаментальной разницы:

Читать далее
Всего голосов 9: ↑9 и ↓0 +9
Просмотры 2.2K
Комментарии 5

Вклад авторов

Работа

Data Scientist
107 вакансий