Как стать автором

Data Mining *

Глубинный анализ данных

Статьи Авторы Компании

DELTA37 25 мая в 18:55

Объединение данных с датчиков и интерполяция для Autonomous Vehicles

Data Mining *Big Data *Data Engineering *

Перевод

Товарищи, рассказываю о нюансах сбора и работы с данными для Autonomous Vehicles. Как правило, для создания обучающего датасета используют данные с датчиков LIDAR и камер. Но полученные данные в сыром виде очень разрознены ,и чтобы решить эту проблему, их нужно правильно объединить и интерполировать. И только после этого приступать к 3D Point Cloud разметке.

Читать далее

+6

1.1K

Unidata 25 мая в 10:00

Data profiling, и с чем его едят

Блог компании Юнидата Data Mining *Машинное обучение *Data Engineering *

Всем привет. В этой статье хотим представить инструмент для профилирования данных. Расскажем об особенностях инструмента, о профилировании данных, и кому это будет полезно. И, конечно, его уже можно опробовать: ссылка будет в тексте статьи.

Читать далее

+3

765

gubanovpa 23 мая в 08:35

Decision Intelligence Framework — Принятие решений на основе данных

Data Mining *Big Data *Машинное обучение *Управление проектами *Управление медиа *

Перевод

Какое место в организации занимает Decision Intelligence? Как вы принимаете решения на основе данных? Что делать если вы хотите принимать решения на основе данных, но не знаете с чего начать?

В своем дебютном посте на Towards Data Science Эрик Балодис излагает новую концепцию, которая выходит за рамки традиционного подхода к принятию решений на данных, и направлена на то, чтобы дать представление о том, какие процессы лежат в основе концепции Decision Intelligence.

Читать по диагонали - 5 минут, читать вдумчиво - 15 минут.

Читать далее

0

896

dzis_science 20 мая в 16:00

О чем боятся спросить Junior DS. Оптимизация кода

Python *Data Mining *Data Engineering *

Привет всем! В данной статья я постараюсь ответить на вопросы, связанные с оптимизацией работы кода. Мы затронем различные возможности оптимизации работы кода, которые очевидны опытным специалистам и о них, нередко, даже не задумываются начинающие Data Scientist'ы.

Читать далее

+3

2K

selesnow 19 мая в 11:00

Ускоряем dplyr: бекенды dtplyr, multidplyr и dbplyr (видео урок + конспект)

SQL *Data Mining *Big Data *R *Data Engineering *

Tutorial

dplyr один из наиболее популярных пакетов для языка R, основным преимуществом которого является удобочитаемый и понятный синтаксис. Из недостатков данного пакета можно отметить, что при работе с данными большого объёма он значительно уступает в скорости вычислений например data.table.

В этом видео уроке мы разберёмся с тем, как можно ускорить вычисления на dplyr, за счёт бекендов dtplyr и multidplyr, а так же узнаем о том, как и зачем можно использовать бекенд dbplyr, предназначенный для работы с базами данных.

Читать далее

0

348

UtrobinMV 18 мая в 10:05

Большое сравнение 400 нейронных сетей для задачи классификации на более 8000 классов

Python *Data Mining *Машинное обучение *Искусственный интеллект Data Engineering *

Думаю, вы знакомы с графиками сравнения точности архитектур. Их применяют в задачах по классификации изображений на ImageNet.

В каждом сравнении которые я мог встретить ранее в Интернете, как правило это было сравнение небольшого количества архитектур нейросетей, произведенными разными командами, и возможно в разных условиях.

Кроме того в последнее время я наблюдаю изменения: появилось большое количество архитектур. Однако их сравнений с ранее созданными архитектурами я не встречал, либо оно было не столь масштабным.

Мне захотелось столкнуть большое количество существующих архитектур для решения одной задачи, при это объективно посмотреть как поведут себя новые архитектуры типа Трансформер, так и ранее созданные архитектуры.

Читать далее

+10

2.1K

dzis_science 17 мая в 17:58

Категориальные признаки

Python *Data Mining *Data Engineering *

Из песочницы

Не одним One-Hot единым...

В данной статье разберемся с кодированием категориальных данных. В профессиональной среде нередко о существовании чего-то кроме OH или Label Encoder не догадываются не только рядовые Junior DS, но и даже Middle, а иногда и Senior. Исправить данную несправедливость и призвана данная статья.

Читать далее

+2

1.3K

kucev 16 мая в 13:27

7 элементов продуманной стратегии развития ИИ: опыт Salesforce

Data Mining *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Искусственный интеллект перестал быть вотчиной исключительно крупных компаний. Он становится мейнстримом для бизнеса, однако, по словам президента и исполнительного директора Salesforce Брета Тейлора, успех способствует ему не всегда. Продуманная стратегия развития ИИ должна в первую очередь учитывать интересы клиента и чётко определять результаты для бизнеса, а ключевым аспектом для всего этого являются данные.

В своём докладе на конференции Scale TransformX 2021 Тейлор рассказал об основных вопросах, которые компании любого размера должны учитывать, чтобы выполнять задачи клиентов и достигать стабильных результатов.

В этой статье мы вкратце изложим семь основных выводов из презентации Тейлора. Более подробную информацию можно посмотреть в видео.

Читать дальше →

0

1.2K

i_shutov 11 мая в 14:11

Разработчики и колпак

Python *Data Mining *R *Управление разработкой *DevOps *

*«You Only Live Twice», (1967)*
«You Only Live Twice», (1967)

Развитие микроэлектроники, ИТ технологий и широкого спектра программных продуктов открыло новые возможности по контролю всего. Датчики, камеры, цифровые следы… Магнитофон в чемодане уже неактуален.

Разработчики пишут, а компании внедряют различные системы для мониторинга эффективности работы сотрудников. Казалось бы, в зоне опасности банковские операционисты, кассиры, сотрудники колл-центров и т.д, а разработчики на коне.
По факту оказывается, что разработчики могут находиться под куда более жестким контролем.
Как же так???

Все предыдущие публикации.

Читать дальше →

+1

4.5K

i_shutov 6 мая в 12:51

Дата саентист и циклы-циклы-циклы…

Open source *Python *Data Mining *Математика *R *

«How I Met Your Mother», season 6, ep. 7

Коля любит циклы. 
Толя любит циклы. 
Оля любит циклы. 
Все любят циклы. 

И Сережа тоже.

Один Мамба их не любит. И вот почему.

Если опустить философские рассуждения, что все на уровне процессора является циклом или goto, то можно выделить три причины:

При работе с индексами цикла можно легко проглядеть и допустить ошибку. Но тут помощь приходят итераторы.
Очень часто циклы вручную пишутся очень неэффективно с точки зрения манипуляций с памятью — сильная просадка по производительности. А у вложенных циклов еще и накладные на старт цикла.
Нелинейная структура цикла (break, continue) не позволяют сделать хорошую оптимизацию на уровне процессора или компилятора. А это дополнительно означает, что распараллелить цикл по вычислителям будет очень трудно. В решении этого вопроса помогает функциональный подход и итераторы. Если известно о независимости вычислений значений каждого отдельного шага — надо сообщать об этом компилятору явно.

Все предыдущие публикации.

Читать дальше →

+3

2.9K

dima_vs 5 мая в 13:52

Внедрение программы обучения Tableau в inDriver

Блог компании inDriver Data Mining *Визуализация данных Статистика в IT

Всем привет! Хочу поделиться новостями о том, как развивается BI-платформа в inDriver. В прошлом августе я писал о выборе платформы, а сегодня расскажу, как мы внедрили программу обучения Tableau в компании, чтобы развивать нашу self-service аналитику и децентрализовать процесс анализа данных.

Перед тем, как начать рассказ про наш тернистый путь из проб, ошибок и успехов, хочу сделать небольшое лирическое отступление о том, из каких больших структурных блоков состоит наша BI-платформа. Их 3 — архитектура, self-service и репортинг. Подробнее о каждом блоке я буду рассказывать в этой и следующих статьях.

Читать далее

+8

964

Margarut 4 мая в 15:22

Коротко о 6 простых и эффективных видах визуализации

Python *Data Mining *Визуализация данных Исследования и прогнозы в IT

Из песочницы

У нас есть несколько способов понимания данных. Зачастую, когда мы анализируем их, то думаем о визуализации в последнюю очередь. Тем не менее, наш разум устроен так, что нам нужна визуальная форма вещей, которые мы хотим исследовать. Поэтому визуализация необходима не только для представления каких-то выводов, но и для выявления закономерностей мира.

Даже работая с некоторой числовой информацией, не относящейся к повседневным вещам, нам часто нужно найти в данных какие-то последовательности и закономерности, чтобы проанализировать их. Если мы увидим картинку, мы сможем сделать это быстрее. Таким образом, основная цель визуализации — создать визуальную форму для лучшего и более эффективного понимания закономерностей, скрытых в данных.

В качестве бонуса: визуализация может иллюстрировать написанные отчеты или статьи для облегчения донесения некоторых идей до читателей.

Тем не менее, данная статья посвящена топу простых видов визуализации. Поэтому с удовольствием поделюсь краткой подборкой вариантов визуализации, которыми пользуюсь почти каждый день.

Читать далее

+6

5.6K

NewTechAudit 30 апреля в 19:43

Основы работы со Spark DataFrame

Python *Программирование *Data Mining *Визуализация данных

При работе с распределенными базами данных, возникают задачи, которые ввиду технических ограничений сложно или невозможно решить с помощью всем привычного пакета Pandas на Python. Решением может стать использование распределенных вычислений Spark и его собственных DataFrame.

Читать далее

0

756

Txanxs 27 апреля в 17:54

Оперативная аналитика данных. Knime & MongoDB

Блог компании Специальный Технологический Центр Data Mining *Big Data *Визуализация данных

Tutorial

В предыдущей статье я вкратце упомянул, что Knime умеет работать с базами данных, в том числе с NoSQL базой MongoDB. На мой взгляд, MongoDB является довольно простым и эффективным решением для хранения информации, представленной в виде коллекций документов, состоящих из различных наборов полей и, по сути, являющихся обычными JSON файлами. Мне показалась интересным попробовать связку Knime - MongoDB в действии. Именно этой связке и посвящена данная статья.

Читать далее

+2

1.1K

piero 27 апреля в 15:26

ML-модели VS осложнения при бурении нефтяных скважин

Блог компании Цифра Data Mining *Машинное обучение *IT-компании

Всем привет. Меня зовут Семён. Я занимаюсь разработкой интеллектуальных приложений для нефтегазовой отрасли в компании «Цифра». В этой статье я и моя коллега Анна Тарасова расскажем, как мы искали решение для проблемы с прихватами при бурении нефтяных скважин с помощью машинного обучения и к чему в результате пришли.

Читать далее

+7

1.6K

kucev 27 апреля в 11:33

Если вы устраняете систематическую ошибку модели, то уже слишком поздно

Data Mining *Big Data *Машинное обучение *Искусственный интеллект Natural Language Processing *

Перевод

Введение

Машинное обучение — это технологический прорыв, случающийся раз в поколение. Однако с ростом его популярности основной проблемой становятся систематические ошибки алгоритма. Если модели ML не обучаются на репрезентативных данных, у них могут развиться серьёзные систематические ошибки, оказывающие существенный вред недостаточно представленным группам и приводящие к созданию неэффективных продуктов. Мы изучили массив данных CoNLL-2003, являющийся стандартом для создания алгоритмов распознавания именованных сущностей в тексте, и выяснили, что в данных присутствует серьёзный перекос в сторону мужских имён. При помощи наших технологии мы смогли компенсировать эту систематическую ошибку:

Мы обогатили данные, чтобы выявить сокрытые систематические ошибки
Дополнили массив данных недостаточно представленными примерами, чтобы компенсировать гендерный перекос

Модель, обученная на нашем расширенном массиве данных CoNLL-2003, характеризуется снижением систематической ошибки и повышенной точностью, и это показывает, что систематическую ошибку можно устранить без каких-либо изменений в модели. Мы выложили в open source наши аннотации Named Entity Recognition для исходного массива данных CoNLL-2003, а также его улучшенную версию, скачать их можно здесь.

Читать дальше →

+3

5K

mascai 26 апреля в 00:10

Парсинг для взрослых или Инфраструктура для промышленного парсинга

Python *Django *Data Mining *Data Engineering *

Из песочницы

Tutorial

В студенческие годы я написал на заказ много парсеров магазинов и социальных сетей. Со временем парсеры усложнялись и из скриптов превращались в полноценные веб-приложения c базой данных и Rest API. В статье описан шаблон веб-приложения, который использую для создания парсеров.

Читать далее

+5

7.7K

kucev 19 апреля в 11:31

Датацентрический и моделецентрический подходы в машинном обучении

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Код и данные — фундамент ИИ-системы. Оба эти компонента играют важную роль в разработке надёжной модели, но на каком из них следует сосредоточиться больше? В этой статье мы сравним методики, ставящие в центр данные, либо модель, и посмотрим, какая из них лучше; также мы поговорим о том, как внедрять датацентрическую инфраструктуру.

Читать дальше →

+2

2.8K

NewTechAudit 19 апреля в 05:30

Process Mining c bupaR

Open source *Data Mining *R *Визуализация данных Бизнес-модели

В настоящее время тема Process Mining продолжает набирать популярность, и все больше применяется при поиске новых путей повышения эффективности бизнес-процессов, в оперативном анализе пилотных проектов и конечно же в задачах аудита. При выборе инструмента для разработки в рамках данной задачи важнейшими критериями становятся доступность, производительность, наличие сообщества.

В этой статье мы рассмотрим bupaR – open-source пакет для анализа бизнес-процессов на языке R. В качестве IDE использовалась RStudio.

Допустим, у нас уже есть файл (csv) журнала (лога) событий активностей пользователей в интернет-магазине. Воспользуемся пакетом readr для загрузки лога событий из данного файла и методом activities_to_eventlog из bupaR для преобразования:

Читать далее

+2

1.2K

KayserSW 13 апреля в 20:56

Совместные конфиденциальные вычисления на пальцах

Data Mining *Big Data *Хранилища данных *

В этой небольшой заметке я хочу затронуть тему совместных конфиденциальных вычислений и попробовать кратко изложить суть этих подходов и развеять несколько неоднозначностей, сложившихся в трактовке этого термина в современном информационном поле. Надеюсь получиться 🙂

Начну немного издалека, я в целом интересуюсь темой распределенной обработки данных с сохранением конфиденциальности, в частности активно смотрю на развитие такого направления, как Federated Learning. Часто попадаются статьи и материалы на эту тему, в которых наблюдаю некоторую терминологическую путаницу, тк термины Federated Learning и Confidential Computing часто используют как синонимы, но это не совсем так. Может быть я не совсем прав, но набор методов, для "обучения" (learning) и для "вычислений" вообще-то отличаются и не являются подмножеством друг друга. Поэтому в первую очередь хочу высказаться про мое понимание их фундаментальной разницы:

Читать далее

+9

2.2K

1

alizar
2160.4
moat
796.0
varagian
670.0
alexanderkuk
613.0
Syurmakov
612.0
i_shutov
574.0
mephistopheies
485.0
dmitrybugaychenko
392.0
yorko
387.0
borges
384.0

107 вакансий