Как стать автором

Data Engineering *

обсуждаем вопросы сбора и подготовки данных

Статьи Авторы Компании

Ivan_ds вчера в 12:37

Эволюция рекомендаций в Delivery Club. Часть 2

Блог компании Delivery Club Tech Big Data *Машинное обучение *Управление e-commerce *Data Engineering *

Всем привет! Это вторая часть статьи об изменении подхода к рекомендациям в Delivery Club. В первой части я подробно описал текущие проблемы нашей рекомендательной системы: локально оптимальный баланс exploitation и cold start, а также недостаточно развитый механизм exploration. А также рассказал, как мы решали проблему exploitation через карусель «Вы заказывали», а проблему cold start — через карусель популярных фастфуд-ресторанов.

Читать далее

+12

351

khavan вчера в 12:06

Machine Learning много не бывает: отчёт с ML-митапа

Блог компании Ozon Tech Big Data *Машинное обучение *Конференции Data Engineering *

Выкладываем запись с прошедшего Ozon Tech ML Meetup: были рады поделиться опытом с коллегами из Яндекс Маркета, AliExpress Россия, Циан и увидеть гостей оффлайн, как в старые-добрые времена.

Под катом найдете запись докладов:

• Spark Streaming: в погоне за оптимальной утилизацией и прозрачностью на Hadoop,

• Го обсудим: продакшен ML на Golang,

• Платформенные решения. Решаем проблемы жизненного цикла ML-сервиса,

• Как мы перестали бояться иероглифов и полюбили китайскую инфраструктуру.

После докладов на круглом столе обсудили процессы и роли в ML-командах крупных IT-компаний.

Запись под катом

+5

453

ynikitenko 20 апреля в 23:54

Синхронизируем данные с yarsync

Open source *Системное администрирование *Python **nix *Data Engineering *

yarsync - Yet Another Rsync - предназначен для синхронизации данных между несколькими устройствами, более точно - между файловыми системами в Unix-подобных средах. yarsync обладает интерфейсом, похожим на git, и является Python-обёрткой вокруг программы rsync. Программа доступна под свободной лицензией GPL v3.0 на github (я автор).

yarsync работает там, где есть Питон и rsync.

Данные могут синхронизироваться локально или между разными компьютерами (в таком случае на удалённой машине также должен быть установлен rsync). Кроме того, файловые системы должны поддерживать жёсткие ссылки (hard links). Популярные системы, поддерживающие жёсткие ссылки - ext2-ext4, HFS+, а также NTFS. Не поддерживают жёсткие ссылки FAT, exFAT (часто используемые на флеш-накопителях).

Говоря простыми словами, допустим, что у вас есть компьютеры дома и на даче. У вас есть папка с книгами и статьями по программированию, которые вы собирали долгие годы, и которой регулярно пользуетесь (её копиями на разных машинах). Вы хотите, чтобы эти копии были одинаковы - то есть в идеале чтобы можно было работать с данными на разных компьютерах (добавлять новые статьи, удалять ненужные, переименовывать и перемещать файлы и папки), а затем эти изменения легко переносились на другие копии. Это и делает yarsync, отслеживая изменения и позволяя эффективно синхронизировать данные через доступный сервер или внешний накопитель (жёсткий диск).

Читать далее

+3

1.4K

kzzzr 18 апреля в 15:44

Требования к ETL-сервисам – построение аналитических решений на базе myBI Connect

Блог компании OTUS Big Data *Data Engineering *

Привет от Technology Enthusiast! Сегодня речь пойдет о сервисах интеграции данных, их функциональных возможностях и ограничениях. Рассмотрение будем вести на примере сервиса myBI Connect, опираясь на который я реализовал с десяток аналитических проектов за последние несколько лет.

Отмечу, что с конца февраля ребята сделали значительные шаги в сторону развития отказоустойчивости и масштабируемости своего решения. Заглядывайте под кат, если стоите перед выбором коннектора или хотите выжимать максимум из доступного:

• Требования и ожидаемые результаты

• Функциональные возможности

• Сценарии использования и бизнес-ценность

• Планы развития, продвинутое моделирование и BI

Читать далее

+3

533

ignashkin 14 апреля в 15:58

Добро пожаловать в семью

Блог компании Цифра API *Apache *Data Engineering *

Привет, Хабр! Меня зовут Игнат Нахай и это мой первый пост. Я работаю в команде по внедрению платформы ZIIoT для промышленности. Конкретнее – отвечаю за архитектурные решения при внедрении платформы в информационный слой заказчика.

ZIIoT объединяет все источники промышленных данных на предприятии и через набор MES-сервисов позволяет управлять качеством, отслеживать генеалогию продукции, анализировать производительность, проводить оперативное и детальное планирование, контролировать состояние и распределение ресурсов и много чего еще. В связи с этим в платформе рождается большой объем информации, которая востребована в других информационных системах предприятия. Здесь я расскажу, как мы решали задачу построения информационных потоков и как нам в этом помог Apache NIFI.

Читать далее

0

1.8K

kzzzr 13 апреля в 18:13

Стратегия инкрементального наполнения витрин: необходимость, реализация, подводные камни

Блог компании OTUS Big Data *Data Engineering *

Итак, Вы работаете с Большими Данными:

– Обработка этих данных требует значительного времени (и затрат 💰).

– Исторические данные не меняются (или не должны меняться) - как правило, это свершившиеся факты.

– Если Вам удается не делать повторную обработку исторических данных - Вы экономите время и затраты.

Читать далее

+4

933

Maysoft 10 апреля в 17:15

Получение данных для анализа дилетантом

Python *Машинное обучение *Искусственный интеллект Data Engineering *

Recovery mode

Tutorial

Мы начинаем писать код на языке Python, а также познакомимся с двумя библиотеками. Загрузим биржевые данные и сохраним их у себя на гугл-диске.

Читать далее

-7

2K

Maysoft 10 апреля в 11:10

Введение в Data Science от дилетанта

Python *Машинное обучение *Искусственный интеллект Data Engineering *

Tutorial

Введение в Data Science.

Читать далее

-34

5.2K

Shadilan 8 апреля в 11:54

Как сделать инициирующую загрузку в NiFi

Блог компании TINKOFF Data Engineering *

Давайте поговорим про Apache NiFi. Этот ETL-инструмент все чаще используют при загрузке данных в хранилище, правда, не всегда по назначению. Об одном из таких сценариев я рассказывал на конференции SmartData. Видео можно посмотреть на Ютубе, но я все равно рекомендую вам прочитать этот текст: здесь я собрал новые мысли и идеи. Речь пойдет об инициирующей загрузке, или перегрузке данных из источника.

Читать далее

+8

1.1K

CyberLympha 6 апреля в 16:11

Применение онтологии к решению практических задач ИБ (часть 1)

Занимательные задачки Визуализация данных Машинное обучение *Data Engineering *

В мире каждый день появляется много нового, все чаще возникают новые предметные области, о возможности появления которых мы даже не задумывались еще несколько лет назад. При этом старые предметные области уходят, не выдержав конкуренции. Каждая предметная область характеризуется прежде всего специальными знаниями, описывающими объекты этой области и их свойства. Практическое использование таких знаний является уделом экспертов. Собственно, в обладании такими знаниям и состоит профессиональная компетентность эксперта. Однако оставаться всезнающим экспертом в наши дни становится все сложнее...

Познакомиться с онтологиями

+5

2.4K

DELTA37 5 апреля в 19:09

Семантическая сегментация изображений в CVAT

Big Data *Data Engineering *

Tutorial

Товарищи, я начинаю цикл статей-туториалов по разметке данных с помощью разного ПО. Начать решил с самого знаменитого из всех бесплатных инструментов - Computer Vision Annotation Tool. Им может воспользоваться буквально любой желающий, достаточно только зарегистрироваться.

Предупреждаю: это вводная статья для новичков, призванная решить самые главные вопросы "как это работает и куда тыкать". Экспертов прошу поправить или дополнить написанное.

На русском языке не встречал настолько подробных гайдов. Думаю он будет очень полезен.

Ну посмотрим, что там у тебя...

-2

1.4K

RomanchukRoman 5 апреля в 14:49

Как устроена аналитика в «Сравни»

Блог компании Сравни Анализ и проектирование систем *Аналитика мобильных приложений *Управление продуктом *Data Engineering *

Привет, Хабр! Меня зовут Роман Романчук, я руководитель отдела аналитики в Сравни. За последние пару лет наша компания сильно выросла. Два года назад у нас было около 80 сотрудников, а сейчас уже больше 350. Отдел аналитики также разросся: сначала в нем было всего пять человек, а сейчас уже более 30.

Изначально у нас был довольно стихийный подход к аналитике, но в какой-то момент он перестал удовлетворять потребности бизнеса, так как коллегам необходимы были точные цифры в реальном времени. Чтобы решить эту проблему, мы разработали стратегию развития аналитики в компании. В своей статье я расскажу, к чему нам удалось прийти в результате.

Читать далее

+2

2.7K

Aleron75 5 апреля в 12:00

8 ошибок, из-за которых ты проиграешь в соревновательном Data Science

Блог компании RUVDS.com Алгоритмы *Машинное обучение *Data Engineering *

Привет, чемпион!

Если ты читаешь этот пост, значит, тебе стало интересно, не допускаешь ли этих ошибок ты?! Почти уверен, что ты допускал эти ошибки хотя бы раз в жизни. Мы не застрахованы от совершения ошибок, такова наша человеческая натура — ошибаться для нас естественно. Однако, я постараюсь уберечь тебя от тех ошибок, которые совершал сам или замечал у других.

Так вышло, что за время участия в чемпионатах по соревновательному анализу данных я достаточно часто бывал в призовых местах. Однако, бывали случаи, когда я лишался призовых по глупости или неосторожности. Рассказываю по порядку.

Читать дальше →

+54

10K

220-380 4 апреля в 09:56

Аналитика рынка профессии в три клика

Data Mining *Microsoft Azure Data Engineering *

Из песочницы

Привет, сообщество!

Проработав в одной компании три года, пришло время сменить работодателя. И тут я понял, что я не знаю рыночную цену своим компетенциям. Во время работы на одном месте перестаешь ходить на собеседования, общаться по-душам с рекрутерами, а рост внутри одной компании как правило небольшой, как по скилам, так и по зарплате.

В то же время, как хобби, я юзал аналитический инструмент Power BI - красивые графики, диаграммы и тд. А главный сервис с вакансиями в РФ, ну вы знаете. Поразмыслив, я почувствовал, что добавив одно к другому может получится интересная история.

Итак, мне нужны данные по рынку. Если воспользоваться поиском на сайте HHru, в выдаче можно увидеть кучу вакансий, но когда их сотни, для человека анализ не представляется возможным. Нахожу в документации по API HHru, что данные по вакансиям бесплатны и открыты. То есть можно получить те же результаты, что и поиском, только в формате json, что в конечном счете съедобно для Power BI. Поехали.

Читать далее

+2

4.2K

selesnow 30 марта в 11:36

Циклы и функционалы в языке R (бесплатный видео курс)

Data Mining *Big Data *Параллельное программирование *R *Data Engineering *

Друзья, рад представить вам свой новый курс "Циклы и функционалы в R". Курс и все сопутствующие материалы к нему распространяются бесплатно, и являются общедоступными. Во время кризиса лучшей инвестицией времени является обучение.

В данной публикации вы найдёте ссылку на курс, подробное описание и программу курса.

Читать далее

0

749

business-incubat0r 27 марта в 10:44

Low Cost Engineering как метод бережливого производства в технологическом стартапе

Canvas *Управление разработкой *Управление проектами *Управление продуктом *Data Engineering *

Recovery mode

Из песочницы

Тот, кто не готов внедрять новые решения, достаточно скептично относится к такой формулировке как Low Cost Engineering, считая, что создание прототипа – это огромные затраты. Опытные же инженеры все чаще используют данную концепцию как один из инструментов бережливого производства.

Читать далее

+2

3.7K

XHuviX 24 марта в 12:16

Что лучше: Spark Structured Streaming или полное прекращение работы прода?

Блог компании Ozon Tech Python *Big Data *Машинное обучение *Data Engineering *

Tutorial

Правильное построение ETL-процессов (преобразования данных) — сложная задача, а при большом объёме обрабатываемых данных неизбежно возникают проблемы с ресурсами. Поэтому нам требуется выискивать новые архитектурные решения, способные обеспечить стабильность расчётов и доступность данных, а при необходимости и масштабируемость — с минимальными усилиями.

Когда я пришел в Ozon, мне пришлось столкнуться с огромным количеством ETL-джоб. Прежде чем применить модель машинного обучения, сырые данные проходят множество этапов обработки. А само применение модели (то, ради чего существует команда) занимает всего 5% времени.

Читать далее

+14

2.7K

KlimenkoIv 22 марта в 15:37

Загрузка stage слоя DWH. Часть 3

Open source *Apache *Data Engineering *Визуальное программирование *

Каждый разработчик потоков Nifi сталкивается с тем, что через некоторое время потоки начинают повторятся. Бизнес хочет получать данные не по одному расписанию, а к определённым моментам времени. И возникает ситуация, когда управлять большим разросшимся потоком становится неудобно и сложно. Устранять ошибку проектирования приходится в десятках процессоры группах. И так далее...

Рассмотрим подход к параметризованному потоку загрузки, универсальному в сложившемся окружении, при обкатанных правилах формирования DWH, выполнения запросов к источникам, интервалам загрузки.

Читать далее

+4

992

Ivan_ds 21 марта в 15:54

Эволюция рекомендаций ресторанов в Delivery Club. Часть 1

Блог компании Delivery Club Tech Big Data *Машинное обучение *Управление e-commerce *Data Engineering *

Всем привет! Меня зовут Иван Максимов, я работаю Lead Data Scientist’ом в команде рекомендаций и A/B-тестирования Delivery Club. Это первая из серии статей про нашу рекомендательную систему. Я расскажу о том, как мы определили проблемы предыдущего подхода к рекомендациям, и как начали строить новый: с оптимизацией рекомендаций сразу под несколько бизнес-метрик.

Статья будет интересна data scientist’ам и менеджерам продуктов, которые хотят с нуля построить систему рекомендации контента.

Читать далее

+15

3.5K

daniil_dzheparov 21 марта в 07:24

История появления профессии аналитика данных. Понятие данных, аналитика данных. Почему появились аналитики данных

Анализ и проектирование систем *Data Engineering *

Из песочницы

История анализа данных начинается примерно с 70-х годов прошлого века, когда Американский математик и ученый Джон Тьюки опубликовал свою книгу “Exploratory Data Analysis” или “Разведывательный Анализ Данных”. В книге Тьюки пишет, что необходимо исследовать и анализировать данные для подтверждения или опровержения выдвигаемых гипотез.

Давай подумаем, что же такое “Данные” и зачем их вообще нужно анализировать.

Данные - это представление фактов или сведений о чем-либо в виде, который может понять и интерпретировать человек, а также передать эти факты/сведения другим.

Примеров данных в нашей жизни можно привести очень много: записи банковских транзакций, записи с различных датчиков или видеокамер, технические записи приборов на производствах и предприятиях о режиме работы, онлайн-опросы, журнал посещения тренировок или учебных классов, записки в блокноте, двоичный код из 0 и Также к данным можно относить медиа-контент в виде музыки или видео.

В следующем разделе мы разберём какие типы данных существуют.

Мы поняли, что множество предметов воспроизводят очень много данных вокруг нас.

Читать далее

-3

3.8K

1