Всем привет! Это вторая часть статьи об изменении подхода к рекомендациям в Delivery Club. В первой части я подробно описал текущие проблемы нашей рекомендательной системы: локально оптимальный баланс exploitation и cold start, а также недостаточно развитый механизм exploration. А также рассказал, как мы решали проблему exploitation через карусель «Вы заказывали», а проблему cold start — через карусель популярных фастфуд-ресторанов.
Data Engineering *
обсуждаем вопросы сбора и подготовки данных
Новости
Machine Learning много не бывает: отчёт с ML-митапа
Выкладываем запись с прошедшего Ozon Tech ML Meetup: были рады поделиться опытом с коллегами из Яндекс Маркета, AliExpress Россия, Циан и увидеть гостей оффлайн, как в старые-добрые времена.
Под катом найдете запись докладов:
• Spark Streaming: в погоне за оптимальной утилизацией и прозрачностью на Hadoop,
• Го обсудим: продакшен ML на Golang,
• Платформенные решения. Решаем проблемы жизненного цикла ML-сервиса,
• Как мы перестали бояться иероглифов и полюбили китайскую инфраструктуру.
После докладов на круглом столе обсудили процессы и роли в ML-командах крупных IT-компаний.
Синхронизируем данные с yarsync
yarsync - Yet Another Rsync - предназначен для синхронизации данных между несколькими устройствами, более точно - между файловыми системами в Unix-подобных средах. yarsync обладает интерфейсом, похожим на git, и является Python-обёрткой вокруг программы rsync. Программа доступна под свободной лицензией GPL v3.0 на github (я автор).
yarsync работает там, где есть Питон и rsync.
Данные могут синхронизироваться локально или между разными компьютерами (в таком случае на удалённой машине также должен быть установлен rsync). Кроме того, файловые системы должны поддерживать жёсткие ссылки (hard links). Популярные системы, поддерживающие жёсткие ссылки - ext2-ext4, HFS+, а также NTFS. Не поддерживают жёсткие ссылки FAT, exFAT (часто используемые на флеш-накопителях).
Говоря простыми словами, допустим, что у вас есть компьютеры дома и на даче. У вас есть папка с книгами и статьями по программированию, которые вы собирали долгие годы, и которой регулярно пользуетесь (её копиями на разных машинах). Вы хотите, чтобы эти копии были одинаковы - то есть в идеале чтобы можно было работать с данными на разных компьютерах (добавлять новые статьи, удалять ненужные, переименовывать и перемещать файлы и папки), а затем эти изменения легко переносились на другие копии. Это и делает yarsync, отслеживая изменения и позволяя эффективно синхронизировать данные через доступный сервер или внешний накопитель (жёсткий диск).
Требования к ETL-сервисам – построение аналитических решений на базе myBI Connect
Привет от Technology Enthusiast! Сегодня речь пойдет о сервисах интеграции данных, их функциональных возможностях и ограничениях. Рассмотрение будем вести на примере сервиса myBI Connect, опираясь на который я реализовал с десяток аналитических проектов за последние несколько лет.
Отмечу, что с конца февраля ребята сделали значительные шаги в сторону развития отказоустойчивости и масштабируемости своего решения. Заглядывайте под кат, если стоите перед выбором коннектора или хотите выжимать максимум из доступного:
• Требования и ожидаемые результаты
• Функциональные возможности
• Сценарии использования и бизнес-ценность
• Планы развития, продвинутое моделирование и BI
Добро пожаловать в семью
Привет, Хабр! Меня зовут Игнат Нахай и это мой первый пост. Я работаю в команде по внедрению платформы ZIIoT для промышленности. Конкретнее – отвечаю за архитектурные решения при внедрении платформы в информационный слой заказчика.
ZIIoT объединяет все источники промышленных данных на предприятии и через набор MES-сервисов позволяет управлять качеством, отслеживать генеалогию продукции, анализировать производительность, проводить оперативное и детальное планирование, контролировать состояние и распределение ресурсов и много чего еще. В связи с этим в платформе рождается большой объем информации, которая востребована в других информационных системах предприятия. Здесь я расскажу, как мы решали задачу построения информационных потоков и как нам в этом помог Apache NIFI.
Стратегия инкрементального наполнения витрин: необходимость, реализация, подводные камни
Итак, Вы работаете с Большими Данными:
– Обработка этих данных требует значительного времени (и затрат 💰).
– Исторические данные не меняются (или не должны меняться) - как правило, это свершившиеся факты.
– Если Вам удается не делать повторную обработку исторических данных - Вы экономите время и затраты.
Получение данных для анализа дилетантом
Мы начинаем писать код на языке Python, а также познакомимся с двумя библиотеками. Загрузим биржевые данные и сохраним их у себя на гугл-диске.
Как сделать инициирующую загрузку в NiFi
Давайте поговорим про Apache NiFi. Этот ETL-инструмент все чаще используют при загрузке данных в хранилище, правда, не всегда по назначению. Об одном из таких сценариев я рассказывал на конференции SmartData. Видео можно посмотреть на Ютубе, но я все равно рекомендую вам прочитать этот текст: здесь я собрал новые мысли и идеи. Речь пойдет об инициирующей загрузке, или перегрузке данных из источника.
Применение онтологии к решению практических задач ИБ (часть 1)
В мире каждый день появляется много нового, все чаще возникают новые предметные области, о возможности появления которых мы даже не задумывались еще несколько лет назад. При этом старые предметные области уходят, не выдержав конкуренции. Каждая предметная область характеризуется прежде всего специальными знаниями, описывающими объекты этой области и их свойства. Практическое использование таких знаний является уделом экспертов. Собственно, в обладании такими знаниям и состоит профессиональная компетентность эксперта. Однако оставаться всезнающим экспертом в наши дни становится все сложнее...
Семантическая сегментация изображений в CVAT
Товарищи, я начинаю цикл статей-туториалов по разметке данных с помощью разного ПО. Начать решил с самого знаменитого из всех бесплатных инструментов - Computer Vision Annotation Tool. Им может воспользоваться буквально любой желающий, достаточно только зарегистрироваться.
Предупреждаю: это вводная статья для новичков, призванная решить самые главные вопросы "как это работает и куда тыкать". Экспертов прошу поправить или дополнить написанное.
На русском языке не встречал настолько подробных гайдов. Думаю он будет очень полезен.
Как устроена аналитика в «Сравни»
Привет, Хабр! Меня зовут Роман Романчук, я руководитель отдела аналитики в Сравни. За последние пару лет наша компания сильно выросла. Два года назад у нас было около 80 сотрудников, а сейчас уже больше 350. Отдел аналитики также разросся: сначала в нем было всего пять человек, а сейчас уже более 30.
Изначально у нас был довольно стихийный подход к аналитике, но в какой-то момент он перестал удовлетворять потребности бизнеса, так как коллегам необходимы были точные цифры в реальном времени. Чтобы решить эту проблему, мы разработали стратегию развития аналитики в компании. В своей статье я расскажу, к чему нам удалось прийти в результате.
8 ошибок, из-за которых ты проиграешь в соревновательном Data Science
Привет, чемпион!
Если ты читаешь этот пост, значит, тебе стало интересно, не допускаешь ли этих ошибок ты?! Почти уверен, что ты допускал эти ошибки хотя бы раз в жизни. Мы не застрахованы от совершения ошибок, такова наша человеческая натура — ошибаться для нас естественно. Однако, я постараюсь уберечь тебя от тех ошибок, которые совершал сам или замечал у других.
Так вышло, что за время участия в чемпионатах по соревновательному анализу данных я достаточно часто бывал в призовых местах. Однако, бывали случаи, когда я лишался призовых по глупости или неосторожности. Рассказываю по порядку.
Аналитика рынка профессии в три клика
Привет, сообщество!
Проработав в одной компании три года, пришло время сменить работодателя. И тут я понял, что я не знаю рыночную цену своим компетенциям. Во время работы на одном месте перестаешь ходить на собеседования, общаться по-душам с рекрутерами, а рост внутри одной компании как правило небольшой, как по скилам, так и по зарплате.
В то же время, как хобби, я юзал аналитический инструмент Power BI - красивые графики, диаграммы и тд. А главный сервис с вакансиями в РФ, ну вы знаете. Поразмыслив, я почувствовал, что добавив одно к другому может получится интересная история.
Итак, мне нужны данные по рынку. Если воспользоваться поиском на сайте HHru, в выдаче можно увидеть кучу вакансий, но когда их сотни, для человека анализ не представляется возможным. Нахожу в документации по API HHru, что данные по вакансиям бесплатны и открыты. То есть можно получить те же результаты, что и поиском, только в формате json, что в конечном счете съедобно для Power BI. Поехали.
Циклы и функционалы в языке R (бесплатный видео курс)
Друзья, рад представить вам свой новый курс "Циклы и функционалы в R". Курс и все сопутствующие материалы к нему распространяются бесплатно, и являются общедоступными. Во время кризиса лучшей инвестицией времени является обучение.
В данной публикации вы найдёте ссылку на курс, подробное описание и программу курса.
Low Cost Engineering как метод бережливого производства в технологическом стартапе
Тот, кто не готов внедрять новые решения, достаточно скептично относится к такой формулировке как Low Cost Engineering, считая, что создание прототипа – это огромные затраты. Опытные же инженеры все чаще используют данную концепцию как один из инструментов бережливого производства.
Что лучше: Spark Structured Streaming или полное прекращение работы прода?
Правильное построение ETL-процессов (преобразования данных) — сложная задача, а при большом объёме обрабатываемых данных неизбежно возникают проблемы с ресурсами. Поэтому нам требуется выискивать новые архитектурные решения, способные обеспечить стабильность расчётов и доступность данных, а при необходимости и масштабируемость — с минимальными усилиями.
Когда я пришел в Ozon, мне пришлось столкнуться с огромным количеством ETL-джоб. Прежде чем применить модель машинного обучения, сырые данные проходят множество этапов обработки. А само применение модели (то, ради чего существует команда) занимает всего 5% времени.
Загрузка stage слоя DWH. Часть 3
Каждый разработчик потоков Nifi сталкивается с тем, что через некоторое время потоки начинают повторятся. Бизнес хочет получать данные не по одному расписанию, а к определённым моментам времени. И возникает ситуация, когда управлять большим разросшимся потоком становится неудобно и сложно. Устранять ошибку проектирования приходится в десятках процессоры группах. И так далее...
Рассмотрим подход к параметризованному потоку загрузки, универсальному в сложившемся окружении, при обкатанных правилах формирования DWH, выполнения запросов к источникам, интервалам загрузки.
Эволюция рекомендаций ресторанов в Delivery Club. Часть 1
Всем привет! Меня зовут Иван Максимов, я работаю Lead Data Scientist’ом в команде рекомендаций и A/B-тестирования Delivery Club. Это первая из серии статей про нашу рекомендательную систему. Я расскажу о том, как мы определили проблемы предыдущего подхода к рекомендациям, и как начали строить новый: с оптимизацией рекомендаций сразу под несколько бизнес-метрик.
Статья будет интересна data scientist’ам и менеджерам продуктов, которые хотят с нуля построить систему рекомендации контента.
История появления профессии аналитика данных. Понятие данных, аналитика данных. Почему появились аналитики данных
История анализа данных начинается примерно с 70-х годов прошлого века, когда Американский математик и ученый Джон Тьюки опубликовал свою книгу “Exploratory Data Analysis” или “Разведывательный Анализ Данных”. В книге Тьюки пишет, что необходимо исследовать и анализировать данные для подтверждения или опровержения выдвигаемых гипотез.
Давай подумаем, что же такое “Данные” и зачем их вообще нужно анализировать.
Данные - это представление фактов или сведений о чем-либо в виде, который может понять и интерпретировать человек, а также передать эти факты/сведения другим.
Примеров данных в нашей жизни можно привести очень много: записи банковских транзакций, записи с различных датчиков или видеокамер, технические записи приборов на производствах и предприятиях о режиме работы, онлайн-опросы, журнал посещения тренировок или учебных классов, записки в блокноте, двоичный код из 0 и Также к данным можно относить медиа-контент в виде музыки или видео.
В следующем разделе мы разберём какие типы данных существуют.
Мы поняли, что множество предметов воспроизводят очень много данных вокруг нас.
Вклад авторов
-
paramonov_ruvds 206.0 -
kzzzr 147.0 -
skillfactory_school 132.8 -
editor_ruvds 127.0 -
selesnow 101.4 -
MrNightSky 101.0 -
fediq 84.0 -
volinski 69.0 -
BansheeRotary 68.0 -
MaxRokatansky 64.0