Как стать автором

Data Engineering *

обсуждаем вопросы сбора и подготовки данных

Статьи Авторы Компании

avl33 вчера в 21:17

Digital Material Passport. Ч.2 – Цифровой парадокс и рынок DMP

CAD/CAM *Исследования и прогнозы в IT Управление продуктом *Суперкомпьютеры Data Engineering *

Увеличение потребности в новых данных напрямую связано с попыткой приблизить цифровой двойник к физическому объекту. Таким образом, сам процесс совершенствования цифровых двойников провоцирует прогрессивный рост стоимости такого совершенствования.

Этот цифровой парадокс заставляет усомниться в возможностях массового перехода на качественные Digital Twin и тем более использование DMP в России при «хаотичной» организации работы, даже в условиях распространения цифровизации.

В то же время потребность в данных порождает новый цифровой товар - на этот товар претендует не сам DMP, а цифровые данные производителей о физическом продукте.

Читать далее

0

188

X5RetailGroup вчера в 18:34

Построение архитектуры проекта при работе с PySpark

Блог компании X5 Group Python *Анализ и проектирование систем *Big Data *Data Engineering *

В настоящее время уже сложно найти крупную компанию, которая не использовала бы возможности накопления и использования больших данных. Меня зовут Никита Сурков и я работаю в проекте ценообразования "Пятёрочки" X5 Group. Проект является ярким примером использования больших данных, так как Пятёрочка -- это 18000 магазинов по всей стране. Чтобы построить систему ценообразования в такой сети требуется обработка миллиардов строк информации из чеков, данных по остаткам, себестоимостей и многих других данных. Для всего этого преимущественно используется PySpark, как один из популярных инструментов для работы с расперделёнными системами. В данной статье будет представлен один из методов написания кода на PySpark таким образом, чтобы он был более читаем, легко тестируем и поддерживаем. Сразу оговорюсь, что не представляю здесь единственное правильное решение, но оно доказало свою жизнеспособность на примере того проекта, в котором я работал.

Читать далее

0

819

vandriichuk вчера в 15:35

Как сделать платформу по анализу НЕ больших данных — готовая к работе сборка на базе AirFlow + PostgreSQL + MetaBase

Data Engineering *

Tutorial

Как-то мне попалась на глаза презентация Даниила Охлопкова, в которой он рассказывает об удобных инструментах для создания небольшой аналитической платформы по хранению данных для стартапа. Посмотрел и посморел, но информация отложилась. И вот недавно мне пришлось решать подобную задачу. Поэтому я сразу вспомнил данную презентацию и воспользовался готовыми идеями. Это сэкономило мне несколько дней, а может и неделю на исследования и выбор инструментов. Особенно MetaBase - я об этом слышал разве что мельком. Но добрых два рабочих дня (примерно 16-20 часов) ушло на то, чтобы все это запустить так, как я хотел бы. И если вы хотите сэкономить для себя эти два дня - тогда велком под кат.

Читать далее

+1

926

Oleh_Lastovetskyi вчера в 11:15

Автоматическое заполнение файлами документов Word и подписей к ним с помощью Python и библиотеки docx

Python *Data Engineering *

Из песочницы

Рассмотрим пример простой программы на Python с помощью библотекы docx для автоматизации рабочего процесса, а именно автоматической вставки файлов (в данном случае изображений) и их подпись в документах Word (docx).

Данная статья будет интересна для начинающих изучающих Python, а также полезна для тех кто работает с большими объемами изображений, графиков, осциллограмм и тому подобное. В ней мы рассмотрим простой и удобный способ вставки изображений в Word и их подписью с помощью Python.

Редактирования кода займет 5 минут, выполнение программы займет 5 секунд. Вы сэкономите 300 минут работы.

Я опишу свой максимально дубовый и непрофессиональный но простой код который Вы сможете повторить в своих проектах. (Полный код в низу статьи).

Читать далее

+3

2.7K

kmoseenk 20 сентября в 19:55

Почему лучше НЕ использовать CSV с Apache Spark

Блог компании OTUS Data Engineering *

Перевод

Недавно я в очередной раз услышал:

“CSV — это популярный формат хранения данных, имеющий встроенную поддержку в Apache Spark…”

Ну, на счет “популярный” — согласен, “имеющий встроенную поддержку” — согласен, но на счет “хранения данных” — категорически не согласен. Подобные фразы могут не только сбить с толку окружающих, но и привести к значительным непродуктивным затратам времени (и памяти данных). Давайте разберемся.

Читать далее

+1

1.4K

krasnov_v_i 20 сентября в 14:00

Python микросервисы с Kafka без боли

Python *API *Data Engineering *

Из песочницы

В этой статье я бы хотел поделиться способом написания асинхронных микросервисов на Python, в основе которых библиотека Faust. А в качестве брокера сообщений Kafka. Ну и немного мониторинга с Prometheus и Grafana.

Читать далее

+15

4.8K

Mojsha 19 сентября в 21:05

Как Airbnb ошиблась и зачем строила Wall

Блог компании SkillFactory Python *IT-инфраструктура *Big Data *Data Engineering *

Перевод

Чтобы ускорить принятие решений и лучше поддерживать мониторинг метрик бизнеса, в Airbnb внедрили сертификацию всех метрик и наборов данных, написали рекомендации о проверках качества данных, но не обеспечили их выполнение. О возникшей из-за этого проблеме и её решении рассказываем к старту флагманского курса по Data Science.

Читать далее

+4

2.4K

valexv 18 сентября в 01:29

Apache Spark: оптимизация производительности на реальных примерах

Блог компании Neoflex Apache *Big Data *Хранилища данных *Data Engineering *

Из песочницы

Apache Spark – фреймворк для обработки больших данных, который давно уже стал одним из самых популярных и часто встречаемых во всевозможных проектах, связанных с Big Data. Он удачно сочетает в себе скорость работы и простоту выражения своих мыслей разработчиком.

Разработчик работает с данными на достаточно высоком уровне и, кажется, что нет ничего сложного в том, чтобы, например, соединить два набора данных, написав всего одну строку кода. Но только задумайтесь: что происходит в кластере при соединении двух наборов данных, которые могут и не находится целиком на каком-либо из узлов кластера? Обычно Spark со всем справляется быстро, но иногда, а особенно, если данных действительно много, необходимо все-таки понимать – что происходит уровнем ниже и использовать это знание, чтобы помочь Spark работать в полную силу.

Читать далее

+13

2.8K

avl33 15 сентября в 16:09

Digital Material Passport. Ч.1 — Скрытые грани «цифровых двойников»

CAD/CAM *Исследования и прогнозы в IT Управление продуктом *Суперкомпьютеры Data Engineering *

Рано или поздно, непременно возникнет вопрос – а насколько можно доверять цифровым «двойникам» и насколько они на самом деле являются двойниками физическим образцам? На 60%? на 80%? Вчера было на 80%, а сегодня другой поставщик и возможно уже только 60%?

Достаточно ли Вам будет такого отчета в документах о гарантии тормозной системы автомобиля, как «виртуальные испытания тормозной системы автомобиля подтвердили длину тормозного пути на сухом асфальте с разогретыми шинами ~40 метров со скорости 100 км/час при отклонениях ± 30-40% на покупаемом Вами физическом экземпляре автомобиля.»

Читать далее

+5

768

seregazolotaryow64 14 сентября в 09:07

Экосистема ваших Big Data-кластеров из решении Apache в Docker-контейнерах на Linux-машинах

Open source *Big Data *DevOps *Hadoop *Data Engineering *

Недавно в своей работе начал практиковаться с Hadoop, Spark и Hive от Apache на примере организации распределенного хранилища данных в крупном и сложном проекте. Так как я хорошо дружу с Linux и вселенной Docker, только одна команда позволит не мучиться с лишней установкой Big Data-решении от Apache, не нагружая при этом свою Linux-машину(при наличии Docker и Docker-Compose).

Читать далее

-5

1.4K

Mojsha 9 сентября в 20:58

Kedro — ключ к модульной Data Science

Блог компании SkillFactory Python *Программирование *Машинное обучение *Data Engineering *

Перевод

Tutorial

Kedro — фреймворк модульного кода в Data Science. С его помощью вы можете создавать проекты по шаблону, настраивать конвейер в YAML, делить его на части, документировать проект — и это далеко не всё. Материалом о работе с Kedro делимся к старту курса по Data Science.

Читать далее

+9

2.1K

selesnow 9 сентября в 10:51

Обзор R пакетов для интернет маркетинга, часть 2

API *R *Интернет-маркетинг Контекстная реклама Data Engineering *

Tutorial

Первой моей публикацией на Хабре была "Обзор R пакетов для интернет маркетинга, часть 1", с тех пор прошло почти 3 года. За это время какие-то пакеты стали не актуальны, какие-то сильно изменились и конечно появились новые пакеты, которые могут значительно облегчить жизнь интернет маркетологам и веб аналитикам.

В этой статье мы рассмотрим следующую порцию R пакетов предназначенных для интернет - маркетинга.

Читать далее

+1

958

MrNightSky 7 сентября в 14:30

Как классифицировать данные без разметки

Блог компании FUNCORP Python *Обработка изображений *Машинное обучение *Data Engineering *

Пользователи iFunny ежедневно загружают в приложение около 100 000 единиц контента, среди которого не только мемы, но и расизм, насилие, порнография и другие недопустимые вещи.

Раньше мы отсматривали это вручную, а сейчас разрабатываем автоматическую модерацию на основе свёрточных нейросетей. Систему уже обучили на разделение контента по трём классам: она распознает, что пропустить в ленты пользователей, что удалить, а что скрыть из общей ленты. Чтобы сделать алгоритмы точнее, решили добавить конкретизацию причины удаления контента, у которого до этого не было подобной разметки.

Как мы это в итоге сделали — расскажу под катом на наглядном примере. Статья рассчитана на тех, кто знаком с Python (при этом необязательно разбираться в Data Science и Machine Learning).

Читать далее

+53

5.7K

Anastasia_rova 6 сентября в 13:35

«Футбол в цифрах»: как аналитика может улучшить ситуацию с футболом в России

Блог компании Нетология Визуализация данных Статистика в IT DIY или Сделай сам Data Engineering *

Привет, Хабр! Меня зовут Владимир Герингер, я автор проекта «Футбол в цифрах». В нём я собираю футбольную статистику, анализирую данные, вывожу закономерности и рассказываю аудитории о самом интересном в виде коротких заметок и подробных статей. Данные — моё хобби, я собрал их достаточно, чтобы сделать выводы об основных проблемах российского футбола и предложить решения.

Как рост и вес футболистов влияют на игру

+9

3.2K

IvanSGlazunov 4 сентября в 18:38

Фактор рефакторинга

Анализ и проектирование систем *API *Big Data *Data Engineering *

Из песочницы

Код зависим от данных и моделей, а значит от абстракций используемых в них, поэтому рефакторинг неминуем сегодня. Почему? Обычно под рефакторингом подразумевают реорганизацию кода из соображений необходимости использовать данные по-новому. Мы поговорим о самом частом и нелюбимом типе рефакторинга - лавинообразный рефакторинг, возникающий при изменениях в моделях данных, структурах таблиц и бизнес логике.

Это те дроиды, которых вы ищете

+5

4K

phillennium 2 сентября в 18:55

Осенний экспресс прибывает: анонс TechTrain 2021 Autumn

Блог компании JUG Ru Group Java *Разработка под Android *Node.JS *Data Engineering *

IT-экспресс TechTrain мчится в онлайн и открывает наш осенний сезон конференций.

Это бесплатное мероприятие, где с 8 докладами на самые разные темы выступят спикеры самого разного профиля. Пишете вы на Kotlin или C++, ближе вам DevOps или дата-инжиниринг — найдется доклад для вас.

Чтобы запрыгнуть на бесплатный осенний поезд, который отправится 18 сентября, достаточно пройти регистрацию на сайте.

А чтобы вспомнить или впервые увидеть доклады прошлого сезона, можете посмотреть их плейлист.

Все это, только в расширенном формате, ждет вас и на наших крупных осенних конференциях. Поэтому по программе TechTrain можно даже погадать: посмотрите на нее под катом, выберите самый интересный вам доклад, а в конце текста мы по вашему выбору нагадаем, на какой из наших конференций вам точно будет интересно.

Читать далее

+13

756

kmoseenk 1 сентября в 13:32

Функции высшего порядка в Spark 3.1

Блог компании OTUS Data Engineering *

Перевод

Сложные типы данных, такие как массивы (arrays), структуры (structs) и карты (maps), очень часто встречаются при обработке больших данных, особенно в Spark. Ситуация возникает каждый раз, когда мы хотим представить в одном столбце более одного значения в каждой строке, это может быть список значений в случае с типом данных массива или список пар ключ-значение в случае с картой.

Поддержка обработки этих сложных типов данных была расширена, начиная с версии Spark 2.4, за счет выпуска функций высшего порядка (HOFs). В этой статье мы рассмотрим, что такое функции высшего порядка, как их можно эффективно использовать и какие связанные с ними функции были выпущены в последних выпусках Spark 3.0 и 3.1.1. Для кода будем использовать Python API.

После агрегаций и оконных функций, которые мы рассмотрели в прошлой статье, HOF представляют собой еще одну группу более продвинутых преобразований в Spark SQL.

Давайте сначала посмотрим на разницу между тремя сложными типами данных, которые предлагает Spark.

Читать далее

+4

938

Cloudera 31 августа в 13:47

Аудит в CDP Private Cloud Base с использованием внешних систем

Блог компании Cloudera Big Data *Хранение данных *Hadoop *Data Engineering *

Регулируемые отрасли и правительственные организации по всему миру доверяют Cloudera хранение и анализ петабайтов данных - очень важной или конфиденциальной информации о людях, персональных и медицинских данных, финансовых данных или просто служебной информации, конфиденциальной для самого клиента.

Любой, кто хранит информацию о клиентах, медицинскую, финансовую или конфиденциальную информацию, должен убедиться, что приняты необходимые меры для защиты этих данных, включая обнаружение и предотвращение непреднамеренного или злонамеренного доступа. Согласно исследованию Ponemon Institute, за два года в мире средний ущерб от инсайдерских угроз вырос на 31% и достиг 11,45 миллиона долларов, а частота инцидентов за тот же период увеличилась на 47%. В отчете за 2019 год указано, что компании больше всего беспокоятся о непреднамеренных нарушениях со стороны инсайдеров (71%), утечках данных из-за небрежности (65%) и злонамеренных действиях злоумышленников (60%), чем о взломанных учетных записях или машинах (9%).

В этой статье мы разберем как правильно интегрировать платформу CDP с внешними SIEM системами.

Читать далее

+1

169

EVRAZ 26 августа в 14:46

Хитрый сплав: как мы соединили дата-сайентистов, разработчиков и технологов и чем это помогло металлургии

Блог компании ЕВРАЗ Промышленное программирование *Машинное обучение *Управление разработкой *Data Engineering *

Мы — ЕВРАЗ. Горно-металлургическая компания. В рамках производственного процесса мы производим кокс — твёрдое топливо для доменных печей, где выплавляют чугун. Чтобы получить качественное топливо (кокс), нам нужно подобрать правильную шихту — смесь разных углей в определённой пропорции. Но до сих пор приходилось подбирать по наитию. От решения этой задачи фактически зависит прибыль предприятия, но ни один исследовательский институт ещё не смог разработать подходящую математическую формулу.

Мы попробовали соединить в одной команде технологов, разработчиков и дата-сайентистов. Дополнили это накопленной базой знаний о параметрах кокса и угольных шихт, из которых он получен. Потратили время, чтобы понять технологический процесс и химию в его основе. И не пожалели: через восемь месяцев получили работающую модель предсказания, которая преодолела скепсис технологов и экономит нам сотни миллионов рублей в год.

Читать далее

+12

6.7K

kzzzr 26 августа в 13:09

Airbyte для управления потоками данных – репликация Яндекс.Метрика в S3

Блог компании OTUS Big Data *Data Engineering *

Современные Data Pipelines превратились в commodity наподобие электричества в розетке – они просто должны быть и функционировать, обеспечивая базовые потребности аналитиков и инженеров.

Множество компаний, таких как Fivetran, Hevo, Alooma, сегодня зарабатывают на предоставлении Data Pipelines / Integration как сервис. Наряду с очевидными преимуществами, основными недостатками являются закрытый исходный код и отсутствие возможности быстро добавлять новые коннекторы.

В этой публикации на примере репликации данных открытого счетчика Яндекс.Метрика в объектное хранилище S3 я познакомлю вас с Airbyte – решением с открытым исходным кодом. Это новый стандарт для выстраивания потоков интеграции данных из всевозможных приложений, баз данных и API в аналитические хранилища данных, озера данных.

Читать далее

+6

977

1