Data Engineering *

обсуждаем вопросы сбора и подготовки данных

Статьи Посты Новости Авторы Компании

zmiik 1 окт в 21:24

ClickHouse. DWH. Развиваем сетевую франшизу по разведению кроликов в колоночном Data Vault

Средний

11 мин

4.5K

SQL *Хранилища данных *Data Engineering *

Волей судьбы вам досталась в наследство успешная франшиза по разведению кроликов по всему миру. Сотни тысяч ферм разного масштаба. Миллиарды животных. Огромная реферальная сеть. Ваш дед был настолько продвинутым, что смог запустить цепную реакцию и теперь система растет сама по себе, привлекая все новых и новых участников. Но увы, дед, помимо любви к животным, был заядлым фронт-end разработчиком и БД для него была лишь средством сохранения данных о своей сети. И не более.

Но вы. Вы - другое дело. Посмотрев на все это богатство вы сразу поняли, что перед вами открываются новые горизонты. Как например - открытие маркетплейса для торговли мясом или живыми животными. Вы можете интегрировать рынок сбыта в свою модель и сделать еще много и много чего. А что для этого нужно? Правильно, для этого нужна аналитика. Мощная и точная.

Приступить к разведению

datacompboy 29 сен в 15:09

TechArena Ireland: как готовился хакатон

Средний

11 мин

273

Хакатоны Искусственный интеллект Natural Language Processing *Data Engineering *

Ретроспектива

На прошлых выходных (23-24 сентября) Huawei проводил хакатон TechArena Ireland в Дублине. Несколько сотен зарегистрировались, больше сотни пришло. Организация потребовала немало времени и сил на подготовку места, рекламы, и прочего. (Я не буду перечислять в переводе всех пострадавших :) Они все упомянуты в англоязычном посте на LinkedIn и Medium.)

Я отвечал за подготовку задания, оценки решений и подобных мелочей. Вот как это выглядело.

badcasedaily1 28 сен в 15:44

Построение пайплайна обработки данных в реальном времени с использованием Python

Сложный

11 мин

3.5K

Блог компании OTUS Python *Программирование *Проектирование и рефакторинг *Data Engineering *

Обзор

Привет, Хабр!

Обработка данных в реальном времени стала важной составной частью современного мира. Бизнес, исследователи, разработчики и многие другие специалисты сталкиваются с необходимостью обрабатывать потоки данных в реальном времени, чтобы принимать решения быстрее и более точно.

В этой статье мы рассмотрим как построить пайплайн обработки данных в реальном времени с использованием Python.

+15

VASExperts 28 сен в 15:13

Исследования возможностей нейронных сетей глубокого обучения в распознавании маскируемого трафика

Средний

9 мин

2.1K

Блог компании VAS Experts Машинное обучение *Исследования и прогнозы в IT *Искусственный интеллект Data Engineering *

Аналитика

Классификация сетевого трафика является важным процессом, необходимым для правильной организации передачи данных между приложениями, которые его генерируют. Определение трафика в DPI обеспечивает основу для множества сетевых функций, таких как управление, обеспечение безопасности, разделение услуг, полисинг и другие.

В данной статье мы рассматриваем новый подход к классификации прикладных протоколов в сетевых пакетах.

Aeryukov 28 сен в 09:27

Как мы создавали self-service функционал проверки качества данных для ML-моделей

Простой

10 мин

1.1K

Блог компании Газпромбанк Open source *Big Data *Машинное обучение *Data Engineering *

Кейс

Привет! Продолжу рассказ о том, как мы превращаем банк в «биг дата» — организацию. Очевидно, что чем больше данных использует компания, тем больше зависит от их качества. Но, зачастую, вопросам качества данных при разработке витрин уделяется недостаточно внимания. Это связано с тем, что требования к качеству данных не фиксируются в бизнес‑требованиях, а разработчик витрины/инженер данных не всегда досконально знает предметную область. Будущее — за организацией контрольных мероприятий в контуре бизнес‑заказчиков. Этот тренд получил название Self‑Service функции. У нас в Газпромбанке по такому принципу строится проверка качества данных для ML‑моделей. Каждому аналитику/разработчику моделей доступен функционал оценки качества данных любой витрины. Рассказываю, как выстроили такую схему работы.

mngr 27 сен в 19:55

Становясь Пангеей: будущее современного стека для анализа данных

Средний

10 мин

2.1K

Big Data *Хранилища данных *Развитие стартапа Облачные сервисы *Data Engineering *

Аналитика

Перевод

Это перевод поста из блога The Analytics Engineering Roundup (горячо рекомендую!) под названием Becoming Pangea про тенденции в индустрии данных и аналитики, стратегические преимущества и проблемы, с которыми сталкиваются компании в ней, влияние основных облачных провайдеров на её будущее и роль стандартов в формировании в ней технологических экосистем.

Как выжить стартапу в области данных?

OnlyAnalyst 27 сен в 11:37

Как я пришёл в дата-анализ после долгих блужданий по онлайн-курсам, маршрут со всеми тупиками и ухабами

Простой

15 мин

6.4K

Data Mining *Big Data *Учебный процесс в IT Карьера в IT-индустрии Data Engineering *

Роадмэп

Привет! Меня зовут Алексей, я дата-аналитик. Четыре года назад я пришёл в дата-анализ из сферы, далековатой от IT, — пивоварения (хотя о том, что на самом деле они не так далеки, я рассказывал здесь). До того как я нашёл свою нишу, тщетно пробовал вкатиться в IT через разные курсы по Python, TensorFlow и веб-разработке. Потратил на это три года и 100 тысяч рублей, в какой-то момент выгорел ещё в процессе обучения, чуть не бросил попытки, но собрался и в итоге самостоятельно и бесплатно изучил анализ данных, который мне сразу зашёл.

Сейчас я вижу, что многие начинающие блуждают теми же окольными путями. Поэтому решил написать про свой путь с фейлами и граблями и рассказать, что мне помогло найти своё. Надеюсь, мой текст будет полезен — добро пожаловать под кат.

+18

astoulov 25 сен в 08:00

Как оценить объем работ по миграции хранилища данных на Arenadata DB / Greenplum: методика и пример

Средний

9 мин

729

Блог компании Sapiens solutions Big Data *Хранилища данных *Управление проектами *Data Engineering *

Туториал

Некоторое время назад многие российские компании, чей бизнес очень сильно завязан на обработке и анализе больших объемов данных (банки, ритейл, телеком) задумались о том, как можно уменьшить стоимость владения хранилищами данных, построенных на западных технологиях. События последнего времени только ускорили этот процесс. И сейчас количество компаний, для которых актуальна миграция существующих хранилищ данных, построенных на Oracle, MS SQL и других проприетарных СУБД, на решения открытого ПО и отечественных поставщиков, резко выросло, а СУБД GreenPlum фактически становится отраслевым стандартом в хранилищах данных.

При этом и компании-заказчику, и организации-исполнителю необходимо оценить бюджет проекта миграции. Первые обычно запрашивают подобную оценку у вторых.

Именно такую задачу поставил нам клиент – крупная торговая компания. После небольшого ознакомления с возможными методиками, выбор пал на метод COSMIC (Common Software Measurement International Consortium [1]), являющийся одной из разновидностей оценки функционального объема по функциональным точкам и выросший до стандарта ISO 19761. Плюсом в пользу СOSMIC стало разработанное консорциумом адаптированное руководство для оценки функционального объема хранилищ данных [2].

PastorGL 22 сен в 16:36

Искусство ETL. FAQ по Data Cooker ETL

5 мин

2.1K

Open source *SQL *Big Data *Hadoop *Data Engineering *

FAQ

Как и было обещано, в завершение серии ( 1 • 2 • 3 • 4 • 5 ) статей о разработке инструмента для ETL больших данных, я выкладываю выжимку ответов на вопросы.

А то статьи были в формате туториала для разработчиков таких инструментов (длинные и с высоким уровнем сложности), так что стоит рассказать более кратко и понятно для каждого.

Q. Что это такое?

A. Специализированный инструмент для а) быстрого создания ETL процессов и б) эффективного по стоимости их выполнения.

Промка: https://dcetl.ru
Исходники: https://github.com/PastorGL/datacooker-etl
Официальная группа в телеге: https://t.me/data_cooker_etl

Читать дальше →

f1kus97 22 сен в 11:14

Несовместимость Insert-only и поэтапного развертывания

Средний

4 мин

666

Высокая производительность *Анализ и проектирование систем *DevOps *Data Engineering *

Кейс

В данной статье делюсь замеченной на практике проблемой. Смысл проблемы заключается в использовании противоречащих подходов на уровне Persistance и DevOps.

ismailovda 21 сен в 10:15

Переходим на Greenplum быстро

Средний

7 мин

2.6K

Блог компании Sapiens solutions Big Data *Хранение данных *Хранилища данных *Data Engineering *

Туториал

В условиях отсутствия возможности лицензирования и поддержки иностранных вендорских решений по хранилищам данных, встал вопрос о замене этих решений на отечественное программное обеспечение, с вендорской поддержкой, находящееся в реестре российского ПО и которое не уступает по производительности и объемам хранения зарубежным аналогам, таким как Teradata, Oracle, SAP HANA. Как показал анализ, таким требованиям отвечает лишь решения, основанные на MPP СУБД на базе Greenplum, в частности Arenadata DB (ADB). Но как быстро и безболезненно начать миграцию с привычных хранилищ на open-source? Постараюсь в статье рассказать и показать, что удалось придумать в этом направлении

protmaks 21 сен в 10:01

Azure Data Factory + Databricks. Миграция сценариев инициализации в Databricks из DBFS в Workspace 2023/2024

Простой

4 мин

214

Big Data *Microsoft Azure *Data Engineering *

Из песочницы

В этой статье поговорим о том, как сделать простой процесс загрузки данных с помощью Microsoft Azure Data Factory и Databricks в 2023/2024 году. Во второй части разберем миграцию init scripts из DBFS в Workspace в связи с новым обновлением от Databricks, если ее не сделать, то не удивляйтесь, что в конце 2023 года у вас начнут падать ADF pipelines и кластера в Databricks. 1 декабря 2023 г. Databricks отключит сценарии инициализации (init scripts) с именем кластера для всех рабочих областей. Этот тип сценария инициализации ранее считался устаревшим и не будет больше использоваться.

feanoref 20 сен в 15:30

От логики и риторики до теории множеств и матанализа. Полезные материалы по Data Science и машинному обучению

Средний

21 мин

8.5K

Блог компании Selectel Математика *Машинное обучение *Искусственный интеллект Data Engineering *

Мнение

Привет, Хабр! Меня все еще зовут Ефим, и я все еще MLOps-инженер в отделе Data- и ML-продуктов Selectel. В предыдущей статье я кратко рассказал про основные ресурсы, которые могут помочь начинающему специалисту ворваться в бурлящий котел Data Science. Но после выхода материала я понял, что задача систематизации знаний гораздо сложнее, чем казалось. Настолько, что проиллюстрировать ее можно только табличкой ниже:

В этом тексте хочу исправиться: разбить знания по Data Science и машинному обучению на несколько теоретических блоков и дать больше полезных материалов. Подробности под катом!

Читать дальше →

+40

Doctor_IT 19 сен в 15:31

Платформа для анализа данных за вечер

11 мин

4.5K

Блог компании Selectel Анализ и проектирование систем *Облачные вычисления *Машинное обучение *Data Engineering *

Кейс

Текущее состояние российского рынка аналитических и ML-решений сложно назвать стабильным. Какие-то инструменты более недоступны, а на их место регулярно приходят новые. Причем не только вендорские, но еще и open source, а также облачные сервисы.

Инструменты «из коробки» не всегда подходят для решения всех необходимых задач. Какие-то слишком сложны для базовой аналитики, другие стоят больших денег, третьи заточены под определенный тип данных или более узкие задачи.

Один из набирающих популярность вариантов — собрать собственное решение, можно сказать, небольшую платформу данных. Варианты могут быть разнообразные — от разработки софта до интеграции готовых open source-элементов. Касаться первого варианта сегодня бы не хотелось, а вот второй рассмотрим подробнее.

В статье рассказываем, как всего за час (или почти) подготовить облачное окружение, создать свою небольшую платформу для анализа данных и спарсить весь Hugging Face.

Читать дальше →

+32

Digital_Academy 14 сен в 13:22

Как мы решили вопрос нехватки кадров, обучив соискателей работе с Apache Spark

6 мин

3.7K

Блог компании Холдинг Т1 Учебный процесс в IT Управление персоналом *Data Engineering *

Кейс

Привет, Хабр! На связи Т1 Цифровая Академия из Холдинга Т1. Сегодня расскажем о
том, как мы помогали клиенту справиться с нехваткой data-инженеров и увеличить темпы найма, дообучая кандидатов навыкам работы с Apache Spark на реальных задачах компании.

NigrumKross 13 сен в 15:35

Пять подходов к созданию ad-hoc-датафреймов в PySpark

7 мин

1.1K

Блог компании VK Облачные вычисления *Apache *Data Engineering *

Перевод

Дата-инженеры, работающие с PySpark, часто сталкиваются с задачей создать логику обработки данных. Обычно речь идет о тестировании набора классов и функций. Современные платформы данных на основе Spark подчас содержат сотни, а то и тысячи разных модульных тестов, которые помогают командам по работе с данными сохранять целостную базу кода. В ежедневные рабочие задачи дата-инженера входит создание небольших датафреймов, которые используются в модульных тестах как входные и выходные значения.

Читать дальше →

+10

PastorGL 12 сен в 16:40

Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]

Сложный

18 мин

4.3K

Open source *Java *Big Data *Hadoop *Data Engineering *

Туториал

В данной серии статей я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.

— Евдокимов, ты что, совсем уже там кукухой поехал?! При живом-то Spark SQL! Опять ты ненормальным программированием маешься, нет бы что-то полезное делал…
— Ну-ну-ну, спокойно, спокойно. Я ещё настолько не уехал, чтобы потратить целый год на страдание полной ерундой. Речь на сей раз пойдёт не о развлекухе, а о диалекте языка, специализированном для решения целого класса задач, для которых любой существующий SQL был бы, в теории, хорошим решением, если бы не несколько серьёзных «но».

Короче, у нас будет немного не такой SQL, который вы все так хорошо знаете, но и этот вариант вы полюбите, я обещаю. Тут лучше другой вопрос задать:
— Разве кому-то нужен голый SQL-ный движок?

Нет, голый — не нужен. Так рассказывать я буду о разработке настоящего production ready инструмента, с интерактивным шеллом с подсветкой синтаксиса и автодополнением, который сможет работать в клиент-серверном режиме, и не только на кластере, но и локально. Да не монолитный, а расширяемый при помощи подключаемых функций. И с автогенератором документации впридачу. Короче, всё будет совсем по-взрослому, с рейтингом M for Mature.

В каком смысле «M for Mature»?

Уровень сложности данной серии статей — высокий. Базовые понятия по ходу текста вообще не объясняются, да и продвинутые далеко не все. Поэтому, если вы не разработчик, уже знакомый с терминологией из области бигдаты и жаргоном из дата инжиниринга, данные статьи будут сложно читаться, и ещё хуже пониматься. Я предупредил.

Читать дальше →

+20

mrananyan 11 сен в 15:58

7 аргументов почему UUID лучше, чем автоинкрементные идентификаторы

Средний

3 мин

19K

Веб-разработка *SQL *NoSQL *API *Data Engineering *

Из песочницы

В мире баз данных идентификаторы имеют решающее значение для уникальной идентификации записей. Традиционно многие разработчики предпочитали автоматически увеличивающиеся целочисленные идентификаторы. Однако есть еще один вариант, который набирает популярность: универсально уникальные идентификаторы (UUID). В этой статье мы рассмотрим, почему UUID часто являются лучшим выбором по сравнению с автоматически увеличивающимися идентификаторами.

+10

kucev 7 сен в 12:48

Руководство по масштабированию MLOps

7 мин

988

Data Mining *Big Data *Хранение данных *Машинное обучение *Data Engineering *

Перевод

Команды MLOps вынуждены развивать свои возможности по масштабированию ИИ. В 2022 году мы столкнулись со взрывом популярности ИИ и MLOps в бизнесе и обществе. В 2023 год ажиотаж, учитывая успех ChatGPT и развитие корпоративных моделей, будет только расти.

Столкнувшись с потребностями бизнеса, команды MLOps стремятся расширять свои мощности. Эти команды начинают 2023 год с длинного списка возможностей постановки ИИ на поток. Как мы будем масштабировать компоненты MLOps (развёртывание, мониторинг и governance)? Каковы основные приоритеты нашей команды?

AlignAI совместно с Ford Motors написали это руководство, чтобы поделиться с командами MLOps своим успешным опытом масштабирования.

Читать дальше →

ItsPavel 5 сен в 12:43

Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса

Простой

3 мин

9.9K

Блог компании ITSumma Open source *Big Data *Data Engineering *

Мнение

Большие данные мертвы. В той их части, которая характеризуется как “большие”. Так считает Джордан Тигани, инженер-основатель Google BigQuery, человек, который больше 10 лет рассказывал всем о пользе big data. Что он имеет в виду и что это значит для бизнеса? Давайте разбираться.

+35

2 3 ...

39 40

Data Engineering *

ClickHouse. DWH. Развиваем сетевую франшизу по разведению кроликов в колоночном Data Vault

Новости

TechArena Ireland: как готовился хакатон

Построение пайплайна обработки данных в реальном времени с использованием Python

Исследования возможностей нейронных сетей глубокого обучения в распознавании маскируемого трафика

Истории

Как мы создавали self-service функционал проверки качества данных для ML-моделей

Становясь Пангеей: будущее современного стека для анализа данных

Как я пришёл в дата-анализ после долгих блужданий по онлайн-курсам, маршрут со всеми тупиками и ухабами

Как оценить объем работ по миграции хранилища данных на Arenadata DB / Greenplum: методика и пример

Искусство ETL. FAQ по Data Cooker ETL

Несовместимость Insert-only и поэтапного развертывания

Переходим на Greenplum быстро

Azure Data Factory + Databricks. Миграция сценариев инициализации в Databricks из DBFS в Workspace 2023/2024

От логики и риторики до теории множеств и матанализа. Полезные материалы по Data Science и машинному обучению

Ближайшие события

Платформа для анализа данных за вечер

Как мы решили вопрос нехватки кадров, обучив соискателей работе с Apache Spark

Пять подходов к созданию ad-hoc-датафреймов в PySpark

Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]

7 аргументов почему UUID лучше, чем автоинкрементные идентификаторы

Руководство по масштабированию MLOps

Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса

Вклад авторов