Как стать автором

Data Engineering *

обсуждаем вопросы сбора и подготовки данных

Статьи Авторы Компании

katerinasve 29 сентября в 20:09

Матрица уровней дата инженеров Amazon

Data Engineering *

Из песочницы

Матрица показывает, как меняются профессиональные навыки специалистов от уровня к уровню. Сюда не включены Принципы Лидерства Amazon (https://www.amazon.jobs/en/principles), поскольку они едины для всех и не зависят от уровня сотрудника.

Матрица уровней не используется сама по себе. Это только референсы навыков для приема на работу. Эйчары рассматривают технические навыки сотрудника в отрыве от личностных качеств и сравнивают их с должностными ожиданиями.

С чем работают дата инженеры?

Читать далее

+13

3.8K

slivka_83 27 сентября в 12:05

Dagster | Туториал

Data Mining *Big Data *Машинное обучение *Data Engineering *

Tutorial

Dagster — это оркестратор, предназначенный для организации конвейеров обработки данных: ETL, проведение тестов, формирование отчетов, обучение ML-моделей и т.д.

На паре несложных примеров посмотрим как его развернуть, настроить и работать с ним.

Читать далее

+3

1.2K

GalinaVakulina 22 сентября в 14:45

Как мы строим свою платформу для аналитиков

Блог компании Точка Big Data *Data Engineering *

Привет, с вами снова Галина Вакулина, и в этой статье я расскажу, как мы строим платформу для аналитиков и избавляем их от ненужной работы.

Цель нашей команды — сделать так, чтобы в Точке работать с данными было удобно и быстро. Чем меньше времени аналитик тратит на рутину, тем больше времени у него остаётся на исследования, придумывание новых метрик, построение дашбордов, проверку гипотез и просто захватывающее копание в данных.

Читать далее

+1

965

rotor 22 сентября в 14:03

Как полюбить задачи регрессии

Data Mining *Алгоритмы *Машинное обучение *Data Engineering *

⚒️ Cезон Data Mining

У задач классификации, в отличии от задач регрессии, есть одно очень приятное свойство:
большинство ML алгоритмов решения задач классификации выдают не просто ответ, а некоторую оценку уверенности модели в ответе. То есть помимо метрик самой модели мы обладаем оценкой вероятности для конкретного ответа на конкретном примере. Это здорово помогает в принятии решений.
Неправда ли хотелось бы иметь что-то такое и для задач регресии?

Читать далее

+8

3.7K

UtrobinMV 22 сентября в 12:21

Как создать переводчик, который переводит лучше, чем Google Translate

Data Mining *Машинное обучение *Искусственный интеллект Natural Language Processing *Data Engineering *

⚒️ Cезон Data Mining

Tutorial

Помню, как еще в школе на Basic я писал программу-переводчик. И это было то время, когда ты сам составлял словарь, зашивал перевод каждого слова, а затем разбивал строки на слова и переводил каждое слово в отдельности. В то время я, конечно же, не мог и представить, как сильно продвинутся технологии, и программы-переводчики станут в основе использовать механизмы глубокого обучения с архитектурой трансформера и блоками внимания.

В это раз я решил окунуться немного в прошлое и сделать то, что хорошо сделать тогда у меня не получилось.

Читать далее

+58

9.2K

Aleron75 16 сентября в 15:00

Как мы взяли бронзу вместо золота на Kaggle или умей верно выбрать сабмит

Python *Big Data *Data Engineering *

Привет, чемпион!

Мы тут недавно потратили месяц на соревнование «UW-Madison GI Tract Image Segmentation» и не взяли золото. Золотую медаль не взяли, но теперь у каждого из нас есть первая бронза. И сейчас мы кратко расскажем про сработавшие подходы в сегментации. А еще расскажем, что можно было сделать, чтоб все-таки забрать золото. (Спойлер: мы были в шаге от золота ...)

Читать далее

+3

1.6K

Epoch8 16 сентября в 14:52

Как переносить данные откуда угодно куда угодно с помощью Meltano

Блог компании AGIMA Data Mining *Big Data *Data Engineering *

Tutorial

Создание пайплайнов для трансфера данных — рутинная задача Data-инженеров. Чтобы ее решить, многие копируют код коннекторов из одного проекта в другой. Из-за копипаста общая структура ломается, и в перспективе может возникнуть трудность с поддержкой проекта.

Источников данных много — Яндекс.Директ, Google Analytics и другие. По отдельности они не дают нужной картины, — данные всё равно приходится собирать в один Data Warehouse. Тут на помощь приходит Meltano: он позволяет стандартизировать написание коннекторов к различным источникам данных и быстро перенести все нужные данные.

Читать далее

+11

878

RUBDA 14 сентября в 10:18

Как обезличить персональные данные

Блог компании Ассоциация больших данных Data Mining *Big Data *Data Engineering *

⚒️ Cезон Data Mining

Для ML-моделей не нужны (и даже вредны) персональные данные. Но пригодятся данные, которые описывают не отдельных людей, а их группы, то есть обезличенные. Как их получить и как с ними работать? Как убедиться, что права того, чьи данные были взяты за основу, не нарушены? И где граница между персональными и анонимными данными?

Меня зовут Алексей Нейман, я исполнительный директор Ассоциации больших данных. В этой статье попробуем разобраться в этих вопросах.

Читать далее

+7

3.4K

Anna_sokol22 13 сентября в 20:00

Как мониторить золотые сигналы SRE

Блог компании Southbridge IT-инфраструктура *DevOps *Инженерные системы *Data Engineering *

Перевод

Принципы Site Reliability Engineering (SRE) в последнее время очень популярны, отчасти благодаря знаменитой книге о SRE в Google, где говорится о золотых сигналах, за которыми нужно следить, чтобы наши системы работали быстро и безотказно в любых масштабах.

Все понимают, что это важные сигналы, но не все знают, как их отслеживать. Об этом всем мы расскажем в данной статье.

Читать далее

+13

4.2K

Katser 8 сентября в 14:10

Проблемы качества промышленных данных (временных рядов)

Блог компании Росатом Визуализация данных *Машинное обучение *Искусственный интеллект Data Engineering *

Привет, Хабр! На связи Юрий Кацер, эксперт по ML и анализу данных в промышленности, а также руководитель направления предиктивной аналитики в компании «Цифрум» Госкорпорации “Росатом”. В рамках рабочих обязанностей я решаю задачи в промышленности с помощью машинного обучения.

Большую часть работы по созданию моделей составляет работа с промышленными данными. В условиях стремительного роста объема информации, собираемой на производственных предприятиях в связи с развитием интернета вещей (сбор и хранение данных), важным аспектом становится качество таких данных. В то же время проблемы и ошибки в них становятся препятствием для применения методов машинного обучения и построения моделей на основе законов физики или предметной области. Такие проблемы, как выбросы, пропуски, изменение частоты дискретизации, шум, искажают результаты или делают невозможным практическое использование данных для машинного обучения.

В этой статье мы посмотрим на часто встречающиеся проблемы в промышленных данных типа временных рядов. О том, что такое временной ряд, и о других особенностях задач в промышленности я рассказываю в других статьях на хабре, рекомендую познакомиться, а мы пока перейдем к сути! На схеме ниже приведен большой список проблем в данных, о которых мы поговорим в статье.

Читать далее

+2

1.3K

crazyfrogspb1 31 августа в 13:20

Концепция Data Mesh. Принципы, идеи, применение на практике

Data Mining *Машинное обучение *Искусственный интеллект Data Engineering *

С чего началась наша компания? В первую очередь, конечно, с людей и с идеи. Как это обычно бывает, правильные люди абсолютно случайно познакомились друг с другом, и вот я здесь, сижу и пишу этот пост =) Была, однако, и ещё одна очень важная составляющая - данные...

Любой ML-проект начинается с анализа ландшафта доступных данных - что мы можем скачать, выгрузить, разметить, купить. За четыре года наша культура работы с данными, инструментарий, подходы, процесс разметки претерпели очень большие изменения. Сейчас у нас накоплено почти 100 терабайт медицинских исследований, но количество данных абсолютно не важно, если они плохого качества, и их неудобно изучать, понимать и использовать. Недавно я делал обзорный доклад про разные аспекты качества медицинских данных, а вот наше выступление про технические аспекты пути к качеству. Сегодня же я хочу поговорить об очень интересной концепции (или даже философии), которая в последнее время на слуху, но, судя по разным постам в интернете, её суть понятна далеко не всем. Это Data Mesh.

Впервые я столкнулся с этим понятием в докладе Леруа Мерлен на митапе LeanDS. Доклад любопытный, но суть дата меш мне из него была понятна не до конца, так что недавно я взялся за чтение книги от авторки этой концепции и термина - Data Mesh: Devlivering Data-Driven Value at Scale.

Книга мне очень понравилась - она концептуальная, почти не затрагивает конкретные инструменты и способы реализации, но раскрывает суть идеи целиком и полностью. Полный конспект я могу скинуть в комментариях, если кого-то заинтересует, а в этом посте я поговорю об основных принципах, моей интерпретации и самых интересных моментах для нашей компании.

Читать далее

+5

1.7K

V_Sukhov 31 августа в 11:54

Импортозамещение BI своими руками

Блог компании Магнит Анализ и проектирование систем *Big Data *Визуализация данных *Data Engineering *

Привет! Сегодня расскажем большую историю: как мы разработали корпоративную платформу отчётности и решили сделать её общедоступной и бесплатной.

Читать далее

+1

3.3K

newnew94 31 августа в 10:00

Как организовать потоковую обработку данных. Часть 2

Блог компании МТС Data Mining *Big Data *Data Engineering *

⚒️ Cезон Data Mining

Привет, Хабр! Я – Евгений Ненахов из центра Big Data МТС Digital. Это вторая часть статьи о том, как мы создали универсальный инструмент потоковой обработки данных и построили с его помощью мощную систему стриминга. В первой половине статьи мы обсудили основные компоненты методологии, а сейчас поговорим о том, как ими пользоваться.

Если вам интересна обработка данных – жмите кнопку «Читать далее»!

Читать далее

+12

2.6K

vasenkovid 30 августа в 11:02

Что должен знать дата-инженер. Роадмап для джуниора

Блог компании Lamoda Big Data *Карьера в IT-индустрии Hadoop *Data Engineering *

Привет, username! Меня зовут Иван Васенков и я джуниор дата-инженер в дирекции данных и аналитики Lamoda. Но к этой профессии я пришел не сразу: окончив университет, я начал работать аналитиком данных, затем стал BI-разработчиком, а уже после этого — дата-инженером.

На моем пути были простые и сложные участки: где-то помогал опыт предыдущей работы, а где-то приходилось доучиваться практически на ходу. Именно поэтому я хочу поделиться советами из своего опыта, которые помогут начинающим специалистам быть максимально готовыми к вступлению в мир дата-инжиниринга.

Читать далее

+22

8.7K

alina_kocheva 29 августа в 14:38

Model serving в Kubernetes: сравнение инструментов

Блог компании Nixys Системное администрирование *DevOps *Kubernetes *Data Engineering *

Tutorial

Доброго времени суток, дорогой читатель!

Последние несколько лет в решении бизнес задач прогрессирует тренд использования Искусственного Интеллекта. Перед специалистами, отвечающими за инфраструктуру встают вопросы о том, какие решения они могут предложить ML-специалистам для закрытия их потребностей в отказоустойчивой и гибкой инфраструктуре с учетом специфических потребностей сферы ML. В том числе растет число инструментов и фич, которые они предоставляют, и многие задаются вопросом: как собрать свой MLOps-стек, чтобы он был удобный, (желательно) бесплатный и закрывал большинство распространенных потребностей.

В сегодняшней статье рассмотрим способы реализации model serving, то есть инструментов, которые нужны для того, чтобы подготовить модель к деплою и запустить в Kubernetes.

Читать далее

+10

1.4K

edyanakov 26 августа в 11:14

Как и зачем мы начали искать бизнес-инсайты в отзывах клиентов с помощью машинного обучения

Блог компании Альфа-Банк Big Data *Машинное обучение *Data Engineering *

Из песочницы

Естественный источник обратной связи для любой компании — отзывы их клиентов. И Альфа-Банк не исключение: за год мы собираем больше 100 млн оценок по различным каналам и продуктам. Но среди этих оценок очень мало содержательных текстовых комментариев, а самый популярных среди них (за 2021 год) — «Вопрос не решен!»

Чтобы решить эту проблему, Альфа-Банк собирает дополнительно до 500 тысяч отзывов в год. Этим занимается команда по сохранению лояльности клиентов: обзванивает клиентов, которые поставили негативную оценку, подробно их опрашивает, и старается решить проблему клиента на звонке, формируя свой экспертный отзыв.

Накапливаемые данные практически невозможно анализировать в ручном режиме в полном объеме, но можно сократить объем труда за счет машинного обучения. О том, как мы помогли оптимизировать процесс вычитки с помощью суммаризации на основе тематических моделей и будет эта статья.

Читать далее

+19

3.3K

newnew94 25 августа в 14:00

Как организовать потоковую обработку данных. Часть 1

Блог компании МТС Data Mining *Big Data *Data Engineering *

⚒️ Cезон Data Mining

Привет, Хабр! Меня зовут Евгений Ненахов, я работаю в центре Big Data МТС Digital. В этой статье я расскажу о том, как мы создали универсальный инструмент потоковой обработки данных и построили с его помощью мощную систему стриминга. Если вам интересна обработка данных – добро пожаловать под кат!

Читать далее

+14

4.9K

elenabobrova 24 августа в 15:18

Как анализировать данные из облачных сервисов для автоматизации бизнеса

Python *Data Mining *Визуализация данных *Data Engineering *

Из песочницы

Всем привет! Меня зовут Елена Боброва, и мы в команде CloudReports работаем над проектом, с помощью которого пользователи облачных систем могут начать легко и просто работать со своими данными.

В последнее время всё большее число компаний внедряют в свою работу различные облачные сервисы, такие как CRM системы, системы управления складом, автоматизация записи клиентов и др. Рано или поздно любой бизнес сталкивается с необходимостью анализировать данные. Облачные системы в большинстве случаев имеют ряд готовых отчетов. Но если требуется более детальный анализ, то данные, как правило, можно забрать с помощью API и поместить во внешнюю базу (хранилище данных), с которым уже удобно работать аналитикам.

Читать далее

+2

1.8K

avshkol 23 августа в 23:54

Все, что вам нужно знать об Airflow DAGs, ч.3.1 — Создание шаблонов

Python *PostgreSQL *Apache *Хранилища данных *Data Engineering *

Перевод

Все об использовании шаблонов в Airflow с примерами кода. Продолжение серии публикаций astronomer.io

Читать далее

-1

1.3K

X5RetailGroup 23 августа в 12:42

Параллельные вычисления в Apache Spark

Блог компании X5 Tech Big Data *Data Engineering *

Всем привет!

Иногда кажется, что для решения проблемы недостаточно простого выполнения расчётов в Spark и хочется более эффективно использовать доступные ресурсы. Меня зовут Илья Панов, я инженер данных в продукте CVM5 (Customer Value Management торговой сети Пятёрочка) группы X5, и хочу поделиться некоторыми подходами параллельных вычислений в Apache Spark.

Читать далее

+7

2.3K

1