Как стать автором

Data Engineering *

обсуждаем вопросы сбора и подготовки данных

Статьи Авторы Компании

220-380 вчера в 15:21

Как подключитьcя к SAP Hana, используя Power BI

Microsoft Azure Data Engineering *

Tutorial

Всем привет!

В данной статье я расскажу, как построить отчет Power BI на данных SAP Hana. Внятной информации на этот счет в интернете я не нашел, поэтому пришла идея поделиться информацией. Так вышло, что в нашу команду прилетел новый проект – нужно было построить аналитику на данных SAP EWM, используя Power BI, как средство визуализации.

Когда-то, работая SAP BW консультантом еще в далеком 2019, я начал использовать Power BI для своих личных целей, как хобби. Произошло это случайно. Я хотел проанализировать вакансии с сайта подбора персонала, что и сделал. На это у меня есть отдельная статья. Дальше больше, в итоге скопился приличный опыт. Таким образом я стал одним из разработчиков на вышеуказанном проекте😊.

Что на входе? Система SAP EWM (логистика, поставки) и куча графиков в Excel от заказчика. Причем некоторые графики должны обновляться не менее раза в час – то есть почти в реальном времени, рис. 1.

Читать далее

0

551

DELTA37 25 мая в 18:55

Объединение данных с датчиков и интерполяция для Autonomous Vehicles

Data Mining *Big Data *Data Engineering *

Перевод

Товарищи, рассказываю о нюансах сбора и работы с данными для Autonomous Vehicles. Как правило, для создания обучающего датасета используют данные с датчиков LIDAR и камер. Но полученные данные в сыром виде очень разрознены ,и чтобы решить эту проблему, их нужно правильно объединить и интерполировать. И только после этого приступать к 3D Point Cloud разметке.

Читать далее

+6

1.2K

Unidata 25 мая в 10:00

Data profiling, и с чем его едят

Блог компании Юнидата Data Mining *Машинное обучение *Data Engineering *

Всем привет. В этой статье хотим представить инструмент для профилирования данных. Расскажем об особенностях инструмента, о профилировании данных, и кому это будет полезно. И, конечно, его уже можно опробовать: ссылка будет в тексте статьи.

Читать далее

+3

802

kmoseenk 23 мая в 13:43

Современный дата-стек: прошлое, настоящее и будущее

Блог компании OTUS Data Engineering *

Перевод

Мои размышления о том, откуда мы пришли и куда можем двигаться.

Недавно я выступал с докладом по этой теме на конференции Sisu Future Data, и, поскольку я мыслю в прозе, а не в Powerpoint, мне пришлось оформить свои измышления на бумаге, прежде чем я смог разбить их слайды. В результате еще некоторого количества усилий на свет появилась эта статья, и я очень надеюсь, что она будет для вас полезной. Если вам интересно посмотреть мой доклад полностью, вы можете найти его запись здесь.

Читать далее

+1

1.2K

dzis_science 20 мая в 16:00

О чем боятся спросить Junior DS. Оптимизация кода

Python *Data Mining *Data Engineering *

Привет всем! В данной статья я постараюсь ответить на вопросы, связанные с оптимизацией работы кода. Мы затронем различные возможности оптимизации работы кода, которые очевидны опытным специалистам и о них, нередко, даже не задумываются начинающие Data Scientist'ы.

Читать далее

+3

2.1K

Bee_brightside 20 мая в 11:37

Приглашаем инженеров уровней Junior и Middle с опытом работы от года принять участие в нашем Data Engineer Weekend Offer

Блог компании билайн бизнес Big Data *Карьера в IT-индустрии Data Engineering *

28 мая в штаб-квартире билайна пройдёт первый data engineering weekend offer — все этапы собеседования сразу в один день: вы расскажете о себе, проверите свои технические знания, узнаете, какие продукты разрабатывает билайн.

Чтобы ожидание каждого этапа не было скучным, вы сможете пообщаться с экспертами компании, посмотреть последние митапы сообщества и познакомиться с представителями команд в неформальной обстановке.

Читать далее

+11

1.1K

selesnow 19 мая в 11:00

Ускоряем dplyr: бекенды dtplyr, multidplyr и dbplyr (видео урок + конспект)

SQL *Data Mining *Big Data *R *Data Engineering *

Tutorial

dplyr один из наиболее популярных пакетов для языка R, основным преимуществом которого является удобочитаемый и понятный синтаксис. Из недостатков данного пакета можно отметить, что при работе с данными большого объёма он значительно уступает в скорости вычислений например data.table.

В этом видео уроке мы разберёмся с тем, как можно ускорить вычисления на dplyr, за счёт бекендов dtplyr и multidplyr, а так же узнаем о том, как и зачем можно использовать бекенд dbplyr, предназначенный для работы с базами данных.

Читать далее

0

354

UtrobinMV 18 мая в 10:05

Большое сравнение 400 нейронных сетей для задачи классификации на более 8000 классов

Python *Data Mining *Машинное обучение *Искусственный интеллект Data Engineering *

Думаю, вы знакомы с графиками сравнения точности архитектур. Их применяют в задачах по классификации изображений на ImageNet.

В каждом сравнении которые я мог встретить ранее в Интернете, как правило это было сравнение небольшого количества архитектур нейросетей, произведенными разными командами, и возможно в разных условиях.

Кроме того в последнее время я наблюдаю изменения: появилось большое количество архитектур. Однако их сравнений с ранее созданными архитектурами я не встречал, либо оно было не столь масштабным.

Мне захотелось столкнуть большое количество существующих архитектур для решения одной задачи, при это объективно посмотреть как поведут себя новые архитектуры типа Трансформер, так и ранее созданные архитектуры.

Читать далее

+10

2.1K

dzis_science 17 мая в 17:58

Категориальные признаки

Python *Data Mining *Data Engineering *

Из песочницы

Не одним One-Hot единым...

В данной статье разберемся с кодированием категориальных данных. В профессиональной среде нередко о существовании чего-то кроме OH или Label Encoder не догадываются не только рядовые Junior DS, но и даже Middle, а иногда и Senior. Исправить данную несправедливость и призвана данная статья.

Читать далее

+2

1.4K

kzzzr 13 мая в 20:03

Кто такой Analytics Engineer – E2E-решение с использованием bash + dbt + Looker

Блог компании OTUS Big Data *Data Engineering *

Привет! Меня зовут Артемий Козырь, и я Analytics Engineer в Wheely.

Мы могли бы долго и нудно обсуждать, кто такой Analytics (Data / Backend) Engineer, какими инструментами он должен владеть, какие buzzwords в тренде и ценятся в CV, однако, на мой взгляд, гораздо интереснее рассмотреть процесс и результаты его деятельности в рамках конкретной прикладной задачи.

В этой публикации:

Читать далее

+7

1.2K

mnrozhkov 9 мая в 19:38

Проведение совместных экспериментов c DVC

Open source *Big Data *Машинное обучение *Data Engineering *

Перевод

Вы можете использовать удаленные хранилища DVC для совместного использования экспериментов и их данных через машины.

Читать далее

+1

666

VTB 6 мая в 11:00

Конференция Data Fusion: большие спецы по большим данным

Блог компании ВТБ Big Data *Data Engineering *

В 2022 году «бигдатой» никого не удивишь. Эта область компьютерных наук из инновационной и хайповой стала необходимой и привычной. Однако внутри она по-прежнему бурно развивается. Один из восходящих трендов — синергия данных. Объединяя и совместно анализируя данные из разных отраслей, можно сделать много интересного.

Этому подходу, а также более общим вопросам Big Data и Machine Learning была посвящена конференция Data Fusion, прошедшая 14–15 апреля в онлайн-формате. На ней был затронут широкий спектр тем, от маркетинга до свободы воли. Пересказывать конференцию целиком — труд огромный и напрасный. Поэтому под катом поговорим об отдельных интересных докладах, а с остальной программой вы можете ознакомиться самостоятельно.

Читать далее

+3

873

He6puToCTb 5 мая в 09:14

«Божественная комедия», или Девять кругов прогнозирования промоспроса в «Магните»

Блог компании Магнит Алгоритмы *Big Data *Data Engineering *

Привет, Хабр! На связи команда направления прогнозирования промо в «Магните». В предыдущей статье «Магнитная аномалия: как предсказать продажи промо в ритейле» мы дали читателю общее представление о том, чем занимается наша команда. Теперь поговорим о конкретных сложностях и методах их решения, с которыми нам приходится сталкиваться в работе.

Чтобы лучше разобраться во внутренней кухне, предлагаем читателю вместе прогуляться по нашим «девяти кругам прогнозирования промо спроса».

Читать далее

+8

3.4K

novoselov_am 3 мая в 15:45

Как избежать «подводных камней» машинного обучения: руководство для академических исследователей

Машинное обучение *Искусственный интеллект Data Engineering *

Из песочницы

Перевод

Этот лонг-рид является сильно переработанным и расширенным переводом статьи How to avoid machine learning pitfalls: a guide for academic researchers (Lones, 2021).

Статья является кратким описанием ряда распространенных ошибок, возникающих при использовании методов машинного обучения, и руководством к тому, как их избежать. Материал предназначен в первую очередь для студентов-исследователей и касается вопросов, регулярно возникающих в академических исследованиях, например, необходимости проводить строгие сравнения и делать обоснованные выводы. Однако материал применим к использованию ML и в других областях.

Читать далее

+20

7.6K

dnazarov007 2 мая в 19:37

Создаем простой ETL на Python

Python *Data Engineering *

Перевод

Tutorial

В работе аналитика данных часто приходится использовать наборы данных, загружаемые из открытых источников. Рассмотрим простой пример использования конвейера для таких задач.
ETL, сокращение от extract-transform-load, представляет собой серию процессов, которые включают в себя сбор данных, их обработку и хранение в безопасном и доступном месте. Конвейеры ETL (ETL pipeline) позволяют упростить эти процессы с максимальной эффективностью и минимальными издержками.
Рассмотрим пошаговую реализацию конвейера ETL с использованием модулей Python.

Читать далее

-3

5.6K

daniil_dzheparov 2 мая в 15:25

Оконные функции SQL простым языком с примерами

SQL *Администрирование баз данных *Data Engineering *

Recovery mode

Привет всем!

Сразу хочется отметить, что данная статья написана исключительно для людей, начинающих свое путь в изучении SQL и оконных функций. Здесь могут быть не разобраны сложные применения функций и могут не использоваться сложные формулировки определений - все написано максимально простым языком для базового понимания.

P.S. Если автор что-то не разобрал и не написал, значит он посчитал это не обязательным в рамках этой статьи)))

Для примеров будем использовать небольшую таблицу, которая показывает оценки учеников по разным предметам. В БД табличка выглядит следующим образом

Читать далее

+56

28K

wildraid 1 мая в 17:14

Любопытные и неочевидные особенности при работе со Snowflake

SQL *Администрирование баз данных *Big Data *Data Engineering *

Без долгих вступлений, сразу к делу.

Знаете ли вы, что в Snowflake можно создавать объекты с пустыми именами? Например: CREATE DATABASE ""; CREATE SCHEMA ""."";

Это работает на момент публикации и потенциально создаёт массу проблем для внешних систем, которые не ожидают такого поворота. Также это обычно приводит в восторг админов DWH.

Более интересные и практичные советы под катом.

Читать далее

+18

2K

Artissimo 30 апреля в 20:10

Квантовый хэдж фонд: что интересного для IT специалиста?

Python *Java *C++ *Big Data *Data Engineering *

Всем привет! Это моя первая статья на Хабр. Меня зовут Артем Сосульников и я директор по разработке ПО в Luxoft. В IT больше 15 лет: начинал как Java разработчик, прошел долгий путь от тим лида и руководителя проектов до директора по разработке ПО с сотней людей в подчинении. В связи с последними событиями в ближайшее время собираюсь с семьей переезжать на остров Пенанг в Малайзию и присоединиться к Люксофт.Малайзия. Там продолжу развитие своих проектов в квантовых хэдж фондах, куда мы теперь нанимаем людей в Сербии, Мексике и Малайзии. Буду писать статьи про жизнь в Малайзии и про работу в Люксофт.

Читать далее

-7

2.5K

mascai 26 апреля в 00:10

Парсинг для взрослых или Инфраструктура для промышленного парсинга

Python *Django *Data Mining *Data Engineering *

Из песочницы

Tutorial

В студенческие годы я написал на заказ много парсеров магазинов и социальных сетей. Со временем парсеры усложнялись и из скриптов превращались в полноценные веб-приложения c базой данных и Rest API. В статье описан шаблон веб-приложения, который использую для создания парсеров.

Читать далее

+5

7.7K

mnrozhkov 23 апреля в 08:48

Почему инструменты MLOps должны быть с открытым исходным кодом?

Open source *Big Data *Машинное обучение *Data Engineering *

Перевод

Перевод статьи подготовлен совместно с Моргуновой Анной, за что ей огромное спасибо 👋 Другие материалы ML REPA и ссылки на видео митапов и конференций можно найти в открытой странице в Notion.

Обзор

💡 Вы узнаете, что такое MLOps, зачем вам нужны MLOps для ваших проектов машинного обучения, почему MLOps должен быть open source и примеры существующих инструментов MLOps.

Автор: Yuqi Li

Оригинал: Why MLOps tools should be Open Source

Читать далее

+1

1.3K

1