Как стать автором
Обновить
39.33
Рейтинг

Data Engineering *

обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга

Как подключитьcя к SAP Hana, используя Power BI

Microsoft Azure Data Engineering *
Tutorial

Всем привет!

В данной статье я расскажу, как построить отчет Power BI на данных SAP Hana. Внятной информации на этот счет в интернете я не нашел, поэтому пришла идея поделиться информацией. Так вышло, что в нашу команду прилетел новый проект – нужно было построить аналитику на данных SAP EWM, используя Power BI, как средство визуализации.

Когда-то, работая SAP BW консультантом еще в далеком 2019, я начал использовать Power BI для своих личных целей, как хобби. Произошло это случайно. Я хотел проанализировать вакансии с сайта подбора персонала, что и сделал. На это у меня есть отдельная статья. Дальше больше, в итоге скопился приличный опыт. Таким образом я стал одним из разработчиков на вышеуказанном проекте😊.    

Что на входе? Система SAP EWM (логистика, поставки) и куча графиков в Excel от заказчика. Причем некоторые графики должны обновляться не менее раза в час – то есть почти в реальном времени, рис. 1.  

Читать далее
Рейтинг 0
Просмотры 551
Комментарии 0

Новости

Объединение данных с датчиков и интерполяция для Autonomous Vehicles

Data Mining *Big Data *Data Engineering *
Перевод

Товарищи, рассказываю о нюансах сбора и работы с данными для Autonomous Vehicles. Как правило, для создания обучающего датасета используют данные с датчиков LIDAR и камер. Но полученные данные в сыром виде очень разрознены ,и чтобы решить эту проблему, их нужно правильно объединить и интерполировать. И только после этого приступать к 3D Point Cloud разметке.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Просмотры 1.2K
Комментарии 2

Data profiling, и с чем его едят

Блог компании Юнидата Data Mining *Машинное обучение *Data Engineering *

Всем привет. В этой статье хотим представить инструмент для профилирования данных. Расскажем об особенностях инструмента, о профилировании данных, и кому это будет полезно. И, конечно, его уже можно опробовать: ссылка будет в тексте статьи.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 802
Комментарии 0

Современный дата-стек: прошлое, настоящее и будущее

Блог компании OTUS Data Engineering *
Перевод

Мои размышления о том, откуда мы пришли и куда можем двигаться.

Недавно я выступал с докладом по этой теме на конференции Sisu Future Data, и, поскольку я мыслю в прозе, а не в Powerpoint, мне пришлось оформить свои измышления на бумаге, прежде чем я смог разбить их слайды. В результате еще некоторого количества усилий на свет появилась эта статья, и я очень надеюсь, что она будет для вас полезной. Если вам интересно посмотреть мой доклад полностью, вы можете найти его запись здесь.

Читать далее
Всего голосов 3: ↑2 и ↓1 +1
Просмотры 1.2K
Комментарии 2

О чем боятся спросить Junior DS. Оптимизация кода

Python *Data Mining *Data Engineering *

Привет всем! В данной статья я постараюсь ответить на вопросы, связанные с оптимизацией работы кода. Мы затронем различные возможности оптимизации работы кода, которые очевидны опытным специалистам и о них, нередко, даже не задумываются начинающие Data Scientist'ы.


Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Просмотры 2.1K
Комментарии 6

Приглашаем инженеров уровней Junior и Middle с опытом работы от года принять участие в нашем Data Engineer Weekend Offer

Блог компании билайн бизнес Big Data *Карьера в IT-индустрии Data Engineering *

28 мая в штаб-квартире билайна пройдёт первый data engineering weekend offer — все этапы собеседования сразу в один день: вы расскажете о себе, проверите свои технические знания, узнаете, какие продукты разрабатывает билайн.

Чтобы ожидание каждого этапа не было скучным, вы сможете пообщаться с экспертами компании, посмотреть последние митапы сообщества и познакомиться с представителями команд в неформальной обстановке.

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 1.1K
Комментарии 0

Ускоряем dplyr: бекенды dtplyr, multidplyr и dbplyr (видео урок + конспект)

SQL *Data Mining *Big Data *R *Data Engineering *
Tutorial

dplyr один из наиболее популярных пакетов для языка R, основным преимуществом которого является удобочитаемый и понятный синтаксис. Из недостатков данного пакета можно отметить, что при работе с данными большого объёма он значительно уступает в скорости вычислений например data.table.

В этом видео уроке мы разберёмся с тем, как можно ускорить вычисления на dplyr, за счёт бекендов dtplyr и multidplyr, а так же узнаем о том, как и зачем можно использовать бекенд dbplyr, предназначенный для работы с базами данных.

Читать далее
Рейтинг 0
Просмотры 354
Комментарии 0

Большое сравнение 400 нейронных сетей для задачи классификации на более 8000 классов

Python *Data Mining *Машинное обучение *Искусственный интеллект Data Engineering *

Думаю, вы знакомы с графиками сравнения точности архитектур. Их применяют в задачах по классификации изображений на ImageNet. 

В каждом сравнении которые я мог встретить ранее в Интернете, как правило это было сравнение небольшого количества архитектур нейросетей, произведенными разными командами, и возможно в разных условиях.

Кроме того в последнее время я наблюдаю изменения: появилось большое количество архитектур. Однако их сравнений с ранее созданными архитектурами я не встречал, либо оно было не столь масштабным.

Мне захотелось столкнуть большое количество существующих архитектур для решения одной задачи, при это объективно посмотреть как поведут себя новые архитектуры типа Трансформер, так и ранее созданные архитектуры.

Читать далее
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 2.1K
Комментарии 17

Категориальные признаки

Python *Data Mining *Data Engineering *
Из песочницы

Не одним One-Hot единым...

В данной статье разберемся с кодированием категориальных данных. В профессиональной среде нередко о существовании чего-то кроме OH или Label Encoder не догадываются не только рядовые Junior DS, но и даже Middle, а иногда и Senior. Исправить данную несправедливость и призвана данная статья.

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Просмотры 1.4K
Комментарии 0

Кто такой Analytics Engineer – E2E-решение с использованием bash + dbt + Looker

Блог компании OTUS Big Data *Data Engineering *

Привет! Меня зовут Артемий Козырь, и я Analytics Engineer в Wheely.

Мы могли бы долго и нудно обсуждать, кто такой Analytics (Data / Backend) Engineer, какими инструментами он должен владеть, какие buzzwords в тренде и ценятся в CV, однако, на мой взгляд, гораздо интереснее рассмотреть процесс и результаты его деятельности в рамках конкретной прикладной задачи.

В этой публикации:

Читать далее
Всего голосов 9: ↑8 и ↓1 +7
Просмотры 1.2K
Комментарии 1

Проведение совместных экспериментов c DVC

Open source *Big Data *Машинное обучение *Data Engineering *
Перевод

Вы можете использовать удаленные хранилища DVC для совместного использования экспериментов и их данных через машины.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 666
Комментарии 0

Конференция Data Fusion: большие спецы по большим данным

Блог компании ВТБ Big Data *Data Engineering *

В 2022 году «бигдатой» никого не удивишь. Эта область компьютерных наук из инновационной и хайповой стала необходимой и привычной. Однако внутри она по-прежнему бурно развивается. Один из восходящих трендов — синергия данных. Объединяя и совместно анализируя данные из разных отраслей, можно сделать много интересного.

Этому подходу, а также более общим вопросам Big Data и Machine Learning была посвящена конференция Data Fusion, прошедшая 14–15 апреля в онлайн-формате. На ней был затронут широкий спектр тем, от маркетинга до свободы воли. Пересказывать конференцию целиком — труд огромный и напрасный. Поэтому под катом поговорим об отдельных интересных докладах, а с остальной программой вы можете ознакомиться самостоятельно.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Просмотры 873
Комментарии 0

«Божественная комедия», или Девять кругов прогнозирования промоспроса в «Магните»

Блог компании Магнит Алгоритмы *Big Data *Data Engineering *

Привет, Хабр! На связи команда направления прогнозирования промо в «Магните». В предыдущей статье «Магнитная аномалия: как предсказать продажи промо в ритейле» мы дали читателю общее представление о том, чем занимается наша команда. Теперь поговорим о конкретных сложностях и методах их решения, с которыми нам приходится сталкиваться в работе.

Чтобы лучше разобраться во внутренней кухне, предлагаем читателю вместе прогуляться по нашим «девяти кругам прогнозирования промо спроса».

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 3.4K
Комментарии 3

Как избежать «подводных камней» машинного обучения: руководство для академических исследователей

Машинное обучение *Искусственный интеллект Data Engineering *
Из песочницы
Перевод

Этот лонг-рид является сильно переработанным и расширенным переводом статьи How to avoid machine learning pitfalls: a guide for academic researchers (Lones, 2021).

Статья является кратким описанием ряда распространенных ошибок, возникающих при использовании методов машинного обучения, и руководством к тому, как их избежать. Материал предназначен в первую очередь для студентов-исследователей и касается вопросов, регулярно возникающих в академических исследованиях, например, необходимости проводить строгие сравнения и делать обоснованные выводы. Однако материал применим к использованию ML и в других областях.

Читать далее
Всего голосов 20: ↑20 и ↓0 +20
Просмотры 7.6K
Комментарии 3

Создаем простой ETL на Python

Python *Data Engineering *
Перевод
Tutorial

В работе аналитика данных часто приходится использовать наборы данных, загружаемые из открытых источников. Рассмотрим простой пример использования конвейера для таких задач.
ETL, сокращение от extract-transform-load, представляет собой серию процессов, которые включают в себя сбор данных, их обработку и хранение в безопасном и доступном месте. Конвейеры ETL (ETL pipeline) позволяют упростить эти процессы с максимальной эффективностью и минимальными издержками.
Рассмотрим пошаговую реализацию конвейера ETL с использованием модулей Python.

Читать далее
Всего голосов 5: ↑1 и ↓4 -3
Просмотры 5.6K
Комментарии 6

Оконные функции SQL простым языком с примерами

SQL *Администрирование баз данных *Data Engineering *
Recovery mode

Привет всем!

Сразу хочется отметить, что данная статья написана исключительно для людей, начинающих свое путь в изучении SQL и оконных функций. Здесь могут быть не разобраны сложные применения функций и могут не использоваться сложные формулировки определений - все написано максимально простым языком для базового понимания. 

P.S. Если автор что-то не разобрал и не написал, значит он посчитал это не обязательным в рамках этой статьи))) 

Для примеров будем использовать небольшую таблицу, которая показывает оценки учеников по разным предметам. В БД табличка выглядит следующим образом

Читать далее
Всего голосов 62: ↑59 и ↓3 +56
Просмотры 28K
Комментарии 12

Любопытные и неочевидные особенности при работе со Snowflake

SQL *Администрирование баз данных *Big Data *Data Engineering *

Без долгих вступлений, сразу к делу.

Знаете ли вы, что в Snowflake можно создавать объекты с пустыми именами? Например: CREATE DATABASE ""; CREATE SCHEMA ""."";

Это работает на момент публикации и потенциально создаёт массу проблем для внешних систем, которые не ожидают такого поворота. Также это обычно приводит в восторг админов DWH.

Более интересные и практичные советы под катом.

Читать далее
Всего голосов 18: ↑18 и ↓0 +18
Просмотры 2K
Комментарии 9

Квантовый хэдж фонд: что интересного для IT специалиста?

Python *Java *C++ *Big Data *Data Engineering *

Всем привет! Это моя первая статья на Хабр. Меня зовут Артем Сосульников и я директор по разработке ПО в Luxoft. В IT больше 15 лет: начинал как Java разработчик, прошел долгий путь от тим лида и руководителя проектов до директора по разработке ПО с сотней людей в подчинении. В связи с последними событиями в ближайшее время собираюсь с семьей переезжать на остров Пенанг в Малайзию и присоединиться к Люксофт.Малайзия. Там продолжу развитие своих проектов в квантовых хэдж фондах, куда мы теперь нанимаем людей в Сербии, Мексике и Малайзии. Буду писать статьи про жизнь в Малайзии и про работу в Люксофт.

Читать далее
Всего голосов 13: ↑3 и ↓10 -7
Просмотры 2.5K
Комментарии 13

Парсинг для взрослых или Инфраструктура для промышленного парсинга

Python *Django *Data Mining *Data Engineering *
Из песочницы
Tutorial

В студенческие годы я написал на заказ много парсеров магазинов и социальных сетей. Со временем парсеры усложнялись и из скриптов превращались в полноценные веб-приложения c базой данных и Rest API. В статье описан шаблон веб-приложения, который использую для создания парсеров.

Читать далее
Всего голосов 13: ↑9 и ↓4 +5
Просмотры 7.7K
Комментарии 12

Почему инструменты MLOps должны быть с открытым исходным кодом?

Open source *Big Data *Машинное обучение *Data Engineering *
Перевод

Перевод статьи подготовлен совместно с Моргуновой Анной, за что ей огромное спасибо 👋 Другие материалы ML REPA и ссылки на видео митапов и конференций можно найти в открытой странице в Notion.

Обзор

💡 Вы узнаете, что такое MLOps, зачем вам нужны MLOps для ваших проектов машинного обучения, почему MLOps должен быть open source и примеры существующих инструментов MLOps.

Автор: Yuqi Li

Оригинал: Why MLOps tools should be Open Source

Читать далее
Всего голосов 7: ↑4 и ↓3 +1
Просмотры 1.3K
Комментарии 0