Как стать автором Опрос: что вы хотите видеть на Хабре

Data Engineering *

обсуждаем вопросы сбора и подготовки данных

Статьи Авторы Компании

leontyev_anton 5 марта в 12:09

Пишем простой счетчик для сайта или приложения с помощью Google Cloud Functions и AWS Lambda/Snowflake

Amazon Web Services *Веб-аналитика *Аналитика мобильных приложений *Google Cloud Platform *Data Engineering *

Из песочницы

Как работают популярные счетчики веб или мобильной аналитики, например, Google Analytics или AppsFlyer? На сайт устанавливаются их коды или в приложение интегрируется мобильное SDK. Потом при каждом действии клиента отправляется http запрос на сервер аналитики.

У использования стандартных счетчиков/пикселей есть минусы:

• некоторые посетители используют анонимайзеры, которые блокируют такие запросы;

• их сложно кастомизировать под себя.

В этой статье мы напишем собственный простой счетчик, который будет решать эти проблемы. Встроим его в PowerBI отчеты. Но принцип одинаков, его можно будет использовать и на веб-сайте, и в приложении, и в других устройствах с доступом к интернету. Попробуем две точки сбора событий, чтобы изучить больше технологий: Google Cloud Function, которая будет писать события в Google BigQuery, и Amazon Lambda Functions с записью событий в Snowflake.

Читать далее

+2

1.1K

X5RetailGroup 1 марта в 16:27

HowTo: деплой Apache Cassandra DB и компонентов для её мониторинга

Блог компании X5 Group IT-инфраструктура *Big Data *Data Engineering *

Привет! Меня зовут Сергей Тетерюков, и я работаю инженером инфраструктуры и автоматизации в X5 Tech. Недавно я написал для коллег обзорную статью о БД Apache Cassandra DB и её деплое, и теперь хочу поделиться ей с вами.

Читать далее

+1

884

E_BEREZIN 25 февраля в 13:55

Цифровая трансформация цементного завода (ч.7): интуитивная система управления качеством

Data Mining *Управление разработкой *Data Engineering *1С *

Часть 1: CRM для ERP

Часть 2: Роботизация бизнес-процессов

Часть 3: Волшебные интерфейсы и оживление железа

Часть 4: Автоматические личные кабинеты и чат-боты

Часть 5: Автоматизация на производстве

Часть 6: Траблшутинг на предприятии

Часть 7: Интуитивная система управления качеством (в этой публикации)

Вы часто доверяете своей интуиции и внутренним ощущениям? А как научить систему действовать интуитивно, полагаясь только на неактуальные данные? Об этом и не только, на реальных примерах, далее в статье.

Читать статью >>

+2

1.3K

sveta_pavlos 21 февраля в 14:09

Восходящие тренды. Дизайн как инструмент восприятия информации между машиной и человеком

Data Mining *Big Data *IT-компании Natural Language Processing *Data Engineering *

Из песочницы

Боязнь новых технологий и чувство дискомфорта перед ними у людей происходит повсеместно. Тридцать, а то и двадцать лет назад трудно себе было представить современного здорового и образованного человека, зарабатывающего через интернет, продажей каких-либо товаров или услуг. Сегодня подобная тенденция с каждым годом всё больше набирает обороты. Роботы заменяют человека во всем, но, независимо от функции всё-таки имеют четкое предназначение — помощь, комфорт и удобство. В данном случае, проявление заботы робототехникой может стать явным плюсом в наборе его основных характеристик — автономности, интеллектуальности и самостоятельности. Но, увы, тут же появляется опасность разработки такого дизайн-продукта, который может быть воспринят людьми как «отдельное социальное существо», практически равный член общества и участник коммуникационного процесса жизнедеятельности человека. В случае повсеместного распространения подобных роботов по миру, люди будут вынуждены налаживать отношения с ними и находить новые способы осваивания коммуникационных процессов в разных сферах жизнедеятельности.

Читать далее

-3

443

BansheeRotary 21 февраля в 11:54

Gartner предсказывает взрывной спрос на Decision Intelligence. Что это – очередной хайп или новое слово в менеджменте?

Блог компании Visiology Визуализация данных Исследования и прогнозы в IT Карьера в IT-индустрии Data Engineering *

В конце прошлого года эксперты Gartner выпустили очередной отчет, в котором выделили 12 важнейших трендов развития. И поскольку коллеги из издания СберПро попросили меня прокомментировать эти тенденции (их обзорный материал можно почитать тут), я просто не мог не обратить внимание на общую тенденцию, которая объединяет значительную часть из перечисленных технологий — нарастающую потребность в data-driven подходах. Об этом и поговорим в сегодняшнем посте.

Читать далее

+8

1.9K

mechanik61 18 февраля в 16:57

Кто такой data-инженер в Тинькофф и как им стать

Блог компании TINKOFF Big Data *Хранилища данных *Data Engineering *

Из песочницы

Привет! Меня зовут Михаил Иванов, я работаю архитектором DWH в Тинькофф и занимаюсь развитием Batch ETL направления платформы обработки данных. Я расскажу о направлении data engineering в Тинькофф, о том, чем занимаются data-инженеры и как попасть к нам в команду.

Читать далее

+12

4.1K

bazin 18 февраля в 09:05

Проблемы с качеством данных: как плохое «топливо» тормозит работу систем бизнес-аналитики

Научно-популярное Data Engineering *

По материалам опроса среди аналитиков, дата-сайентистов, разработчиков и менеджеров болевых точках одной из главных проблем названы качество данных и множество ручной работы для обеспечения этого качества.

Так ли это?

Взгляд неспециалиста по Data Mining...

0

915

kvsman 17 февраля в 21:00

Как BI «купается» в озёрах данных: практика платформы «Форсайт». Часть 3. Магия измерений

Блог компании Форсайт Тестирование IT-систем *Анализ и проектирование систем *Хранение данных *Data Engineering *

Всем привет.

Мы продолжаем цикл публикаций о том, как наша BI-платформа «Форсайт» работает с данными. В этой статье мы бы хотели продолжить рассказ про виртуализацию данных. И рассказать о том, как с помощью различных «магических» приемов трансформации измерений в кубе можно адаптировать многомерные данные в совершенно новые структуры. Раскрыть количественную статистику некоторых замеров производительности и скорости быстродействия такой виртуализации. Показать, как мы это тестируем. Провести сравнение подходов формирования витрин данных с помощью технологии BI и СУБД. За всеми этими подробностями добро пожаловать под кат!

Читать далее

+3

694

selesnow 17 февраля в 11:50

Работа с API на языке R, введение в пакет httr2

Data Mining *API *R *Data Engineering *

Перевод

Tutorial

Цель этой статьи - показать вам основы httr2.

httr2 - переосмысленная реализация пакета httr, т.е. интерфейс для работы с HTTP запросами на языке R.

Из статьи вы узнаете, как создавать и отправлять HTTP-запросы и работать с полученными HTTP-ответами. httr2 разработан для точного сопоставления с базовым протоколом HTTP, который я объясню по мере продвижения. Для получения дополнительных сведений я также рекомендую ознакомиться со статьёй "An overview of HTTP" от MDN.

Читать далее

+5

881

kvsman 11 февраля в 20:49

Как BI «купается» в озёрах данных: практика платформы «Форсайт». Часть 2. Виртуализация данных

Блог компании Форсайт Анализ и проектирование систем *Хранение данных *Хранилища данных *Data Engineering *

Всем привет.

Мы продолжаем цикл публикаций о том, как наша BI-платформа «Форсайт» работает с данными. В этой статье мы бы хотели поговорить о том, как выйти за рамки привычного online analytical processing (OLAP) и с помощью enterprise BI погрузиться в проблематику «Fixed format reporting». Какие средства и возможности дает BI-платформа для 100% точного воспроизведения шаблона официальной отчётности? Как это можно сделать с помощью трансформации и виртуализации данных многомерных ROLAP-кубов? Расскажем о том, как в платформе «Форсайт» на уровне бизнес-логики и семантического слоя можно выполнить аналоги реляционных операций view, join, group by и т.п. Итак, за всеми этими подробностями добро пожаловать под кат!

Читать далее

+6

1.9K

azatyakupov 10 февраля в 16:34

Кто такие Data-специалисты, чем они занимаются и как строится работа

Блог компании Quadcode Big Data *Data Engineering *

Привет, Хабр! Меня зовут Азат Якупов, я работаю Data Architect в Quadcode. Сегодня хочу рассказать о Data-специалистах и познакомить вас с нашей командой Data Platform.

Читать далее

+4

5.2K

BansheeRotary 10 февраля в 13:12

Методология внедрения BI (часть 2): Полезные советы Qlik, PowerBI и Tableau

Блог компании Visiology Анализ и проектирование систем *Управление проектами *Бизнес-модели Data Engineering *

Привет, Хабр! Сегодня я хочу продолжить разговор про методологии внедрения BI. В этом посте речь пойдет о тех методах, которые предлагают специалисты Qlik, PowerBI и Tableau. В этом посте вы узнаете, почему дашборды рекомендуют рисовать на бумаге, зачем в суровой корпоративной среде цветастые иконки-ачивки и многие другие интересные моменты из методологий международных компаний. Кроме этого мы поговорим о том, какие наработки в сфере внедрения BI уже есть на российском рынке в локализованном виде. А если у вас есть свой опыт или идеи, присоединяйтесь, и давайте обсуждать их в комментариях!

Читать далее

+16

4.9K

kzzzr 10 февраля в 12:09

Вредные советы при построении Аналитики (Data Lake / DWH / BI) – целеполагание и результаты

Блог компании OTUS Big Data *Data Engineering *

Всем привет! На связи Артемий Козырь – Analytics Engineer в Wheely.

Продолжаю серию публикаций в формате “вредных советов”, целью которых является попытка обратить внимание на (не)лучшие практики и подходы в построении аналитических сервисов с реальными примерами и историями.

В этой публикации Вас ожидает:

Читать далее

+8

3.7K

mishamota 7 февраля в 19:22

Простор для данных

Open source *SQL *Data Engineering *

Из песочницы

Зачем вообще нужны витрины и тем более Система для их построения?

Если коротко, то витрины (витрина от англ. data mart) – это набор структурированных данных. Обычно это данные по определенной теме или задаче в компании. Например, витрина с данными о заказчиках для отдела маркетинга может содержать подробные данные по договорам, истории заказов и поставок, оплатах, звонках и адресах доставки. Ничего лишнего, только нужные и актуальные очищенные данные, полученные из других ИС предприятия. Таких витрин даже на одном предприятии может быть множество.

Когда СУБД из коробки бывает недостаточно

+5

2.1K

VladislavSoren 7 февраля в 17:16

Разделяй и властвуй или как спасти оперативку

Python *Data Engineering *

Tutorial

Вероятно, многие встречались с такой проблемой как нехватка оперативной памяти для решения той или иной задачи. Но порой данную проблему можно обойти, руководствуясь простому, но верному принципу: Разделяй и властвуй. Данный подход может помочь не только в ML задачах, но и других проектах.

Поглядим!

+1

2.4K

alchash 7 февраля в 16:56

Как обрабатывать объекты Avro с помощью датасетов Spark 3.2 & Scala 2.12

Блог компании OTUS Scala *Big Data *Data Engineering *

Tutorial

Привет!

В этом посте разберем, как обрабатывать объекты JVM, сгенерированные из схем Avro, в датасетах Spark. Вместе с этим рассмотрим, как организовать код при помощи шаблона функционального программирования "класс типов" (type class) на языке Scala.

Читать далее

+11

609

alex-barakov 6 февраля в 16:13

Dashboard, dashboard, сколько тебе жить осталось?

Usability *Big Data *Дизайн Искусственный интеллект Data Engineering *

Из песочницы

Летишь ты в отпуск и думаешь, что и как делать в новом году еще круче, чтоб верить в это самому и заражать других. Включить в себе, бл*ть, футуриста. Так вот в дашборд, как в верховный смысл BI, - верить уже не получается. Сейчас модно говорить про смерть bi каким мы его знаем, про смерть дашбордов - звучит прикольно, но это кликбейтный бред вендоров и заканчивается всегда он саморекламой. Хочется же не столько накинуть на вентилятор, сколько поразбираться и понять для себя что-то, обрести новые идеи или занизить ожидания.

Читать далее

+10

12K

He6puToCTb 4 февраля в 12:05

Магнитная аномалия: как предсказать продажи промо в ритейле

Блог компании Магнит Алгоритмы *Big Data *Data Engineering *

Привет, Хабр! Меня зовут Андрей Ткаченко, я руковожу направлением прогнозирования промо в «Магните». Наша команда запускает цикл статей о прогнозировании промо: мы приоткроем дверь в мир процессов, технологий и алгоритмов крупного российского ритейла, а также поделимся собственным опытом.

Во вводной статье мы расскажем о разнице между промо и регулярными продажами, о команде и истории развития направления прогнозирования в «Магните», а также объясним, почему качественный прогноз промо важен для бизнеса.

Читать далее

+7

2.7K

nyoma 3 февраля в 11:07

Flink для самых маленьких

Блог компании билайн бизнес Apache *Big Data *Data Engineering *

Tutorial

Привет! Меня зовут Юля, я работаю в дирекции больших данных Билайн, недавно я познакомилась с фреймворком Flink и хочу рассказать о своих впечатлениях на примере простой с первого взгляда задачи.

Итак, что же такое Flink?

Apache Flink – это фреймворк и движок для statefull вычислений над неограниченными и ограниченными потоками данных. Flink был разработан для работы во всех распространенных кластерных средах, выполняя вычисления с in-memory скоростью на любом масштабе данных.

Из основных моментов можно подчеркнуть:

Читать далее

+6

3.1K

kuren 2 февраля в 13:24

Векторные пространства и поиск ближайших соседей на production

Блог компании Контур Программирование *Алгоритмы *Машинное обучение *Data Engineering *

Иногда при решении задач классификации необходимо применять алгоритм kNN в векторных пространствах. И если при обучении всё просто и знакомо, то при выводе в production люди сталкиваются с проблемами.

В этой статье мы расскажем, как пытались реализовать алгоритм на векторных пространствах в production, с какими трудностями столкнулись и как их в итоге решили.

Читать далее

+10

2.6K

1