Обновить
23.23
Рейтинг

Data Engineering *

обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга

Пишем простой счетчик для сайта или приложения с помощью Google Cloud Functions и AWS Lambda/Snowflake

Amazon Web Services *Веб-аналитика *Аналитика мобильных приложений *Google Cloud Platform *Data Engineering *
Из песочницы

Как работают популярные счетчики веб или мобильной аналитики, например, Google Analytics или AppsFlyer? На сайт устанавливаются их коды или в приложение интегрируется мобильное SDK. Потом при каждом действии клиента отправляется http запрос на сервер аналитики.

У использования стандартных счетчиков/пикселей есть минусы:

некоторые посетители используют анонимайзеры, которые блокируют такие запросы;

их сложно кастомизировать под себя.

В этой статье мы напишем собственный простой счетчик, который будет решать эти проблемы. Встроим его в PowerBI отчеты. Но принцип одинаков, его можно будет использовать и на веб-сайте, и в приложении, и в других  устройствах с доступом к интернету. Попробуем две точки сбора событий, чтобы изучить больше технологий: Google Cloud Function, которая будет писать события в Google BigQuery, и Amazon Lambda Functions с записью событий в Snowflake.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 1.1K
Комментарии 0

Новости

HowTo: деплой Apache Cassandra DB и компонентов для её мониторинга

Блог компании X5 Group IT-инфраструктура *Big Data *Data Engineering *

Привет! Меня зовут Сергей Тетерюков, и я работаю инженером инфраструктуры и автоматизации в X5 Tech. Недавно я написал для коллег обзорную статью о БД Apache Cassandra DB и её деплое, и теперь хочу поделиться ей с вами.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 884
Комментарии 0

Цифровая трансформация цементного завода (ч.7): интуитивная система управления качеством

Data Mining *Управление разработкой *Data Engineering * *

Часть 1: CRM для ERP

Часть 2: Роботизация бизнес-процессов

Часть 3: Волшебные интерфейсы и оживление железа

Часть 4: Автоматические личные кабинеты и чат-боты

Часть 5: Автоматизация на производстве

Часть 6: Траблшутинг на предприятии

Часть 7: Интуитивная система управления качеством (в этой публикации)

Вы часто доверяете своей интуиции и внутренним ощущениям? А как научить систему действовать интуитивно, полагаясь только на неактуальные данные? Об этом и не только, на реальных примерах, далее в статье.

Читать статью >>
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 1.3K
Комментарии 10

Восходящие тренды. Дизайн как инструмент восприятия информации между машиной и человеком

Data Mining *Big Data *IT-компании Natural Language Processing *Data Engineering *
Из песочницы

Боязнь новых технологий и чувство дискомфорта перед ними у людей происходит повсеместно. Тридцать, а то и двадцать лет назад трудно себе было представить современного здорового и образованного человека, зарабатывающего через интернет, продажей каких-либо товаров или услуг. Сегодня подобная тенденция с каждым годом всё больше набирает обороты. Роботы заменяют человека во всем, но, независимо от функции всё-таки имеют четкое предназначение — помощь, комфорт и удобство. В данном случае, проявление заботы робототехникой может стать явным плюсом в наборе его основных характеристик — автономности, интеллектуальности и самостоятельности. Но, увы, тут же появляется опасность разработки такого дизайн-продукта, который может быть воспринят людьми как «отдельное социальное существо», практически равный член общества и участник коммуникационного процесса жизнедеятельности человека. В случае повсеместного распространения подобных роботов по миру, люди будут вынуждены налаживать отношения с ними и находить новые способы осваивания коммуникационных процессов в разных сферах жизнедеятельности.

Читать далее
Всего голосов 3: ↑0 и ↓3 -3
Просмотры 443
Комментарии 1

Минуточку внимания

Gartner предсказывает взрывной спрос на Decision Intelligence. Что это – очередной хайп или новое слово в менеджменте?

Блог компании Visiology Визуализация данных Исследования и прогнозы в IT Карьера в IT-индустрии Data Engineering *

В конце прошлого года эксперты Gartner выпустили очередной отчет, в котором выделили 12 важнейших трендов развития. И поскольку коллеги из издания СберПро попросили меня прокомментировать эти тенденции (их обзорный материал можно почитать тут), я просто не мог не обратить внимание на общую тенденцию, которая объединяет значительную часть из перечисленных технологий — нарастающую потребность в data-driven подходах. Об этом и поговорим в сегодняшнем посте.

Читать далее
Всего голосов 10: ↑9 и ↓1 +8
Просмотры 1.9K
Комментарии 2

Кто такой data-инженер в Тинькофф и как им стать

Блог компании TINKOFF Big Data *Хранилища данных *Data Engineering *
Из песочницы

Привет! Меня зовут Михаил Иванов, я работаю архитектором DWH в Тинькофф и занимаюсь развитием Batch ETL направления платформы обработки данных. Я расскажу о направлении data engineering в Тинькофф, о том, чем занимаются data-инженеры и как попасть к нам в команду.

Читать далее
Всего голосов 20: ↑16 и ↓4 +12
Просмотры 4.1K
Комментарии 14

Проблемы с качеством данных: как плохое «топливо» тормозит работу систем бизнес-аналитики

Научно-популярное Data Engineering *

По материалам опроса среди аналитиков, дата-сайентистов, разработчиков и менеджеров болевых точках одной из главных проблем названы качество данных и множество ручной работы для обеспечения этого качества.

Так ли это?

Взгляд неспециалиста по Data Mining...
Рейтинг 0
Просмотры 915
Комментарии 2

Как BI «купается» в озёрах данных: практика платформы «Форсайт». Часть 3. Магия измерений

Блог компании Форсайт Тестирование IT-систем *Анализ и проектирование систем *Хранение данных *Data Engineering *

Всем привет.

Мы продолжаем цикл публикаций о том, как наша BI-платформа «Форсайт» работает с данными. В этой статье мы бы хотели продолжить рассказ про виртуализацию данных. И рассказать о том, как с помощью различных «магических» приемов трансформации измерений в кубе можно адаптировать многомерные данные в совершенно новые структуры. Раскрыть количественную статистику некоторых замеров производительности и скорости быстродействия такой виртуализации. Показать, как мы это тестируем. Провести сравнение подходов формирования витрин данных с помощью технологии BI и СУБД. За всеми этими подробностями добро пожаловать под кат!

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Просмотры 694
Комментарии 1

Работа с API на языке R, введение в пакет httr2

Data Mining *API *R *Data Engineering *
Перевод
Tutorial

Цель этой статьи - показать вам основы httr2

httr2 - переосмысленная реализация пакета httr, т.е. интерфейс для работы с HTTP запросами на языке R.

Из статьи вы узнаете, как создавать и отправлять HTTP-запросы и работать с полученными HTTP-ответами. httr2 разработан для точного сопоставления с базовым протоколом HTTP, который я объясню по мере продвижения. Для получения дополнительных сведений я также рекомендую ознакомиться со статьёй "An overview of HTTP" от MDN.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 881
Комментарии 4

Как BI «купается» в озёрах данных: практика платформы «Форсайт». Часть 2. Виртуализация данных

Блог компании Форсайт Анализ и проектирование систем *Хранение данных *Хранилища данных *Data Engineering *

Всем привет.

Мы продолжаем цикл публикаций о том, как наша BI-платформа «Форсайт» работает с данными. В этой статье мы бы хотели поговорить о том, как выйти за рамки привычного online analytical processing (OLAP) и с помощью enterprise BI погрузиться в проблематику «Fixed format reporting». Какие средства и возможности дает BI-платформа для 100% точного воспроизведения шаблона официальной отчётности? Как это можно сделать с помощью трансформации и виртуализации данных многомерных ROLAP-кубов? Расскажем о том, как в платформе «Форсайт» на уровне бизнес-логики и семантического слоя можно выполнить аналоги реляционных операций view, join, group by и т.п. Итак, за всеми этими подробностями добро пожаловать под кат!

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 1.9K
Комментарии 0

Кто такие Data-специалисты, чем они занимаются и как строится работа

Блог компании Quadcode Big Data *Data Engineering *

Привет, Хабр! Меня зовут Азат Якупов, я работаю Data Architect в Quadcode. Сегодня хочу рассказать о Data-специалистах и познакомить вас с нашей командой Data Platform.

Читать далее
Всего голосов 10: ↑7 и ↓3 +4
Просмотры 5.2K
Комментарии 14

Методология внедрения BI (часть 2): Полезные советы Qlik, PowerBI и Tableau

Блог компании Visiology Анализ и проектирование систем *Управление проектами *Бизнес-модели Data Engineering *

Привет, Хабр! Сегодня я хочу продолжить разговор про методологии внедрения BI. В этом посте речь пойдет о тех методах, которые предлагают специалисты Qlik, PowerBI и Tableau. В этом посте вы узнаете, почему дашборды рекомендуют рисовать на бумаге, зачем в суровой корпоративной среде цветастые иконки-ачивки и многие другие интересные моменты из методологий международных компаний. Кроме этого мы поговорим о том, какие наработки в сфере внедрения BI уже есть на российском рынке в локализованном виде. А если у вас есть свой опыт или идеи, присоединяйтесь, и давайте обсуждать их в комментариях!

Читать далее
Всего голосов 16: ↑16 и ↓0 +16
Просмотры 4.9K
Комментарии 0

Вредные советы при построении Аналитики (Data Lake / DWH / BI) – целеполагание и результаты

Блог компании OTUS Big Data *Data Engineering *

Всем привет! На связи Артемий Козырь – Analytics Engineer в Wheely.

Продолжаю серию публикаций в формате “вредных советов”, целью которых является попытка обратить внимание на (не)лучшие практики и подходы в построении аналитических сервисов с реальными примерами и историями.

В этой публикации Вас ожидает:

Читать далее
Всего голосов 10: ↑9 и ↓1 +8
Просмотры 3.7K
Комментарии 1

Простор для данных

Open source *SQL *Data Engineering *
Из песочницы

Зачем вообще нужны витрины и тем более Система для их построения?

Если коротко, то витрины (витрина от англ. data mart) – это набор структурированных данных. Обычно это данные по определенной теме или задаче в компании. Например, витрина с данными о заказчиках для отдела маркетинга может содержать подробные данные по договорам, истории заказов и поставок, оплатах, звонках и адресах доставки. Ничего лишнего, только нужные и актуальные очищенные данные, полученные из других ИС предприятия. Таких витрин даже на одном предприятии может быть множество.

Когда СУБД из коробки бывает недостаточно
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 2.1K
Комментарии 0

Разделяй и властвуй или как спасти оперативку

Python *Data Engineering *
Tutorial

Вероятно, многие встречались с такой проблемой как нехватка оперативной памяти для решения той или иной задачи. Но порой данную проблему можно обойти, руководствуясь простому, но верному принципу: Разделяй и властвуй. Данный подход может помочь не только в ML задачах, но и других проектах.

Поглядим!
Всего голосов 3: ↑2 и ↓1 +1
Просмотры 2.4K
Комментарии 14

Как обрабатывать объекты Avro с помощью датасетов Spark 3.2 & Scala 2.12

Блог компании OTUS Scala *Big Data *Data Engineering *
Tutorial

Привет!

В этом посте разберем, как обрабатывать объекты JVM, сгенерированные из схем Avro, в датасетах Spark. Вместе с этим рассмотрим, как организовать код при помощи шаблона функционального программирования "класс типов" (type class) на языке Scala.

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 609
Комментарии 0

Dashboard, dashboard, сколько тебе жить осталось?

Usability *Big Data *Дизайн Искусственный интеллект Data Engineering *
Из песочницы

Летишь ты в отпуск и думаешь, что и как делать в новом году еще круче, чтоб верить в это самому и заражать других. Включить в себе, бл*ть, футуриста. Так вот в дашборд, как в верховный смысл BI, - верить уже не получается. Сейчас модно говорить про смерть bi каким мы его знаем, про смерть дашбордов - звучит прикольно, но это кликбейтный бред вендоров и заканчивается всегда он саморекламой. Хочется же не столько накинуть на вентилятор, сколько поразбираться и понять для себя что-то, обрести новые идеи или занизить ожидания.

Читать далее
Всего голосов 16: ↑13 и ↓3 +10
Просмотры 12K
Комментарии 4

Магнитная аномалия: как предсказать продажи промо в ритейле

Блог компании Магнит Алгоритмы *Big Data *Data Engineering *

Привет, Хабр! Меня зовут Андрей Ткаченко, я руковожу направлением прогнозирования промо в «Магните». Наша команда запускает цикл статей о прогнозировании промо: мы приоткроем дверь в мир процессов, технологий и алгоритмов крупного российского ритейла, а также поделимся собственным опытом. 

Во вводной статье мы расскажем о разнице между промо и регулярными продажами, о команде и истории развития направления прогнозирования в «Магните», а также объясним, почему качественный прогноз промо важен для бизнеса. 

Читать далее
Всего голосов 9: ↑8 и ↓1 +7
Просмотры 2.7K
Комментарии 15

Flink для самых маленьких

Блог компании билайн бизнес Apache *Big Data *Data Engineering *
Tutorial

Привет! Меня зовут Юля, я работаю в дирекции больших данных Билайн, недавно я познакомилась с фреймворком Flink и хочу рассказать о своих впечатлениях на примере простой с первого взгляда задачи.

Итак, что же такое Flink? 

Apache Flink – это фреймворк и движок для statefull вычислений над неограниченными и ограниченными потоками данных. Flink был разработан для работы во всех распространенных кластерных средах, выполняя вычисления с in-memory скоростью на любом масштабе данных.

Из основных моментов можно подчеркнуть: 

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 3.1K
Комментарии 1

Векторные пространства и поиск ближайших соседей на production

Блог компании Контур Программирование *Алгоритмы *Машинное обучение *Data Engineering *

Иногда при решении задач классификации необходимо применять алгоритм kNN в векторных пространствах. И если при обучении всё просто и знакомо, то при выводе в production люди сталкиваются с проблемами.

В этой статье мы расскажем, как пытались реализовать алгоритм на векторных пространствах в production, с какими трудностями столкнулись и как их в итоге решили.

Читать далее
Всего голосов 12: ↑11 и ↓1 +10
Просмотры 2.6K
Комментарии 7