Как стать автором
Обновить
36.62

Data Engineering *

обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга
Уровень сложности

Как закалялась сталь: моделируем остывание рельса, чтобы сделать его прочнее

Время на прочтение 7 мин
Количество просмотров 1.3K
Блог компании ЕВРАЗ Big Data *Математика *Data Engineering *

Цифровая трансформация подобна ремонту: однажды начавшись, не заканчивается уже никогда. Разработчики и дата-сайентисты выискивают по цехам ЕВРАЗа — где бы ещё причинить пользу своими знаниями и умениями? На этот раз им на глаза попалось производство рельсов. И увидели они, что это хорошо, но можно ещё лучше…

Конечно, в действительности процесс принятия решений выглядит немного иначе. Однако термоупрочнение рельсов — действительно перспективный объект для цифровизации. Под катом вы сможете прочесть, как строилась математическая модель остывания рельса, а главное — зачем.

Читать далее
Всего голосов 9: ↑8 и ↓1 +7
Комментарии 13

Новости

Сбор данных для машинного обучения: этапы, методики и рекомендации

Время на прочтение 15 мин
Количество просмотров 889
Анализ и проектирование систем *Data Mining *Хранение данных *Машинное обучение *Data Engineering *
Перевод

Все успешные компании постоянно собирают данные. Они отслеживают поведение людей в Интернете, организуют опросы, мониторят отзывы, слушают сигналы от умных устройств, извлекают значимые слова из электронных писем и предпринимают другие шаги для накопления фактов и чисел, помогающих им принимать бизнес-решения. Хотя современный мир изобилует данными, сбор ценной информации включает в себя множество организационных и технических трудностей, которые мы и рассмотрим в этой статье. Особое внимание мы уделим методикам сбора данных и инструментам для аналитики и проектов машинного обучения.
Читать дальше →
Рейтинг 0
Комментарии 1

Что такое Data Observability и с чем ее едят?

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 1.4K
Блог компании Amvera Data Mining *Big Data *Исследования и прогнозы в IT *Data Engineering *

В последние годы растет сложность IT-инфраструктуры в компаниях и, соответственно, спрос на сервисы мониторинга ее работоспособности. Их все больше покупают, в них все чаще инвестируют. Но в данной статье мы расскажем о новом смежном тренде - Data Observability. Что это и чем она отличается от Infrastructure Observability? 

Классический мониторинг - это наблюдение за работой инфраструктуры и приложений. А Data Observability позволяет осуществлять мониторинг потоков данных (и даже бизнес-процессов) и находить в них сбои. 

Рассмотрим несколько примеров.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Комментарии 7

Ликбез по LLM, новинки от Nvidia и видеокейс по внедрению MLOps

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 1.8K
Блог компании Selectel Big Data *Машинное обучение *Видеокарты Data Engineering *
Дайджест

Всем привет! Новый выпуск нашего «Вестника» по ML и дата-аналитике получился очень насыщенным и разносторонне полезным. Во-первых, сразу несколько объемных ликбезов по LLM – на английском языке, но в нашей сфере по-другому никак. Зато есть очень толковый русскоязычный текст про актуальные подходы к ELT – нашел здесь, на Хабре. Еще много полезностей для любителей рыночных отчетов, красочных сборок инструментов и так далее. Точно обогатитесь парочкой говорящих скринов.

Еще больше полезных текстов по DataOps и MLOps, а также целое комьюнити на почти 1,5К человек — в Telegram-сообществе «MLечный путь».
Читать дальше →
Всего голосов 34: ↑34 и ↓0 +34
Комментарии 2

Истории

Как получить доступ к данным Ethereum смарт-контракта в real-time из Python

Уровень сложности Средний
Время на прочтение 7 мин
Количество просмотров 796
Децентрализованные сети *Python *Solidity *Криптовалюты Data Engineering *
Туториал

Всем привет! Представим, что вам нужен доступ к данным каких-либо смарт-контрактов на Ethereum (или Polygon, BSC и т.д.), например, Uniswap, SushiSwap, AAVE (или даже PEPE-coin) в реальном времени, чтобы анализировать их с помощью стандартных инструментов дата-аналитиков: Python, Pandas, Matplotlib и т.д. В этом туториале я покажу инструменты для доступа к данным на блокчейне, которые больше похожи на хирургический скальпель (сабграфы The Graph), чем на швейцарский нож (доступ к RPC ноде) или, скажем, молоток (готовые API от компаний-разработчиков). Надеюсь, мои неумелые метафоры вас не пугают. Кому интересно научиться, добро пожаловать под кат.

Под кат
Всего голосов 4: ↑3 и ↓1 +2
Комментарии 1

Надёжные сервисы на нейросетях, или почему восклицательные знаки лучше цифр

Уровень сложности Средний
Время на прочтение 17 мин
Количество просмотров 1K
Анализ и проектирование систем *Интерфейсы *Искусственный интеллект Data Engineering *
Из песочницы

Скажите, если к вам придёт потенциальный клиент, но вместо красивого сайта, приложения или сотрудника его встретит чатик с текстовой нейросетью, которая что-то знает о вашем продукте и теоретически может его продать – вам будет комфортно? Это, может, нетипично для энтузиаста, закопавшегося по уши во всякие GPT и PaLM, но лично мне в такой ситуации будет очень страшно. А вдруг нейросеть продаст что-то несуществующее? Или вообще ничего не будет продавать? Или нагрубит клиенту?

Похоже что эти опасения разделяют многие: каждую неделю появляется ворох новых сервисов, пишущих нейросетью что-то для последующей обработки человеком (начиная с кода и заканчивая рекламными текстами), а вот примеров, в которых нейросеть "пускают" напрямую к клиентам далеко не так много. Но, как мне кажется, я нашёл способ от этих опасений в существенной степени избавиться. (Конечно, может быть, кто-то уже нашёл его раньше и я просто этого не заметил, но что уж поделаешь, сфера новая и очень быстро развивается.)

В этой статье я на примере простого сервиса для маршрутизации заявок в техподдержку покажу свой подход к созданию сервисов на нейросетях, которые не страшно напрямую использовать для общения с клиентами или в других важных процессах. А также приблизительно измерю процент случаев, в которых такой сервис сможет корректно отработать, и постараюсь отследить влияние различных особенностей запросов к нейросети на этот процент.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

Самое понятное объяснения CFG Scale в нейросетях. Как эта штука повлияла на появление Stable Diffusion

Уровень сложности Средний
Время на прочтение 4 мин
Количество просмотров 1.5K
Python *Алгоритмы *Машинное обучение *Искусственный интеллект Data Engineering *
Из песочницы

Вы не поверите, но я уже и разработчиков Kandinsky 2.2 спрашивал, что такое CFG Scale в фундаментальном смысле, и нейронщиков всех мастей, однако так не получил внятного ответа. От обывательских блогов меня вообще теперь тошнит, ибо там одно и то же: параметр CFG Scale увеличивает силу следования подсказке... И все как бы, окей — сами разберемся.

Так вот, я начал с базы и открыл научные статьи родоначальников метода classifier free guidance scale. Прикреплю ссылки на них сразу же, чтобы вы тоже могли ознакомиться. Вот статья, посвященная именно CFG Scale для диффузных моделей, а вот статейка о применении данного метода в современных языковых моделях.

Для чего это нужно?

Меня поразил тот факт, что метод CFG Scale и позволил диффузным моделям родиться. До них были GAN-модели, которые совмещали в себе генератор и дискриминатор. Дискриминатор, по-другому, это классификатор. Т.е. моделька сначала генерит изображение, а потом вторая полноценная модель оценивает его на вшивость и корректирует вместе с первой.

Из этого вытекают минусы: например, нужно вместе с одной моделью обучать и вторую (работы в два раза больше). Также нужно, чтобы железо тянуло сразу две модели, ибо они задействуются в паре.

Метод же SFG Scale позволил задействовать только одну модель — диффузнную, т.е. обучать вторую больше не нужно. Чтобы вы понимали, механика описывается парой строк кода. Думаю, вы смекаете, что это намного проще дополнительной полноценной модели, которую еще хранить где-то нужно.

Читать далее
Всего голосов 7: ↑6 и ↓1 +5
Комментарии 8

О чем расскажут на SmartData 2023

Время на прочтение 21 мин
Количество просмотров 815
Блог компании JUG Ru Group Big Data *Хранение данных *Конференции Data Engineering *
Обзор

Хорошо осенью любоваться на озёра… на озёра данных. Особенно когда про них говорит спикер Владимир Озеров. В общем, этой осенью, как и раньше, мы проведём конференцию SmartData обо всём, что важно в дата-инжиниринге: от отказоустойчивости до MLOps.

6-7 сентября пройдёт онлайн-часть, а 13-14 сентября встретимся в Москве (но все, кто не готов добраться на московскую площадку, смогут и во второй части поучаствовать удалённо).  

Среди тем — и архитектура дата-платформ, и «внутренности» баз данных, и стриминг, и DataOps, и даже пара «космических» (в буквальном смысле) докладов. А среди спикеров есть те, чьи доклады уже хвалили участники прошлых SmartData — например, Максим Бабенко, Владимир Озеров, Дмитрий Аношин, Евгений Ермаков и Максим Стаценко. Все описания докладов — под катом.

Программа SmartData 2023
Всего голосов 17: ↑17 и ↓0 +17
Комментарии 0

Kaggle для футболистов. Разбираем подходы призеров соревнований по детекции столкновений (5 — 3 место)

Уровень сложности Средний
Время на прочтение 11 мин
Количество просмотров 2K
Блог компании Magnus Tech Алгоритмы *Обработка изображений *Машинное обучение *Data Engineering *
Обзор

Недавно закончилось соревнование от американской национальной футбольной лиги (NFL), которая объединилась с AWS, чтобы прокачать системы спортивной видеоаналитики.

Организаторы поставили простую, казалось бы, задачу — точно определить, в каких случаях игроки сталкиваются друг с другом во время матча по американскому футболу. Мы с коллегами приняли участие, но не успели реализовать все свои идеи. Зато изучили подходы других команд и поняли, что были на верном пути. В этой статье я рассмотрю некоторые из решений, которые принесли денежное вознаграждение и золотые медали участникам этого челленджа. 

Читать далее
Всего голосов 14: ↑14 и ↓0 +14
Комментарии 1

Как сделать свой AnythingGPT, отвечающий на вопросы так, как вам это необходимо (Python, OpenAI Embeddings, ChatGPT API)

Уровень сложности Средний
Время на прочтение 17 мин
Количество просмотров 11K
Python *Data Mining *Искусственный интеллект Data Engineering *
Туториал

Всем привет! Недавно я на практике применил одно интересное решение, которое давно хотел попробовать, и теперь готов рассказать, как своими руками такое можно сделать для любой другой аналогичной задачи. Речь пойдет о создании своей кастомизированной версии ChatGPT, которая отвечает на вопросы, учитывая большую базу знаний, которая по длине не ограничивается размером промта (то есть вы бы не смогли просто добавить всю информацию перед каждым вопросом к ChatGPT). Для этого будем использовать контекстные эмбеддинги от OpenAI (для действительно качественного поиска релеватных вопросов из базы знаний) и сам СhatGPT API (для оборачивания ответов в натуральный человеческие ответы). При этом, также предполагается, что ассистент может отвечать не только на прямо указанные в Q&A вопросы, но и на такие вопросы, на которые смог бы отвечать человек, который ознакомился с Q&A. Кому интересно научиться делать простых ботов, отвечающих по большой базе знаний, добро пожаловать под кат.

Под кат
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 14

Ассоциативный Эксель и Сквозная валидация

Уровень сложности Средний
Время на прочтение 7 мин
Количество просмотров 1.7K
Блог компании Deep.Foundation Open source *Программирование *Развитие стартапа Data Engineering *
Обзор

Продолжая традицию обзоров пакетов Глубины, в этой статье мы рассмотрим практику применения пакетов mathjs, logger и jsonschema.

Мы расскажем как превратить свой экземпляр Deep в ассоциативный эксель, где значения вычисляются прямо внутри транзакции. Вы также узнаете о том как можно записывать любые изменения связей. А ещё вы увидите как сделать так, чтобы значения связей валидировались, а так же чтобы к связям автоматически генерировались формы ввода.

Провалидировать глубину бездны
Всего голосов 8: ↑8 и ↓0 +8
Комментарии 2

Data Engineering: концепции, процессы и инструменты

Уровень сложности Средний
Время на прочтение 16 мин
Количество просмотров 1.8K
Анализ и проектирование систем *Data Mining *Хранение данных *Машинное обучение *Data Engineering *
Обзор
Перевод
Data science, машинное обучение и искусственный интеллект — не просто громкие слова: многие организации стремятся их освоить. Но прежде чем создавать интеллектуальные продукты, необходимо собрать и подготовить данные, которые станут топливом для ИИ. Фундамент для аналитических проектов закладывает специальная дисциплина — data engineering. Связанные с ней задачи занимают первые три слоя иерархии потребностей data science, предложенной Моникой Рогати.


Слои data science для реализации ИИ.

В этой статье мы рассмотрим процесс data engineering, расскажем о его базовых компонентах и инструментах, опишем роль дата-инженера.
Читать дальше →
Рейтинг 0
Комментарии 1

Модели прогнозирования продаж в «Магните»: Легенда об Ансамбле

Время на прочтение 22 мин
Количество просмотров 2.6K
Блог компании Magnit tech Алгоритмы *Big Data *Машинное обучение *Data Engineering *

Привет, Хабр! Легендарная команда прогнозирования промо сети магазинов «Магнит» снова в эфире. Ранее мы успели рассказать о целях и задачах, которые мы решаем: «Магнитная аномалия: как предсказать продажи промо в ритейле», а также поделиться основными трудностями, с которыми приходится сталкиваться в нашем опасном бизнесе: «Божественная комедия», или Девять кругов прогнозирования промо в «Магните».

Сегодня подробнее расскажем о типах и особенностях используемых нами моделей прогнозирования продаж.

Читать далее
Всего голосов 10: ↑8 и ↓2 +6
Комментарии 27

Каталог данных на примере DataHub. Часть I

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 1.9K
Big Data *Data Engineering *
Обзор

В современных компаниях генерируемые и собираемые объемы данных растут с поразительной скоростью, создавая необходимость в их систематизации и управлении. Каталоги данных становятся частью информационных систем, предоставляя организациям удобный и эффективный инструмент для хранения, доступа и управления различными типами данных. 

Каталог данных — это центральное хранилище информации о структуре, свойствах и отношении между данными. Он позволяет различным пользователям легко находить, понимать и использовать данные для принятия решений и выполнения задач, и будет полезен аналитикам данных, бизнес-аналитикам, специалистам по DWH и управлению данными.

Погнали 🚀
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 2

Большие данные и огромные сомнения

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 3.3K
Python *Big Data *Машинное обучение *Учебный процесс в IT Data Engineering *
Из песочницы

Беллетристические размышления не-айтишника о том, бывает ли много данных, когда решил научиться чему-то новому, как побороть сомнения в своих способностях, с благодарностью вспомнить былое и крутануть в очередной раз шестерёнку.

Читать далее
Всего голосов 11: ↑6 и ↓5 +1
Комментарии 7

Как я реплицировал данные с помощью postgres_fdw и dbt

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 970
Data Engineering *
Кейс

Привет, Хабр!

Хочу рассказать вам о собственном опыте извращенной репликаций данных между базами Postgres)

Погнали 🚀
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 0

Использование функций регулярных выражений в PostgreSQL / Greenplum

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 2.4K
PostgreSQL *SQL *Data Engineering *
Из песочницы

О том, как именно использовать регулярки, написано уже много статей и туториалов. Другой вопрос, что сами по себе регулярные выражения являются параметром, подающимся на вход какой-нибудь функции. Именно функция осуществляет поиск по указанному регулярному выражению. О функциях, использующих регулярки мы сегодня и поговорим. Возможно, и по самим регуляркам я бахну свой гайд, но, как было сказано в том самом фильме: «Обязательно бахнем и не раз, весь мир в труху! Но потом...»

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 1

Градиентный бустинг: как подобрать гиперпараметры модели в 5 раз быстрее, чем обычно?

Уровень сложности Сложный
Время на прочтение 36 мин
Количество просмотров 1.6K
Блог компании Росбанк Data Mining *Apache *Big Data *Data Engineering *
Туториал

В этой статье я расскажу, как, используя недокументированные возможности фреймворка Apache Spark, качественно подобрать гиперпараметры для модели градиентного бустинга всего за один человеко-день вместо обычных пяти.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 4

Потоковая обработка данных с помощью Kafka Streams: архитектура и ключевые концепции

Уровень сложности Средний
Время на прочтение 23 мин
Количество просмотров 12K
Программирование *Java *Apache *Распределённые системы *Data Engineering *
Из песочницы

При реализации потоковой обработки и анализа данных может возникнуть необходимость агрегирования записей для объединения нескольких независимых поток данных или обогащения какой-либо модели данных. Для этой цели может использоваться Kafka Streams, которая позволяет выполнять обработку данных в режиме реального времени. 

В этой статье мы рассмотрим основные компоненты Kafka Streams и теоретические аспекты их использования. Мы будем использовать последние версии технологий, доступных на сегодня: Kafka 3.4.0 и Java 17 в качестве языка программированию. Для снижения входного порога мы будем использовать только нативные возможности Kafka и Kafka Streams, и не будем рассматривать решения с использованием различных фреймворков вроде Spring.

Читать далее
Всего голосов 13: ↑13 и ↓0 +13
Комментарии 1

Dagster и Great Expectations: Интеграция без боли

Уровень сложности Средний
Время на прочтение 11 мин
Количество просмотров 803
Python *Data Mining *Data Engineering *
Из песочницы

Меня зовут Артем Шнайдер, и я занимаюсь DataScience в Бланке. Сегодня я хочу рассказать вам о том, как можно интегрировать два мощных инструмента – Dagster и Great Expectations.

Great Expectations позволяет определить так называемые ожидания от ваших данных, то есть задать правила и условия, которым данные должны соответствовать. 

Dagster, с другой стороны, это платформа с открытым исходным кодом для управления данными, которая позволяет создавать, тестировать и развертывать пайплайны данных. Написан на python, что позволяет пользователям гибко настраивать и расширять его функциональность.

Исходный код к этой статье на GitHub.

Давайте начнем? :-)

Погнали 🚀
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 0

Вклад авторов