Data Engineering *

обсуждаем вопросы сбора и подготовки данных

Статьи Посты Авторы Компании

EVRAZ 23 часа назад

Как закалялась сталь: моделируем остывание рельса, чтобы сделать его прочнее

7 мин

1.3K

Блог компании ЕВРАЗ Big Data *Математика *Data Engineering *

Цифровая трансформация подобна ремонту: однажды начавшись, не заканчивается уже никогда. Разработчики и дата-сайентисты выискивают по цехам ЕВРАЗа — где бы ещё причинить пользу своими знаниями и умениями? На этот раз им на глаза попалось производство рельсов. И увидели они, что это хорошо, но можно ещё лучше…

Конечно, в действительности процесс принятия решений выглядит немного иначе. Однако термоупрочнение рельсов — действительно перспективный объект для цифровизации. Под катом вы сможете прочесть, как строилась математическая модель остывания рельса, а главное — зачем.

kucev 9 авг в 12:17

Сбор данных для машинного обучения: этапы, методики и рекомендации

15 мин

889

Анализ и проектирование систем *Data Mining *Хранение данных *Машинное обучение *Data Engineering *

Перевод

Все успешные компании постоянно собирают данные. Они отслеживают поведение людей в Интернете, организуют опросы, мониторят отзывы, слушают сигналы от умных устройств, извлекают значимые слова из электронных писем и предпринимают другие шаги для накопления фактов и чисел, помогающих им принимать бизнес-решения. Хотя современный мир изобилует данными, сбор ценной информации включает в себя множество организационных и технических трудностей, которые мы и рассмотрим в этой статье. Особое внимание мы уделим методикам сбора данных и инструментам для аналитики и проектов машинного обучения.

Читать дальше →

kirillkosolapov 6 авг в 14:01

Что такое Data Observability и с чем ее едят?

Простой

4 мин

1.4K

Блог компании Amvera Data Mining *Big Data *Исследования и прогнозы в IT *Data Engineering *

В последние годы растет сложность IT-инфраструктуры в компаниях и, соответственно, спрос на сервисы мониторинга ее работоспособности. Их все больше покупают, в них все чаще инвестируют. Но в данной статье мы расскажем о новом смежном тренде - Data Observability. Что это и чем она отличается от Infrastructure Observability?

Классический мониторинг - это наблюдение за работой инфраструктуры и приложений. А Data Observability позволяет осуществлять мониторинг потоков данных (и даже бизнес-процессов) и находить в них сбои.

Рассмотрим несколько примеров.

s_valuev 4 авг в 13:05

Ликбез по LLM, новинки от Nvidia и видеокейс по внедрению MLOps

Средний

6 мин

1.8K

Блог компании Selectel Big Data *Машинное обучение *Видеокарты Data Engineering *

Дайджест

Всем привет! Новый выпуск нашего «Вестника» по ML и дата-аналитике получился очень насыщенным и разносторонне полезным. Во-первых, сразу несколько объемных ликбезов по LLM – на английском языке, но в нашей сфере по-другому никак. Зато есть очень толковый русскоязычный текст про актуальные подходы к ELT – нашел здесь, на Хабре. Еще много полезностей для любителей рыночных отчетов, красочных сборок инструментов и так далее. Точно обогатитесь парочкой говорящих скринов.

Еще больше полезных текстов по DataOps и MLOps, а также целое комьюнити на почти 1,5К человек — в Telegram-сообществе «MLечный путь».

Читать дальше →

+34

kirill702b 3 авг в 18:03

Как получить доступ к данным Ethereum смарт-контракта в real-time из Python

Средний

7 мин

796

Децентрализованные сети *Python *Solidity *Криптовалюты Data Engineering *

Туториал

Всем привет! Представим, что вам нужен доступ к данным каких-либо смарт-контрактов на Ethereum (или Polygon, BSC и т.д.), например, Uniswap, SushiSwap, AAVE (или даже PEPE-coin) в реальном времени, чтобы анализировать их с помощью стандартных инструментов дата-аналитиков: Python, Pandas, Matplotlib и т.д. В этом туториале я покажу инструменты для доступа к данным на блокчейне, которые больше похожи на хирургический скальпель (сабграфы The Graph), чем на швейцарский нож (доступ к RPC ноде) или, скажем, молоток (готовые API от компаний-разработчиков). Надеюсь, мои неумелые метафоры вас не пугают. Кому интересно научиться, добро пожаловать под кат.

Под кат

rumovskiy 2 авг в 14:14

Надёжные сервисы на нейросетях, или почему восклицательные знаки лучше цифр

Средний

17 мин

Анализ и проектирование систем *Интерфейсы *Искусственный интеллект Data Engineering *

Из песочницы

Скажите, если к вам придёт потенциальный клиент, но вместо красивого сайта, приложения или сотрудника его встретит чатик с текстовой нейросетью, которая что-то знает о вашем продукте и теоретически может его продать – вам будет комфортно? Это, может, нетипично для энтузиаста, закопавшегося по уши во всякие GPT и PaLM, но лично мне в такой ситуации будет очень страшно. А вдруг нейросеть продаст что-то несуществующее? Или вообще ничего не будет продавать? Или нагрубит клиенту?

Похоже что эти опасения разделяют многие: каждую неделю появляется ворох новых сервисов, пишущих нейросетью что-то для последующей обработки человеком (начиная с кода и заканчивая рекламными текстами), а вот примеров, в которых нейросеть "пускают" напрямую к клиентам далеко не так много. Но, как мне кажется, я нашёл способ от этих опасений в существенной степени избавиться. (Конечно, может быть, кто-то уже нашёл его раньше и я просто этого не заметил, но что уж поделаешь, сфера новая и очень быстро развивается.)

В этой статье я на примере простого сервиса для маршрутизации заявок в техподдержку покажу свой подход к созданию сервисов на нейросетях, которые не страшно напрямую использовать для общения с клиентами или в других важных процессах. А также приблизительно измерю процент случаев, в которых такой сервис сможет корректно отработать, и постараюсь отследить влияние различных особенностей запросов к нейросети на этот процент.

dima_yiu 1 авг в 12:21

Самое понятное объяснения CFG Scale в нейросетях. Как эта штука повлияла на появление Stable Diffusion

Средний

4 мин

1.5K

Python *Алгоритмы *Машинное обучение *Искусственный интеллект Data Engineering *

Из песочницы

Вы не поверите, но я уже и разработчиков Kandinsky 2.2 спрашивал, что такое CFG Scale в фундаментальном смысле, и нейронщиков всех мастей, однако так не получил внятного ответа. От обывательских блогов меня вообще теперь тошнит, ибо там одно и то же: параметр CFG Scale увеличивает силу следования подсказке... И все как бы, окей — сами разберемся.

Так вот, я начал с базы и открыл научные статьи родоначальников метода classifier free guidance scale. Прикреплю ссылки на них сразу же, чтобы вы тоже могли ознакомиться. Вот статья, посвященная именно CFG Scale для диффузных моделей, а вот статейка о применении данного метода в современных языковых моделях.

Для чего это нужно?

Меня поразил тот факт, что метод CFG Scale и позволил диффузным моделям родиться. До них были GAN-модели, которые совмещали в себе генератор и дискриминатор. Дискриминатор, по-другому, это классификатор. Т.е. моделька сначала генерит изображение, а потом вторая полноценная модель оценивает его на вшивость и корректирует вместе с первой.

Из этого вытекают минусы: например, нужно вместе с одной моделью обучать и вторую (работы в два раза больше). Также нужно, чтобы железо тянуло сразу две модели, ибо они задействуются в паре.

Метод же SFG Scale позволил задействовать только одну модель — диффузнную, т.е. обучать вторую больше не нужно. Чтобы вы понимали, механика описывается парой строк кода. Думаю, вы смекаете, что это намного проще дополнительной полноценной модели, которую еще хранить где-то нужно.

lelyakuznetsova 27 июл в 14:08

О чем расскажут на SmartData 2023

21 мин

815

Блог компании JUG Ru Group Big Data *Хранение данных *Конференции Data Engineering *

Обзор

Хорошо осенью любоваться на озёра… на озёра данных. Особенно когда про них говорит спикер Владимир Озеров. В общем, этой осенью, как и раньше, мы проведём конференцию SmartData обо всём, что важно в дата-инжиниринге: от отказоустойчивости до MLOps.

6-7 сентября пройдёт онлайн-часть, а 13-14 сентября встретимся в Москве (но все, кто не готов добраться на московскую площадку, смогут и во второй части поучаствовать удалённо).

Среди тем — и архитектура дата-платформ, и «внутренности» баз данных, и стриминг, и DataOps, и даже пара «космических» (в буквальном смысле) докладов. А среди спикеров есть те, чьи доклады уже хвалили участники прошлых SmartData — например, Максим Бабенко, Владимир Озеров, Дмитрий Аношин, Евгений Ермаков и Максим Стаценко. Все описания докладов — под катом.

Программа SmartData 2023

+17

Ilya12c 27 июл в 13:21

Kaggle для футболистов. Разбираем подходы призеров соревнований по детекции столкновений (5 — 3 место)

Средний

11 мин

Блог компании Magnus Tech Алгоритмы *Обработка изображений *Машинное обучение *Data Engineering *

Обзор

Недавно закончилось соревнование от американской национальной футбольной лиги (NFL), которая объединилась с AWS, чтобы прокачать системы спортивной видеоаналитики.

Организаторы поставили простую, казалось бы, задачу — точно определить, в каких случаях игроки сталкиваются друг с другом во время матча по американскому футболу. Мы с коллегами приняли участие, но не успели реализовать все свои идеи. Зато изучили подходы других команд и поняли, что были на верном пути. В этой статье я рассмотрю некоторые из решений, которые принесли денежное вознаграждение и золотые медали участникам этого челленджа.

+14

kirill702b 25 июл в 18:09

Как сделать свой AnythingGPT, отвечающий на вопросы так, как вам это необходимо (Python, OpenAI Embeddings, ChatGPT API)

Средний

17 мин

11K

Python *Data Mining *Искусственный интеллект Data Engineering *

Туториал

Всем привет! Недавно я на практике применил одно интересное решение, которое давно хотел попробовать, и теперь готов рассказать, как своими руками такое можно сделать для любой другой аналогичной задачи. Речь пойдет о создании своей кастомизированной версии ChatGPT, которая отвечает на вопросы, учитывая большую базу знаний, которая по длине не ограничивается размером промта (то есть вы бы не смогли просто добавить всю информацию перед каждым вопросом к ChatGPT). Для этого будем использовать контекстные эмбеддинги от OpenAI (для действительно качественного поиска релеватных вопросов из базы знаний) и сам СhatGPT API (для оборачивания ответов в натуральный человеческие ответы). При этом, также предполагается, что ассистент может отвечать не только на прямо указанные в Q&A вопросы, но и на такие вопросы, на которые смог бы отвечать человек, который ознакомился с Q&A. Кому интересно научиться делать простых ботов, отвечающих по большой базе знаний, добро пожаловать под кат.

Под кат

+10

Konard 25 июл в 10:03

Ассоциативный Эксель и Сквозная валидация

Средний

7 мин

1.7K

Блог компании Deep.Foundation Open source *Программирование *Развитие стартапа Data Engineering *

Обзор

Продолжая традицию обзоров пакетов Глубины, в этой статье мы рассмотрим практику применения пакетов mathjs, logger и jsonschema.

Мы расскажем как превратить свой экземпляр Deep в ассоциативный эксель, где значения вычисляются прямо внутри транзакции. Вы также узнаете о том как можно записывать любые изменения связей. А ещё вы увидите как сделать так, чтобы значения связей валидировались, а так же чтобы к связям автоматически генерировались формы ввода.

Провалидировать глубину бездны

kucev 24 июл в 12:57

Data Engineering: концепции, процессы и инструменты

Средний

16 мин

1.8K

Анализ и проектирование систем *Data Mining *Хранение данных *Машинное обучение *Data Engineering *

Обзор

Перевод

Data science, машинное обучение и искусственный интеллект — не просто громкие слова: многие организации стремятся их освоить. Но прежде чем создавать интеллектуальные продукты, необходимо собрать и подготовить данные, которые станут топливом для ИИ. Фундамент для аналитических проектов закладывает специальная дисциплина — data engineering. Связанные с ней задачи занимают первые три слоя иерархии потребностей data science, предложенной Моникой Рогати.

Слои data science для реализации ИИ.

В этой статье мы рассмотрим процесс data engineering, расскажем о его базовых компонентах и инструментах, опишем роль дата-инженера.

Читать дальше →

StrDA 20 июл в 10:11

Модели прогнозирования продаж в «Магните»: Легенда об Ансамбле

22 мин

2.6K

Блог компании Magnit tech Алгоритмы *Big Data *Машинное обучение *Data Engineering *

Привет, Хабр! ~~Легендарная~~ команда прогнозирования промо сети магазинов «Магнит» снова в эфире. Ранее мы успели рассказать о целях и задачах, которые мы решаем: «Магнитная аномалия: как предсказать продажи промо в ритейле», а также поделиться основными трудностями, с которыми приходится сталкиваться в нашем ~~опасном~~ бизнесе: «Божественная комедия», или Девять кругов прогнозирования промо в «Магните».

Сегодня подробнее расскажем о типах и особенностях используемых нами моделей прогнозирования продаж.

ArtDobryy 19 июл в 04:05

Каталог данных на примере DataHub. Часть I

Средний

5 мин

1.9K

Big Data *Data Engineering *

Обзор

В современных компаниях генерируемые и собираемые объемы данных растут с поразительной скоростью, создавая необходимость в их систематизации и управлении. Каталоги данных становятся частью информационных систем, предоставляя организациям удобный и эффективный инструмент для хранения, доступа и управления различными типами данных.

Каталог данных — это центральное хранилище информации о структуре, свойствах и отношении между данными. Он позволяет различным пользователям легко находить, понимать и использовать данные для принятия решений и выполнения задач, и будет полезен аналитикам данных, бизнес-аналитикам, специалистам по DWH и управлению данными.

Погнали 🚀

Kirill_rd 15 июл в 16:15

Большие данные и огромные сомнения

Простой

4 мин

3.3K

Python *Big Data *Машинное обучение *Учебный процесс в IT Data Engineering *

Из песочницы

Беллетристические размышления не-айтишника о том, бывает ли много данных, когда решил научиться чему-то новому, как побороть сомнения в своих способностях, с благодарностью вспомнить былое и крутануть в очередной раз шестерёнку.

ArtDobryy 14 июл в 14:37

Как я реплицировал данные с помощью postgres_fdw и dbt

Средний

5 мин

970

Data Engineering *

Кейс

Привет, Хабр!

Хочу рассказать вам о собственном опыте извращенной репликаций данных между базами Postgres)

Погнали 🚀

LexBrown 13 июл в 23:05

Использование функций регулярных выражений в PostgreSQL / Greenplum

Простой

6 мин

2.4K

PostgreSQL *SQL *Data Engineering *

Из песочницы

О том, как именно использовать регулярки, написано уже много статей и туториалов. Другой вопрос, что сами по себе регулярные выражения являются параметром, подающимся на вход какой-нибудь функции. Именно функция осуществляет поиск по указанному регулярному выражению. О функциях, использующих регулярки мы сегодня и поговорим. Возможно, и по самим регуляркам я бахну свой гайд, но, как было сказано в том самом фильме: «Обязательно бахнем и не раз, весь мир в труху! Но потом...»

rvishnevsky 13 июл в 14:55

Градиентный бустинг: как подобрать гиперпараметры модели в 5 раз быстрее, чем обычно?

Сложный

36 мин

1.6K

Блог компании Росбанк Data Mining *Apache *Big Data *Data Engineering *

Туториал

В этой статье я расскажу, как, используя недокументированные возможности фреймворка Apache Spark, качественно подобрать гиперпараметры для модели градиентного бустинга всего за один человеко-день вместо обычных пяти.

alexandergolovnya 12 июл в 22:23

Потоковая обработка данных с помощью Kafka Streams: архитектура и ключевые концепции

Средний

23 мин

12K

Программирование *Java *Apache *Распределённые системы *Data Engineering *

Из песочницы

При реализации потоковой обработки и анализа данных может возникнуть необходимость агрегирования записей для объединения нескольких независимых поток данных или обогащения какой-либо модели данных. Для этой цели может использоваться Kafka Streams, которая позволяет выполнять обработку данных в режиме реального времени.

В этой статье мы рассмотрим основные компоненты Kafka Streams и теоретические аспекты их использования. Мы будем использовать последние версии технологий, доступных на сегодня: Kafka 3.4.0 и Java 17 в качестве языка программированию. Для снижения входного порога мы будем использовать только нативные возможности Kafka и Kafka Streams, и не будем рассматривать решения с использованием различных фреймворков вроде Spring.

+13

ArtDobryy 9 июл в 16:34

Dagster и Great Expectations: Интеграция без боли

Средний

11 мин

803

Python *Data Mining *Data Engineering *

Из песочницы

Меня зовут Артем Шнайдер, и я занимаюсь DataScience в Бланке. Сегодня я хочу рассказать вам о том, как можно интегрировать два мощных инструмента – Dagster и Great Expectations.

Great Expectations позволяет определить так называемые ожидания от ваших данных, то есть задать правила и условия, которым данные должны соответствовать.

Dagster, с другой стороны, это платформа с открытым исходным кодом для управления данными, которая позволяет создавать, тестировать и развертывать пайплайны данных. Написан на python, что позволяет пользователям гибко настраивать и расширять его функциональность.

Исходный код к этой статье на GitHub.

Давайте начнем? :-)

Погнали 🚀

2 3 ...

37 38

Data Engineering *

Как закалялась сталь: моделируем остывание рельса, чтобы сделать его прочнее

Новости

Сбор данных для машинного обучения: этапы, методики и рекомендации

Что такое Data Observability и с чем ее едят?

Ликбез по LLM, новинки от Nvidia и видеокейс по внедрению MLOps

Истории

Как получить доступ к данным Ethereum смарт-контракта в real-time из Python

Надёжные сервисы на нейросетях, или почему восклицательные знаки лучше цифр

Самое понятное объяснения CFG Scale в нейросетях. Как эта штука повлияла на появление Stable Diffusion

О чем расскажут на SmartData 2023

Kaggle для футболистов. Разбираем подходы призеров соревнований по детекции столкновений (5 — 3 место)

Как сделать свой AnythingGPT, отвечающий на вопросы так, как вам это необходимо (Python, OpenAI Embeddings, ChatGPT API)

Ассоциативный Эксель и Сквозная валидация

Data Engineering: концепции, процессы и инструменты

Модели прогнозирования продаж в «Магните»: Легенда об Ансамбле

Каталог данных на примере DataHub. Часть I

Большие данные и огромные сомнения

Как я реплицировал данные с помощью postgres_fdw и dbt

Использование функций регулярных выражений в PostgreSQL / Greenplum

Градиентный бустинг: как подобрать гиперпараметры модели в 5 раз быстрее, чем обычно?

Потоковая обработка данных с помощью Kafka Streams: архитектура и ключевые концепции

Dagster и Great Expectations: Интеграция без боли

Вклад авторов