Big Data *

Большие данные и всё о них

Статьи Посты Новости Авторы Компании

cleverdata_team 10 часов назад

Не магия: как агрегируются и обрабатываются данные CDP-платформами

Простой

13 мин

179

Блог компании ГК ЛАНИТBig Data*Хранение данных*Интернет-маркетинг*Повышение конверсии*

Туториал

В недавно опубликованной статье CleverData постаралась разгадать, как и почему совершаются спонтанные покупки. Над нашими намерениями круглосуточно работают Customer Data Platforms (CDP) - гибкие платформы накопления данных о пользователях для целей персонализации предложений. Именно поэтому оповещение о скидке на абонемент в спортзал приходит тогда, когда мы вдруг решаем худеть и заказываем доставку диетического питания. Как грамотное применение CDP напрямую влияет на продажи, читайте в нашей новой статье под катом.

neoflex вчера в 17:35

Задачи и боли пресейл-консультанта

Средний

11 мин

342

Блог компании NeoflexBig Data*

Туториал

Neoflex – компания-интегратор (некоторые «хаброэксперты» с оттенком пренебрежения называют такие компании «галерами»), которая решает конкретные проблемы заказчиков, занимается прикладной разработкой «под ключ». У нас в работе находится одновременно много проектов на разном стеке и постоянно появляются новые, так что сотрудники обычно не скучают, разгребая годами тонны легаси или разрабатывая очередное широко известное в узких кругах мобильное приложение.

Эта статья, надеюсь, будет интересна тем, кто работает на проектах, но не знает, с чего всё начинается и что предшествует старту проекта. А может быть, вы грустите над своими задачами и хотите присоединиться к команде с более прогрессивными идеями? :)

Чтобы проект успешно завершить, нужно его начать :-). А чтобы начать, нужно его продать. Я вхожу в пресейл-команду внутри центра компетенций Big Data Solutions в качестве технического консультанта (архитектор, разработчик, иногда и системный аналитик) и уже накопил интересный опыт наших «болей» на этом пути пред-продаж и даже разработал с коллегами общий алгоритм действий для подобных команд.

С чего вообще начинается наша работа? Сейлз-менеджеры общаются с действующему и потенциальными заказчиками, если находят что-то по профилю нашего центра компетенций (построение/миграция DataLake/хранилищ или витрин данных и/или BI-отчётности), приходят к нам с более или менее (чаще «менее», чем «более») чётко сформированными требованиями. Центр кометенций назначает одного ответственного за пресейл (пресейл-консультанта), тот запрашивает себе в помощь экспертов от DevOps, аналитики, разработки и тестирования (как правило, пресейл-консультант сам является экспертом в одной из этих областей), возможно, кого-то ещё. Желательно, чтобы эксперты обладали большим проектным опытом и могли посвятить пресейлу несколько следующих дней: сроки на подготовку ответного предложения, как правило, очень сжатые.

kucev вчера в 10:01

Разметка данных в Label Studio при помощи GPT-4: интеграция ML Backend

7 мин

907

Data Mining*Big Data*Машинное обучение*Искусственный интеллектData Engineering*

Перевод

Введение

Получение качественных данных — краеугольный камень любого проекта машинного обучения. Этот процесс, в котором традиционно доминирует трудозатратная разметка данных, часто может превращаться в длительную и дорогостоящую задачу. Но что, если мы сможем воспользоваться прогрессом в развитии больших языковых моделей (LLM) для перехода от разметки данных к проверке разметки?

На сцене появляется GPT-4. Эта система (разработанная на основе GPT-4), имеющая более ста миллионов пользователей — одна из самых популярных языковых моделей.

В предыдущей статье мы показали, как можно ускорить процесс разметки предварительным аннотированием данных при помощи GPT-4. Эта методика позволяет нам загружать готовый к проверке предварительно размеченный датасет, а не выполнять монотонный процесс, начиная с нуля. В этой статье мы продолжим развивать эту тему, оказав, как можно объединить GPT-4 с бэкендом машинного обучения (ML Backend) Label Studio.

При помощи Label Studio ML Backend можно размечать данные непосредственно в Label Studio, что позволяет нам совершить переход от трудозатратной задачи разметки данных к гораздо более эффективному процессу проверки и совершенствования предварительных меток, что существенно ускоряет работу.

Читать дальше →

Guest11 19 мая в 00:40

А/В эксперименты. Ускорение вычислений с помощью бакетизации

Простой

5 мин

1.7K

Python*Data Mining*Big Data*

В данной статье мы рассмотрим, как бакетизация может существенно ускорить вычисления и представим график зависимости отношения времени на расчеты p-value без бакетизации к времени на расчеты с бакетизацией.

Время – деньги!

Sonya_01 18 мая в 13:15

Анализ рынка акций мировых компаний на брокерской платформе Tinkoff Инвестиции

Простой

28 мин

773

MySQL*Python*API*Big Data*GitHub*

Из песочницы

В мире, где цифровые технологии играют все более важную роль в повседневной жизни, рынок ценных бумаг становятся объектом увеличивающегося интереса исследователей, инвесторов, а также экономических и финансовых институтов. Цифровые активы и способы прогнозирования их стоимости быстро привлекают внимание своей децентрализованной природой, возможностью проведения глобальных финансовых транзакций и перспективой защиты от инфляции. Однако, они также характеризуются высокой волатильностью, что делает их предметом повышенного финансового риска. Этот рынок играет ключевую роль в экономике, поскольку предоставляет компаниям доступ к капиталу для финансирования своей деятельности, а также дает инвесторам возможность вложить свои деньги с целью получения прибыли [1, 2].

Платформа Tinkoff Инвестиции — это онлайн-сервис от Tinkoff Bank, который предоставляет клиентам возможность инвестировать в различные финансовые инструменты, включая акции, облигации, фонды, ETF и другие. Широкий выбор активов, удобный интерфейс и наглядная аналитика, и отчетность на платформе делает ее привлекательной для новичков и опытных инвесторов. Онлайн-брокерские компании позволяют инвесторам быстро и легко зарегистрироваться и приступить к торговле [3].

В условиях непредсказуемости и динамичности рынка, возникает потребность в прогностических моделях [4], способных предсказывать изменение цен акций в будущем. Моделирование и прогнозирование цен акций представляет собой сложную многомерную задачу, которая может быть решена с применением различных методов анализа данных и финансовых инструментов. На сегодняшний день существует широкий спектр подходов к предсказанию цен на цифровые активы, который охватывает как традиционные статистические методы, так и передовые алгоритмы машинного обучения [5].

PB_Academy 16 мая в 12:00

Apache Airflow: преимущества и недостатки

Простой

11 мин

3.3K

Python*Apache*Big Data*

Туториал

Одним из популярных оркестратором задач является Apache Airflow. Он, как и все инструменты, имеет свои преимущества и недостатки, о которых пойдет речь в данной статье.

Подробнее

bombora_IT 15 мая в 15:56

Расчет рентабельности инвестиций и другие задачи дата-сайентиста

Средний

2 мин

1.3K

Big Data*IT-компании

Обзор

Как специалисты data science (DS) оперативно рассчитывают рентабельность инвестиций в проект (ROI) на реальной практике, то есть в ситуации, когда нет актуальной информации о необходимых данных? К примеру, чтобы рассчитать компонент оттока в Lifetime Value (LTV), требуются месяцы аналитики. К каким инструментам прибегают, чтобы ускорить эти процессы?

Для быстрой оценки ROI есть классический метод оценки смежных компонентов: охвата, влияния и усилия.

DataSecrets 14 мая в 12:19

GPT-4o: больше мощи, но меньше цены. Почему так и что на самом деле умеет модель?

4 мин

41K

Big Data*Машинное обучение*Искусственный интеллект

Вчера в 20:00 по московскому времени OpenAI в прямом эфире показали свою революционную модель GPT-4o. Общаться с ней можно голосом и даже по видео, при этом вообще без задержек. А еще GPT-4o понимает интонации, может шутить, отвечать с (почти) человеческой интонацией, переводить в режиме реального времени и даже петь.

При всем этом модель дешевле, чем ее предшественница, GPT-4 Turbo, во всем уступающая GPT-4o. Как такое может быть, что прямо сейчас умеет модель и почему GPT-4o на самом деле первая настоящая мультимодальная разработка OpenAI? Со всем этим разберемся в статье, а еще расскажем про все‑все самые интересные пасхалки Альтмана...

+31

k0rsakov 13 мая в 13:28

CDC на примитивах

Простой

7 мин

2.5K

PostgreSQL*Data Mining*Big Data*Хранилища данных*Data Engineering*

Туториал

CDC вам не «Centers for Disease Control and Prevention» а «Change data capture». В статье рассказано какие есть виды CDC и как реализовать один из CDC при помощи Debezium.

kucev 13 мая в 10:21

Дата-майнинг: процесс, типы методики и инструменты

13 мин

2.9K

Data Mining*Big Data*Машинное обучение*Искусственный интеллектData Engineering*

Перевод

Дата-майнинг, в основе которого лежат научные и технологические принципы — это стратегический процесс, предназначенный для выявления паттернов, корреляций и трендов, скрывающихся под поверхностью информации.

В этой статье мы расскажем о том, что такое дата-майнинг, о его методиках, инструментах, опыте использования и примерах.

Что такое дата-майнинг?

Дата-майнинг (data mining) — это процесс обработки данных для выявления паттернов, корреляций и аномалий в крупных датасетах. В нём применяются разнообразные методики статистического анализа и машинного обучения для извлечения из данных значимой информации и выводов. Компании могут использовать эти выводы для принятия обоснованных решений, прогнозирования трендов и совершенствования бизнес-стратегий.

Например, при помощи дата-майнинга туристическая компания может обнаружить, что путешественники-одиночки часто бронируют отели рядом с технологическими хабами или коворкинг-пространствами, даже если они расположены далеко от основных туристических достопримечательностей. Это может намекнуть о том, что существенный процент путешествующих в одиночестве объединяет поездки для работы и отдыха, предпочитая места, удовлетворяющие их профессиональным потребностям. Такой вывод может позволить компании сосредоточить свои маркетинговые кампании на отелях, находящихся поблизости от бизнес-районов или коворкингов.

Визуальное определение дата-майнинга

Этот процесс является неотъемлемой частью преобразования огромных объёмов сырых данных (структурированных, неструктурированных и частично структурированных) в ценные знания, на основании которых можно планировать свои действия.

Читать дальше →

denzceo 11 мая в 10:57

Грейды в аналитике. Как быстро повысить свой грейд?

Простой

3 мин

8.4K

Python*SQL*Big Data*Интернет-маркетинг*Аналитика мобильных приложений*

Обзор

Recovery Mode

Привет, Хабр!

Меня зовут Денис, я Ведущий Продуктовый Аналитик из МТС. Давайте сегодня поговорим про грейды в аналитике. Чем они отличаются? Расскажу, как можно быстро повышать свой грейд.

В целом, в разных компаниях разное понимание того, чем должен обладать тот или иной грейд. Однако, есть основные пункты, которые повторяются во многих командах, про них мы сегодня и поговорим.

-6

feanoref 9 мая в 10:58

Зачем компаниям ML? Разбираемся на примере Netflix

Простой

10 мин

6.9K

Блог компании SelectelBig Data*Машинное обучение*Научно-популярноеIT-компании

Привет, Хабр! Я Ефим, MLOps-инженер в отделе Data- и ML-продуктов Selectel. В последнее время, куда ни глянешь, только и разговоров, что про ML. Но всегда хочется увидеть результаты работы на практике. Если с IT-гигантами все понятно, то зачем ML, скажем, компаниям из индустрии развлечений? В статье попробуем разобраться с этим (насколько позволят открытые источники) на примере Netflix.

Читать дальше →

+35

SergeyProkhorenko 8 мая в 22:01

Спецификация уникальных идентификаторов UUIDv7 для ключей баз данных и распределенных систем по новому стандарту RFC9562

Средний

14 мин

Высокая производительность*Анализ и проектирование систем*IT-стандарты*Big Data*Хранилища данных*

Аналитика

Долгожданный стандарт RFC9562 "Universally Unique IDentifiers (UUID)" с тремя новыми версиями идентификаторов UUID (6, 7 и 8) вместо малопригодного RFC4122 наконец-то вступил в силу. Я участвовал в разработке нового стандарта. Обзор стандарта можно посмотреть в статье.

Введенные новым стандартом идентификаторы седьмой версии UUIDv7 — это лучшее, что теперь есть для ключей баз данных и распределенных систем. Они обеспечивают такую же производительность, как и bigint. UUIDv7 уже реализованы в том или ином виде в основных языках программирования и в некоторых СУБД.

Сгенерированные UUIDv7 имеют все преимущества UUID и при этом упорядочены по дате и времени создания. Это ускоряет поиск индексов и записей в БД по ключу в формате UUID, значительно упрощает и ускоряет базы данных и распределенные системы. Неупорядоченность значений UUID прежде сдерживала использование UUID в качестве ключей и вынуждала разработчиков выдумывать собственные форматы идентификаторов или довольствоваться последовательными целыми числами в качестве ключей.

Черновик стандарта активно обсуждался на Хабре в апреле 2022 года в комментариях к статье "Встречайте UUID нового поколения для ключей высоконагруженных систем".

Разные участники разработки нового стандарта придерживались различных взглядов, и практически все обсуждавшиеся альтернативные варианты структуры UUIDv7 вошли в стандарт. Поэтому теперь перед разработчиками возникает вопрос, какую из множества возможных спецификаций UUIDv7 реализовывать и применять. Также для массового перехода на UUIDv7 нужна дополнительная функциональность, повышающая привлекательность UUIDv7 для разработчиков и бизнеса.

Предложенная мной ниже спецификация UUIDv7 с дополнительной функциональностью описывает максимально надежный и удобный вариант структуры UUIDv7 для самых сложных и высоконагруженных информационных систем. Функциональность упорядочена по приоритету реализации

+16

sh_vit 7 мая в 18:31

regexp — большие гонки

Средний

3 мин

7.4K

C++*C*Big Data*Разработка под Linux*

Аналитика

Так или иначе сталкиваться с регулярными выражениями приходилось большинству разработчиков. Мое первое знакомство произошло с реализацией regex в STL std::regexp. Чаще всего регулярки используются в проверке входных данных, что-то вроде проверки корректности введенного пользователем URL, адреса IPv4, адреса IPv6, телефонного номера и при этом скорость выполнения операции regex не сильно влияет на время отклика от приложения. Но, что если вам приходится проверять сотни, тысячи или даже десятки тысяч правил и все это на постоянно меняющихся наборах входных данных в реальном времени? В этой ситуации вам не просто нужен быстрый алгоритм, вам понадобится лучший из них, вам понадобиться чемпион!

Участвовать в заезде!

+23

appp_master 7 мая в 16:00

Unit-тестирование Flink-операторов, Job: Flink MiniCluster

10 мин

636

Блог компании МТСJava*Big Data*Распределённые системы*Data Engineering*

Привет, Хабр! С вами вновь Александр Бобряков, техлид в команде МТС Аналитики. И я с очередной статьёй из цикла про фреймворк Apache Flink.

В предыдущей части я рассказал, как тестировать stateless- и stateful-операторы Flink с использованием вспомогательных TestHarness-абстракций, предоставляемых Flink.

В этой статье напишем тесты на всю джобу с использованием мини-кластера Flink и при помощи JUnit Extension. Ещё мы начнём выделять удобные вспомогательные абстракции для тестов, которые понадобятся позже.

odmin227 7 мая в 12:00

Откуда Deezer знает, какая музыка нравится новым пользователям?

Сложный

9 мин

Алгоритмы*Big Data*Машинное обучение*Научно-популярноеЗвук

Обзор

Привет, Хабр! Меня зовут Данил Картушов. 👋

В этом посте я расскажу, как музыкальная платформа Deezer, используя метаданные, с первых секунд научилась рекомендовать персонализированные треки новым пользователям!

▶️ Начнем!

andbul 7 мая в 11:03

Рулим запуском Spark-приложений в Airflow с помощью самописного оператора

Сложный

16 мин

Блог компании Lamoda TechPython*Big Data*Hadoop*Data Engineering*

Кейс

Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями.

Все Spark-приложения сабмитятся из Docker-контейнеров. И здесь сталкиваемся с проблемой: в нашем случае не существует готовых решений для запуска Spark-приложений, позволяющих легко править конфигурацию и следить за количеством потребляемых ресурсов.

Меня зовут Андрей Булгаков, я лид команды разработчиков Big Data в Lamoda Tech. Вместе с разработчиком Иваном Васенковым в этой статье мы поделимся историей создания Airflow-оператора для запуска Spark-приложений.

+19

DataSecrets 3 мая в 18:14

На практике пробуем KAN – принципиально новую архитектуру нейросетей

Средний

5 мин

28K

Python*Big Data*Машинное обучение*Искусственный интеллект

Обзор

На днях ученые из MIT показали альтернативу многослойному перцептрону (MLP). MLP с самого момента изобретения глубокого обучения лежит в основе всех нейросетей, какими мы их знаем сегодня. На его идее в том числе построены большие языковые модели и системы компьютерного зрения.

Однако теперь все может измениться. В KAN (Kolmogorov-Arnold Networks) исследователи реализовали перемещение функций активации с нейронов на ребра нейросети, и такой подход показал блестящие результаты.

+75

lev_baskin 3 мая в 15:32

Планирование смен сотрудников в офлайн ритейле: как упорядочить хаос

7 мин

1.4K

Блог компании X5 TechBig Data*Математика*Машинное обучение*Управление персоналом*

Кейс

Всем привет! На связи команда ad-hoc аналитики X5 Tech. В этой статье мы – Лев Баскин, Андрей Полушкин и Александр Сахнов – расскажем, как ~~без регистрации и смс~~ спланировать смены для сотрудников офлайн-магазинов. Казалось бы, задача достаточно тривиальная: берём симплекс метод или другой метод условной оптимизации и на основе ожидаемой загрузки получаем расписание сотрудников. Однако, не всё так просто.

Первое препятствие на пути – масштабы. У Х5 порядка 25 000 магазинов от Калининграда до Владивостока и более 378 000 работников, обеспечивающих непрерывное функционирование бизнеса. У каждого магазина своя специфика и различающиеся бизнес-процессы. Во-вторых, даже зная, сколько часов занимает тот или иной процесс и как он локализован во времени, из-за внешних факторов нельзя так просто взять и поместить его в расписание. Например, обстановка на дорогах может повлиять на время поставки и, как следствие, сдвинуть ряд процессов в магазине. Достаточно предисловия, перейдём к сути!

Listen1991 3 мая в 09:40

Как стать BI-аналитиком? Онлайн и офлайн, теория и практика

4 мин

3.9K

Блог компании VisiologyBig Data*Визуализация данных*Учебный процесс в IT

Туториал

Привет, друзья! Сегодня обсудим образование. Конечно, не всю систему в целом, а только те аспекты, которые затрагивают действующих и будущих BI-специалистов. Как получить фундаментальные знания в отрасли, где быстро и бесплатно найти ответ на волнующий вопрос, у кого научиться работать на конкретной BI-платформе, чтобы претендовать на ключевые позиции в крупных компаниях? Если вы задаете себе такие вопросы относительно Visiology, то все ответы на них найдете под катом.

2 3 ...

164 165

Big Data *

Не магия: как агрегируются и обрабатываются данные CDP-платформами

Новости

Задачи и боли пресейл-консультанта

Разметка данных в Label Studio при помощи GPT-4: интеграция ML Backend

Введение

А/В эксперименты. Ускорение вычислений с помощью бакетизации

Истории

Анализ рынка акций мировых компаний на брокерской платформе Tinkoff Инвестиции

Apache Airflow: преимущества и недостатки

Расчет рентабельности инвестиций и другие задачи дата-сайентиста

GPT-4o: больше мощи, но меньше цены. Почему так и что на самом деле умеет модель?

CDC на примитивах

Дата-майнинг: процесс, типы методики и инструменты

Что такое дата-майнинг?

Грейды в аналитике. Как быстро повысить свой грейд?

Зачем компаниям ML? Разбираемся на примере Netflix

Спецификация уникальных идентификаторов UUIDv7 для ключей баз данных и распределенных систем по новому стандарту RFC9562

Ближайшие события

regexp — большие гонки

Unit-тестирование Flink-операторов, Job: Flink MiniCluster

Откуда Deezer знает, какая музыка нравится новым пользователям?

Рулим запуском Spark-приложений в Airflow с помощью самописного оператора

На практике пробуем KAN – принципиально новую архитектуру нейросетей

Планирование смен сотрудников в офлайн ритейле: как упорядочить хаос

Как стать BI-аналитиком? Онлайн и офлайн, теория и практика

Вклад авторов

Работа