Как стать автором
Обновить
82.79

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

UUIDv7

Уровень сложности Средний
Время на прочтение 3 мин
Количество просмотров 2.2K

Седьмая версия UUID (Universally Unique Identifier Version 7, UUID Version 7, UUIDv7) является модифицированной и стандартизованной версией ULID. Проект стандарта (далее стандарт) находится в ожидании окончательной проверки редактором. Но уже имеется большое количество реализаций UUIDv7, применяемых в действующих информационных системах. В интернете доступно большое количество информации по ключевому слову UUIDv7.

Читать далее
Всего голосов 9: ↑8 и ↓1 +7
Комментарии 4

Новости

Типичные задачи аналитика. Часть 2. А есть ли тренд?

Уровень сложности Средний
Время на прочтение 18 мин
Количество просмотров 3.2K

В первой части статьи на Habr мы рассмотрели классические подходы к оценке изменений метрики при условии ее стационарности. В этом контексте статистические критерии, применяемые в A/B тестировании, оказались весьма эффективными.

Однако, если существует стабильный тренд, например, среднемесячная аудитория увеличивается из года в год, оценка разницы средних за два смежных периода времени может быть некорректной. В таком случае среднее значение предыдущего периода всегда будет отличаться от среднего постпериода, и это часто может быть не связано с исследуемым функционалом.

Одна из причин — тренд не всегда зависит от действий компании и часто является следствием внешних условий. Например, рост аудитории может быть связан с увеличением благосостояния населения, масштабированием бизнеса или сезонными факторами.

Таким образом, наличие или отсутствие тренда является важным аспектом анализа данных. Рассмотрим несколько успешных и неудачных подходов, которые можно применять для решения этой задачи.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 0

Как связать натуральные ключи с суррогатным в Anchor Modeling

Уровень сложности Средний
Время на прочтение 2 мин
Количество просмотров 466

Хранить значения натуральных ключей необходимо, потому что они связывают хранимые данные с реальным миром (внешними классификаторами, реестрами и т.п.), и с ними работают бизнес-пользователи: в выпадающих списках, отчетах и дашбордах. Но в методологии Anchor Modeling для связи таблиц используются только суррогатные ключи, не подверженные изменениям, и это правильно. Поэтому нужно хранить связь натуральных ключей с суррогатным ключом, предпочтительно формата UUIDv7. Как же это сделать в методологии Anchor Modeling?

Получить ответ
Всего голосов 4: ↑1 и ↓3 -2
Комментарии 0

Подготовка к собеседованию на позицию Data Scientist. Часть 1: Live Coding

Уровень сложности Средний
Время на прочтение 14 мин
Количество просмотров 7K

В данной статье разберемся что такое live coding интервью и как к нему готовиться.

Материал в первую очередь будет полезен Data Scientist'ам и ML инженерам, при этом некоторые разделы, например, Алгоритмы и структуры данных подойдут всем IT специалистам, которым предстоит пройти секцию live coding.

Читать далее
Всего голосов 7: ↑5 и ↓2 +3
Комментарии 2

Истории

FineBI под микроскопом: Обзор новых функций и улучшений в Q1 2024

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 818

Хабр, привет! 

Меня зовут Александр Ларин, я являюсь руководителем центра технической поддержки и обучения в GlowByte, а также лидером самого большого в России сообщества FineBI.

Сегодня в нашем фокусе – обновления, которые не оставят равнодушными ни одного бизнес-аналитика. Призываю поднять планку ваших знаний о современных инструментах анализа данных. Если вы, как и я, жаждете узнать о последних обновлениях в мире бизнес-аналитики, то эта статья именно для вас. Развивайтесь вместе с FineBI, чтобы быть на шаг впереди конкурентов в мире данных и аналитики. А тех, кому этого будет недостаточно, приглашаю на наши курсы.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 0

Вакуумируй это: сбор и удаление мусора в базе данных Greenplum

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 708

Всем привет! ITSumma на связи! Недавно — 8 февраля мы провели вебинар о мониторинге и обслуживании реляционной базы данных Greenplum. 

При всех своих достоинствах у Greenplum есть подводные камни, о которых стоит знать разработчикам и администраторам. Один из таких потенциально опасных моментов — процедура сбора и удаления мусора, её ещё называют вакуумирование, потому что она инициируется командой Vacuum. Работать с вакуумированием нужно деликатно, иначе велик риск надолго нарушить работу всей системы. Как раз о том, как этого избежать, правильно мониторить и очищать таблицы, мы и рассказывали на вебинаре.

Это статья — выжимка нашего мероприятия. Вот что вы из неё узнаете:

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 0

Vertica Eon в K8S — 3 года развития

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 420

Vertica - одна из первых широко используемых MPP баз на просторах айти ландшафта СНГ. Колоночное хранение, быстрые запросы на миллиардах строк, легендарные sort-merge джойны, которых нет больше ни у кого, позволяющие запускать свои грибницы. Но нынче на дворе 2024 год: как компания Vertica сменила уже 2 (или трех) владельцев, доступ к веб ресурсам с территории РФ ограничен, поддержка брошена, а вокруг нас процветают облака или как минимум кубернетисы во всех ипостасях.

И все же начиная с версии 10.1 компания представила интересную возможность для тех, кто уже крепко подсел на эту иглу - движок Eon. Описывая в двух словах, это та же самая по скорости база данных, но использующая общее хранилище - S3 (во всех своих ипостасях от вендорских AWS, GCS до онпрем вариантов) или HDFS. К тому же есть отличная завлекалочка - бесплатное использование кластера размером до 1 ТБ и до 3 нод вычисления. Статья является итогом тестирования технологии, и результаты тестирования какие-то не очень веселые.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 11

Единая модель безопасности в Дельта BI

Уровень сложности Средний
Время на прочтение 7 мин
Количество просмотров 208

Для многих компаний анализ больших данных становится обыденной задачей. Этому способствует развитие технологий и снижение стоимости систем хранения. Поэтому сегодня многие компании могут собирать и хранить большие объемы разнородных данных. Кроме сбора и хранения данных, часто возникает необходимость их преобразования в удобный для пользователей вид, в чем помогают различные BI-системы.

Согласно исследованию IDC «Аналитика больших данных» более 50% опрошенных заявляют, что одним из ключевых факторов, влияющих на выбор решения для анализа больших данных является безопасность.

А как обстоят дела с безопасностью в Дельта BI?

Читать далее
Всего голосов 1: ↑0 и ↓1 -1
Комментарии 0

Искусство продуктовой аналитики: как преобразовать цифры в ценные инсайты для бизнеса

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 2.7K

В современном мире данные играют все более важную роль в развитии бизнеса. Они позволяют принимать обоснованные и осознанные решения, а также выявлять потенциальные возможности для оптимизации и роста. Однако, необходимо понимать, что накопление большого объема данных само по себе недостаточно для достижения успеха. Чтобы преобразовать цифры в ценные инсайты, требуется искусство продуктовой аналитики.

Узнать подробнее
Всего голосов 4: ↑3 и ↓1 +2
Комментарии 6

Побеждаем рутину в Data Science: как перестать быть недопрограммистами и недоисследователями

Уровень сложности Средний
Время на прочтение 22 мин
Количество просмотров 12K

Профессия Data Scientist сейчас стала особенно привлекательна, вовлекая еще больше энтузиастов и даже евангелистов, благодаря последним достижениям в области генерации текстов и изображений. Внешний фон наводит на мысли, что будни дата сайентиста заполнены исключительно творческой самореализацией, и рутина в процессы его работы никогда не сможет просочиться. Увы, но большую часть DS команд рутина уже поглотила.

Читать далее
Всего голосов 21: ↑19 и ↓2 +17
Комментарии 0

7 направлений оптимизации ClickHouse, которые помогают в BI

Уровень сложности Средний
Время на прочтение 12 мин
Количество просмотров 7.6K

Привет, Хабр! Меня зовут Никита Ильин, я занимаюсь разработкой архитектуры BI-платформы Visiology. Сегодня мы поговорим про оптимизацию ClickHouse — ведущей СУБД, которую все чаще используют для решения задач аналитики на больших объемах данных. В этой статье я расскажу, почему важно оптимизировать ClickHouse, в каких направлениях это можно делать, и почему разумный подход к размещению информации, кэшированию и индексированию особенно важен с точки зрения производительности BI-платформы. Также мы поговорим о том, к каким нюансам нужно готовиться, если вы решаете оптимизировать CH самостоятельно, сколько времени и сил может потребовать этот процесс и почему мы решили “зашить” в новый движок ViQube 2 десятки алгоритмов автоматической оптимизации. 

А что там с оптимизацией ClickHouse?
Всего голосов 20: ↑19 и ↓1 +18
Комментарии 1

Рейтинги в сфере BI — какая от них польза?

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 1.6K

Завтра, 15 февраля в 11-00 мы проводим круглый стол на тему оценки рейтингов BI, и я хочу пригласить всех желающих принять участие в этой онлайн-дискуссии. Мы планируем обсудить, почему в сфере BI рейтинги так сильно отличаются друг от друга, узнать напрямую у главных редакторов и руководителей аналитических отделов, чем они руководствуются, составляя те или иные рейтинги, а также спросить у заказчиков, обращались ли они к рейтингам, когда выбирали BI-платформу. Хотите принять участие и задать свои вопросы маститым экспертам? Все подробности под катом.

Читать далее
Всего голосов 11: ↑8 и ↓3 +5
Комментарии 1

Детекция объектов. YOLO. Часть 2

Уровень сложности Средний
Время на прочтение 9 мин
Количество просмотров 2.7K

Кто такой YOLO? 🤔

Когда пытаешься разобраться в работе YOLO по статьям в интернете, постоянно натыкаешься на примерно такое объяснение: «Алгоритм делит изображение сеткой SxS, где каждому элементу этой сетки соответствует N ббоксов с координатами, предсказаниями классов и тд...». Но лично мне становилось только непонятнее от такого высокоуровнего описания.. Ведь в исследованиях часто всё происходит примерно так: перебирают гипотезы, пока не получат приемлемый результат, а потом уже придумывают красивое описание. Поэтому для ясности хочется в данной статье рассказать, как вообще приходили к идеям, которые ложились в основу YOLOv1 и последующих версий.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 0

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн

Как мы поменяли методику исследования «BI-круг Громова», чтобы результаты стали еще точнее

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 1.3K

«Круги Громова» занимается сравнительными исследованиями ИТ-решений. Начинали мы с исследований именно BI-систем (системы бизнес-аналитики, business intelligence) и разбираемся в них, как считаем, весьма хорошо. По задумке наши исследования (кстати, ежегодные) должны быть чем-то вроде карты для ИТ-отделов и руководителей, чтобы помочь им разобраться в дебрях множества современных BI-решений. Одним из основных параметров, влияющих на объективность исследования, является его методика. Поэтому мы постоянно думаем над тем, как сделать нашу методику еще более точной, учитывающей еще больше факторов и позволяющей раскрыть максимум информации о решениях, которые попали к нам под микроскоп.  

Читать далее
Всего голосов 8: ↑5 и ↓3 +2
Комментарии 1

Иерархия ИИ-потребностей

Время на прочтение 6 мин
Количество просмотров 1.9K


Как это часто бывает с быстро развивающимися технологиями, ИИ породил массовые проявления синдрома упущенных возможностей, страха, неуверенности, сомнений и междоусобиц. Некоторые из них имеют под собой основания, некоторые — нет, но всё это бросается в глаза. Все от мала до велика, от незаметных стартапов до финтех-гигантов и государственных учреждений, сформировали команды специалистов, которые лихорадочно разрабатывают ИИ-стратегии. 

Команда VK Cloud перевела статью о том, как использовать ИИ и машинное обучение, чтобы лучше справляться с тем, что мы делаем.
Читать дальше →
Всего голосов 27: ↑23 и ↓4 +19
Комментарии 0

Два сапога — пара, а три — уже community: как алгоритмы на графах помогают собирать группы товаров

Время на прочтение 14 мин
Количество просмотров 7.2K

Привет, Хабр! Меня зовут Иван Антипов, я занимаюсь ML в команде матчинга Ozon. Наша команда разрабатывает алгоритмы поиска одинаковых товаров на сайте. Это позволяет покупателям находить более выгодные предложения, экономя время и деньги.

В этой статье мы обсудим кластеризацию на графах, задачу выделения сообществ, распад карате-клуба, self-supervised и unsupervised задачи — и как всё это связано с матчингом.

Читать далее
Всего голосов 76: ↑76 и ↓0 +76
Комментарии 12

Как мы не выбрали Airbyte, или почему собирать данные лучше по старинке

Уровень сложности Средний
Время на прочтение 7 мин
Количество просмотров 3.2K

Привет, Хабр! Меня зовут Илья, я работаю инженером данных в компании Selectel. В отделе BI мы собираем информацию из внутренних и внешних источников и предоставляем аналитикам.

У нас достаточно большой набор внешних ресурсов, данные из которых нужно собирать и обрабатывать. Среди них — различные SMM-площадки вроде VK и Telegram, платформы лидогенерации, инструменты таргетированной рассылки писем, системы автоматизации и многое-многое другое.

Так как компания развивается, мы спрогнозировали, что число источников тоже будет только расти. И назрела мысль, что нам нужно подобрать специализированное ПО, которое будет отвечать за доставку данных из внешних ресурсов в DWH. Время прошло, идея воплощена: мы используем Airflow и самописные коннекторы на Python. Но могло сложиться все иначе — и мы бы использовали Airbyte, если бы не одно но…
Читать дальше →
Всего голосов 37: ↑36 и ↓1 +35
Комментарии 5

Как проводят оценку качества данных в Airbnb

Уровень сложности Простой
Время на прочтение 9 мин
Количество просмотров 1.8K


Сегодня, когда объем собираемых компаниями данных растет в геометрической прогрессии, мы понимаем, что больше данных — не всегда лучше. На самом деле слишком большой объем информации, особенно если вы не можете гарантировать ее качество, может помешать компании и замедлить процесс принятия решений. Или это приведет к принятию неправильных решений.

Рост показателей Airbnb до 1,4 миллиарда гостей на конец 2022 года привел нас в точку, когда снижение качества данных стало мешать нашим специалистам по работе с этими самыми данными. Еженедельные отчеты по метрикам стало сложно предоставлять вовремя, такие базовые показатели как «Активные объявления» стали иметь целую паутину зависимостей. Для полноценной работы с данными стали требоваться значительные институциональные знания, просто чтобы преодолеть все «подводные камни» в нашем информационном потоке.

Чтобы решить эту проблему, мы внедрили процесс под кодовым названием «Мидас» (Midas), который предназначался для сертификации наших данных. Начиная с 2020 года, процесс Midas, а также работа по реорганизации наших наиболее важных моделей позволили значительно повысить качество и оперативность получения важнейших данных Airbnb. Однако достижение всех критериев качества данных требует значительных межфункциональных инвестиций в такие вещи как проектирование, разработка, проверка и поддержка необходимых информационных ассетов и документации.
Читать дальше →
Всего голосов 32: ↑30 и ↓2 +28
Комментарии 3

Годовой дайджест по аналитике и ML за 2023

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 4.3K

Привет, Хабр! Я Стас, занимаюсь развитием аналитических и ML-продуктов в Selectel. В новом мегадайджесте мы с командой собрали для вас свои лучшие материалы по итогам 2023 года. Читайте и сохраняйте в закладки: пригодится всем, кто хочет быть в курсе новостей и актуальных технологий из мира AI, ML и дата-аналитики.

Под катом — ежемесячные дайджесты, которые вы могли пропустить, экспертные статьи по совместному использованию GPU, кэшированию датасетов и бэкапированию данных в Kubernetes, а также записи докладов с наших мероприятий.
Читать дальше →
Всего голосов 34: ↑34 и ↓0 +34
Комментарии 0

От детектора ИИ-текстов до безградиентной оптимизации. О чём учёные из AIRI рассказывали на конференции NeurIPS 2023

Уровень сложности Средний
Время на прочтение 8 мин
Количество просмотров 1.1K

Конференции — важная часть науки. И так уж сложилось, что в области компьютерных наук — и в особенности в машинном обучении — они играют более важную роль, чем в остальных научных областях. Существует даже специальный рейтинг конференций, по важности сопоставимый с рейтингом научных журналов для учёных, занимающихся ИИ.

Среди лидеров этого списка (рейтинг A*) самой топовой с точки зрения цитирования по сей день остаётся конференция Neural Information Processing Systems или, сокращённо, NeurIPS, куда ежегодно стремятся попасть многие исследователи. Статьи и доклады проходят там жёсткий отбор — в 2023 году туда было принято лишь 26 процентов статей. Тем приятнее, что на NeurIPS 2023, который прошёл в декабре, учёными Института искусственного интеллекта AIRI было сделано там сразу восемь докладов.

О том, какие результаты представили там наши исследователи, я расскажу в тексте ниже.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 3

Вклад авторов

Работа

Data Scientist
75 вакансий