По традиции делимся материалами своего последнего митапа для аналитиков. В этот раз записи могут пригодиться тем, кто нанимает людей в команду и начинает выстраивать аналитические процессы, сотрудникам маркетплейсов и площадок для объявлений, а также SCRUM-мастерам.
Визуализация данных
Облекаем данные в красивую оболочку
- Новые
- Лучшие
- Все
- ≥0
- ≥10
- ≥25
- ≥50
- ≥100
Как делали онлайн карту объектов культурного наследия
В нашем рассказе речь пойдет про то, как мы реализовывали проект “Сохраним наследие” и делали онлайн карту памятников истории и культуры historymap.online. Это небольшая обзорная статья про наш проект. Она не содержит каких либо решений только общую концепцию. В дальнейшем планируем более детально описать этапы работ.
Учим Kibana работать с Clickhouse (Ярослав Саган, Николай Нестеренко)
Сотрудники ECOMMPAY IT Ярослав Саган и Николай Нестеренко на конференции HighLoad++2019 рассказали об архитектурном решении для компактного хранения логов в ClickHouse.
На основе их доклада я сделал статью с расшифровкой, так как тема оказалась полезной.
(Ярослав Саган) Мы расскажем о том, как делали архитектуру для компактного хранения логов в ClickHouse; как прикручивали Kibana для просмотра логов, их фильтрации и аналитики. А также расскажем, с какими трудностями столкнулись и что у нас получилось в итоге.
Букварь материалиста
Мир вокруг нас порой поражает воображение, но часто доходит до того, что воображение поражает мозг, после чего он отказывается работать правильно. Все чаще вокруг себя я вижу примеры иррационального мышления, и ощущаю его влияние на мою жизнь. Результаты такого мышления в большинстве своем плачевны.
Иррациональное мышление живет в идеалистическом мире, который живет в хаосе, не подчиняясь никаким законам. Ведь если для каждого закон свой, то закона нет ни для кого. Ловушка иррациональности работает сама собой, для ее захлопывания не нужно предпринимать никаких усилий. Намного проще не делать ничего, вместо того чтобы делать хоть что-то.
Я захотел ответить на вопрос - почему люди отказываются от рационального мышления, и почему позволяют идеалистическому миру заменить материалистический. Эта статья была написана как сборник заметок в процессе изучения диалектики Гегеля, когда я решил заменить тяжелые для слуха и восприятия определения на более легкие и удобоваримые. В процессе написания этих заметок я начал делать выводы, на основе собственных суждений, что и стало основой этой статьи.
Потрясающе красиво: как отобразить десятки признаков в данных
Пока эксперты Хабра дегустируют наши курсы, пробуем алгоритм UMAP урожая 2018, раскрывающий тонкие оттенки данных высокой размерности.
Статья напомнит об этой прекрасной альтернативе t-SNE или PCA и поможет с визуализацией на флагманском курсе Data Science.
Мегаанализ распространения Covid-19 в Москве
В этой части целого цикла статей я представлю только статистические данные. В последующих главах будет выполнено предсказание тяжести заболевания, влияния загрязнения воздуха и даже сделано фундаментальное открытие, обобщающее закон Гомперца на различные тяжести течения Covid- 19.
Геоаналитика с помощью Python и открытых данных: пошаговое руководство
Геоаналитика с помощью Python: GeoPandas, folium, Uber H3, OSM + примеры как можно определять лучшие локации для поиска помещений под открытие кофейни (и не только).
(Любительский) временной анализ ДЭГ в Москве
По следам замечательной статьи "Что же не так с ДЭГ в Москве?" я решил проанализировать распределение голосов за разных кандидатов по времени. Результаты меня, мягко говоря, удивили.
Как мы в Miro используем Miro
Собрали примеры, как инженеры и тимлиды в Miro используют доску Miro по работе и в личных проектах. Расскажем, какие фичи они применяют и как это можно повторить. Возможно, что-то из примеров вам пригодится.
Q-Q Plots. От чайника до профессионала за один гайд
Как понять, что выборка данных принадлежит определенному распределению? Есть 2 метода: аналитический тест Колмогорова-Смирнова (тест Шапиро-Уилка для нормального) и графический метод при помощи графика квантиль-квантиль плот.
Чем так замечателен второй вариант? Он позволяет делать выводы, не основываясь на таких спорных показателях как.
Графический метод является мощнейшим инструментом анализа, но как сказано в англоязычной статье википедии про Q-Q Plots, требует серьезных навыков для интерпретации. В данной статье я представляю дорожную карту пути к пониманию квантильных графиков.
Кластеризуем миллионы планов PostgreSQL
Как найти самые "горячие" запросы на вашем PostgreSQL-сервере? Поискать их в логе и проанализировать план или воспользоваться расширением pg_stat_statements.
А если в лог попадает миллион запросов за сутки?.. Тогда любое значение лимита pg_stat_statements.max
окажется недостаточно велико, чтобы собрать правдивую статистику. Так давайте собирать эту статистику прямо с планов!
Но для некоторых сервисов СБИС нам в "Тензоре" производительность запросов к базе настолько важна, что auto_explain.log_min_duration
приходится выставлять в единицы миллисекунд - и вот они, миллионы планов... Как не потеряться в них?
Битва за условное форматирование: дополняем стандартный функционал Power BI
Как использовать для визуализации такой замечательный инструмент, как условное форматирование, если ваши данные против этого? Как добавить в отчет красивую карту, если несколько точек "портят" всю картину? Как использовать статистические методы для настройки внешнего вида вашего отчета?
Я постарался рассказать об этом на примере выполнения задания для хакатона по Power BI.
Вывод SEO мета тегов title и description в виде визуальной структуры для каждой веб-страницы за один раз
Давно существует куча инструментов от Ahrefs, Mooz, Semrush и т.д., которые показывают главные мета теги для каждой страницы отдельно, в лучшем случае списком.
Но кто-нибудь видел инструмент, который выводит сразу все title и description за раз и показывает это в виде удобной иерархической визуальной структуры для всего веб-сайта?
Давайте по порядку ...
Создание отчетов в InterSystems Reports
Введение
! В связи с проблемами Хабра с отображением md текстов, вы можете ознакомится с полным текстом статьи на GitHub.
В мире огромных объемов данных как никогда важно сделать информацию доступной и легко интерпретируемой. С помощью InterSystems Reports (Logi Reports) вы можете легко и эффективно представлять сложные данные. InterSystems Reports – модуль InterSystems IRIS и InterSystems IRIS for Health. Это современное решение для создания и публикации отчетов, которое включает в себя:
- Встроенную оперативную отчетность, которая может быть настроена как разработчиками отчетов, так и конечными пользователями.
- Точное форматирование, позволяющее создавать специализированные формы, например, макеты для счетов, документов и т.д.
- Макеты, обеспечивающие структуру для отображения как агрегированных, так и транзакционных данных.
- Позиционирование заголовков, колонтитулов, агрегированных и подробных данных, изображений и вложенных отчетов.
- Разнообразные типы отчетов.
- Публикация и распространение отчетов, включая экспорт в PDF, XLS, HTML, XML и другие форматы файлов, печать и архивирование для соблюдения нормативных требований.
«Футбол в цифрах»: как аналитика может улучшить ситуацию с футболом в России
Привет, Хабр! Меня зовут Владимир Герингер, я автор проекта «Футбол в цифрах». В нём я собираю футбольную статистику, анализирую данные, вывожу закономерности и рассказываю аудитории о самом интересном в виде коротких заметок и подробных статей. Данные — моё хобби, я собрал их достаточно, чтобы сделать выводы об основных проблемах российского футбола и предложить решения.
Красивое дерево PATRICIA (Реализация на C++)
Забытое, сложное, изумительное, красивое дерево со звуком ломающихся коленок.
Анализ распределения временных интервалов между покупками на R
В статье я провожу ресёрч интервалов между собственными банковскими тратами за последние полгода и с помощью статистических методов в R пытаюсь понять, какому распределению эти интервалы подчиняются.
Я представляю:
1. Код на R для анализа любых временных интервалов.
2. Подбор экспоненциального и степенного распределения под данные с помощью метода максимального правдоподобия (MLE). Для экспоненциального я использую fitdistr()
из пакета MASS
, а для степенного fit_power_law()
из пакета igraph
.
3. Проверку данных на соответствие подобранному распределению с помощью теста Колмогорова-Смирнова. Я использую функцию ks.test()
из пакета stats
.
Как мы внедрили BI-платформу и начали развивать self-service аналитику
Всем привет! Меня зовут Дима. Я BI Engineering Manager в inDriver. В компанию я пришел в марте 2020 года развивать направление Business Intelligence. О том, как это происходило и происходит сейчас, с какими вызовами приходится сталкиваться и какие у нас планы на будущее по этому направлению, читайте далее в этой статье.
Анализируем данные с помощью визуализации: рисуем поверх Google Maps
Привет, я Катя, системный аналитик в Ozon. Одна из первых задач, которую мне поручили здесь — проверить качество географических данных. Формально эта задача больше относится к анализу данных, чем к системному анализу. Но меня она очень заинтересовала, ведь требовался не только анализ, но и исследование и, по возможности, реализация решения, а для меня это самое интересное в работе.
Впереди меня ждала RnD-задача с исследованием картографических форматов, рисованием поверх Google Maps и реализацией скрипта на Python. Как я боролась с визуализацией картографических данных, расскажу в этой статье.
Как подружить ClickHouse и Power Bi
Однажды на работе мне потребовалось построить дашборд в Power BI, но данные хранились в ClickHouse. В Power BI есть много различных конекторов, но специального для ClickHouse нет. В этой статье мы разберемся с данной проблемой!
Вклад авторов
-
VaskivskyiYe 503.0 -
DmitrySpb79 469.0 -
varagian 429.0 -
OsipovRoman 414.4 -
ilusha_sergeevich 407.0 -
KoGor 383.0 -
marks 375.0 -
infotanka 350.0 -
sqshq 296.0 -
0serg 263.0