Однажды на работе мне потребовалось построить дашборд в Power BI, но данные хранились в ClickHouse. В Power BI есть много различных конекторов, но специального для ClickHouse нет. В этой статье мы разберемся с данной проблемой!
Визуализация данных
Облекаем данные в красивую оболочку
- Новые
- Лучшие
- Все
- ≥0
- ≥10
- ≥25
- ≥50
- ≥100
Новости
Аналитики данных в Авито: ожидания и спектр задач
Привет, я Дина Симкина, директор по аналитике Авито. Я отвечаю за то, чтобы аналитика помогала бизнесу принимать правильные решения. В статье я расскажу, кого мы в компании называем аналитиками данных и чего от них ждём в зависимости от профессионального уровня.
Домик в деревне, потоп, и цифровые модели рельефа
Сбылась мечта вашего детства—вы присмотрели себе домик в деревне! Домик в отличном состоянии, из окна прекрасный вид, под самым окном тихо журчит речка Переплюйка, жизнь прекрасна! Вы совсем было собрались его купить, но вдруг достали телефон и зачем-то решили почитать новости. А там—изменения климата, очередное наводнение неважно где, с разрушениями и жертвами. И вдруг вы с беспокойством смотрите на речку Переплюйку прямо перед вами, и думаете, а не превратится ли она в случае чего в бурный поток, смывающий всё нажитое непосильным трудом? Давайте посмотрим, чем технологии ГИС (геоинформационных систем) могут вам помочь, и почему свободный доступ граждан к географическим данным полезен для принятия решений.
В шоке от цен на авиабилеты по России: как летать дешевле
Вы продаете билетов на самолеты? - Нет, только показываю. - Красивое…
Люди делятся на два типа: одни летают за тысячу рублей из Питера во Владивосток, другие сутками скрупулезно высчитывают маршруты через Казахстан, отказываются от багажа, соглашаются на микро кресла и в итоге все равно получают космический ценник.
Почему так происходит, как формируются цены на авиабилеты и как в итоге покупать их дешевле - рассказываю под катом.
Как превратить книгу о Гарри Поттере в граф знаний
Обработка естественного языка — это не только нейронные сети, а данные — это не только строки, числа и перечисления. Область работы с данными простирается намного дальше. К старту флагманского курса по Data Science представляем вашему вниманию перевод из блога разработчиков графовой базы данных neo4j о том, как при помощи SpaCy и Selenium извлечь из книги граф взаимоотношений героев. Подробности и код, как всегда, под катом.
Как выглядит эффект бэггинга на смещение и дисперсию
Часто суть статей о бэггинге сводится к тому, что вы обучаете множество деревьев решений на различных частях данных и усредняете прогнозы, чтобы получить окончательный прогноз, который улучшается из-за того, что дисперсия случайного леса меньше дисперсии одного дерева решений. Тексты с таким заключением содержат отличные демонстрации, код и много других мыслей. Но криптоаналитику и дата-сайентисту, доктору Роберту Кюблеру, переводом статьи которого мы делимся сегодня, часто не хватает хороших выкладок о причине, почему бэггинг — хорошая идея, а ещё не хватает демонстраций уменьшения дисперсии на реальных данных. Восполняем этот пробел к старту нашего флагманского курса по Data Science.
Танцующие горы Ирана по данным спутниковой интерферометрии
Территория северо-западного Ирана на границе с Каспийским морем выделяется своей сейсмической необузданностью, как во времена молодости нашей планеты. В недрах этого района и сегодня продолжаются процессы нефтегазообразования, например, поблизости от вулкана Дамаванд, геологическую модель которого я показывал ранее. Недавно я занимался вопросом устойчивости плотины Ямчи в провинции Ардебиль и полученные результаты оказались настолько удивительными, что я хочу ими здесь поделиться. Пусть в предыдущих статьях я уже показывал, как растут горы, но чтобы горы еще и танцевали — это мало где удастся увидеть! Как обычно, все данные доступны в GitHub репозитории Yamchi Dam, Ardabil, North Iran.
Плотина выделена красным кольцом, далее от нее в направлении к правому верхнему краю картинки течет река, питающая город Ардебиль. Озеро и плотина растут вверх со коростью около 10 см в год, а сам город с такой же скоростью погружается вниз. Но самое интересное в том, как именно происходит это движение — хотя значение вертикального смещения за год велико, это лишь малая часть общей картины.
Построение RPA CoE и чем это поможет компании
Компании задумываются о внедрении RPA и зачастую видят данный продукт, только как возможность автоматизации отдельных, самых болезненных процессов в компании, однако современные поставщики RPA-платформ идут дальше и предлагают развить в компании собственную квалификацию RPA, для того чтобы в перспективе создать подразделение, которое самостоятельно сможет создавать процессы для автоматизации, определяя самые «болезненные места» бизнеса.
Это подразделение для плавного и системного внедрения новой технологии называется Center of Excellence. Про него - далее.
Как в Trello оценить процессные задачи и построить их визуализацию?
Если вы задавались вопросом:
- "Как четко (или почти четко) измерить эффективность процессной работы программистов, маркетологов, аналитиков, дизайнеров и на основе этих измерений построить визуализацию?" - то эта статья будет вам интересна.
В решении задачи используем язык программирования R, графики на ggplot и Trello как инструмент таск-менеджмента в том виде в котором ранее скорее всего вы его не использовали.
Tableau: визуализация данных для каждого
Всем привет. На связи BI Office в Luxoft и я — Ксения Агеева, причастная к анализу и визуализации данных на протяжении последних семи лет. Меня часто спрашивают, зачем в моей жизни есть Tableau, если весь мир всё равно любит эксельные таблички. Так что я решила показать, как без специального обучения можно получить профит от одного из самых популярных BI-инструментов — Tableau.
История получилась довольно длинной, так что продолжение ищите под катом.
Как мыслит GPT? Визуализируем скрытые слои
В стремлении прояснить языковые модели Transformer с помощью пакета Ecco авторы показывают механизм генерации предложений внутри предварительно обученной языковой модели. После генерации предложения возможно визуализировать представление о том, как модель пришла к каждому слову — речь идёт о столбце на рисунке выше. Строки — это слои модели. Чем темнее элемент строки, тем выше ранг токена в слое. Слой 0 расположен на самом верху. Слой 47 — в самом низу. К старту курса о машинном и глубоком обучении показываем и рассказываем о том, как мыслит GPT.
Streamlit. Поиск кратчайшего пути
Самое длинное приключение начинается со слов «Я знаю короткую дорогу».
Промышленная автоматизация — беремся за проектирование
С чего начинается проект автоматизации и системы управления?Автоматизация промышленных объектов, как мы уже знаем, проходит через несколько стадий. В этот раз мы затронем проектирование и типовые примеры подбора используемых элементов с последующим их включением в проектную документацию. В комментариях к предыдущей статье, где я пытался в общих чертах объяснить принцип подготовки к тендерам, советовали начать с изучения ГОСТов. Ну что же. Мы с коллегами, ради интереса, нашли несколько интересных ссылок, чтобы ознакомиться с содержанием этих стандартов. К сожалению, это совсем не применимо на территории ЕС, где мы пользуемся местными нормативными актами и стандартами. Об этом речь пойдёт ниже, в частности об известном сертификате «СЕ» — почему и зачем он нужен.
NFStats — анализ netflow данных для ISP «на коленке»
Приветствую! Продолжая рубрику "на коленке" (написал два года назад одну статью и уже рубрика), наконец у меня появилось время поделиться и рассказать еще об одном проекте (а заодно и привести его в порядок), который используется у нас на сети небольшого транзитного провайдера для сбора и анализа статистики сетевого трафика .
Это web-приложение позволяет просматривать статистику в разрезе BGP автономных систем, IP-адресов, интерфейсов, что полезно при балансировке трафика и общего понимания какой трафик проходит через/в/из вашу/ей AS. Удобное подспорье для небольших ISP.
Новая функция Notion и 3 применения
Всем привет. Меня зовут Божок Анна. Я фанатка Notion и это моя первая статья.
Хочу вам рассказать про новую функцию в программе. А именно сквозной или синхронизированный блок.
И так же поделюсь тремя вариантами его использования.
Построение графов с помощью библиотеки PyViz на основе текстового анализа ESG стратегий отдельных компаний
В настоящее время многие страны мира сконцентрировались на таком важном направлении как экологическое, социальное и корпоративное управление организациями (ESG). Под этим сложным понятием чаще всего подразумевают то, каким образом деятельность компаний влияет на решение экологических проблем окружающей среды, поведенческие настроения в обществе, а также насколько эффективно ведется управление. Проведем анализ нескольких российских компаний и выясним, как применяются принципы ESG. Для этого нам потребуются: данные новостных источников по выбранной тематике, инструменты для построения графов и текстового анализа.
Анализ огромного потока неструктурированной текстовой информации является одним из постоянных действий любого человека. Для того, чтобы провести быстрый обзор ключевых моментов существуют современные технологичные инструменты, такие как графы знаний или knowledge graph. Графы знаний используются для наглядного представления взаимосвязей между людьми, событиями, предметами и т.д.
Данные для обработки были предварительно собраны из новостных источников с веб-сайтов организаций, а также дополнительно проведены простые манипуляции:
· местоимения заменены на наименования компаний;
· предложения разделены в список.
Чтобы построить knowledge graph необходимо в предложении определить несколько основных сущностей, а именно: субъекта, объекта и отношения между ними. В качестве субъектов и объектов чаще всего выступают следующие части речи: простые или составные имена существительные, а также связанные с ними прилагательные в отдельных случаях. Функцию построения отношений между частями речи в русском языке могут выполнять как глаголы, так и существительные. Подготовленный набор данных выглядит следующим образом:
Методы укладки Gephi. Force Atlas и Force Atlas 2
Прежде чем определиться с выбором раскладки вашего графа, нужно понять какие цели вы преследуете, когда строите его и что именно вы хотите проанализировать и показать.
Впечатление, которое производит ваш граф, может значительно отличаться в зависимости от выбранного алгоритма. Вы должны понимать, что окончательный выбор может стать очевидным только после экспериментов и визуальной оценки. Он должен соответствовать как вашим данным, так и цели построения графа. Здесь нет абсолютно правильных или неправильных ответов: часть решения будет принята субъективно, исходя из вашего собственного визуального суждения.
Рассмотрите свои варианты с точки зрения целостности. Конечная цель создать граф, который не только понятен, но и позволяет рассказать убедительную историю. Если при достижении этих целей макет выглядит впечатляюще, даже лучше! Однако любое прочтение литературы и поиск в интернете быстро покажет, что многие графы выглядят впечатляюще, но не передают смысла данных, и они настолько плотны, что их невозможно прочитать. Не становитесь жертвой создания, чего-то впечатляющего, ради красивой картинки - всегда помните, что вы используете средство просмотра графов, и делаете все возможное, чтобы показать данные чётко. Теперь, когда мы определили приоритеты, мы можем перейти к рассмотрению различных компоновок Gephi.
Для демонстрации настроек раскладок будем использовать данные о переводах пользователей трёх различных банков.
Диаграмма Сэнкей (Sankey diagram) на Python
В этой статье рассмотрим, как пошагово создать диаграмму Сэнкей - от загрузки и генерирования необходимых данных до сохранения полученной диаграммы. Используемые инструменты - python, pandas и plotly.
Анонсируем версию Datalore Enterprise для команд Data Science
Привет, Хабр!
Jupyter-ноутбуки хоть и вызывают споры, однако все равно являются самым часто используемым инструментом для решения задач Data Science. Ноутбуки просты в личном использовании. Но если вы когда-либо пробовали организовать командную работу с ними, то наверняка сталкивались со сложностями. Именно поэтому мы в JetBrains решили выпустить специальную версию Datalore Enterprise для команд Data Science!
ZEN’изация по полной, выбираем правильную память для EPYC процессоров
Вклад авторов
VaskivskyiYe 503.0DmitrySpb79 469.0varagian 429.0OsipovRoman 414.4ilusha_sergeevich 407.0KoGor 383.0infotanka 350.0sqshq 296.00serg 263.0VladFX 246.0