Как стать автором
Обновить
52.9
Рейтинг

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга

Кто такой Analytics Engineer – E2E-решение с использованием bash + dbt + Looker

Блог компании OTUS Big Data *Data Engineering *

Привет! Меня зовут Артемий Козырь, и я Analytics Engineer в Wheely.

Мы могли бы долго и нудно обсуждать, кто такой Analytics (Data / Backend) Engineer, какими инструментами он должен владеть, какие buzzwords в тренде и ценятся в CV, однако, на мой взгляд, гораздо интереснее рассмотреть процесс и результаты его деятельности в рамках конкретной прикладной задачи.

В этой публикации:

Читать далее
Всего голосов 9: ↑8 и ↓1 +7
Просмотры 767
Комментарии 1

Новости

Как мы в СИБУРе делаем дашборды для людей. Часть 1: закупки и производство

Блог компании Цифровой СИБУР Интерфейсы *Big Data *Визуализация данных Статистика в IT

На наших предприятиях множество данных — от постоянно обновляющихся цен и технологических условий до логистических отчетов, графиков доставки и многое, много другое. Не говоря уже о чисто внутренней информации.

При должной сноровке все эти данные можно использовать с пользой, а не просто собирать где-то ради пары годовых отчётов. Но тут есть проблема.

Данные разные, как и их источники. Где-то речь идет об огромных монструозных таблицах в Excel с кучей переменных и подвязок, где-то используются внутренние CRM, в общем, тут кто во что горазд и кому где удобнее работать. То есть информация вроде есть, ее много, на ее основе можно делать выводы и принимать решения, но вот наглядности — никакой.

И тут мы переходим к решению, так что самое время представиться. Меня зовут Марина Коробейникова, я отвечаю за дашборды в закупках и производстве СИБУРа. Именно дашборды помогают нам вырваться из описанного выше порочного круга, предоставляя возможность просто посмотреть на экран и понять, что вообще сейчас происходит. Ну то есть, в компании.

В СИБУРе дашборды применяются для самых разных департаментов – логистики, продаж, закупок, маркетинга, топ-менеджмента, и тд. И о каждом из этих направлений мы расскажем подробнее.

Но начнём, пожалуй, с закупок и производства.

Читать далее
Всего голосов 10: ↑9 и ↓1 +8
Просмотры 2.3K
Комментарии 1

Проведение совместных экспериментов c DVC

Open source *Big Data *Машинное обучение *Data Engineering *
Перевод

Вы можете использовать удаленные хранилища DVC для совместного использования экспериментов и их данных через машины.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 601
Комментарии 0

Настройка в OpenSearch аутентификации и авторизации пользователей через Active Directory по протоколу LDAP

Системное администрирование *Big Data *DevOps *
image

В этой статье я расскажу о том, как я настраивал аутентификацию и авторизацию доменных пользователей Active Directory в OpenSearch. В домене я не обладаю правами администратора домена и не могу влиять на структуру каталогов Active Directory. А сценарий настройки Active Directory в OpenSearch, предлагаемый на официальном сайте, применить к домену с разветвленной структурой каталогов оказалось не так просто, как хотелось бы.
Читать дальше →
Всего голосов 5: ↑3 и ↓2 +1
Просмотры 1.9K
Комментарии 5

Использование Kudu для решения задач в реальном времени в окружении Hadoop

Блог компании GlowByte Big Data *Хранилища данных *Hadoop *

В предыдущей статье я поделился нашим опытом создания аналитического хранилища полного цикла на базе экосистемы Hadoop. Одним из тезисов той статьи стало утверждение о том, что аналитическую систему можно спроектировать, не прибегая к федерализации разных технологических платформ, предназначенных для решения локальных задач.

В этом материале я попробую подробнее раскрыть, как в нашей системе реализован подход обработки и загрузки данных в реальном времени с использованием технологии Kudu, при котором эти данные сразу доступны для анализа.

Читать далее
Всего голосов 3: ↑2 и ↓1 +1
Просмотры 645
Комментарии 0

Конференция Data Fusion: большие спецы по большим данным

Блог компании ВТБ Big Data *Data Engineering *

В 2022 году «бигдатой» никого не удивишь. Эта область компьютерных наук из инновационной и хайповой стала необходимой и привычной. Однако внутри она по-прежнему бурно развивается. Один из восходящих трендов — синергия данных. Объединяя и совместно анализируя данные из разных отраслей, можно сделать много интересного.

Этому подходу, а также более общим вопросам Big Data и Machine Learning была посвящена конференция Data Fusion, прошедшая 14–15 апреля в онлайн-формате. На ней был затронут широкий спектр тем, от маркетинга до свободы воли. Пересказывать конференцию целиком — труд огромный и напрасный. Поэтому под катом поговорим об отдельных интересных докладах, а с остальной программой вы можете ознакомиться самостоятельно.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Просмотры 774
Комментарии 0

«Божественная комедия», или Девять кругов прогнозирования промоспроса в «Магните»

Блог компании Магнит Алгоритмы *Big Data *Data Engineering *

Привет, Хабр! На связи команда направления прогнозирования промо в «Магните». В предыдущей статье «Магнитная аномалия: как предсказать продажи промо в ритейле» мы дали читателю общее представление о том, чем занимается наша команда. Теперь поговорим о конкретных сложностях и методах их решения, с которыми нам приходится сталкиваться в работе.

Чтобы лучше разобраться во внутренней кухне, предлагаем читателю вместе прогуляться по нашим «девяти кругам прогнозирования промо спроса».

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 2.8K
Комментарии 2

Data-Science-процессы: Jupyter Notebook для продакшена

Блог компании VK Big Data *
Перевод

Jovian Blues by ShootingStarLogBook

Рефакторинг написанного в Notebook кода для запуска в продакшене — трудная и ресурсоемкая задача. Команда VK Cloud Solutions перевела материал о том, как с помощью MLOps-инструментов и приемов сократить время от исследования до запуска решения. Описанное в статье — результат структурированного опыта дата-сайентистов и ML-разработчиков из сотен компаний.
Читать дальше →
Всего голосов 4: ↑3 и ↓1 +2
Просмотры 3.3K
Комментарии 1

Любопытные и неочевидные особенности при работе со Snowflake

SQL *Администрирование баз данных *Big Data *Data Engineering *

Без долгих вступлений, сразу к делу.

Знаете ли вы, что в Snowflake можно создавать объекты с пустыми именами? Например: CREATE DATABASE ""; CREATE SCHEMA ""."";

Это работает на момент публикации и потенциально создаёт массу проблем для внешних систем, которые не ожидают такого поворота. Также это обычно приводит в восторг админов DWH.

Более интересные и практичные советы под катом.

Читать далее
Всего голосов 18: ↑18 и ↓0 +18
Просмотры 1.9K
Комментарии 9

Квантовый хэдж фонд: что интересного для IT специалиста?

Python *Java *C++ *Big Data *Data Engineering *

Всем привет! Это моя первая статья на Хабр. Меня зовут Артем Сосульников и я директор по разработке ПО в Luxoft. В IT больше 15 лет: начинал как Java разработчик, прошел долгий путь от тим лида и руководителя проектов до директора по разработке ПО с сотней людей в подчинении. В связи с последними событиями в ближайшее время собираюсь с семьей переезжать на остров Пенанг в Малайзию и присоединиться к Люксофт.Малайзия. Там продолжу развитие своих проектов в квантовых хэдж фондах, куда мы теперь нанимаем людей в Сербии, Мексике и Малайзии. Буду писать статьи про жизнь в Малайзии и про работу в Люксофт.

Читать далее
Всего голосов 13: ↑3 и ↓10 -7
Просмотры 2.4K
Комментарии 13

Data Science и математика: самые важные разделы науки в освоении профессии

Блог компании Skillbox Big Data *Математика *Машинное обучение *Учебный процесс в IT

Data Science — быстро развивающееся направление, без которого сейчас невозможно обойтись ни в одной отрасли бизнеса или науки. Сырые и неструктурированные данные — кладезь информации. Но для того чтобы ее получить в нужном виде, требуется приложить немало усилий. А объемы таких сырых данных зашкаливают — каждый день, по статистике, человечество генерирует около 2,5 квинтиллиона байт.

Для обработки всего этого необходимы специалисты — чем больше, тем лучше. Основной инструмент в их руках — математика. Сегодня обсудим, какие разделы науки наиболее востребованы в профессии. Об этом мы поговорили с Кириллом Шмидтом, Product analyst Team Lead в корпорации Citrix (США) и автором профессии Data Analyst в Skillbox. Сразу стоит сказать, что статья рассчитана на новичков. Что же, приступим. 

Читать далее
Всего голосов 10: ↑7 и ↓3 +4
Просмотры 4.7K
Комментарии 3

Настоящее и будущее дата-инжиниринга

Блог компании VK Big Data *Хранилища данных *
Перевод

Future Indefinite — Oculus (Cover art) by Rowye

Несколько лет назад дата-сайентистов часто называли «единорогами». Все искали гениального full-stack-инженера-математика, способного вникнуть во все бизнес-проблемы. 

В последние два года мы пережили хайп по поводу AI/ML и стали свидетелями быстрого подъема профессии «дата-инженер». По данным отчета Dice о технических специальностях, в 2020 году потребность в дата-инженерах резко возросла ни много ни мало на 50 % — эта специальность быстро развивается.

Команда разработки облачной платформы VK Cloud Solution перевела статью о том, чего ждут от дата-инженеров сейчас и каким станет дата-инжиниринг в будущем.
Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 3.2K
Комментарии 1

Оперативная аналитика данных. Knime & MongoDB

Блог компании Специальный Технологический Центр Data Mining *Big Data *Визуализация данных
Tutorial

В предыдущей статье я вкратце упомянул, что Knime умеет работать с базами данных, в том числе с NoSQL базой MongoDB. На мой взгляд, MongoDB является довольно простым и эффективным решением для хранения информации, представленной в виде коллекций документов, состоящих из различных наборов полей и, по сути, являющихся обычными JSON файлами. Мне показалась интересным попробовать связку Knime - MongoDB в действии. Именно этой связке и посвящена данная статья.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 973
Комментарии 0

Если вы устраняете систематическую ошибку модели, то уже слишком поздно

Data Mining *Big Data *Машинное обучение *Искусственный интеллект Natural Language Processing *
Перевод

Введение


Машинное обучение — это технологический прорыв, случающийся раз в поколение. Однако с ростом его популярности основной проблемой становятся систематические ошибки алгоритма. Если модели ML не обучаются на репрезентативных данных, у них могут развиться серьёзные систематические ошибки, оказывающие существенный вред недостаточно представленным группам и приводящие к созданию неэффективных продуктов. Мы изучили массив данных CoNLL-2003, являющийся стандартом для создания алгоритмов распознавания именованных сущностей в тексте, и выяснили, что в данных присутствует серьёзный перекос в сторону мужских имён. При помощи наших технологии мы смогли компенсировать эту систематическую ошибку:

  1. Мы обогатили данные, чтобы выявить сокрытые систематические ошибки
  2. Дополнили массив данных недостаточно представленными примерами, чтобы компенсировать гендерный перекос

Модель, обученная на нашем расширенном массиве данных CoNLL-2003, характеризуется снижением систематической ошибки и повышенной точностью, и это показывает, что систематическую ошибку можно устранить без каких-либо изменений в модели. Мы выложили в open source наши аннотации Named Entity Recognition для исходного массива данных CoNLL-2003, а также его улучшенную версию, скачать их можно здесь.
Читать дальше →
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 4.9K
Комментарии 3

Причинно-следственный анализ в машинном обучении

Блог компании Open Data Science Data Mining *Big Data *Машинное обучение *

Что появилось первым: курица или яйцо?
Статистики давно уже нашли ответ на этот вопрос.
Причем несколько раз.
И каждый раз ответ был разным.

А если серьезно, то для машинного обучения становятся все более актуальными вопросы причинно-следственного анализа (causal inference) - когда главной целью моделирования является не прогноз и его качество, а то, как мы можем принимать решения на основе нашего алгоритма. И как это повлияет на мир, в котором эта модель будет действовать. Сделает ли модель его лучше, чем он был? Или наоборот.

Под катом я расскажу о причинно-следственном анализе, его ключевых методах и применении в машинном обучении. В следующей статье побеседуем о ключевых трендах в развитии методов причинно-следственного анализа в машинном обучении в 2020-2021 гг.

Читать далее
Всего голосов 25: ↑24 и ↓1 +23
Просмотры 5.6K
Комментарии 0

CleverDATA Tag Manager – есть ли жизнь без Google?

Блог компании ГК ЛАНИТ Big Data *Веб-аналитика *Интернет-маркетинг

Российский рекламно-аналитический рынок меняется с невероятной скоростью, и эти изменения довольно серьезные. На них нужно как-то реагировать и крупным компаниям-производителям товаров и услуг, и рекламным агентствам. Привычные инструменты аналитики перестают быть доступными. Существует ли альтернатива, например, для сбора событий в условиях недоступности сервисов Google? Рассказываем про нашу разработку  CleverDATA Tag Manager, которая является частью CDP CleverDATA.

Читать далее
Всего голосов 30: ↑29 и ↓1 +28
Просмотры 1.5K
Комментарии 0

Успешное изобретение для Умного поиска hh.ru

Блог компании HeadHunter Поисковые технологии *Big Data *

Мы запатентовали собственную разработку для «Умного поиска» и вошли в число финалистов конкурса Роспатента «Успешный патент» где выявляют самые классные изобретения по итогам 2020-2021 годов. В конкурсе приняли участвовали еще 128 российских правообладателей.

Читать далее
Всего голосов 13: ↑8 и ↓5 +3
Просмотры 2.1K
Комментарии 19

Установка, настройка и эксплуатация стэка OpenSearch в классической среде

Системное администрирование *Big Data *DevOps *
image

Передо мной встала задача сбора логов с парка серверов на ОС Windows и ОС Linux. Для того чтобы решить её я воспользовался стэком OpenSearch. Во время настройки OpenSearch мне не хватало в открытых источниках наглядных примеров, а информация на официальных сайтах ElasticSearch и OpenSearch мне показалась обрывочной, слабо привязанной к реальным ситуациям. Поэтому я решил поделиться своим опытом и описать основные моменты установки и некоторые сценарии настройки и применения стэка OpenSearch, которые я применил в своей практике.
Читать дальше →
Всего голосов 17: ↑16 и ↓1 +15
Просмотры 5.3K
Комментарии 10

Почему инструменты MLOps должны быть с открытым исходным кодом?

Open source *Big Data *Машинное обучение *Data Engineering *
Перевод

Перевод статьи подготовлен совместно с Моргуновой Анной, за что ей огромное спасибо 👋 Другие материалы ML REPA и ссылки на видео митапов и конференций можно найти в открытой странице в Notion.

Обзор

💡 Вы узнаете, что такое MLOps, зачем вам нужны MLOps для ваших проектов машинного обучения, почему MLOps должен быть open source и примеры существующих инструментов MLOps.

Автор: Yuqi Li

Оригинал: Why MLOps tools should be Open Source

Читать далее
Всего голосов 7: ↑4 и ↓3 +1
Просмотры 1.1K
Комментарии 0

Цифровая металлургия: результаты хакатона от «Северстали»

Блог компании Северсталь Python *Big Data *Хакатоны

С 22 февраля по 20 марта «Северсталь» при поддержке Russian Hackers провела онлайн-хакатон для аналитиков и разработчиков в сфере поиска и анализа данных с общим призовым фондом 700 000 рублей . Все предложенные нами задачи имели отношение к бизнес-задачам в металлургическом производстве. Хакатон прошел отлично и даже превысил ожидания. Самое время подвести итоги.

And the Oscar goes to....
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 2.3K
Комментарии 2

Вклад авторов

Работа

Data Scientist
107 вакансий