Big Data *

Большие данные и всё о них

Кто такой Analytics Engineer – E2E-решение с использованием bash + dbt + Looker

Блог компании OTUS Big Data *Data Engineering *

Привет! Меня зовут Артемий Козырь, и я Analytics Engineer в Wheely.

Мы могли бы долго и нудно обсуждать, кто такой Analytics (Data / Backend) Engineer, какими инструментами он должен владеть, какие buzzwords в тренде и ценятся в CV, однако, на мой взгляд, гораздо интереснее рассмотреть процесс и результаты его деятельности в рамках конкретной прикладной задачи.

В этой публикации:

767

digitalsibur 12 мая в 11:04

Как мы в СИБУРе делаем дашборды для людей. Часть 1: закупки и производство

Блог компании Цифровой СИБУР Интерфейсы *Big Data *Визуализация данных Статистика в IT

На наших предприятиях множество данных — от постоянно обновляющихся цен и технологических условий до логистических отчетов, графиков доставки и многое, много другое. Не говоря уже о чисто внутренней информации.

При должной сноровке все эти данные можно использовать с пользой, а не просто собирать где-то ради пары годовых отчётов. Но тут есть проблема.

Данные разные, как и их источники. Где-то речь идет об огромных монструозных таблицах в Excel с кучей переменных и подвязок, где-то используются внутренние CRM, в общем, тут кто во что горазд и кому где удобнее работать. То есть информация вроде есть, ее много, на ее основе можно делать выводы и принимать решения, но вот наглядности — никакой.

И тут мы переходим к решению, так что самое время представиться. Меня зовут Марина Коробейникова, я отвечаю за дашборды в закупках и производстве СИБУРа. Именно дашборды помогают нам вырваться из описанного выше порочного круга, предоставляя возможность просто посмотреть на экран и понять, что вообще сейчас происходит. Ну то есть, в компании.

В СИБУРе дашборды применяются для самых разных департаментов – логистики, продаж, закупок, маркетинга, топ-менеджмента, и тд. И о каждом из этих направлений мы расскажем подробнее.

Но начнём, пожалуй, с закупок и производства.

2.3K

mnrozhkov 9 мая в 19:38

Проведение совместных экспериментов c DVC

Open source *Big Data *Машинное обучение *Data Engineering *

Перевод

Вы можете использовать удаленные хранилища DVC для совместного использования экспериментов и их данных через машины.

601

vladimir1211 8 мая в 20:30

Настройка в OpenSearch аутентификации и авторизации пользователей через Active Directory по протоколу LDAP

Системное администрирование *Big Data *DevOps *

В этой статье я расскажу о том, как я настраивал аутентификацию и авторизацию доменных пользователей Active Directory в OpenSearch. В домене я не обладаю правами администратора домена и не могу влиять на структуру каталогов Active Directory. А сценарий настройки Active Directory в OpenSearch, предлагаемый на официальном сайте, применить к домену с разветвленной структурой каталогов оказалось не так просто, как хотелось бы.

Читать дальше →

1.9K

EvgenyVilkov 6 мая в 17:18

Использование Kudu для решения задач в реальном времени в окружении Hadoop

Блог компании GlowByte Big Data *Хранилища данных *Hadoop *

В предыдущей статье я поделился нашим опытом создания аналитического хранилища полного цикла на базе экосистемы Hadoop. Одним из тезисов той статьи стало утверждение о том, что аналитическую систему можно спроектировать, не прибегая к федерализации разных технологических платформ, предназначенных для решения локальных задач.

В этом материале я попробую подробнее раскрыть, как в нашей системе реализован подход обработки и загрузки данных в реальном времени с использованием технологии Kudu, при котором эти данные сразу доступны для анализа.

645

VTB 6 мая в 11:00

Конференция Data Fusion: большие спецы по большим данным

Блог компании ВТБ Big Data *Data Engineering *

В 2022 году «бигдатой» никого не удивишь. Эта область компьютерных наук из инновационной и хайповой стала необходимой и привычной. Однако внутри она по-прежнему бурно развивается. Один из восходящих трендов — синергия данных. Объединяя и совместно анализируя данные из разных отраслей, можно сделать много интересного.

Этому подходу, а также более общим вопросам Big Data и Machine Learning была посвящена конференция Data Fusion, прошедшая 14–15 апреля в онлайн-формате. На ней был затронут широкий спектр тем, от маркетинга до свободы воли. Пересказывать конференцию целиком — труд огромный и напрасный. Поэтому под катом поговорим об отдельных интересных докладах, а с остальной программой вы можете ознакомиться самостоятельно.

774

He6puToCTb 5 мая в 09:14

«Божественная комедия», или Девять кругов прогнозирования промоспроса в «Магните»

Блог компании Магнит Алгоритмы *Big Data *Data Engineering *

Привет, Хабр! На связи команда направления прогнозирования промо в «Магните». В предыдущей статье «Магнитная аномалия: как предсказать продажи промо в ритейле» мы дали читателю общее представление о том, чем занимается наша команда. Теперь поговорим о конкретных сложностях и методах их решения, с которыми нам приходится сталкиваться в работе.

Чтобы лучше разобраться во внутренней кухне, предлагаем читателю вместе прогуляться по нашим «девяти кругам прогнозирования промо спроса».

2.8K

Olga_Mokshina 4 мая в 11:44

Data-Science-процессы: Jupyter Notebook для продакшена

Блог компании VK Big Data *

Перевод

Jovian Blues by ShootingStarLogBook

Рефакторинг написанного в Notebook кода для запуска в продакшене — трудная и ресурсоемкая задача. Команда VK Cloud Solutions перевела материал о том, как с помощью MLOps-инструментов и приемов сократить время от исследования до запуска решения. Описанное в статье — результат структурированного опыта дата-сайентистов и ML-разработчиков из сотен компаний.

Читать дальше →

3.3K

wildraid 1 мая в 17:14

Любопытные и неочевидные особенности при работе со Snowflake

SQL *Администрирование баз данных *Big Data *Data Engineering *

Без долгих вступлений, сразу к делу.

Знаете ли вы, что в Snowflake можно создавать объекты с пустыми именами? Например: CREATE DATABASE ""; CREATE SCHEMA ""."";

Это работает на момент публикации и потенциально создаёт массу проблем для внешних систем, которые не ожидают такого поворота. Также это обычно приводит в восторг админов DWH.

Более интересные и практичные советы под катом.

+18

1.9K

Artissimo 30 апреля в 20:10

Квантовый хэдж фонд: что интересного для IT специалиста?

Python *Java *C++ *Big Data *Data Engineering *

Всем привет! Это моя первая статья на Хабр. Меня зовут Артем Сосульников и я директор по разработке ПО в Luxoft. В IT больше 15 лет: начинал как Java разработчик, прошел долгий путь от тим лида и руководителя проектов до директора по разработке ПО с сотней людей в подчинении. В связи с последними событиями в ближайшее время собираюсь с семьей переезжать на остров Пенанг в Малайзию и присоединиться к Люксофт.Малайзия. Там продолжу развитие своих проектов в квантовых хэдж фондах, куда мы теперь нанимаем людей в Сербии, Мексике и Малайзии. Буду писать статьи про жизнь в Малайзии и про работу в Люксофт.

-7

2.4K

habrahuser 28 апреля в 17:11

Data Science и математика: самые важные разделы науки в освоении профессии

Блог компании Skillbox Big Data *Математика *Машинное обучение *Учебный процесс в IT

Data Science — быстро развивающееся направление, без которого сейчас невозможно обойтись ни в одной отрасли бизнеса или науки. Сырые и неструктурированные данные — кладезь информации. Но для того чтобы ее получить в нужном виде, требуется приложить немало усилий. А объемы таких сырых данных зашкаливают — каждый день, по статистике, человечество генерирует около 2,5 квинтиллиона байт.

Для обработки всего этого необходимы специалисты — чем больше, тем лучше. Основной инструмент в их руках — математика. Сегодня обсудим, какие разделы науки наиболее востребованы в профессии. Об этом мы поговорили с Кириллом Шмидтом, Product analyst Team Lead в корпорации Citrix (США) и автором профессии Data Analyst в Skillbox. Сразу стоит сказать, что статья рассчитана на новичков. Что же, приступим.

4.7K

Olga_Mokshina 28 апреля в 12:25

Настоящее и будущее дата-инжиниринга

Блог компании VK Big Data *Хранилища данных *

Перевод

Future Indefinite — Oculus (Cover art) by Rowye

Несколько лет назад дата-сайентистов часто называли «единорогами». Все искали гениального full-stack-инженера-математика, способного вникнуть во все бизнес-проблемы.

В последние два года мы пережили хайп по поводу AI/ML и стали свидетелями быстрого подъема профессии «дата-инженер». По данным отчета Dice о технических специальностях, в 2020 году потребность в дата-инженерах резко возросла ни много ни мало на 50 % — эта специальность быстро развивается.

Команда разработки облачной платформы VK Cloud Solution перевела статью о том, чего ждут от дата-инженеров сейчас и каким станет дата-инжиниринг в будущем.

Читать дальше →

3.2K

Txanxs 27 апреля в 17:54

Оперативная аналитика данных. Knime & MongoDB

Блог компании Специальный Технологический Центр Data Mining *Big Data *Визуализация данных

Tutorial

В предыдущей статье я вкратце упомянул, что Knime умеет работать с базами данных, в том числе с NoSQL базой MongoDB. На мой взгляд, MongoDB является довольно простым и эффективным решением для хранения информации, представленной в виде коллекций документов, состоящих из различных наборов полей и, по сути, являющихся обычными JSON файлами. Мне показалась интересным попробовать связку Knime - MongoDB в действии. Именно этой связке и посвящена данная статья.

973

kucev 27 апреля в 11:33

Если вы устраняете систематическую ошибку модели, то уже слишком поздно

Data Mining *Big Data *Машинное обучение *Искусственный интеллект Natural Language Processing *

Перевод

Введение

Машинное обучение — это технологический прорыв, случающийся раз в поколение. Однако с ростом его популярности основной проблемой становятся систематические ошибки алгоритма. Если модели ML не обучаются на репрезентативных данных, у них могут развиться серьёзные систематические ошибки, оказывающие существенный вред недостаточно представленным группам и приводящие к созданию неэффективных продуктов. Мы изучили массив данных CoNLL-2003, являющийся стандартом для создания алгоритмов распознавания именованных сущностей в тексте, и выяснили, что в данных присутствует серьёзный перекос в сторону мужских имён. При помощи наших технологии мы смогли компенсировать эту систематическую ошибку:

Мы обогатили данные, чтобы выявить сокрытые систематические ошибки
Дополнили массив данных недостаточно представленными примерами, чтобы компенсировать гендерный перекос

Модель, обученная на нашем расширенном массиве данных CoNLL-2003, характеризуется снижением систематической ошибки и повышенной точностью, и это показывает, что систематическую ошибку можно устранить без каких-либо изменений в модели. Мы выложили в open source наши аннотации Named Entity Recognition для исходного массива данных CoNLL-2003, а также его улучшенную версию, скачать их можно здесь.

Читать дальше →

4.9K

Efaldgent 26 апреля в 14:00

Причинно-следственный анализ в машинном обучении

Блог компании Open Data Science Data Mining *Big Data *Машинное обучение *

Что появилось первым: курица или яйцо?
Статистики давно уже нашли ответ на этот вопрос.
Причем несколько раз.
И каждый раз ответ был разным.

А если серьезно, то для машинного обучения становятся все более актуальными вопросы причинно-следственного анализа (causal inference) - когда главной целью моделирования является не прогноз и его качество, а то, как мы можем принимать решения на основе нашего алгоритма. И как это повлияет на мир, в котором эта модель будет действовать. Сделает ли модель его лучше, чем он был? Или наоборот.

Под катом я расскажу о причинно-следственном анализе, его ключевых методах и применении в машинном обучении. В следующей статье побеседуем о ключевых трендах в развитии методов причинно-следственного анализа в машинном обучении в 2020-2021 гг.

+23

5.6K

AlsuIovkova 26 апреля в 10:01

CleverDATA Tag Manager – есть ли жизнь без Google?

Блог компании ГК ЛАНИТ Big Data *Веб-аналитика *Интернет-маркетинг

Российский рекламно-аналитический рынок меняется с невероятной скоростью, и эти изменения довольно серьезные. На них нужно как-то реагировать и крупным компаниям-производителям товаров и услуг, и рекламным агентствам. Привычные инструменты аналитики перестают быть доступными. Существует ли альтернатива, например, для сбора событий в условиях недоступности сервисов Google? Рассказываем про нашу разработку CleverDATA Tag Manager, которая является частью CDP CleverDATA.

+28

1.5K

StepKsu 26 апреля в 09:00

Успешное изобретение для Умного поиска hh.ru

Блог компании HeadHunter Поисковые технологии *Big Data *

Мы запатентовали собственную разработку для «Умного поиска» и вошли в число финалистов конкурса Роспатента «Успешный патент» где выявляют самые классные изобретения по итогам 2020-2021 годов. В конкурсе приняли участвовали еще 128 российских правообладателей.

2.1K

vladimir1211 23 апреля в 11:43

Установка, настройка и эксплуатация стэка OpenSearch в классической среде

Системное администрирование *Big Data *DevOps *

Передо мной встала задача сбора логов с парка серверов на ОС Windows и ОС Linux. Для того чтобы решить её я воспользовался стэком OpenSearch. Во время настройки OpenSearch мне не хватало в открытых источниках наглядных примеров, а информация на официальных сайтах ElasticSearch и OpenSearch мне показалась обрывочной, слабо привязанной к реальным ситуациям. Поэтому я решил поделиться своим опытом и описать основные моменты установки и некоторые сценарии настройки и применения стэка OpenSearch, которые я применил в своей практике.

Читать дальше →

+15

5.3K

mnrozhkov 23 апреля в 08:48

Почему инструменты MLOps должны быть с открытым исходным кодом?

Open source *Big Data *Машинное обучение *Data Engineering *

Перевод

Перевод статьи подготовлен совместно с Моргуновой Анной, за что ей огромное спасибо 👋 Другие материалы ML REPA и ссылки на видео митапов и конференций можно найти в открытой странице в Notion.

Обзор

💡 Вы узнаете, что такое MLOps, зачем вам нужны MLOps для ваших проектов машинного обучения, почему MLOps должен быть open source и примеры существующих инструментов MLOps.

Автор: Yuqi Li

Оригинал: Why MLOps tools should be Open Source

1.1K

severstal 22 апреля в 18:25

Цифровая металлургия: результаты хакатона от «Северстали»

Блог компании Северсталь Python *Big Data *Хакатоны

С 22 февраля по 20 марта «Северсталь» при поддержке Russian Hackers провела онлайн-хакатон для аналитиков и разработчиков в сфере поиска и анализа данных с общим призовым фондом 700 000 рублей . Все предложенные нами задачи имели отношение к бизнес-задачам в металлургическом производстве. Хакатон прошел отлично и даже превысил ожидания. Самое время подвести итоги.

And the Oscar goes to....