14 июн в 16:24

Меч из озера: итоги сезона больших данных

9 мин

12K

Блог компании Газпромбанк Habr Big Data *

Спецпроект

…Из Data Lake вынырнула прекрасная дева и протянула Артуру меч, и на том мече рунической вязью было начертано «Big Data». «Пусть он служит тебе верой и правдой, пронзая тьму незнания и проливая свет на самые неочевидные закономерности», — торжественно произнесла Владычица Озера. Король Артур преклонил колени и принял меч из рук девы. Затем оседлал коня и направился в сторону ближайшего дата-центра.

Сезон больших данных на Хабре подошёл к концу. Сегодня мы поговорим о том, какими знаниями вооружили нас авторы сезона, раздадим ценные артефакты, а заодно — побеседуем о перспективах больших данных с авторами сезона и экспертами Газпромбанка.

О хабе

Хаб Big Data появился на Хабре в 2012 году. За этот немалый срок в нём опубликовали около 3300 статей. Вполне логично, что статьи этого хаба чаще всего также участвуют в хабах Машинное обучение, Data Mining и Data Engineering. Самые популярные посты набирают 300–490 тысяч просмотров. Впрочем, местные специалисты по Big Data наверняка и сами могли бы получить эту информацию за 10 минут в Excel, так что перейдём к самому интересному.

Итоги сезона

Под спойлером — таблица со всеми статьями сезона, упорядоченными по рейтингу (на 10 июня). Не смотрите, если хотите сохранить интригу.

Статья	Автор	Просмотры	Рейтинг (13.06.23)
Анализ таблиц сопряженности средствами Python. Часть 1. Визуализация	@ANazarov	5090	33
Байесовский подход к АБ тестированию	@Kris_stn	4284	32
Тварь дрожащая или право имею: как мы лепили виртуального юриста из русскоязычных нейросетей	@Alliesverse	4150	28
Как мы делали скоринг на микросервисной архитектуре руками не-программистов	@YastrebovKS	7444	20
Бигдата, ты ли это?	@softError	3186	17
Сравнение технологии JuniStat и лазерных систем для беговых тестов	@plopr	955	15
Big Data в облаках	@SnezhSh	1768	15
Масштабируемая Big Data система в Kubernetes с использованием Spark и Cassandra	@Dartya	1827	14
Как дать крылья своей сводной таблице в Apache Superset	@Chatt	2145	14
Как рассчитать скидку за первый и последний этаж почти без формул в Excel	@Robastik	3217	14
Сassandra для бедных — пускаем в ход HDD	@softError	4000	13
FineBI 6.0: 9 полезных обновлений, о которых вы не знали	@Gi_gi_gi_gi_gi	2101	13
Как Почта моделирует риски потери отправлений	@kmamonov	1777	12
Что такое Self-Service BI и зачем он нужен?	@esfedoseev	2501	12
Её величество Иерархия. Классификация и способы хранение в MS Excel	@Grigory_T	4179	11
Геопространственные технологии для управления паспортом медицинского участка	@cohr	1519	11
Применение методов CRISP-DM для анализа Big Sales Data	@roman_salesai	705	10
Все DETRы мира: denoising queries и positive anchors. Часть 2	@crazyfrogspb1	683	8
Кластеризация текста в PySpark	@NewTechAudit	2241	8
Расчет скидки за первый и последний этаж в Excel (Часть 2)	@Robastik	1533	7
Извлечение открытых данных сайта zakupki.gov.ru с помощью СУБД BaseX	@NewTechAudit	2389	7
Все DETRы мира: выкидываем и возвращаем энкоры. Часть 1	@crazyfrogspb1	1128	7
Кейс внедрение Dbt в «Детском мире»	@BioQwer	1054	6
MapReduce: как и зачем?	@Toor3-14	9412	6
Мигрируем с Qlik: как создать надежное хранилище для ваших данных	@dmntr	1873	6
Как мы организовали Data Warehouse в MANGO OFFICE	@MangoOffice	1359	6
Структурирование кредитного портфеля методами машинного обучения	@Elena24Kov	1275	5
Data-driven рост с помощью науки о данных и машинного обучения	@roman_salesai	1262	4
MLOps-платформа Dognauts для разработки и эксплуатации ML-моделей. Часть 1: предыстория создания	@neoflex	1155	4

Чем редакции Хабра запомнился этот сезон? В первую очередь — разноплановостью. У статей сезона не было какой-то одной главной темы, на которую пишут так много, что это уже приедается. Были посты о разнообразных аспектах Big Data: хранение данных, обработка, анализ, обзоры существующих инструментов для работы с данными, истории конкретных проектов, туториалы — в общем, на любой вкус и цвет.

Если судить по рейтингу постов, «одной большой темы» нет и для читателей. Высокий рейтинг набрали очень разные статьи: кейс разработки бота-юриста, обзор математических основ A/B-тестирования, туториал по разведочному анализу данных…

Что объединяет статьи наверху рейтинга, так это глубокое погружение в материал. Страшноватые формулы, километровые листинги, дотошное сравнение различных технологий и подходов. Всё то, что отталкивает казуального читателя, а истинного хабраюзера заставляет жмуриться от удовольствия и писать в комментах: «Хабр — торт».

Слово авторам

Объявление победителя — блюдо, которое подают холодным. Чтобы читатель успел нагулять аппетит, мы задали автором сезона несколько вопросов касательно «бигдаты».

В какой момент Data становится Big?

AlliesVerse

Платформа управления бизнесом

Термин Big Data так оброс дополнительными смыслами, что потерял изначальный.
Компании хотят большие данные, чтобы улучшать продукты, предсказывать поведение потребителей и находить бизнес-возможности. Но почему большие? Чем всех не устраивают маленькие?
«Бигдата» — не просто «биггер-зен-южал-дата». Это данные, которые невозможно обработать стандартными инструментами. Одно из первых определений Big Data предложила в 2001 году Gartner, оно звучало так: «Большие данные — это гиперсовокупность информации, которая создаётся в результате огромного объёма, скорости и разнообразия данных, требующих новых технологий для их обработки и сбора».
Окей, Гугл. За определение спасибо, но возможно ли уловить момент технологического перехода?
Да: надо всмотреться в 4 основных параметра:
1. объём данных;
2. скорость их сбора;
3. широта и разнообразие источников;
4. форматы данных и многоуровневость структуры.
Объём данных — «большие данные» связывают с огромными объёмами информации. Но что по числам? Сколько именно слайсов данных должно быть, чтобы можно было быть уверенными: данные стали взрослыми и теперь тратят на аптечку больше, чем на гардероб? Петабайты и экзабайты. Один петабайт — это миллион фотографий высокого разрешения.
Скорость сбора данных. Компании, которые собирают данные, быстро заполняют хранилища. Соцсети собирают с пользователей десятки и сотни терабайт, если бренд известен. Конкретных пограничных значений (терабайт/час), сигнализирующих о переходе данных во взрослую жизнь, пока никто не установил.
Широта и разнообразие источников данных — определяет, являются оперативные данные «большими» или нет. Если данные приходят из многих источников, то это может привести к тому, что информация становится слишком сложной для оценки и интерпретации. Например, если данные поступают от разных устройств IoT, то бизнес может вскоре не справиться с управлением всеми этими данными.
Форматы данных — ещё один аспект, который стоит учитывать. Данные от сенсоров IoT часто приходят в «сыром» двоичном формате. Анализ таких данных — задача не из простых, особенно учитывая, что они очень быстро наполняют хранилища. Но если из этих данных можно извлечь смысл (например, из показаний датчиков движения получить информацию о положении и перемещении), то бизнес может использовать их для прогнозирования поведения пользователя.
Не менее важна структура данных. В океане данных бизнесу нужно отлично ориентироваться для эффективного самоуправления: нужную информацию должно быть легко найти и сложно потерять. Для управления определёнными типами данных, такими как информация о продажах, обычно используются data warehouses. Они занимаются хранением, управлением и обработкой огромных объёмов данных и могут стать необходимыми при работе с большими данными.
В проверке на большие данные именно первый параметр (объём информации) считается «эталонным», именно он обычно стоит на высшей ступени пьедестала. Другие моменты, такие как скорость сбора и тому подобное, могут значительно варьироваться в зависимости от бизнес-задач.
Таким образом, данные становятся большими, когда их масштаб превышает возможности обработки стандартными инструментами. Чтобы определить это, стоит учитывать объём данных, скорость их сбора, широту и разнообразие источников, форматы данных и структуру. Когда все эти параметры одновременно превышают некоторый порог, компания может с чистой совестью использовать термин Big Data и начинать использовать «взрослые» инструменты для работы с ними.

Насколько изменилось представление о Big Data с момента появления термина?

@softError

автор статей «Бигдата, ты ли это?» и «Сassandra для бедных — пускаем в ход HDD»

Хороший вопрос. На мой взгляд, фундаментально представление о BigData не изменилось, изменилось лишь восприятие цифр: когда-то и 100 Гб казались огромным объёмом, а теперь ими никого не удивишь. Все же основные принципы работы с такими данными были описаны в работах 70–90-х — все подходы, использующиеся для их хранения и обработки, родом оттуда.

Что самое интересное произошло в отрасли за последний год?

Денис

aka @Robastik Парсинг веб

Очень большие языковые модели окончательно развеяли миф о «божественной природе» человеческой души.

Что самое сложное в работе с большими данными?

Кристина Лукьянова

бизнес-аналитик GlowByte aka @Kris_stn

Обеспечить скорость и предобработать — самое сложное. Большие данные — это большие шумы, большие пропуски и большой хаос.

@softError

автор статей «Бигдата, ты ли это?» и «Сassandra для бедных — пускаем в ход HDD»

С точки зрения и разработчика, и девопса самое сложное — это хранить столько данных, сколько реально нужно. Не всегда очевидно, какие данные реально нужны, а какие можно хранить не так долго — в такие обсуждения часто вовлечены многие отделы, и прийти к консенсусу не всегда возможно.

Как стать специалистом по Big Data — точка входа, дорожная карта и т. п.

NewTechAudit

Профессиональное сообщество

Выбирая путь специалиста по большим данным, стоит учесть особенности своего характера. Для работы требуются усидчивость и способность концентрироваться на задаче: например, предобработка данных занимает много времени. При этом часто нужно искать креативные решения. В будущем это поможет специалисту по Big Data не выгореть на своей непростой стезе.
Но одним характером не обойтись. Нужна математическая база: для понимания того, что происходит под капотом, нужно знать теорию вероятностей, математическую статистику, линал и пр.
Далее необходимо знание Python и SQL. При изучении Python нужно сконцентрироваться на получении опыта работы с библиотеками для анализа и визуализации данных.
Затем переходим к машинному обучению: нужно изучить основные алгоритмы и кейсы их использования, понять метрики.
И, наконец, можно приступить к deep learning: на этом этапе важно научиться предобрабатывать неструктурированные данные, понять принципы работы основных фреймворков и архитектур современных нейросетей.
Обучение никогда не заканчивается: следим за новостями мира AI (читаем статьи на arXiv, смотрим видео с международных конференций, публикации от ключевых людей отрасли) — и постоянно пробуем новые подходы.

Слово партнёру сезона

Мария Косарева

Вице-Президент, начальник Департамента анализа данных и моделирования в Газпромбанке

Сезон Big Data завершается, но работа с большими данными продолжается. Мы хотели бы поблагодарить участников: статьи оказались интересными и полезными. Авторы Хабра всегда отличались глобальным видением и вниманием к самым маленьким деталям — именно этот навык делает специалистов лучшими на рынке. Среди статей участников сезона нам показалась интересной тема про LawAI: автор и комментаторы поднимают один из важнейших вопросов о применении ИИ. Если человек, принимая решение, руководствуется не только фактами и знаниями, но и моралью, этикой, эмоциями, может ли и должен ли это учитывать ИИ? На этот вопрос сообществу ещё предстоит найти ответ. Другие важные вопросы, которые занимают сейчас умы разработчиков всего мира: на каких данных обучать модели, как заставить нейросеть говорить правду и перестать выдумывать «отсебятину».
Также среди наших фаворитов — статьи участников, посвящённые визуализации данных. Такой вопрос особенно остро стоит в больших компаниях: важна не только точность, но и наглядность, а качественная презентация для представителей бизнеса — тоже часть профессии аналитика и дата-сайентиста.
Ещё одна статья, заинтересовавшая нас, — про байесовский подход к А/B-тестированию. Как отметил в комментариях наш ведущий эксперт по разработке моделей для бизнеса, мы также рассматриваем возможность поэкспериментировать в банке с таким подходом.
Мы видим, что работой с Big Data и искусственным интеллектом сегодня заняты специалисты из совершенно разных областей. Мы в Газпромбанке сейчас работаем над моделями, которые помогут менеджерам в принятии важных решений, основываясь на датацентричном подходе. Сегодня уже существует множество интересных решений, нестандартных подходов в развитии этих направлений. Мы благодарны сообществу за то, что оно открыто делится успешными и неудачными кейсами — так, объединив усилия, мы все сможем двигаться чуточку быстрее к высокотехнологичному и датацентричному будущему.

Победитель

Итак, пришло время объявить человека, покрывшего себя бессмертной славой победителя сезона Big Data. И им становится (барабанная дробь… фанфары…) пользователь @ANazarov со статьёй Анализ таблиц сопряжённости средствами Python. Часть 1. Визуализация. Часто бывает так, что комментарии к хабрапосту интереснее и информативнее самого поста. Статья победителя оказалась настолько интересной и информативной, что на протяжении сезона никто не осмелился её прокомментировать. Количество экспертизы, вложенной в эту статью, оставляет у читателя лишь один вопрос: когда будет вторая часть?

Вместо легендарного меча Владычица Озера данных вручит триумфатору новенький Apple MacBook Air 13, а также грант в 30 000 ₽ — на корм боевому коню и на подготовку ещё одной крутой статьи. А теперь — без лишних слов — слово победителю.

Александр

aka @ANazarov

Что самое интересное в анализе данных? Техническая часть, математическая основа, эвристический поиск?

В анализе данных ключевое слово всё-таки «анализ», поэтому для меня наиболее интересны темы, связанные как с самими методами анализа, так и с опытом их применения. Всегда полезно изучить опыт решения задач другими специалистами.
Лично для меня особенно интересна математическая основа, тем не менее все аспекты важны.

Какие статьи сезона больше всего запомнились?

Из того, что запомнилось в данном сезоне, отмечу следующие публикации:
Извлечение открытых данных сайта zakupki.gov.ru с помощью СУБД BaseX
Кластеризация текста в PySpark
Структурирование кредитного портфеля методами машинного обучения
Сравнение технологии JuniStat и лазерных систем для беговых тестов
Геопространственные технологии для управления паспортом медицинского участка

Выводы

Как говорил Стэн из мультсериала South Park, «сегодня мы многое поняли». Выводы, которые можно сделать по итогам сезона, с одной стороны, неудивительны, но с другой — приятны. Авторам Хабра по-прежнему хватает глубоких интересных кейсов, чтобы о них написать. Читателям Хабра по-прежнему нравятся технические лонгриды, «сложная лепота», если перефразировать название романа Питера Уоттса. А сезоны в очередной раз показывают себя хорошим способом мотивировать авторов. Поэтому не уходите далеко от монитора — скоро будет объявлен старт нового сезона.

Теги:

Хабы: