Ладно, не заливай! Ни разу не был на берегах Data Lake?! Пойми, в IT только и говорят, что о Data Lake! Как оно бесконечно прекрасно. О бигдате и графах, которые они видели. О том, как дата-сайентист, погружаясь в море данных, преисполнился знания. Мы не хотим, чтобы Хабр там наверху окрестили как-нибудь не так, а потому ещё с начала года мощно прокачиваем ИИ-ландшафт самыми хардкорными и глубокими текстами: уже отгремел сезон ML, закончилась неделя нейроарта, а теперь совместно с Газпромбанком стартует сезон Big Data.
Зачем это нужно
Большие данные — топливо современной экономики. Маркетинговая и продуктовая аналитика, решение управленческих и процессных проблем, настройка алгоритмической ленты в соцсетях и даже предсказание ближайших поломок оборудования атомных электростанций, прибаутки ChatGPT — всё это возможно только благодаря тому, что кто-то заморочился, собрал кучу информации и отыскал в складках функции потерь хороший локальный минимум.
Эта сложная и наукоёмкая сфера развивается каждый день. Быть в курсе всех интересных кейсов и выбрать из огромного потока новостей самое главное в одиночку — просто невозможно. Поэтому так важно, чтобы эксперты делились друг с другом и с сообществом своими важными наработками и мыслями.
Зачем продвигать статьи про большие данные
Мария Косарева
Вице-Президент, начальник Департамента анализа данных и моделирования в Газпромбанке
Хороший кейс или описание нового интересного алгоритма могут на десятки процентов увеличить доход бизнеса или разрешить серьёзные социальные проблемы.
Говорят, что данные — это новая нефть. Они повсюду, их зеттабайты, причем данные принадлежат и никому, и всем одновременно. Казалось бы, каждый человек может воспользоваться данными, но, как и в случае с энергоресурсами, в реальности лишь немногие способны построить сложную инфраструктуру, собрать команду специалистов, умеющих работать с данными и предиктивной аналитикой, инвестировать во внедрение машинного обучения и встроить его в свои бизнес-процессы.
В работе с Big Data и искусственным интеллектом сейчас заинтересованы большинство отраслей: производство, страхование, логистика и, конечно, FinTech. Газпромбанк внедряет машинное обучение не только в процессы кредитования и формирования персонализированных предложений. Мы заинтересованы максимально использовать в процессах data-driven-подход, основанный на данных, а не субъективном мнении.
Сейчас мы реализуем несколько крупных проектов по внедрению искусственного интеллекта в работу со сканами и документами (computer vision), HRTech (графовая аналитика взаимодействия сотрудников), разбор платёжной строки (NLP), оптимальное размещение офисов и банкоматов (геомоделирование) и многое другое. Для нас работа с данными — это способ упрощения работы, дополнительного заработка и сокращения издержек, а не просто хайп.
Правила сезона
Сезон Big Data пройдёт с 17 апреля по 07 июня. Дедлайн приёма заявок — 23:59 07 июня 2023.
Побеждает публикация с наивысшим рейтингом. Голосовать за лучшую статью можно на протяжении всего сезона, а после его завершения мы объявим результаты.
Один автор может прислать сколько угодно заявок. Принимаются не только новые, но и старые тексты, опубликованные после 11 апреля 2023.
Участвовать могут все — даже авторы из «Песочницы». Отличная возможность привлечь максимум внимания к вашей первой статье и сразу попасть «в основу».
Призы и слава
Замолвим за вас словечко перед Skynet и Матрицей — выдадим всем авторам плашку «Участник сезона Big Data», а победителю достанется значок «Победитель сезона Big Data» и дополнительный инвайт на Хабр. Машины вас не забудут.
Автору самой рейтинговой статьи достанется Apple MacBook Air 13.
Грант на 30 000 ₽ для подготовки ещё одной классной статьи (если на новую статью нет времени, грант можно передать другому участнику).
Требования к статьям
В центре внимания статей — Big Data. Применение в реальных задачах, настройка инфраструктуры, подготовка данных, новые подходы к обучению.
Мы ждём статьи, основанные на личном опыте и собственной экспертизе: опыт разработки и использования инструментов Big Data, инструкции по решению задач и проблем, собственное профессиональное мнение и взгляд на развитие этих технологий.
Статьи должны быть полезны другим пользователям и читателям: помогать в работе, разбивать предрассудки, решать профессиональные задачи. Если опытный дата-инженер или дата-аналитик прочитает вашу статью и применит что-то в своей работе — это и есть технохардкор. Материал должен быть про использование, внедрение и построение инфраструктуры работы с большими данными.
Без лишней рекламы или антирекламы. Можно упоминать бренды там, где это уместно, но посвятить статью пиару своего продукта или компании или знатно набросить на конкурентов не получится: все заявки отсматриваем вручную, так что «SPAM! SPAM! SPAM!» не просочится.
Как подать заявку
При публикации добавить к статье тег «сезон big data». Важно: можно прикрепить тег и к старой статье, если она опубликована с 10 апреля 2023 по 07 июня 2023.
Дождаться проверки модератором. Если публикация подойдёт под критерии сезона, мы отметим его специальной плашкой под заголовком и добавим в список под анонсом. О результатах модерации вы получите оповещение.
Идеи для статей
По нашему опыту, один из самых сложных барьеров при старте работы со статьями — выбрать тему. О том, что написать в Сезон, мы спросили победителя Сезона Data Mining и ChatGPT. Сравнивайте, вдохновляйтесь, но не путайте инструмент с профильной экспертизой.
Давид Дале
aka cointegrated. Разработчик / Аналитик / Data Scientist / NLPшник
Сейчас у меня основная область интересов – NLP, а в её рамках –
опенсорсные инициативы (особенно не от компаний, а от независимых
энтузиастов), и работа с маленькими моделями (в противоположность
нынешнему хайпу вокруг LLM).
ChatGPT
Генеративный искусственный интеллект
Я могу помочь вам сгенерировать некоторые темы статей для хаба Big Data на сайте Habr.com. Вот три возможные темы:
- Большие данные и искусственный интеллект: как интегрировать NLP и Computer Vision в свои решения;
- Как выбрать подходящий инструмент для визуализации больших данных: обзор популярных библиотек и фреймворков;
- Как применять методы глубокого обучения для анализа больших данных: преимущества и ограничения.
Статьи-участники
Структурирование кредитного портфеля методами машинного обучения
Кредитные организации естественным образом располагают большими портфелями клиентских кредитов. Большими - в том смысле, что к ним начинают быть применимы законы больших чисел, предельные теоремы, а значит, и аппарат статистики, что делает естественным применение машинного обучения.
Задача разбиения кредитного портфеля на более однородные по качеству кредитов под-портфели встречается в финансах уже давно <....> В этой статье мы рассматриваем задачу разбиения кредитного портфеля с использованием гораздо большего количества признаков: всей информации, которой обладает кредитор.
Бигдата, ты ли это?
Возможно ли не замечать “лишних” 30 Tb данных на SSD при живом настроенном мониторинге и героически их обслуживать? Запросто, а ответы на вопросы кто же эти наблюдательные люди, как им это удалось и причем здесь PostgreSQL - ниже.
Тварь дрожащая или право имею: как мы лепили виртуального юриста из русскоязычных нейросетей
Если бы Достоевский жил в наше время, смотрел по вечерам «Черное зеркало» и просто читал новости, то, скорее всего, Раскольникова судил бы Искусственный интеллект. Сейчас довольно сложно представить, как будет выглядеть судебный процесс будущего, где условному судье не придется протирать 6 лет штаны на институтской скамье и насильно впихивать в свой мозг тонны законодательной базы. Кажется, это будет что-то коллективное и похожее на продвинутых присяжных с «закаченными» правовыми нормами, чтобы моральные аспекты при этом оставались на более близкой человеческой стороне.
Привет, Хабр, это команда Alliesverse – платформы для управления бизнесом – и это в наши воспаленные мозги попала идея о современном Раскольникове...
Случилось это на большом мероприятии, посвященному ChatGPT, на которое нас пригласили. Мы подумали: а что если ускорить наступление высокотехнологичного и справедливого суда и попробовать обучить ИИ всем российским кодексам ?
Её величество Иерархия. Классификация и способы хранение в MS Excel
Иерархия, как структура данных, встречается очень часто. В финансах иерархия – это один из самых частых объектов, наряду с плоскими и матричными таблицами.
Тем не менее, иерархия – это достаточно сложный объект, который имеет неочевидную классификацию. Кроме того, часто мы храним иерархию в плоской таблице (в Excel, в базе данных). А это, вообще говоря, не естественная среда обитания для иерархий. Все это еще более затрудняет и запутывает работу с ними.
В статье я разберу ключевые термины и классификацию иерархий, что позволит эффективно работать с ними. Ответим на ряд нетривиальных вопросов: «Все ли иерархии одинаковые?», «Отсутствие детей - это достаточный признак листа?»
Анализ таблиц сопряженности средствами Python. Часть 1. Визуализация
Категориальные данные имеет огромное значение в DataScience. Мы живем в мире категорий: информация может быть сформирована в категориальном виде в самых различных областях - от диагноза болезни до результатов социологического опроса. Частным случаем анализа категориальных данных является анализ таблиц сопряженности (contingency tables), в которые сводятся значения двух или более категориальных переменных. Однако, прежде чем написать про статистический анализ таблиц сопряженности, остановимся на вопросах их визуализации.
Байесовский подход к АБ тестированию
Байесовский подход к АБ-тестам — альтернатива частотному (фреквентистскому) подходу. Поговорим о том, как заменить p-value на более интерпретируемые метрики, используя байесовские методы. На примере теста конверсии сравним частотный и байесовский подходы.
Сравнение технологии JuniStat и лазерных систем для беговых тестов
При первой встрече каждый клуб и федерация обычно интересуется точностью измерений, которые может обеспечить технология JuniStat. В рамках пилотного запуска проводятся замеры по определенному привычному и понятному эталону. За последние полгода были проведены тестирования игроков с целью проверки валидности данных по лазерам тремя федерациями и двумя клубами. Мы получили опыт в этой области и хотим им поделиться. Следует отметить, что все валидации прошли успешно, но результаты требовали пояснений. В большинстве случаев первой реакцией было удивление из-за того, что 70-80% результатов совпадают, а оставшиеся 20-30% выглядят как выбросы, но на самом деле они не являются таковыми. Необходимо проанализировать различные способы измерения и выяснить, по каким причинам результаты различаются. Как измеряют время рывка сейчас?
Data-driven рост с помощью науки о данных и машинного обучения
Машинное обучение меняет способы использования данных компаниями для обеспечения прибыльного роста, предоставляя возможность опередить своих конкурентов. Ведущие игроки на вашем рынке уже используют науку о данных и машинное обучение в частности для принятия более эффективных решений в области маркетинга, продаж и успешного обслуживания клиентов. Еще не поздно воспользоваться этой возможностью - технологические компании могут ускорить свой рост, приняв пять ведущих практик.
Применение методов CRISP-DM для анализа Big Sales Data
Метод обработки данных, полученных в процессе продажи людьми (звонки/встречи), с целью оптимизации воронки, сокращения цикла сделки и увеличения конверсии.
MapReduce: как и зачем?
Данная статья будет интересна просто любопытствующим людям и тем, кому нужно базовое теоретическое знание MapReduce'а. Сам по себе MapReduce уже устарел.
Если вы в поиске хороших решений, то увы, в этой статье не будет вестись
речь о готовых инструментах.
Мигрируем с Qlik: как создать надежное хранилище для ваших данных
Последние 12 месяцев много обсуждается тема миграции с ИТ‑систем, которые оказались недоступны в России. Во всех компонентах ИТ‑инфраструктуры появились критические зоны, которые раньше закрывались международными продуктами и которые нужно срочно переводить на работающие платформы. Не исключением стала и область бизнес‑аналитики. Иностранные BI‑системы ушли с российского рынка и компании начали интересоваться, на что можно перенести свою аналитическую отчетность.
Меня зовут Александр Гончар и работаю в консалтинговой компании A2 Consulting и для нас тема миграции с зарубежных BI‑решений не является новой. За последние пять лет мы реализовали десяток проектов, в которых осуществляли миграцию из аналитических платформ в другие решения, прежде всего, в части хранилищ данных (ХД). Расскажу сегодня об опыте миграции с такого известного BI‑инструмента, как Qlik.
Как дать крылья своей сводной таблице в Apache Superset
Меня зовут Артур, и я Python-разработчик. Хочу поделиться опытом доработки Apache Superset и рассказать, как мы использовали его для визуализации больших объемов данных в рамках сводных таблиц. Apache Superset - это мощный инструмент для визуализации данных, который широко используется в Open-Source сообществе. Его главными достоинствами являются: простота использования, масштабируемость, поддержка множества источников данных и расширяемость. Но, несмотря на все эти достоинства, в практическом применении могут возникать проблемы, связанные с необходимостью правильной настройки и оптимизации Superset для конкретных задач.
Как мы организовали Data Warehouse в MANGO OFFICE
Меня зовут Борис Садовский, я руководитель группы развития корпоративного хранилища данных (КХД) в MANGO OFFICE. Решил написать статью о состоянии Data Warehouse (DWH), где рассматриваю проблемы, с которыми сталкивалась компания в процессе работы с данным, и методы их решения.
Как мы делали скоринг на микросервисной архитектуре руками не-программистов
2023 год — год противоречивых сигналов для будущего IT-отрасли и, в частности, занятости айтишников. С одной стороны, с поголовной цифровизацией всех сфер и процессов экономики растёт спрос на разработчиков — что, безусловно, плюс для айтишников. С другой — необходимость участия программистов во многих прежде «аналоговых» процессах как таковая стала превращаться в препятствие для цифровизации. Естественным образом, со стороны заказчиков и работодателей возник спрос на решения, которые позволят оцифровывать и автоматизировать процессы без необходимости заменять весь прежний штат программистами. Компании ищут выходы где угодно, включая надежды на то, что программистов заменят нейросети.
В реальности все, кто хоть немного разбираются в вопросе, понимают, что до этого далеко: во многих чувствительных областях нейросети, возможно, никогда не заменят человека — потому что с человека можно спросить за ошибки, а с нейросети взятки гладки. Реальным ответом на запрос рынка видятся сегодня low-code и no-code — то есть, технологии создания ПО с помощью визуального редактора с минимальным написанием кода или без написания кода вообще.
Как рассчитать скидку за первый и последний этаж почти без формул в Excel
В продолжение рассказов о Big Data для простых смертных предлагаем попробовать себя в решении жилищного вопроса: как отличаются цены за квадратный метр на разных этажах. Житейская польза от этой заметки заключается в получении без особых усилий и без специальных навыков достоверных знаний об ожиданиях на рынке недвижимости. Государство скрывает цены реальных сделок, но иметь адекватное представление о настроениях продавцов можно и без знакомого опытного риелтора, сына маминой подруги.
Статья представляет собой пошаговую иллюстрированную инструкцию по решению задачи анализа этажности городской застройки, в т.ч. расчет скидок за первый и последний этажи. В качестве модельного города принят Брянск. Расчетный файл прилагается и его листы пронумерованы в последовательности выполненных операций. Шаблон расчета легко адаптировать для другого города и вида недвижимости.
Геопространственные технологии для управления паспортом медицинского участка
Все началось с голосовых роботов. Во время борьбы с Ковидом наш коллцентр, носящий теперь гордое имя Центр телефонного обслуживания граждан 122, все чаще и чаще выстраивал очереди со временем ожидания ответа оператора свыше 30 минут. Нанять больше людей и начать стабильно укладываться в норматив ответа оператора менее 3-х минут не позволяли размеры помещения и фонда оплаты труда.
Стали пробовать решения для автоматизации контакт центров, которые можно было бы интегрировать с медицинской информационной системой (МИС).
За 3 месяца пилотирования NLP продукта и его интеграции действующие в бизнес-процессы удалось добиться вменяемых результатов по распознаванию номеров медицинских полисов, адресов проживания и имени пациентов. Даже удалось удержать среднее время обслуживания одного звонка на уровне 100 секунд… Однако процент автоматических обслуженных обращений болтался в диапазоне от 11 до 30 процентов, и пациенты продолжали томится в ожидании ответа оператора.
MLOps-платформа Dognauts для разработки и эксплуатации ML-моделей. Часть 1: предыстория создания
Добрый день! Меня зовут Евгений Овчинцев, я работаю в компании Neoflex и в настоящее время являюсь архитектором продукта Dognauts. В данной серии статей я планирую рассказать о том, как создавался и развивался продукт: почему принимались те или иные решения, с какими проблемами пришлось столкнуться и что из всего этого получилось.
FineBI 6.0: 9 полезных обновлений, о которых вы не знали
Меня зовут Регина Камалова, проджект-менеджер в Business Intelligence GlowByte. С того момента, как GlowByte представила российскому рынку вендора FanRuan и его инструмент для бизнес-аналитики FineBI, прошло уже больше года. Наши китайские партнеры не стоят на месте, активно развивают свои продукты и не так давно презентовали новую версию – FineBI 6.0. О полезных обновлениях и хочу рассказать сегодня.
Big Data в облаках
Сегодня хотим затронуть тему облачных технологий. Дмитрий Морозов, архитектор DWH в компании GlowByte, занимается хранилищами данных 6 лет, последние 2,5 года участвует в проектах, использующих облака. В этой статье он сделает обзор облачных решений, которые могут быть полезны для задач хранения больших данных, а также уделит внимание вопросам выбора облачного хранилища. Статья основана на личном опыте, может быть интересна как разработчикам, дата-инженерам, так и менеджерам, отвечающим за корпоративную Big Data-инфраструктуру и ищущим возможности ее масштабировать.