Big Data *

Большие данные и всё о них

expdxx 8 апреля в 13:04

Как собрать отчет в Google Data Studio быстро и просто

Tutorial

Осенью 2021 года я задумался о бесплатных инструментах аналитики и построения отчетности, доступных простым пользователям. В том или ином виде можно использовать Power BI или Tableau, но почему бы не попробовать что-то более простое?

Небольшой дисклеймер: датасет, о котором далее пойдет речь, был загружен осенью 2021 года. Сейчас датасет другой, возможно более чистый. Загружать новые данные счел нерациональным, поскольку серия постов будет про простейшие визуализации, а не про актуальные исследования или сложные диаграммы. И нет, это не подробная методичка по возможностям GDS, это только общий обзор решения и разбор одного кейса.

Нас интересует только сторона работы обычного аналитика, насколько это возможно (и насколько я себе это представляю), поэтому я буду стараться искать самые простые пути решения проблемы. Понимаю, что некоторые методы вроде использования промежуточной базы данных не выглядят простыми для кого-то, но с тем же успехом можно использовать таблицы от Google. У меня БД просто была под рукой, да и выстроить полноценный ETL-процесс без неё не выйдет.

DELTA37 8 апреля в 11:34

Разметка именованных сущностей в Label Studio

Data Mining *Big Data *Машинное обучение *

Tutorial

В предыдущей статье мы уже подробно рассмотрели процесс разметки семантической сегментации в CVAT. Сейчас я подробнее расскажу по NER-разметку в другом популярном open source инструменте Label Studio

Предупреждаю, статья в первую очередь направлена на новичков, которые делают первые шаги в разметке данных. Как и в прошлый раз мы шаг за шагом пройдем путь от установки и настройки проекта до экспорта уже размеченного датасета.

В процессе будем подробнее останавливаться на нюансах связанных с извлечением именованных сущностей и рекомендациях из личного опыта.

Посмотрим, что у тебя там...

504

kmoseenk 7 апреля в 17:23

17 лучших инструментов и технологий для работы с большими данными, о которых нужно знать в 2022 году

Блог компании OTUS Big Data *

Перевод

Мир больших данных становится только еще больше. Организации всех мастей производят огромное количество данных из года в год, и находят все больше способов использовать их для улучшения работы, лучшего понимания клиентов, более быстрой доставки продукции и снижения затрат, а также для других целей. Кроме того, руководители компаний, стремящиеся быстрее получить отдачу от данных, ищут возможности анализа в режиме реального времени.

Все это стимулирует значительные инвестиции в инструменты и технологии работы с большими данными. В своем отчете за август 2021 года компания IDC, занимающаяся исследованием рынка, оценила ожидаемые мировые расходы на системы больших данных и аналитики в $215,7 млрд в 2021 году, что на 10,1% больше, чем в прошлом году. Она также прогнозирует, что расходы будут расти на 12,8% в год до 2025 года.

6.4K

T1_Analytics 7 апреля в 14:02

Монетизация данных. Зачем Большой Брат следит за нами?

Блог компании Группа Т1 Big Data *Управление проектами *IT-компании

2021-й год стал первым годом, когда крупные компании начали понимать на практике, зачем же они следят за пользователями. До этого бигдата была инструментом поиска вещей, которые можно было сделать и статичными правилами, а вот сейчас наконец-то стала полезной принципиально иначе.

Теперь можно получать обработку информации в реальном времени (и реагировать гибко и сразу на те же действия на сайте или в приложении), в агрегации данных (теперь банк знает, где вы живёте, какие у вас были диагнозы по чекам из аптеки и какие интернет-магазины вы предпочитаете по адресам посещаемых сайтов, от стратегического альянса с провайдером или сотовым оператором) и так далее.

Читать дальше →

+14

4.6K

Olga_Mokshina 6 апреля в 11:04

Hudi, Iceberg и Delta Lake: сравнение табличных форматов для озера данных

Блог компании VK Big Data *Хранилища данных *

Перевод

Lake Berryessa by chateaugrief

Выбор формата хранения данных при создании Data Lake влияет на производительность озера, удобство его использования и совместимость с другими инструментами.

Команда разработки Cloud Big Data от VK Cloud Solution перевела статью — сравнение трех форматов данных: Apache Hudi, Apache Iceberg и Delta Lake. Посмотрим, какие в них применяются подходы к производительности обновлений, параллелизму и совместимости, и разберем, какой формат больше подойдет под ваши задачи.

Читать дальше →

1.1K

DELTA37 5 апреля в 19:09

Семантическая сегментация изображений в CVAT

Big Data *Data Engineering *

Tutorial

Товарищи, я начинаю цикл статей-туториалов по разметке данных с помощью разного ПО. Начать решил с самого знаменитого из всех бесплатных инструментов - Computer Vision Annotation Tool. Им может воспользоваться буквально любой желающий, достаточно только зарегистрироваться.

Предупреждаю: это вводная статья для новичков, призванная решить самые главные вопросы "как это работает и куда тыкать". Экспертов прошу поправить или дополнить написанное.

На русском языке не встречал настолько подробных гайдов. Думаю он будет очень полезен.

Ну посмотрим, что там у тебя...

-1

1.2K

khavan 5 апреля в 14:06

14 апреля приглашаем на Ozon Tech ML Meetup

Блог компании Ozon Tech Big Data *Машинное обучение *Конференции Data Engineering *

Привет, Хабр! Меня зовут Ван, я возглавляю отдел машинного обучения и матчинга торговой площадки Ozon. В нашем IT работает более ста DS-специалистов, чьи алгоритмы ежедневно обрабатывают сотни терабайтов данных для решения важных бизнес-задач и не только. В процессе работы наших алгоритмов задействованы Python, Scala, Go, Hadoop, Spark, PostgreSQL, Kafka и ещё много разных хранилищ и фреймворков.

Чаще всего цели наших ML-алгоритмов в IT-индустрии пересекаются, но технологические траектории достижения результата могут значимо отличаться. На встрече мы поделимся опытом и с коллегами из Яндекс.Маркета, AliExpress Россия и Циан выступим с докладами:

— Spark Streaming: в погоне за оптимальной утилизацией и прозрачностью на Hadoop

— Го обсудим: продакшен ML на Golang

— Платформенные решения. Решаем проблемы жизненного цикла ML-сервиса

— Как мы перестали бояться иероглифов и полюбили китайскую инфраструктуру

После докладов на круглом столе обсудим процессы и роли в ML-командах крупных IT-компаний.

14 апреля в 17:00 заглядывайте на наш ML Meetup (онлайн и оффлайн).

Узнать программу

906

SergeyProkhorenko 3 апреля в 20:22

Встречайте UUID нового поколения для ключей высоконагруженных систем

Высокая производительность *IT-стандарты *Big Data *Хранилища данных *Распределённые системы *

31 марта 2022 года на сайте IETF был официально размещен текст рабочего документа (копия 1, копия 2) New UUID Formats (далее – стандарт), который должен формально обновить, а фактически заменить давно устаревший и изначально ущербный RFC 4122.

В долгих и жарких спорах удалось выработать стандарт высокого качества. Можно надеяться, что этот стандарт заменит многочисленные «самоделки» энтузиастов и отдельных компаний: ULID, KSUID, CUID и т.д., а в СУБД будут встроены генераторы UUID новых форматов, предназначенных для ключей высоконагруженных систем.

+41

13K

laut87 1 апреля в 12:34

Как мы предсказывали поломки нефтяных насосов: когда big data – это в прямом смысле нефть

Data Mining *Big Data *Машинное обучение *Научно-популярное

Привет, меня зовут Сергей Алямкин, я CTO компании Expasoft. В сфере моих профессиональных интересов: ML/DL, нейросети, квантизация, компьютерное зрение (полный список). В своей первой статье на Хабре хочу поделиться нашим пилотным проектом – как мы разрабатывали модель предиктивного обслуживания нефтедобывающих насосов для компаний из Северной Америки и России.

2.9K

Sergey-Fox 31 марта в 14:39

Основные тренды ЦОД в 2022 году: смелые проекты и успешные практики реализации

Блог компании Acer IT-инфраструктура *Big Data *Хранение данных *Сетевое оборудование

Привет, Хабр! Компания Acer снова с вами! Мы планируем рассказывать об интересных продуктах: как своих, так и других участников рынка. В первую очередь речь пойдет о серверах и соответствующих корпоративных решениях.

Сегодня же публикуем первый свой пост – это аналитика наиболее заметных трендов на рынке ЦОД в 2022 году. Главный принцип, по которому мы отбирали тренды, – наличие примеров практического внедрения. Кроме того, мы расскажем о необычных разновидностях дата-центров, которых становится все больше.

1.7K

kucev 31 марта в 11:44

Хотите усовершенствовать цикл обработки данных? Попробуйте задействовать людей

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

На саммите iMerit ML Data Ops глава отдела искусственного интеллекта Cruise Хуссейн Мехенна провёл с Рагаваном Сринивасаном из Facebook AI беседу, озаглавленную Emerging AI Companies are Driving a Paradigm Shift.

В беседе они обсудили важность объединения цикла обработки данных ИИ с циклом обработки данных людьми, а также поговорили о том, что люди играют критическую роль в выявлении и разрешении пограничных случаев. Сочетание лучших практик human-in-the-loop, бесперебойного сотрудничества в цикле обработки данных и образ мышления, ставящий на первое место безопасность, в конечном итоге позволят достичь высочайшей степени успеха в сфере ИИ и ML.

Важность Humans-in-the-Loop

Успех таких ИИ-продуктов, как беспилотные автомобили, зависит от усложнения цикла обработки данных, на которых они построены. Надёжные циклы работы с данными одновременно генерируют, аннотируют и непрерывно применяют новые данные в продакшене. Однако для улучшения циклов работы с данными, например, в компании Cruise, интегрируется участие человека.

Благодаря участию человека в циклах обработки данных гарантируется безопасное и эффективное выполнение высокоуровневых действий в ИИ-системах. Humans-in-the-loop непрерывно оценивают характеристики автомобиля, и обеспечивают выполнение всех связанных с автомобилем действий так, как это делал бы человек.

Читать дальше →

526

kaza4ka 30 марта в 16:38

Маркетинговая аналитика на Python. Пишем код для RFM-сегментации

Python *CRM-системы *Big Data *1С *

Из песочницы

RFM - классический инструмент маркетинга для сегментации вашей клиентской базы. Я использую ее для работы в В2В, В2G сегменте. В основе него - понятные управленцу ценности: LTV и Purchase Frequency. Как можно строить сегменты с помощью Python - читайте в материале.

3.6K

selesnow 30 марта в 11:36

Циклы и функционалы в языке R (бесплатный видео курс)

Data Mining *Big Data *Параллельное программирование *R *Data Engineering *

Друзья, рад представить вам свой новый курс "Циклы и функционалы в R". Курс и все сопутствующие материалы к нему распространяются бесплатно, и являются общедоступными. Во время кризиса лучшей инвестицией времени является обучение.

В данной публикации вы найдёте ссылку на курс, подробное описание и программу курса.

690

Olga_Mokshina 30 марта в 10:54

Docker Everything Bagel: как развернуть локальный стек данных

Блог компании VK Big Data *Хранилища данных *

Перевод

Container au Havre pour les 500 ans by 0Lifea.

При разработке Open-source-проекта важно помогать пользователям и оставлять рекомендации. Но чтобы это делать, иногда нужно буквально «прочувствовать их боль»: воссоздать их рабочую среду, запустить тот же код и посмотреть на ту же ошибку. А учитывая сложность современных стеков данных, это бывает непросто.

Команда Kubernetes aaS VK Cloud Solutions перевела статью об инструменте Everything Bagel, который позволяет эффективнее работать с локальными стеками данных.

Читать дальше →

1.1K

kucev 29 марта в 12:51

Ускорение семантической сегментации при помощи машинного обучения

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Зачем создавать процесс разметки данных на основе ML?

Быстрое создание высококачественной разметки данных — сложная задача. Парсинг и правильное аннотирование изображений и видео, обычно используемых в сфере беспилотного транспорта или робототехники, могут быть композиционно сложны даже для людей. Наша компания использует машинное обучение, чтобы дополнить реализуемые людьми рабочие процессы, позволяя повысить и качество, и скорость разметки. Так как модели глубокого обучения могут испытывать трудности с устойчивой производительностью в предметных областях с большим разнообразием данных, например, в сценах с участием беспилотных автомобилей, для обеспечения стабильно высокого качества необходимо найти оптимальный баланс между ML-автоматизацией и человеческим контролем.

Читать дальше →

717

MediascopeTeam 29 марта в 12:48

Применение Propensity Score Adjustment для коррекции смещений в онлайн-панелях

Блог компании Mediascope Data Mining *Big Data *Математика *Машинное обучение *

Это вторая часть нашего рассказа о работе со смещениями оценок медиа активности респондентов онлайн-панелей. В предыдущей статье мы разобрали саму проблему, причины возникновения смещений и способы их коррекции, а теперь более подробно остановимся на практическом применении алгоритма Propensity Score Adjustment для коррекции реальных онлайн-данных.

Читать

327

MediascopeTeam 29 марта в 12:47

Как работать со смещениями онлайн-панелей: методы и ML-алгоритмы коррекции

Блог компании Mediascope Data Mining *Big Data *Математика *Машинное обучение *

Если вы проводите панельные исследования, то обязательно столкнетесь с одним из главных вызовов – набрать выборку достаточного размера, которая будет достоверно отражать важные для исследования параметры генеральной совокупности. Набрать большую и качественную, а значит несмещенную выборку с применением оффлайн-рекрутмента дорого и проблематично. Однако существует альтернативный вариант – это онлайн-рекрутмент, который давно зарекомендовал себя как максимально быстрый, простой и дешевый способ привлечь респондентов для различных исследований. В то же время выборки, набранные в интернете, являются неслучайными и, как правило, искажены по ряду параметров, даже если процедура рекрутирования была хорошо спланирована. В этой статье мы расскажем о методе Propensity Score Adjustment, который применили для коррекции смещений и улучшения данных, полученных на онлайн-панелях. Этот алгоритм помогает калибровать (уточнять) вклад респондентов, набранных в панель онлайн.

Читать

432

Asimandia 28 марта в 17:00

Оптимальный маршрут доставки, скидки от срока годности и подбор одежды онлайн: 3 примера машинного обучения в e-com

Big Data *Машинное обучение *Управление e-commerce *

Чем больше у компании клиентов, тем выше объем полезных данных, на которых аналитики могут обучить предсказательные модели. Поэтому для развития логистических алгоритмов особый интерес представляют научные публикации исследователей из крупных азиатских, европейских и американских компаний.

Дата-сайентист из команды СберМаркета Дмитрий Руденко рассмотрел три научных статьи, посвященных применению машинного обучения для доставки товаров в международной компании Zalando и в двух китайских компаниях Meituan и Alibaba.

Читать дальше →

1.6K

IvanWiz 28 марта в 11:46

Причина и следствие

Блог компании МегаФон Data Mining *Big Data *Статистика в IT

Из песочницы

Мы привыкли, что Machine Learning предоставляет нам большое количество предиктивных методов, которые с каждым годом предсказывают события лучше и лучше. Деревья, леса, бустинги, нейронные сети, обучение с подкреплением и другие алгоритмы машинного обучения позволяют предвидеть будущее все более отчетливо. Казалось бы, что нужно еще? Просто улучшать методы и тогда мы рано или поздно будем жить в будущем так же спокойно, как и в настоящем. Однако не все так просто.

Когда мы рассматриваем бизнес задачи, мы часто сталкиваемся с двумя моментами. Во-первых, мы хотим понять что к чему относится и что с чем связано. Нам важна интерпретация. Чем сложнее модели мы используем, тем более нелинейные они. Тем больше они похожи на черную коробку, в которой очень сложно выявить связи, понятные человеческому разуму. Все же мы привыкли мыслить довольно линейно или близко к тому. Во-вторых, мы хотим понять - если мы подергаем вот эту "ручку", изменится ли результат в будущем и насколько? То есть, мы хотим увидеть причинно-следственную связь между нашим целевым событием и некоторым фактором. Как сказал Рубин - без манипуляции нет причинно следственной связи. Мы часто ошибочно принимаем обыкновенную корреляцию за эту связь. В этой серии статей мы сконцентрируемся на причинах и следствиях.

Но что не так с привычными нам методами ML? Мы строим модель, а значит, предсказывая значение целевого события мы можем менять значение одного из факторов - одной из фич и тогда мы получим соответствующее изменение таргета. Вот нам и предсказание. Все не так просто. По конструкции, большинство ML методов отлично выявляют корреляцию между признаком и таргетом, но ничего не говорят о том, произошло ли изменение целевого события именно из-за изменения значения фичи. То есть, ничего не говорят нам о том - что здесь было причиной, а что следствием.

grishenkovp 27 марта в 09:38

Подсчет количества пар товаров в продуктовых чеках с помощью трех инструментов: Python, Spark, SQL

Python *SQL *Big Data *

Добрый день, уважаемые читатели! Не открою для большинства секрета, если скажу, что большая часть задач в материалах к учебным курсам сформулирована шаблонно. Какие-то вопросы в принципе могут представлять интерес, но очень оторваны от реальных потребностей бизнеса. Какие-то моменты выдернуты из книг, поэтому лучше знакомиться с ними, читая первоисточник. Но есть кейсы, которые на первый взгляд хоть и кажутся простыми и стереотипными, но, если присмотреться к ним более пристально, могут дать пищу для размышления. Вот на одной из таких полезных задач мне хотелось бы заострить внимание в данной заметке. Формулируется вопрос следующим образом: «Необходимо определить количество пар товаров в продуктовых чеках. Вывести 10 самых частых сочетаний». Пример, чек 1 содержит товар 1, товар 2, товар 3, а чек 2 - товар 1, товар 2, товар 5. Следовательно, комбинация «товар 1, товар 2» встречается 2 раза, «товар 1 , товар 3» один раз и т.д.

В исходнике решать данный кейс предлагалось силами Python. Но реальная жизнь может потребовать от аналитика данных умения выполнять данное упражнение как с помощью SQL, так и Spark. Следовательно, рассмотрим три подхода, оставив за скобками разговора четвертый вариант – расчеты на платформах BI.