Big Data *

Большие данные и всё о них

Работа в Data Science: что важно знать и как этому научиться

Big Data *Машинное обучение *Карьера в IT-индустрии Искусственный интеллект

Из песочницы

Сегодня словосочетания вроде Data Science, Machine Learning, Artificial Intelligence очень популярны. При этом нередко под ними понимаются довольно разные вещи. Это зачастую смущает и запутывает людей, желающих войти в специальность: трудно разобраться, с чего начать, что действительно нужно, а что необязательно для начала. Не претендуя на общность, расскажем, как это видится на основе десятка лет опыта c решением такого рода задач для крупных клиентов со всего мира (сервис / заказная разработка / аутсорс – подставьте термин по вкусу).

1.2K

ilmarinnen 27 мая в 15:08

Big Data for big thing: система социального кредита в Китае

Блог компании Timeweb Cloud IT-инфраструктура *Big Data *Киберпанк

Или великий китайский социальный рейтинг. Что это вообще такое, как он возник, что получилось в итоге, а главное — зачем?

Мы привыкли считать Китай страной весьма далёкой от нашей цивилизации — как в географическом, так и в ментальном смысле. Я бы даже сказал, что во многом её до сих пор считают «отсталой». У неё нет высоты американских технологий или мощи российских сил ядерного сдерживания, их Шекспиры нам неизвестны, а их Лувры, в общем-то кажутся не такими интересными. А ещё их полтора (а может, два?) миллиарда человек. И мне кажется, мы прозевали момент, когда Китай единственный на планете сдал суровый экзамен на мастерство инфраструктурного манёвра. Я говорю про времена ковидного поветрия, по итогам которого только одна страна (угадайте, какая) вышла с положительными показателями экономического роста.

Читать дальше →

+33

4.6K

kaza4ka 27 мая в 13:49

«Ваша сезонность, сэр!»: ищем тренд и прогнозируем спрос с помощью временных рядов, SARIMA и Python. Ч.1

Python *CRM-системы *Big Data *1С *

Tutorial

Как вы можете помнить по первой статье "Маркетинговая аналитика на Python. Пишем код для RFM-сегментации", более 8 лет я работаю в сфере маркетинга для B2B и примерно столько же бешусь от дилетантского подхода к аналитике, который тянет за собой ряд проблем с определением ключевых метрик эффективности для компании (и, как следствие, с мотивацией сотрудников):

1.1K

ne_volshebnik 26 мая в 12:48

Зачем бизнесу data science

Блог компании HeadHunter Big Data *

Встретились как-то продакт с дата-сайентистом в одном офисе и стали выяснять, кто для бизнеса нужнее. Об этом в нашем видеоблоге вышел огромный выпуск, который я решил переделать в статью. Если интересно послушать полный диалог со всеми подробностями – добро пожаловать.

Всем привет! Меня зовут Игорь Уткин, я – дата-сайентист в hh.ru. В этой статье разбираемся: когда компании может понадобиться дата-сайентист, имеет ли собранная модель право на ошибку и как вообще люди уходят в data science.

1.3K

DELTA37 25 мая в 18:55

Объединение данных с датчиков и интерполяция для Autonomous Vehicles

Data Mining *Big Data *Data Engineering *

Перевод

Товарищи, рассказываю о нюансах сбора и работы с данными для Autonomous Vehicles. Как правило, для создания обучающего датасета используют данные с датчиков LIDAR и камер. Но полученные данные в сыром виде очень разрознены ,и чтобы решить эту проблему, их нужно правильно объединить и интерполировать. И только после этого приступать к 3D Point Cloud разметке.

1.2K

RUBDA 25 мая в 15:58

Что такое Brain2Logic: Data Science без кода для юниоров

Блог компании Ассоциация больших данных Big Data *Машинное обучение *

Современное машинное обучение не только перенимает крутые математические методы, но и подстраивается под стремление человека автоматизировать управление процессами. Природа явления остаётся загадкой. То ли мы добиваемся лаконичности, то ли убиваемся собственной ленью — неважно, если результат оправдывает затраты.

Одним из таких результатов стала AutoML-платорма Brain2Logic стартапа Mavericka, которая недавно была пропилотирована в песочнице Ассоциации больших данных. Платформу помог протестировать Билайн, поставив задачу построить модели для рекомендаций фильмов. В этой статье представлен общий взгляд на современные AutoML-решения с акцентом на проект Brain2Logic (B2L).

Если вам интересно, что смогли придумать в Mavericka, посмотреть на тестирование и почитать наши рассуждения про AutoML — добро пожаловать под кат.

673

Olga_Mokshina 25 мая в 12:19

Как начать работать с библиотекой для машинного обучения Metaflow

Блог компании VK Big Data *Машинное обучение *

Перевод

Metaflow — одна из лучших библиотек для машинного обучения, по мнению автора статьи, которая содержит простые аннотации на Python для создания Reproducible Data Engineering, обучения, валидации моделей и других этапов рабочего процесса. А еще модель позволяет выполнять их в локальной среде или в облаке.

Команда VK Cloud Solutions перевела статью об этом опенсорсном решении, которое используют Netflix и многие другие компании для рабочих процессов в сфере машинного обучения и Data Science.

Читать дальше →

+28

2.8K

brucewayneorjustahror 24 мая в 16:19

Что под капотом у Умного Ташкента?

Блог компании Visiology Анализ и проектирование систем *Геоинформационные сервисы *Big Data *Визуализация данных

Привет, Хабр! Вот, прошли майские праздники, и я готов поделиться с вами подробностями нашего проекта по цифровизации Ташкента. В конце концов, наша референсная модель может помочь в цифровизации других городов. И в этом посте мы подробнее разберем вопросы интеграции между различными компонентами, механику взаимодействия с Visiology BI и Геоинтеллект, а также ряд интересных на мой взгляд технических вопросов. Я покажу, как в нашей системе реализована поддержка процессов укладки асфальта, аналитики по видео, загрузки огромных массивов данных из различных ведомств.

+25

5.1K

Efaldgent 24 мая в 14:00

Интерпретируемость в машинном обучении: итоги 2021 г

Блог компании Open Data Science Big Data *Машинное обучение *Искусственный интеллект

В 2021-2022 годах уже ни для кого не секрет, что понимать логику работы моделей машинного обучения важно и нужно. Иначе можно насобирать множество проблем: от того, что модель не будет принята конечным пользователем, потому что непонятна, до того, что она будет работать неправильно, а поймем мы это уже слишком поздно.

Для интерпретируемости в машинном обучении устоялись термины Interpretable ML и Explainable AI (XAI). Объединяет их одно - стремление сделать модели машинного обучения понятными для конечного пользователя.

Под катом поговорим о том, что интересного произошло в интерпретируемости в 2021 г.

+21

2.8K

Bee_brightside 24 мая в 12:07

Как аудиобейджи помогают повышать качество обслуживания клиентов

Блог компании билайн бизнес Big Data *Управление продажами *Звук

Привет!

В этом посте мы расскажем про аудиобейджи и их роль в налаживании коммуникации между сотрудником магазина и покупателями. Мы проводили этот пилот совместно с VocaTech и одним крупным ритейлером электроники: выбрали 15 магазинов, раздали 355 сотрудникам аудиобейджи, а затем проанализировали результаты и новые уровни продаж.

За 6 месяцев пилота в 15 магазинах у 355 сотрудников мы получили 66 243 часов аудиозаписей, которые были переведены системой VocaTech в 321 353 эпизода обслуживания (транскрипции речи сотрудника во время консультаций). Параметры анализа речи — 70 метрик, включающие более 1000 уникальных фраз и их вариаций (метрика здесь — стандарт речи, например, стандарт речи «Приветствие» фиксируется фразами «Доброе утро», «Добрый день» или «Добрый вечер»).

Спойлер: при всех ключевых словах и улучшенных скриптах для продавцов личная харизма конкретного специалиста всё ещё продолжает играть значительную роль.

1.4K

p0mami 24 мая в 10:19

Как мы классифицировали товары при разработке СDP-платформы

Python *Big Data *

Из песочницы

Привет, хабр!

Меня зовут Марк Порошин вместе с моим коллегой Артемом Шнайдером в DV Group мы занимаемся Data Science. Сейчас мы активно развиваем собственную платформу клиентских данных (CDP) DV Platform. Коротко расскажу, зачем вообще она нужна. Платформа обрабатывает данные из маркетплейсов и позволяет создавать и передавать сегменты пользователей, которые с наибольшей вероятностью совершат покупки конкретной категории или товара. Это позволяет оптимизировать маркетинговые бюджеты и увеличивать онлайн-продажи брендов.

534

gubanovpa 23 мая в 08:35

Decision Intelligence Framework — Принятие решений на основе данных

Data Mining *Big Data *Машинное обучение *Управление проектами *Управление медиа *

Перевод

Какое место в организации занимает Decision Intelligence? Как вы принимаете решения на основе данных? Что делать если вы хотите принимать решения на основе данных, но не знаете с чего начать?

В своем дебютном посте на Towards Data Science Эрик Балодис излагает новую концепцию, которая выходит за рамки традиционного подхода к принятию решений на данных, и направлена на то, чтобы дать представление о том, какие процессы лежат в основе концепции Decision Intelligence.

Читать по диагонали - 5 минут, читать вдумчиво - 15 минут.

934

Bee_brightside 20 мая в 11:37

Приглашаем инженеров уровней Junior и Middle с опытом работы от года принять участие в нашем Data Engineer Weekend Offer

Блог компании билайн бизнес Big Data *Карьера в IT-индустрии Data Engineering *

28 мая в штаб-квартире билайна пройдёт первый data engineering weekend offer — все этапы собеседования сразу в один день: вы расскажете о себе, проверите свои технические знания, узнаете, какие продукты разрабатывает билайн.

Чтобы ожидание каждого этапа не было скучным, вы сможете пообщаться с экспертами компании, посмотреть последние митапы сообщества и познакомиться с представителями команд в неформальной обстановке.

+11

1.1K

severstal 19 мая в 15:28

Почему в «Северсталь Диджитал» сделали свою библиотеку для организации кода в машинном обучении и к чему это привело

Блог компании Северсталь IT-инфраструктура *Big Data *Машинное обучение *Управление продуктом *

Привет! Меня зовут Кирилл Трибунский, я ведущий разработчик отдела архитектуры и разработки “Северсталь Диджитал”. Сегодня я расскажу про нашу библиотеку Typed Blocks, задача которой — снизить порог входа в разработку с машинным обучением и избавить дата-сайентистов от рутины при переносе проектов в продуктив. Библиотека появилась на свет, как водится, через боль команд «Северсталь Диджитал» от решения однотипных задач при выводе кода в продакшен. Она позволяет разбивать код на независимые блоки и вести однотипную разработку вне зависимости от типа используемого транспорта. Статья, как и сама Typed Blocks, будет интересна дата-сайентистам, которые не хотят много кодить. А также программистам, неравнодушным к опциональной статической типизации в Python, которую вовсю использует Typed Blocks. Автор идеи и создатель библиотеки — Даниил Зубакин, за что ему большое спасибо!

Работаем!

1.7K

selesnow 19 мая в 11:00

Ускоряем dplyr: бекенды dtplyr, multidplyr и dbplyr (видео урок + конспект)

SQL *Data Mining *Big Data *R *Data Engineering *

Tutorial

dplyr один из наиболее популярных пакетов для языка R, основным преимуществом которого является удобочитаемый и понятный синтаксис. Из недостатков данного пакета можно отметить, что при работе с данными большого объёма он значительно уступает в скорости вычислений например data.table.

В этом видео уроке мы разберёмся с тем, как можно ускорить вычисления на dplyr, за счёт бекендов dtplyr и multidplyr, а так же узнаем о том, как и зачем можно использовать бекенд dbplyr, предназначенный для работы с базами данных.

354

Olga_Mokshina 18 мая в 11:19

Как улучшить архитектуру озера данных: два уровня прокачки

Блог компании VK Big Data *Хранилища данных *

Перевод

Lake city by arsenixc

Построение озера данных на основе облачных сервисов предполагает активное использование объектного хранилища S3. Команда VK Cloud Solutions перевела статью, которая раскрывает тонкости Cloud Native Data Lake.

Читать дальше →

+40

1.9K

virtual_explorer 17 мая в 16:47

Как ИИ помогает компаниям сократить расходы на хранение данных

Блог компании FirstVDS Big Data *Машинное обучение *Хранилища данных *Искусственный интеллект

Объем информации в мире продолжает расти в геометрической прогрессии. Согласно новому исследованию Statista, опубликованному 18 марта, общий объем данных, созданных в мире в 2020 году, составил 64,2 зеттабайта. То есть 64,2 триллиона гигабайт. И ожидается, что к 2025-му на планете будет создаваться уже по 180 зеттабайт данных в год.

Никаких физических накопителей на такое не хватит, учитывая, что сейчас у нас недостаточно даже чипов для видеокарт. Неудивительно, что траты на хранение и обработку данных постоянно растут. Это постепенно становится вопросом №1. В 2021 году объем рынка Big Data достиг $162,6 млрд — хотя в 2013-м он составлял $34 млрд.

Нужны новые технологии. Иначе проблемы с высокими эксплуатационными расходами, нехваткой емкостей для хранения и устаревшим оборудованием будут только усугубляться, и это поставит под вопрос развитие всей индустрии.

+11

1.3K

alimbekovR 17 мая в 10:53

Видео докладов потока Big Data. Конференция BeeTech 2.0

Блог компании Beeline Казахстан Big Data *Машинное обучение *Конференции Искусственный интеллект

Привет! Мы продолжаем публиковать видео с конференции BeeTech 2.0. Поток Engineering тут, Management тут.

В этой статье я поделюсь выступлениями спикеров потока Big Data. Вот ссылка на весь поток, внутри статьи ссылки на каждое видео с его описанием + презентация спикера.

Посмотреть видео

833

kucev 16 мая в 13:27

7 элементов продуманной стратегии развития ИИ: опыт Salesforce

Data Mining *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Искусственный интеллект перестал быть вотчиной исключительно крупных компаний. Он становится мейнстримом для бизнеса, однако, по словам президента и исполнительного директора Salesforce Брета Тейлора, успех способствует ему не всегда. Продуманная стратегия развития ИИ должна в первую очередь учитывать интересы клиента и чётко определять результаты для бизнеса, а ключевым аспектом для всего этого являются данные.

В своём докладе на конференции Scale TransformX 2021 Тейлор рассказал об основных вопросах, которые компании любого размера должны учитывать, чтобы выполнять задачи клиентов и достигать стабильных результатов.

В этой статье мы вкратце изложим семь основных выводов из презентации Тейлора. Более подробную информацию можно посмотреть в видео.

Читать дальше →

1.2K

kzzzr 13 мая в 20:03

Кто такой Analytics Engineer – E2E-решение с использованием bash + dbt + Looker

Блог компании OTUS Big Data *Data Engineering *

Привет! Меня зовут Артемий Козырь, и я Analytics Engineer в Wheely.

Мы могли бы долго и нудно обсуждать, кто такой Analytics (Data / Backend) Engineer, какими инструментами он должен владеть, какие buzzwords в тренде и ценятся в CV, однако, на мой взгляд, гораздо интереснее рассмотреть процесс и результаты его деятельности в рамках конкретной прикладной задачи.

В этой публикации: