Big Data *

Большие данные и всё о них

Большие данные и математические алгоритмы в руках коммерсанта

Блог компании М.Видео-ЭльдорадоАнализ и проектирование систем*Big Data*Машинное обучение*Data Engineering*

Вы когда-нибудь задумывались, почему на полках любых магазинов — от гипермаркетов электроники до гастрономов — стоят именно эти товары и именно в такой последовательности? А Категорийные Менеджеры (и дата-сайентисты, кстати) думают об этом постоянно. Сегодня мы расскажем, как в М.Видео-Эльдорадо использовали искусственный интеллект для заполнения полок и изучили потребности клиентов при управлении ассортиментом.

683

NowanIlfideme 17 августа в 09:45

Структура + предположения > ML? Моделирование продаж байесовскими методами

Блог компании EPAMPython*Big Data*Машинное обучение*Управление продажами*

Не так давно участвовал в проекте, где мы применяли методы байесовского моделирования для ритейлинговой сети. Тема непростая и интересная. Так как проект под NDA, решил на примере похожего гипотетического проекта показать, как мы решали поставленные перед нами задачи.

Также подробно расскажу об основах Байесовского моделирования. Ну и бонусом, тем кто дочитает до конца и захочет углубиться в эту тему – «куча» ссылок.

929

kzzzr 13 августа в 19:12

SQL на стероидах – 5 кейсов использования dbt + Jinja

Блог компании OTUSSQL*Big Data*Data Engineering*

SQL – это нескучно. С современными инструментами возможности языка кратно возросли. Мультитул для моделирования данных dbt, современные колоночные аналитические СУБД позволяют буквально творить с данными чудеса.

Меня зовут Артемий и я Analytics Engineer в компании Wheely. И сегодня я подготовил небольшой экскурс в реальные и интересные сценарии использования гибридного SQL

– Операции Pivot и Unpivot для табличных данных

– Генерирование суррогатного ключа и ключа конкатенации

– Гибкая фильтрация записей из таблиц-источников

– Автоматизация экспорта данных из Хранилища в S3

– Валютные курсы, Continuous Integration, Data Quality

1.9K

AliExpress_Russia 13 августа в 11:48

Как мы улучшали процесс загрузки товаров на AliExpress.ru: машинное обучение, проблемы и решения

Блог компании AliExpress РоссияАнализ и проектирование систем*Big Data*Машинное обучение*

Всем привет! Меня зовут Нина, я работаю в команде платформы для продавцов AliExpress. Сегодня я расскажу о том, как совместно с коллегами из команды Knowledge Engineering мы адаптировали систему для загрузки товаров, чтобы всё работало в пару кликов. Поехали!

+11

2.1K

kucev 13 августа в 11:30

Как организовать разметку данных для машинного обучения: методики и инструменты

Data Mining*Обработка изображений*Big Data*Машинное обучение*Краудсорсинг

Перевод

Если бы у data science существовал собственный зал славы, отдельную его часть нужно было бы посвятить разметке. Памятник отвечающим за разметку выглядел бы как атлант, держащий огромный камень, символизирующий их тяжелый и скрупулезный труд. Собственной стелы заслужила бы и база данных изображений ImageNet. За девять лет её контрибьюторы вручную разметили более 14 миллионов изображений. Даже представлять этот труд утомительно.

Хотя разметка и не является особо интеллектуальным трудом, она всё равно остаётся серьёзной проблемой. Разметка — неотъемлемый этап предварительной обработки данных для контролируемого обучения. Для этого стиля обучения моделей используются исторические данных с заранее заданными целевыми атрибутами (значениями). Алгоритм может находить целевые атрибуты, только если их указал человек.

Занимающиеся разметкой люди должны быть чрезвычайно внимательны, поскольку каждая ошибка или неточность отрицательно влияет на качество датасета и на общую производительность прогнозирующей модели.

Как получить высококачественный размеченный набор данных и не поседеть в процессе работы? Главной трудностью являются выбор ответственных за разметку, оценка необходимого для неё времени и подбор наиболее подходящих инструментов.

Читать дальше →

1.7K

Cloudera 13 августа в 10:14

Apache Ozone и узлы хранения данных высокой плотности

Блог компании ClouderaBig Data*Хранение данных*Хранилища данных*Hadoop*

Перевод

Сегодня специалисты по анализу корпоративных данных стремятся максимально эффективно использовать свои платформы. Хранилище данных играет одну из самых важных ролей, это основа для всех вычислительных механизмов и приложений. Еще один тренд - переход к горизонтально масштабируемой модели хранения, которая позволяет получить хранилища данных высокой плотности, обладающие также высокой надежностью, масштабируемостью и производительностью. Компании Cloudera и Cisco протестировали, насколько это реально, используя узлы хранения с высокой плотностью.

877

Nurked 13 августа в 02:30

UUID версии 7, или как не потеряться во времени при создании идентификатора

Системное программирование*Администрирование баз данных*Big Data*Хранение данных*Инженерные системы

В течение многих лет я противостоял засилью UUID как ключей в базах данных, но со временем и практикой до меня дошло. Они действительно удобны, когда речь идёт о распределённых системах. Генерировать новый идентификатор на разных концах планеты не так-то просто. Создание псевдослучайных идентификаторов решает эту проблему.

Хотя, подобные решения, не всегда хороши. В отличие от обыкновенных цифровых значений, которые легко кешировать и сортировать, UUID не так гибки в использовании. UUID версии 7 предназначен как раз для того, чтобы разобраться с подобными проблемами.

Добро пожаловать в мир сортированых UUID

+34

168

bsoo 12 августа в 18:52

Как приложения для точного земледелия помогают фермерам бороться с глобальным потеплением

Обработка изображений*Геоинформационные сервисы*Big Data*Экология

У современных фермеров сегодня миллион «умной» техники под рукой: дроны, датчики, бортовые компьютеры. Естественно, без мобильных и веб приложений тоже не обошлось. Все эти технологичные штуки делаются для того, чтобы повысить урожайность полей. Тем не менее, некоторые разработчики пошли дальше и помогают агробизнесам не только работать эффективно, но и экологично. Мы в OneSoil как раз работаем над таким приложением. Давайте посмотрим, что экологичного оно умеет делать.

1.2K

m31 12 августа в 14:30

DataScience Digest — 12.08.21

Python*Алгоритмы*Big Data*Машинное обучение*Искусственный интеллект

Приветствую всех!

Встречайте свежий выпуск дайджеста полезных материалов из мира Data Science & Machine Learning подготовленный командой Data Phoenix и не забывайте подписываться на наш Telegram-канал.

Напоминаю, что 17 августа буду проводить вебинар "The A-Z of Data: Introduction to MLOps". В его рамках мы рассмотрим, что такое MLOps, основные принципы и практики, лучшие инструменты и возможные архитектуры. Мы начнем с простого жизненного цикла разработки ML решений и закончим сложным, максимально автоматизированным, циклом, который нам позволяет реализовать MLOps. Детали и обязательная предварительная регистрация здесь.

1.2K

MaximML 11 августа в 12:01

Жизненный цикл ML-модели

Блог компании СитимобилBig Data*Машинное обучение*

Всем привет! Меня зовут Максим, и в Ситимобил я занимаюсь машинным обучением. Сегодня я расскажу вам, как мы разрабатываем устойчивые ML-модели в суровых условиях изменчивого мира.

Врууум

+18

2.6K

kucev 6 августа в 14:13

7 способов получить качественные размеченные данные для машинного обучения

Data Mining*Обработка изображений*Big Data*Машинное обучение*Краудсорсинг

Перевод

Наличие размеченных данных необходимо для машинного обучения, но получение таких данных — непростая и дорогостоящая задача. Мы рассмотрим семь способов их сбора, в том числе перепрофилирование, поиск бесплатных источников, многократное обучение на данных с постепенно повышающимся качеством, а также другие способы.

Любой data scientist знает, что необученная ML модель бесполезна. Без высококачественных размеченных данных для обучения контролируемое, обучение разваливается; при этом невозможно гарантировать, что модели смогут прогнозировать, классифицировать или каким-то иным образом анализировать интересующее нас явление с хоть какой-нибудь точностью.

При проведении контролируемого обучения (supervised learning) лучше не разрабатывать модель, если нет возможности найти подходящие данные для обучения. Даже если вы нашли подходящий набор обучающих данных, он не особо полезен, если его элементы не размечены, не снабжены метками и аннотациями для эффективного обучения алгоритма.

Читать дальше →

2.3K

mongohtotech 5 августа в 20:25

Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно

Облачные вычисления*Big Data*Машинное обучение*Google Cloud Platform*Data Engineering*

Tutorial

Рассказываем как перестать переживать о том, что вы не знаете Hadoop и вывести работу с данными в компании на новый уровень, как быстро и без больших затрат создать в аналитическое хранилище, наладить процессы загрузки туда данных, дать возможность аналитикам строить отчеты в современных BI инструментах и применять машинное обучение.

2.8K

m31 5 августа в 16:34

DataScience Digest — 05.08.21

Python*Алгоритмы*Big Data*Машинное обучение*Искусственный интеллект

Приветствую всех!

Также хочу пригласить всех 17 августа на свой вебинар "The A-Z of Data: Introduction to MLOps". В его рамках мы рассмотрим, что такое MLOps, основные принципы и практики, лучшие инструменты и возможные архитектуры. Мы начнем с простого жизненного цикла разработки ML решений и закончим сложным, максимально автоматизированным, циклом, который нам позволяет реализовать MLOps. Детали и обязательная предварительная регистрация здесь.

1.5K

mickey____mo 5 августа в 01:36

Автоматическое построение карт для курьеров и логистов из 1C

Поисковые технологии*Google API*Big Data*Google Cloud Platform*1С*

Из песочницы

Компания CoderSafe, на базе Google Map API разработало карту для маршрутизации и автоматического распределения заказов с целью эффективности для курьеров и сотрудников компании, тем самым экономить время и усилия.

-13

2.4K

MaxRokatansky 4 августа в 23:25

Amundsen — обнаружение данных на основе механизма метаданных от Lyft

Блог компании OTUSBig Data*

Перевод

В этой статье я хочу представить вам проект Amundsen, его цели и конечных пользователей. Чтобы узнать больше о его технической архитектуре, читайте следующую статью.

Для того чтобы повысить продуктивность дата-сайентистов и научных работников в Lyft, мы решили разработать приложение для обнаружения данных, построенное на основе механизма метаданных. С помощью проекта под кодовым названием Amundsen (в честь норвежского исследователя Роальда Амундсена) мы повышаем продуктивность пользователей наших данных, предоставляя интерфейс поиска данных, который выглядит примерно так:

629

kzzzr 4 августа в 18:14

Формируем реляционную модель из schemaless базы данных MongoDB

Блог компании OTUSNoSQL*MongoDB*Big Data*Data Engineering*

MongoDB – одна из самых популярных документ-ориентированных баз данных класса NoSQL с большим сообществом пользователей. Ее основными преимуществами являются гибкость схемы хранения, иерархическая структура документов, поддержка расширенного набора типов данных. Сегодня MongoDB чаще всего используется как бэкенд веб- и мобильных приложений.

Казалось бы, зачем может потребоваться извлекать схему данных в schemaless database? Однако это может быть крайне полезно и в некоторых ситуациях абсолютно необходимо:

• Репликация данных в аналитическое хранилище

• Интерактивная аналитика из BI-инструментов (SQL)

• Аудит имеющейся структуры БД

В этой публикации я хотел бы показать простой и удобный способ получения схемы хранения данных, даже при наличии сотен коллекций и миллионов документов в MongoDB.

1.2K

Semigin_ups 3 августа в 12:54

Отказоустойчивость бесперебойных систем модульной архитектуры: «CENTIEL» и «EATON»

IT-инфраструктура*Big Data*Хранение данных*ГаджетыЭнергия и элементы питания

Из песочницы

Среди всего многообразия систем бесперебойного питания самыми надежными принято считать «on-line» системы с модульной архитектурой. В чём же их преимущества?

Узнать подробнее.

-6

849

Syurmakov 29 июля в 21:11

Дайджест новостей искусственного интеллекта и машинного обучения за июль

Data Mining*Big Data*Машинное обучение*Искусственный интеллект

Привет, Хабр! Давно не виделись.

Отфильтровав для вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта за июнь. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Итак, а теперь дайджест за июнь:

1. Прошли успешные испытания первого нейроимпланта, превращающего мысли в слова

Прочитать весь дайджест

4.4K

m31 29 июля в 13:38

DataScience Digest — 29.07.21

Python*Алгоритмы*Big Data*Машинное обучение*Искусственный интеллект

1.4K

solarwind 29 июля в 13:15

Как автоматизировать администрирование Hadoop, чтобы не было мучительно больно

Блог компании МТСВысокая производительность*Big Data*Hadoop*Data Engineering*

Привет, Хабр! Меня зовут Александр Черемухин, я тимлид администраторов Hadoop в Big Data МТС. Мы прошли довольно длинный эволюционный путь в автоматизации администрирования и хотелось бы им поделиться с сообществом. Возможно наш опыт пригодится и другим специалистам, работающим с Hadoop.

+10

1.8K

2 3 ...

49 50

Big Data *

Большие данные и математические алгоритмы в руках коммерсанта

Новости

Структура + предположения > ML? Моделирование продаж байесовскими методами

SQL на стероидах – 5 кейсов использования dbt + Jinja

Как мы улучшали процесс загрузки товаров на AliExpress.ru: машинное обучение, проблемы и решения

Как организовать разметку данных для машинного обучения: методики и инструменты

Apache Ozone и узлы хранения данных высокой плотности

UUID версии 7, или как не потеряться во времени при создании идентификатора

Как приложения для точного земледелия помогают фермерам бороться с глобальным потеплением

DataScience Digest — 12.08.21

Жизненный цикл ML-модели

7 способов получить качественные размеченные данные для машинного обучения

Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно

DataScience Digest — 05.08.21

Автоматическое построение карт для курьеров и логистов из 1C

Amundsen — обнаружение данных на основе механизма метаданных от Lyft

Формируем реляционную модель из schemaless базы данных MongoDB

Отказоустойчивость бесперебойных систем модульной архитектуры: «CENTIEL» и «EATON»

Дайджест новостей искусственного интеллекта и машинного обучения за июль

DataScience Digest — 29.07.21

Как автоматизировать администрирование Hadoop, чтобы не было мучительно больно

Вклад авторов

Ваш аккаунт

Разделы

Информация

Услуги