Big Data as-a-Service

Cloud Big Data | Масштабируемый PaaS-сервис для анализа больших данных на базе Apache Hadoop, Apache Spark, ClickHouse, Storm, Kafka

Рассчитать стоимость

Облачный сервис для работы с большими данными

Замените дорогую и неэффективную локальную инфраструктуру обработки больших данных, которая нужна всего несколько часов в неделю, на мощную облачную инфраструктуру на основе Apache Hadoop, Apache Spark, ClickHouse.

BDaaS от Mail.ru Cloud Solutions

Простота и удобство

Автоматическое создание полностью настроенного и оптимизированного кластера обработки больших данных от 20 минут.
Cоздание нетиповых конфигураций кластера благодаря root-доступу к узлам и административному интерфейсу.
Управление кластером через веб-интерфейс, командную строку, API.
Гибкая масштабируемость вычислительных ресурсов и объема хранения — от пары до сотен серверов и обратно в один клик.
Оплата посекундно, за фактически потребленные облачные ресурсы, не нужно платить за RAM и CPU остановленных виртуальных машин.

Интеграция

С сервисами Mail.ru Cloud Solutions: S3-совместимым объектным хранилищем, виртуальными машинами, кластерами Kubernetes, вычислениями на базе GPU, облачными сервисами машинного обучения.
Приватная сеть с компонентами Hadoop и другими сервисами в вашей IT-системе для создания гибридного облака.
Легкая миграция приложений для Hadoop с аналогичных облачных решений, таких как Amazon AWS, Microsoft Azure, Google Cloud.

Надежность

Сервис создан на основе глубокой экспертизы команды Mail.ru Group в использовании Hadoop, Spark и ClickHouse.
Хранение данных строго на территории РФ в соответствии 152-ФЗ, в ЦОДах уровня TIER III, с тройной репликацией и непрерывным мониторингом безопасности.
Резервирование всех данных в трех дата-центрах.

Примеры использования резервного копирования

Конфигурация кластера

Выберите подходящий предустановленный шаблон

Hadoop

Для широкого спектра задач по обработке больших данных при помощи технологии MapReduce. Шаблон ориентирован на пакетную (batch) обработку данных.

Spark

Для параллельной обработки больших данных в памяти. Шаблон ориентирован на быструю обработку данных в режиме, близком к реальному времени.

Если вы опытный пользователь, вы можете задействовать собственную конфигурацию и установить нужные компоненты с помощью веб-интерфейса.

Компоненты, доступные на Mail.ru Cloud Big Data

Пакетная (batch) обработка данных

Hadoop

Spark

Аналитика/DWH

ClickHouse

Оркестрация/ETL

Airflow

NiFi

Аналитика визуализация

Jupyter Notebook

Apache Zeppelin

Потоковая (near real-time) обработка данных

Kafka

Storm

Spark

Долгосрочное хранение сотен петабайт данных

Объектное хранилище S3

HDFS

Машинное обучение и AI

Компьютерное зрение

Компьютерный слух

Сценарии использования

Бизнес-аналитика

Анализ операционной деятельности, предиктивная аналитика, Ad-Hoc аналитика и Data Mining.

Телекоммуникации

Customer 360, обработка CDR, предиктивная аналитика неполадок, оптимизация расходов

Ритейл и E-commerce

Анализ чеков, сегментация пользователей по действиям на сайте, управление складом и логистикой, диджитализация кол-центра

Производство

Мониторинг производительности, состояния оборудования, производственной безопасности

Финансы и банки

Онлайн и оффлайн скоринг, финансовый анализ, Fraud Detection

Транспорт

Анализ пассажиропотока и транспортной нагрузки

Примеры и схемы реализации

Рекомендательный движок

Е-commerce/ритейл/маркетинг

Анализ временных рядов

Банки/финансы

IoT в облаке

Промышленность/металлургия

Есть еще много сфер, в которых успешно можно использовать облачный сервис работы с большими данными:

ML/ИИ
Строительство/недвижимость
Медицина

HR/социология
Госсектор/налоговая
Логистика

Рассчитайте стоимость

Вопросы-ответы:

Какие модули поддерживаются?

HDFS, YARN, MapReduce2, Tez, Hive, HBase, Pig, ZooKeeper, Storm, Kafka, Spark2, Zeppelin Notebook, Sqoop, Oozie, Falcon, Flume, Accumulo, Ambari Infra, Ambari Metrics, Atlas, Knox, Log Search, Ranger, Ranger KMS, SmartSense, Spark, Druid, Kerberos, Mahout, Slider, Superset, Jupyter, Jupyter Hub, Airflow.

Вы можете создать кластер уникальной конфигурации для вашей задачи, подключив нужные модули.

Какой состав у шаблонов Hadoop, Spark, Airflow?

Модули	Шаблон
Модули	Hadoop	Spark	Airflow
Airflow			X
Ambari	X	X
HDFS	X	X
Hive	X	X
Jupyter		X
Livy		X
MapReduce2	X	X
Oozie	X	X
Pig	X	X
Slider	X
Spark2		X
Sqoop	X	X
Tez	X	X
YARN	X	X
Zeppelin		X
ZooKeeper	X	X

Подробнее о шаблонах

Что из себя представляют Apache Hadoop и Apache Spark?

Apache Hadoop и Apache Spark — платформы с открытым кодом для надежной и быстрой обработки огромных объемов слабоструктурированных данных из разнородных источников.

Вы можете использовать Hadoop для анализа «озер данных» (data lake), индексации веб-сайтов, финансового анализа, научных исследований. Spark оптимален для создания шины микросервисов и анализа в реальном времени, например — сегментации посетителей сайтов, fraud detection, мониторинга транспорта.

Что из себя представляет ClickHouse?

ClickHouse — СУБД с открытым кодом, позволяющая мгновенно выполнять аналитические запросы в режиме реального времени на структурированных больших данных. Способна обрабатывать более миллиарда строк и десятков ГБ данных на один сервер в секунду.

Не нашли ответ на свой вопрос?

Найдите его в документации

здесь есть ответы на большинство вопросов по настройке сервисов

Открыть документацию

Задайте его нам

через форму обратной связи, и мы оперативно ответим

Задать вопрос

Анализ временных рядов

Банки/финансы

Пример: Игра на финансовой бирже (торговые и арбитражные боты, перепродажа рекламы )

Источники данных:

потоковая загрузка (текущее состояние финансового рынка) и исторические данные (данные о подобных операциях, финансовые и квартальные отчеты и т.д.)

Человек не может быстро анализировать и сравнивать так много информации
На основе множественной информации бот может рекомендовать к покупке или продаже тех или иных акций (в некоторых случая принятие решения в автоматическом режиме)
Постоянное машинное обучение

Рекомендательный движок

Е-commerce/ритейл/маркетинг

Пример: На основе выбора покупателя предлагать сопутствующие товары «с этим товаром покупают»

Источники данных:

Клиентское поведение, просмотр товаров, аналитика о прошлых покупках, что покупали с этим товаром

Возможность пакетной и потоковой загрузкой
Машинное обучение по поведению покупателей
Анализ «допродаж»
Формирования спецпредложений, скидок и акций в зависимости от поведения
Обработка логов (игровая индустрия)

IoT в облаке

Промышленность/металлургия

Пример: IoT на производственных линиях, предиктивная аналитика

Источники данных:

Станки/роботы на линии передают информацию о своем состоянии оператору

На основе этой информации можно предупредить поломку оборудования, оптимизировать линию производства, понять загрузку каждого узла сборочной линии.
При анализе ретроспективной информации можно увидеть, например, что необходимо выбрать другие сверла/материалы/станки и т.д.