Получить консультацию Документация Блог Стать партнёром

Вход

Мой аккаунт

Выход

Big Data as-a-Service

Cloud Big Data | Масштабируемый PaaS-сервис для анализа больших данных на базе Apache Hadoop, Apache Spark, ClickHouse, Storm, Kafka

Рассчитать стоимость

Облачный сервис для работы с большими данными

Замените дорогую и неэффективную локальную инфраструктуру обработки больших данных, которая нужна всего несколько часов в неделю, на мощную облачную инфраструктуру на основе Apache Hadoop, Apache Spark, ClickHouse.

BDaaS от Mail.ru Cloud Solutions

Простота и удобство

Автоматическое создание полностью настроенного и оптимизированного кластера обработки больших данных от 20 минут.
Cоздание нетиповых конфигураций кластера благодаря root-доступу к узлам и административному интерфейсу.
Управление кластером через веб-интерфейс, командную строку, API.
Гибкая масштабируемость вычислительных ресурсов и объёма хранения — от пары до сотен серверов и обратно в один клик.
Оплата посекундно, за фактически потребленные облачные ресурсы, не нужно платить за RAM и CPU остановленных виртуальных машин.

Интеграция

С сервисами Mail.ru Cloud Solutions: S3-совместимым объектным хранилищем, виртуальными машинами, кластерами Kubernetes, вычислениями на базе GPU, облачными сервисами машинного обучения.
Приватная сеть с компонентами Hadoop и другими сервисами в вашей IT-системе для создания гибридного облака.
Лёгкая миграция приложений для Hadoop с аналогичных облачных решений, таких как Amazon AWS, Microsoft Azure, Google Cloud.

Надежность

Сервис создан на основе глубокой экспертизы команды Mail.ru Group в использовании Hadoop, Spark и ClickHouse.
Хранение данных строго на территории РФ в соответствии 152-ФЗ, в ЦОДах уровня TIER III, с тройной репликацией и непрерывным мониторингом безопасности.
Резервирование всех данных в трёх дата-центрах.

Примеры использования резервного копирования

Конфигурация кластера

Выберите подходящий предустановленный шаблон

Hadoop

Для широкого спектра задач по обработке больших данных при помощи технологии MapReduce. Шаблон ориентирован на пакетную (batch) обработку данных.

Spark

Для параллельной обработки больших данных в памяти. Шаблон ориентирован на быструю обработку данных в режиме, близком к реальному времени.

Если вы опытный пользователь, вы можете задействовать собственную конфигурацию и установить нужные компоненты с помощью веб-интерфейса.

Компоненты, доступные на Mail.ru Cloud Big Data

Пакетная (batch) обработка данных

Hadoop

Spark

Аналитика/DWH

ClickHouse

Оркестрация/ETL

Airflow

NiFi

Аналитика визуализация

Jupyter Notebook

Apache Zeppelin

Потоковая (near real-time) обработка данных

Kafka

Storm

Spark

Долгосрочное хранение сотен петабайт данных

Объектное хранилище S3

HDFS

Машинное обучение и AI

Компьютерное зрение

Компьютерный слух

Сценарии использования

Бизнес-аналитика

Анализ операционной деятельности, предиктивная аналитика, Ad-Hoc аналитика и Data Mining.

Телекоммуникации

Customer 360, обработка CDR, предиктивная аналитика неполадок, оптимизация расходов

Ритейл и E-commerce

Анализ чеков, сегментация пользователей по действиям на сайте, управление складом и логистикой, диджитализация кол-центра

Производство

Мониторинг производительности, состояния оборудования, производственной безопасности

Финансы и банки

Онлайн и оффлайн скоринг, финансовый анализ, Fraud Detection

Транспорт

Анализ пассажиропотока и транспортной нагрузки

Примеры и схемы реализации

Рекомендательный движок

Е-commerce/ритейл/маркетинг

Анализ временных рядов

Банки/финансы

IoT в облаке

Промышленность/металлургия

Есть еще много сфер, в которых успешно можно использовать облачный сервис работы с большими данными:

ML/ИИ
Строительство/недвижимость
Медицина

HR/социология
Госсектор/налоговая
Логистика

Рассчитайте стоимость

Вопросы-ответы:

Какие модули поддерживаются?

HDFS, YARN, MapReduce2, Tez, Hive, HBase, Pig, ZooKeeper, Storm, Kafka, Spark2, Zeppelin Notebook, Sqoop, Oozie, Falcon, Flume, Accumulo, Ambari Infra, Ambari Metrics, Atlas, Knox, Log Search, Ranger, Ranger KMS, SmartSense, Spark, Druid, Kerberos, Mahout, Slider, Superset, Jupyter, Jupyter Hub, Airflow.

Вы можете создать кластер уникальной конфигурации для вашей задачи, подключив нужные модули.

Какой состав у шаблонов Hadoop, Spark, Airflow?

Модули	Шаблон
Модули	Hadoop	Spark	Airflow
Airflow			X
Ambari	X	X
HDFS	X	X
Hive	X	X
Jupyter		X
Livy		X
MapReduce2	X	X
Oozie	X	X
Pig	X	X
Slider	X
Spark2		X
Sqoop	X	X
Tez	X	X
YARN	X	X
Zeppelin		X
ZooKeeper	X	X

Подробнее о шаблонах

Что из себя представляют Apache Hadoop и Apache Spark?

Apache Hadoop и Apache Spark — платформы с открытым кодом для надежной и быстрой обработки огромных объемов слабоструктурированных данных из разнородных источников.

Вы можете использовать Hadoop для анализа «озер данных» (data lake), индексации веб-сайтов, финансового анализа, научных исследований. Spark оптимален для создания шины микросервисов и анализа в реальном времени, например — сегментации посетителей сайтов, fraud detection, мониторинга транспорта.

Что из себя представляет ClickHouse?

ClickHouse — СУБД с открытым кодом, позволяющая мгновенно выполнять аналитические запросы в режиме реального времени на структурированных больших данных. Способна обрабатывать более миллиарда строк и десятков ГБ данных на один сервер в секунду.