Решения для хранения и обработки больших данных в облаке на базе Hadoop, Spark, Kafka, ClickHouse; облачные сервисы для Big Data

Облачный сервис для работы с большими данными

Замените дорогую и неэффективную локальную инфраструктуру обработки больших данных, которая нужна всего несколько часов в неделю, на мощную облачную инфраструктуру на основе Hadoop, Spark, ClickHouse.

01

Полностью настроенный
кластер за 15 минут

02

Любые мощности
доступны для запуска

03

Оплата только
за фактическое потребление

04

Гарантируем доступность
сервиса с SLA 99,95%

Предоставляем в двух вариантах

Обычный PaaS

Доступные Self-Service решения для всего цикла обработки данных, от DevOps до аналитики: полный набор компонентов для любых задач

Экосистема решений

Набор Enterprise-ready масштабируемых облачных сервисов для хранения, обработки и анализа данных: строим платформу Big Data под ваши задачи

на 5%

сократили
излишние запасы товаров
в магазинах

на 2%

увеличили
выручку от продаж

Читайте, как «Ашан» построили конвейер для всех уровней работы с Big Data в публичном облаке VK Cloud Solutions

Общий объем данных, загруженных в Big Data Platform на базе VK Cloud Solutions, уже сейчас превышает 40 ТБайт, а к концу 2022 года компания прогнозирует его увеличение до 120 ТБайт.

Сейчас на базе платформы в промышленной эксплуатации работает решение для прогнозирования спроса, которое позволило на 2% увеличить выручку от продаж и на 5% сократить излишние запасы товаров в магазинах.

Подробнее

На чем основаны наши решения?

Более 20 лет опыта VK в обработке миллионов пользовательских данных
Экспертность в построении собственных платформ для хранения и обработки данных: S3-совместимого хранилища VK Cloud Storage, in-memory платформы Tarantool
Расширение экосистемы решений технологиями партнеров-экспертов в области работы с данными

Выберите подходящий вам вариант Cloud Big Data

Hortonworks

На базе Hortonworks Data Platform и Hortonworks DataFlow. Построено с использованием полностью бесплатных OpenSource-технологий.

Включает сборки для оркестрации с Airflow
Цена зависит от выбранных CPU, RAM и размера диска
Без оплаты лицензий

Arenadata Hadoop

На базе Arenadata Hadoop, дистрибутива Hadoop российской компании-разработчика платформы сбора и обработки данных. Максимально приближено к апстрим-версии Hadoop.

Доступен Hadoop 3 как сервис
Цена зависит только от размера диска, количество ядер не влияет на стоимость решения
Версия Enterprise дает больше функциональности на уровне политик доступа, а также это решение для High Availability с автоматическим поднятием после падения
Бесплатный тест Enterprise-версии до 3 месяцев

Готовые сборки с учетом лучших практик VK

Мы подготовили для вас готовые сборки для решения наиболее частотных задач всего цикла работы с данными.

Если вы опытный пользователь, вы можете задействовать собственную конфигурацию и установить нужные компоненты с помощью веб-интерфейса.

Spark 2

Zeppelin

Data Science

Позволит Data Science- и Data Engineer-специалистам извлекать, анализировать неструктурированные или плохо структурированные данные и создавать на их базе прогнозы. Сборка включает в себя все необходимые технологии, связанные с анализом данных и поиском лучших решений на их основе.

Hive

YARN

Zeppelin

EDW Analytics

Сборка позволит создать Data Lake на базе технологий Hadoop. Особенность сборки — возможность хранения неструктурированных данных до нескольких Пбайт.

Hive

Spark 2

Airflow

EDW + ETL

Позволит создать корпоративные хранилища данных (Enterprise Data Warehouses, EDW) и Data Lake на базе технологий Hadoop. Вы сможете хранить неструктурированные данные до десятков Пбайт, проводить извлечение, преобразование и загрузку данных (ETL), поступающих из разных источников.

Spark 2

Zeppelin

Data Science + GPU

Сборка аналогична Data Science, но поддерживает высокопроизводительные вычисления (HPC). Обеспечивает значительное улучшение производительности и скорости обучения нейросетей для машинного обучения, рассчитано на моделирование с помощью Spark 2 и Zeppelin.

Ambari

Airflow

ETL-инструмент для оркестрации пайплайнов. Инструментом управления выступает Ambari. Сборка позволит создавать, мониторить и оркестрировать Big Data-пайплайны.

Apache NiFi

Apache Storm

Apache Kafka

DataFlow

Сборка Hortonworks для потоковой передачи данных на базе Apache NiFi. Включает Apache Storm и Apache Kafka.

Ambari

Spark 2

Zeppelin

Spark

Big Data-фреймворк с открытым исходным кодом для распределенной пакетной и потоковой обработки данных, входящий в экосистему проектов Hadoop. Cборка включает Ambari для управления процессами и Zeppelin для анализа, обработки и визуализации данных.

Новые возможности Hadoop 3 в сборках Arenadata

Эффективность хранения выше на 50%

Erasure Coding сохранит данные

Масштабирование до 100 тысяч узлов

Добавлена YARN Federation

Больше контроля над дисками

Работа с новыми ресурсами

Работает на Java 8

Теперь с Java Developers Kit 8

Улучшена работа с памятью

Для высоконагруженных приложений

Компоненты, доступные в рамках VK Cloud Big Data

Hadoop

Spark

Пакетная (batch) обработка данных

ClickHouse

Greenplum

Аналитика/DWH

Airflow

NiFi

Оркестрация/ETL

Jupyter

Zeppelin

Аналитика и визуализация

Kafka

Spark

Потоковая (near real-time) обработка данных

S3 Storage

HDFS

Долгосрочное хранение сотен петабайт данных

Vision

Voice

Машинное обучение и AI

Примеры и схемы реализации

Аналитическая
платформа

Открыть схему

DWH
в облаке

Открыть схему

Рекомендательный
движок

Открыть схему

IoT
в облаке

Открыть схему

Универсальная аналитическая платформа в облаке. Как «Ашан» построили конвейер для всех уровней работы с Big Data в публичном облаке VK Cloud Solutions на основе аналогичной архитектуры, читайте по ссылке.

Оркестрация потоков данных производится с помощью Airflow или NiFi. Оба инструмента можно использовать как сервис в VK Cloud Solutions.Основное DWH предлагаем строить на базе ADB/Greenplum. Данная сисема доступна по модели aaS в VK Cloud Solutions.
Витрины данных можно вынести в Clickhouse для ускорения доступа и снижения нагрузки на основную базу DWH, либо оставить внутри Arenadata DB.
Вместо Arenadata DN для DWH.Также можно использовать Hadoop. Однако мы рекомендуем выбрать ADB, так как в этом случае вы можете описывать все трансформации в рамках ETL процессов, используя SQL.

Arenadata DB — это enterpise-ready решение, создавшееся под OLAP нагрузки и задачи DWH. В то время как Hadoop обычно больше подходит для решения задач Data Lake. Также используя S3, мы получаем экономически эффективную альтернативу HDFS, где нам не нужно беспокоиться о размере кластера, сайзинге, обслуживании кластера Hadoop.
Выбрав NiFi, вам будет доступен удобный UI для построения/изменения потоков данных.

Пример: на основе выбора покупателя предлагать сопутствующие товары «с этим товаром покупают».

Источники данных: клиентское поведение, просмотр товаров, аналитика о прошлых покупках, что покупали с этим товаром.

Возможность пакетной и потоковой загрузки
Машинное обучение по поведению покупателей
Анализ «допродаж»
Формирование спецпредложений, скидок и акций в зависимости от поведения
Обработка логов (игровая индустрия)

Пример: IoT на производственных линиях, предиктивная аналитика.

Источники данных: станки/роботы на линии передают информацию о своем состоянии оператору.

На основе этой информации можно предупредить поломку оборудования, оптимизировать линию производства, понять загрузку каждого узла сборочной линии. При анализе ретроспективной информации можно увидеть, например, что необходимо выбрать другие сверла/материалы/станки и т. д.

Рассчитайте стоимость

3 000 ₽
на тестирование сервиса

После активации аккаунта мы свяжемся с вами и начислим 3000 рублей на ваш счет VK Cloud Solutions, чтобы вы смогли протестировать сервис.

Уточните у нас

Если у вас остались вопросы или нужен индивидуальный расчет, оставьте заявку на консультацию.

FAQ

На базе каких технологий работает VK Cloud Big Data?

В рамках сервиса доступно несколько сборок, которые вы можете использовать на ваш выбор: на базе Hortonworks Data Platform и Hortonworks DataFlow — построено с использованием полностью бесплатных OpenSource-технологий, а также на базе Arenadata Hadoop, дистрибутива Hadoop российской компании-разработчика платформ сбора и обработки данных. Продукт Arenadata максимально приближен к апстрим-версии Hadoop.

Все предоставляемые решения — на базе OpenSource и исключают ситуацию vendor lock-in. Вы всегда сможете перейти на ванильный Apache Hadoop, если этого потребуют ваши задачи.

Что гарантирует провайдер?

Провайдер отвечает за доступность сервиса финансовыми гарантиями, SLA 99,95%. В нашу зону ответственности входит вся IT-инфраструктура, хостинг решения и администрирование, обеспечение высокой доступности и соответствия требованиям, а вы управляете данными и извлекаете из них пользу.

От чего зависит стоимость сервиса?

Сервис VK Cloud Big Data тарифицируется в зависимости от используемой сборки, но в любом случае вы платите только за используемые ресурсы (и лицензии при использовании Arenadata Hadoop), а также диски в случае остановленных кластеров.

Стоимость использования сборок на базе Hortonworks Data Platform и Hortonworks DataFlow можно посчитать в калькуляторе, она зависит от выбранных CPU, RAM и размера диска. Цена не включает дорогостоящих лицензий сторонних вендоров, так как мы используем полностью OpenSource-сборки Hortonworks до их покупки компанией Cloudera — вы платите только за используемые облачные ресурсы.

В сборках на основе Arenadata Hadoop каждый кластер Big Data тарифицируется только по количеству дискового пространства в кластере, количество ядер не влияет на стоимость решения. Расчет производится при создании кластера: учитывается версия Arenadata Hadoop (на платформе доступны версии Standard, Enterprise и Enterprise Trial) и размер диска. При включении сборки вы начинаете оплачивать лицензию в формате PAYG (по факту потребления ресурсов).

Комплексные проекты на базе VK Data Platform обсуждаются отдельно и рассчитываются в зависимости от используемых сервисов облака и проводимых кастомизаций.

Также возможно вынесение сервиса в сегмент, соответствующий 152-ФЗ. Запросите расчет по использованию сервиса в сегменте 152-ФЗ.

Как я могу бесплатно протестировать сервис?

Вы можете протестировать любой из сервисов VK Cloud Solutions, который самостоятельно подключается в личном кабинете и не подразумевает оплаты сторонних лицензий, в объеме бонусных 3000 рублей. Бонусы выдаются новым пользователям платформы после полной верификации аккаунта.

Полученные бонусы можно использовать для тестирования сервиса Big Data в сборках Hortonworks. Если вы хотите протестировать сборки на основе Arenadata Hadoop, вы можете запросить доступ к версии Enterprise Trial через форму на этой странице.

Какую сборку сервиса лучше выбрать?

Зависит от ваших задач. Некоторые сборки, к примеру, для задач оркестрации это Airflow, доступны на платформе отдельно без выбора провайдера на основе полностью бесплатной OpenSource-версии, оплачиваются только облачные ресурсы. В то время как сборки Hadoop-стека есть в версии от Hortonworks и Arenadata.

Кроме поддерживаемых диструбитивов, сборки отличаются некоторыми другими особенностями. Если вам важен быстрый доступ к Hadoop без оплаты дополнительных лицензий, вы можете выбрать сборку Hortonworks или попробовать Enterprise Trial сборки Arenadata. Если нужно больше функциональности на уровне политик доступа, а также это решение для High Availability с автоматическим поднятием после падения, мы рекомендуем рассмотреть Enterprise-версию Arenadata Hadoop.

Чем отличаются версии Hadoop-дистрибутива от Arenadata?

Ниже можно ознакомиться с полным списком поддерживаемых компонентов Arenadata Hadoop. Основные отличия версии Enterprise связаны с настройками безопасности и функциональностью для высоких нагрузок, а также возможностью автомасштабирования. Также в Enterprise-версии включено обучение от компании Arenadata.

Airflow

Map Reduce History Server

Hbase Master Server

Hbase Region Server

Hbase Phoenix Query Server

Hbase Thrift Server

Hive Client

Hive Server

Hive Metastore

Hive Tez, Hive Tez UI

HDFS Name Node

HDFS Secondary Name Node

HDFS Data Node

Spark Client

Spark History Server

Spark Livy

Spark Thrift Server

MySQL Master Server

YARN Node Manager

YARN Resource Manager

YARN Timeline Server

Zookeeper Server

Zeppelin Server

Apache Flink

Solr Server

Solr Engine

Sqoop Server

Knox Server

Kerberos config

Какие компоненты поддерживаются в Cloud Big Data?

HDFS, YARN, MapReduce2, Tez, Hive, HBase, Pig, ZooKeeper, Kafka, Spark2, Zeppelin Notebook, Sqoop, Flume, Ambari, Atlas, Knox, Ranger, Ranger KMS, Spark, Kerberos, Jupyter, Jupyter Hub, Airflow.

Вы можете создать кластер уникальной конфигурации для вашей задачи, подключив нужные компоненты.

Что из себя представляют Apache Hadoop и Apache Spark?

Apache Hadoop и Apache Spark — платформы с открытым кодом для надежной и быстрой обработки огромных объемов слабоструктурированных данных из разнородных источников.

Вы можете использовать Hadoop для анализа «озер данных» (Data Lake), индексации веб-сайтов, финансового анализа, научных исследований. Spark оптимален для создания шины микросервисов и анализа в реальном времени, например — сегментации посетителей сайтов, обнаружения мошенничества, мониторинга транспорта.

Что из себя представляет ClickHouse?

ClickHouse — СУБД с открытым кодом, позволяющая мгновенно выполнять аналитические запросы в режиме реального времени на структурированных больших данных. Способна обрабатывать более миллиарда строк и десятков ГБ данных на один сервер в секунду.

Что такое VK Data Platform и какие компоненты входят в нее, кроме сервиса Big Data?

VK Data Platform — это экосистема масштабируемых облачных сервисов для хранения, обработки и анализа больших данных. Она включает в себя современные инструменты для легкой работы с данными на основе таких платформ как:

Hadoop, Spark 1/2, Kafka; Airflow, NiFi (в рамках сервиса VK Cloud Big Data),
набор Managed-баз данных, в том числе аналитических — ClickHouse и Arenadata DB на основе Greenplum (сервис VK Cloud Databases),
S3-совместимое объектное хранилище как альтернатива HDFS для надежного хранения (сервис VK Cloud Storage),
Kubernetes с функцией автомасштабирования для построения аналитических пайплайнов и реализации современного подхода к работе с данными MLOps (сервис VK Cloud Containers),
высокопроизводительные GPU для любых “тяжелых” задач, в том числе обучения нейросетей (сервис VK Cloud GPU),
среды разработки для Data Scientists и инженеров данных на базе Jupyter и Zeppelin Notebooks, готовое API компьютерного зрения (сервис VK Cloud Machine Learning).

Платформа может быть использована в рамках публичного, частного или гибридного облака. Возможно размещение в сегменте с полным соответствием 152-ФЗ для обработки персональных данных. Платформа может быть использована для применений в области интернета вещей (IoT) и в таком случае включает в себя технологии сбора, обработки и анализа данных в режиме реального времени, управления устройствами и машинным обучением (промышленная платформа интернета вещей VK IoT Platform).