indmitriev 6 мар в 10:41

Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы

Средний

10 мин

3.3K

Блог компании VKБлог компании СберХранение данных*Хранилища данных*Hadoop*

Кейс

+16

Комментарии 6

Dhwtj 6 мар в 14:11

Разделение Compute и Storage это случаем не CQRS?

indmitriev 6 мар в 15:01

Нет. В статье описан подход к разделению монолитного Hadoop на независимые системы хранения и вычисления.

igtor 7 мар в 17:17

хм, может "не догнал". Можно по подробней про самое деление данных на хранение и для вычислений? Как реализовано, ведь в аналитике может внезапно потребоваться совершенно неожиданный набор данных.

indmitriev 7 мар в 17:31

Мы у себя разделили не наборы данных, а сами компоненты хранения и вычисления в Hadoop. Хранение перенесли в Apache Ozone, а вычисление в Spark on k8s. Тегирование данных в данной статье не рассматривалось.

miksoft 24 мая в 00:03

Поясните, пожалуйста, как 5% просадка производительности привела к сокращению количества стоек в 4 раза?

indmitriev 24 мая в 09:44

В отличии от hadoop, рекомендуемый объем одного узла для Ozone больше. 500Тб против 100Тб у hadoop. Отсюда и выйгрыш по количеству стоек. Интегральная производительсть чтения при этом проседает всего на 5%.

Разработчики Ozone заявляют, что озон сохраняет высокие показатели производитедьности чтения, и при узлах объемом до 1Пб. Но мы такой сценарий не тестировали.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий