Команда VK Cloud перевела статью о том, почему возникают сбои в кластерах Kubernetes и как с ними бороться.
Осознанные прерывания и непреднамеренные сбои
Поды исчезают по причинам двух категорий: если возникает неустранимая ошибка аппаратного обеспечения или системы либо если их уничтожает человек или контроллер. Первую категорию необратимых ситуаций мы называем непреднамеренными сбоями приложения. Например:
- происходит сбой оборудования, на котором размещен узел;
- администратор кластера по ошибке удаляет (экземпляр) виртуальную машину;
- ВМ исчезает из-за сбоя в работе гипервизора или облачного провайдера;
- возникает критическая ошибка ядра;
- узел исчезает из кластера из-за сетевого раздела кластера;
- происходит выселение пода с ноды из-за отсутствия ресурсов на ней или превышения лимитов.
Примечание: Большинство этих событий неспецифичны для Kubernetes и должны быть знакомы пользователю, за исключением проблемы с отсутствием ресурсов на ноде.