В первый день вы познакомитесь с теорией SRE, научитесь настраивать мониторинг и алёртинг, а также объединитесь в команду с другими участниками интенсива.
Расскажем про метрики SLO, SLI, SLA и как они соотносятся с требованиями бизнеса. Поделимся Best Practices по настройке мониторинга и правилами для пожарной команды. Дадим первые практические кейсы.
Тема 1: Мониторинг - Зачем нужен мониторинг
- Symptoms vs Causes
- Black-Box vs White-Box Monitoring
- Golden Signals
- Перцентили
- Alerting
- Observability
- Практика: Делаем базовый дашборд и настраиваем необходимые алерты
Тема 2: Теория SRE - SLO, SLI, SLA
- Durability
- Error budget
- Практика: Добавляем на дашборд SLO/SLI + алерты
- Практика: Первая нагрузка системы
Практика, решение 1 кейса: зависимость downstream.
В большой системе существует много взаимозависимых сервисов, и не всегда они работают одинаково хорошо. Особенно обидно, когда с вашим сервисом порядок, а соседний, от которого вы зависите, периодически уходит в down.
Учебный проект окажется именно в таких условиях, а вы сделаете так, чтобы он все равно выдавал качество на максимально возможном уровне.
Тема 3: Управление инцидентами - Resiliencе Engineering
- Как выстраивается пожарная бригада
- Насколько ваша команда эффективна в инциденте
- 7 правил для лидера инцидента
- 5 правил для пожарного
- HiPPO — highest paid person's opinion. Communications Leader
Практика, решение 2 кейса: зависимость upstream.
Одно дело, когда вы зависите от сервиса с низким SLO. Другое дело, когда ваш сервис является таковым для других частей системы. Так бывает, если критерии оценки не согласованы: например, вы отвечаете на запрос в течение секунды и считаете это успехом, а зависимый сервис ждёт всего 500 мск и уходит с ошибкой.
В кейсе обсудим важность согласования метрик и научимся смотреть на качество глазами клиента.