Экспресс-курс «Алгоритмы: roadmap для работы и собеседований»
Close
Подписка на новости Слёрм
Должность
«Другая» должность
«Я согласен(на) с Политикой Конфиденциальности Слёрм и предоставляю Согласие на обработку персональных данных»
SRE: внедряем DevOps от Google
Пятый интенсив 27-29 мая 2022 года
Консультация с менеджером
Вместо списка требований к участникам, обсудим ваши цели и текущие знания. Обучение платное.
«Я согласен(на) с Политикой Конфиденциальности Слёрм и предоставляю Согласие на обработку персональных данных»
4
Интенсива провели для одиночных участников и небольших команд
307
Разработчика и инженера эксплуатации прошли обучение
8.5
Средняя оценка участниками за все интенсивы
Кому полезно
Людям
SRE-инженером может стать, как инженер эксплуатации, так и разработчик. И неважно: читали книжку от Google или нет. Интенсив больше практический. Спикеры проведут по своему пути внедрения SRE на проекте, захватывая частые кейсы-грабли.
Бизнесу
SRE решает те же проблемы, что и DevOps: увеличивает скорость выхода новых фич и налаживает процессы в команде. Но основная задача SRE – обеспечить стабильность и надежность работы сервисов, исключая ситуации, когда пользователи жалуются на сбои, а у инженеров «графики зеленые».
Компетенции после курса
SRE-инженеров и команд
Формулирую показатели SLO, SLI, SLA, разрабатываю архитектуру и инфраструктуру, которая их обеспечит, настраиваю мониторинг и алёртинг.
Создаём продукт который работает, обновляется и приносит деньги компании.
Разбираюсь, как «подстелить соломку» – подстроить систему, чтобы в случае плохого коммита не отвалилась вся система.
Согласовываем метрики с бизнесом и следим за влиянием сервисов друг на друга, а также на финансовые показатели.
Организую работу команды для решения инцидентов с учётом критичности алерта, влияния на аптайм сервисов и бизнеса в целом.
Не ищем виноватых, а разбираем процессы и работаем над их улучшением.
Компетенции после курса
SRE-инженеров и команд
Формулирую показатели SLO, SLI, SLA, разрабатываю архитектуру и инфраструктуру, которая их обеспечит, настраиваю мониторинг и алёртинг.
Разбираюсь, как «подстелить соломку» – подстроить систему, чтобы в случае плохого коммита не отвалилась вся система.
Организую работу команды для решения инцидентов с учётом критичности алерта, влияния на аптайм сервисов и бизнеса в целом.
Создаём продукт который работает, обновляется и приносит деньги компании.
Согласовываем метрики с бизнесом и следим за влиянием сервисов друг на друга, а также на финансовые показатели.
Не ищем виноватых, а разбираем процессы и работаем над их улучшением.
Программа
День 1: знакомство с теорией SRE, настройка мониторинга и алёртинга (с 10:00 до 18:00)
В первый день вы познакомитесь с теорией SRE, научитесь настраивать мониторинг и алёртинг, а также объединитесь в команду с другими участниками интенсива.

Расскажем про метрики SLO, SLI, SLA и как они соотносятся с требованиями бизнеса. Поделимся Best Practices по настройке мониторинга и правилами для пожарной команды. Дадим первые практические кейсы.

Тема 1: Мониторинг
  • Зачем нужен мониторинг
  • Symptoms vs Causes
  • Black-Box vs White-Box Monitoring
  • Golden Signals
  • Перцентили
  • Alerting
  • Observability
  • Практика: Делаем базовый дашборд и настраиваем необходимые алерты

Тема 2: Теория SRE
  • SLO, SLI, SLA
  • Durability
  • Error budget
  • Практика: Добавляем на дашборд SLO/SLI + алерты
  • Практика: Первая нагрузка системы

Практика, решение 1 кейса: зависимость downstream.
В большой системе существует много взаимозависимых сервисов, и не всегда они работают одинаково хорошо. Особенно обидно, когда с вашим сервисом порядок, а соседний, от которого вы зависите, периодически уходит в down.
Учебный проект окажется именно в таких условиях, а вы сделаете так, чтобы он все равно выдавал качество на максимально возможном уровне.

Тема 3: Управление инцидентами
  • Resiliencе Engineering
  • Как выстраивается пожарная бригада
  • Насколько ваша команда эффективна в инциденте
  • 7 правил для лидера инцидента
  • 5 правил для пожарного
  • HiPPO — highest paid person's opinion. Communications Leader

Практика, решение 2 кейса
: зависимость upstream.
Одно дело, когда вы зависите от сервиса с низким SLO. Другое дело, когда ваш сервис является таковым для других частей системы. Так бывает, если критерии оценки не согласованы: например, вы отвечаете на запрос в течение секунды и считаете это успехом, а зависимый сервис ждёт всего 500 мск и уходит с ошибкой.
В кейсе обсудим важность согласования метрик и научимся смотреть на качество глазами клиента.
День 2: решение проблем с окружением и архитектурой (с 10:00 до 18:00)
Второй день практически полностью построен вокруг решения двух кейсов: проблемы с окружением (здесь будет подробный разбор Health Checking) и проблемы с архитектурой. Спикеры расскажут про работу с постмортерами (post mortem) и дадут шаблоны, которые вы сможете использовать в своей команде.

Тема 4: Health Checking

  • Health Check в Kubernetes
  • Жив ли наш сервис?
  • Exec probes
  • InitialDelaySeconds
  • Secondary Health Port
  • Sidecar Health Server
  • Headless Probe
  • Hardware Probe

Практика, решение 3 кейса:
проблема с окружением, билеты купить невозможно.
Задача Healthcheck — обнаружить неработающий сервис и заблокировать трафик к нему. И если вы думаете, что для этого достаточно сделать рутом запрос к сервису и получить ответ, то вы ошибаетесь: даже если сервис ответит, это не гарантирует его работоспособность — проблемы могут быть в окружении.
Через этот кейс вы научитесь настраивать корректный Healthcheck и не пускать трафик туда, где он не может быть обработан.

Тема 5: Практика работы с постмортемами
  • Практика: Пишем постмортем по предыдущему кейсу и разбираем его со спикерами.

Тема 6: Решение проблем с инфраструктурой
  • Мониторинг PostgreSQL
  • SLO/SLI для PostgreSQL
  • Anomaly detection

Практика, решение 4 кейса
: проблемы с базой данных.
База данных тоже может быть источником проблем. Например, если не следить за replication relay, то реплика устареет и приложение будет отдавать старые данные. Причём дебажить такие случаи особенно сложно: сейчас данные рассогласованы, а через несколько секунд уже нет, и в чём причина проблемы — непонятно.
Через кейс вы прочувствуете всю боль дебага и узнаете, как предотвращать подобные проблемы.
День 3: Traffic shielding и канареечные релизы (с 10:00 до 18:00)
Тут два кейса про высокую доступность продакшена: traffic shielding и canary deployment. Вы узнаете об этих подходах и научитесь их применять. Хардкорной настройки руками не планируем, хотя кто знает.

Тема 7: Traffic shielding
  • Поведение графиков роста количества запросов и бизнес операций
  • Понятие saturation и capacity planning
  • Traffic shielding и внедрение rate limiting
  • Настройка sidecar с rate-limiting на 100 запросов в секунду

Практика, решение 5 кейса:
Traffic shielding, исследуем поведение провайдера под нагрузкой, которую он не в состоянии выдержать.
Когда падает прод? Например, когда мощности рассчитаны на 100 пользователей, а приходит 1000. Вы столкнётесь с подобным кейсом и научитесь делать так, чтобы система не падала целиком, а продолжала обслуживать то количество клиентов, на которое была рассчитана.
Блокируя избыточный трафик, вы сохраните возможность системы выполнять задачи для части пользователей.

Тема 8: Canary Deployment
  • Стратегии деплоя в k8s (RollingUpdate vs Recreate)
  • Canary и blue-green стратегии
  • Обзор инструментов для blue-gree/canary release в k8s
  • Настройка canary release в GitLab CI/CD
  • Пояснение схемы работы canary release
  • Внесение изменений в .gitlab-ci.yml

Практика, решение 6 кейса:
проблема с кодом.
Как бы хорошо новые фичи не работали на стейджинге, всегда есть вероятность, что в продакшене что-то пойдёт не так. Снизить потенциальный ущерб можно, если выкатить обновление только на часть пользователей и предусмотреть возможность быстрого отката назад.
Подобный подход называется Canary Deployment, и через практический кейс вы научитесь его применять.

Тема 9: SRE онбординг проекта
В крупных компаниях нередко формируют отдельную команду SRE, которая берёт на поддержку сервисы других отделов. Но не каждый сервис готов к тому, чтобы его можно было взять на поддержку. Расскажем, каким требованиям он должен отвечать.
Спикеры
Павел Селиванов
Архитектор в VK Cloud Solutions


Выступление на DevOpsDays Moscow

Выступление на DevOpsConf 2019
Владимир Федорков
Архитектор высоконагруженных проектов в Сбермаркет

Выступление на Highload++ 2021
Выступление на Big Data Days 2021
О формате
Практика

Вы будете разбирать горящие проблемы своими руками и решать практические кейсы (хотя немного теории все же будет).
Работа в команде

Будем работать в командах по 6 человек. Вы сможете обменяться опытом с коллегами из других компаний.
Записи

После интенсива будут доступны записи лекций, практические задания и презентации.
Рабочее приложение

Специально для интенсива написано боевое приложение, подготовлены виртуальные сервера и проблемы.
Оставить заявку
Стоимость за участника
Особое предложение для команд от 5 человек
70 000 ₽
27–29 мая 2022
90 000 ₽
Заявка на команду
«Я согласен(на) с Политикой Конфиденциальности Слёрм и предоставляю Согласие на обработку персональных данных»
Оплатить как юр.лицо
Мы свяжемся с вами, ответим на вопросы и отправим счёт
«Я согласен(на) с Политикой Конфиденциальности Слёрм и предоставляю Согласие на обработку персональных данных»
Рассрочка
Процесс оформления:
1. Оставляете заявку и получаете на почту анкету для оформления рассрочки.
2. Банк принимает решение в течение нескольких минут.
3. Заключаете сделку с банком онлайн.
4. Мы отправляем кассовый чек на эл. почту
и предоставляем доступ к курсу.

Условия рассрочки:
Срок: 4 месяца
Первый платеж: от 0 руб.
Переплата: 0 руб. Вы оплачиваете только стоимость курса, без процентов.
Предоставляется только физическим лицам.