Интенсив «SRE: внедряем DevOps от Google»

Подписка на новости

Экспресс-курс «Алгоритмы: roadmap для работы и собеседований»

Подробнее

SRE: внедряем DevOps от Google

Пятый интенсив 27-29 мая 2022 года

Консультация с менеджером

Вместо списка требований к участникам, обсудим ваши цели и текущие знания. Обучение платное.

«Я согласен(на) с Политикой Конфиденциальности Слёрм и предоставляю Согласие на обработку персональных данных»

Интенсива провели для одиночных участников и небольших команд

307

Разработчика и инженера эксплуатации прошли обучение

8.5

Средняя оценка участниками за все интенсивы

Почитать отзывы

Кому полезно

Людям

SRE-инженером может стать, как инженер эксплуатации, так и разработчик. И неважно: читали книжку от Google или нет. Интенсив больше практический. Спикеры проведут по своему пути внедрения SRE на проекте, захватывая частые кейсы-грабли.

Бизнесу

SRE решает те же проблемы, что и DevOps: увеличивает скорость выхода новых фич и налаживает процессы в команде. Но основная задача SRE – обеспечить стабильность и надежность работы сервисов, исключая ситуации, когда пользователи жалуются на сбои, а у инженеров «графики зеленые».

Компетенции после курса

SRE-инженеров и команд

Формулирую показатели SLO, SLI, SLA, разрабатываю архитектуру и инфраструктуру, которая их обеспечит, настраиваю мониторинг и алёртинг.

Создаём продукт который работает, обновляется и приносит деньги компании.

Разбираюсь, как «подстелить соломку» – подстроить систему, чтобы в случае плохого коммита не отвалилась вся система.

Согласовываем метрики с бизнесом и следим за влиянием сервисов друг на друга, а также на финансовые показатели.

Организую работу команды для решения инцидентов с учётом критичности алерта, влияния на аптайм сервисов и бизнеса в целом.

Не ищем виноватых, а разбираем процессы и работаем над их улучшением.

Компетенции после курса

SRE-инженеров и команд

Создаём продукт который работает, обновляется и приносит деньги компании.

Не ищем виноватых, а разбираем процессы и работаем над их улучшением.

Программа

В первый день вы познакомитесь с теорией SRE, научитесь настраивать мониторинг и алёртинг, а также объединитесь в команду с другими участниками интенсива.

Расскажем про метрики SLO, SLI, SLA и как они соотносятся с требованиями бизнеса. Поделимся Best Practices по настройке мониторинга и правилами для пожарной команды. Дадим первые практические кейсы.

Тема 1: Мониторинг

Зачем нужен мониторинг
Symptoms vs Causes
Black-Box vs White-Box Monitoring
Golden Signals
Перцентили
Alerting
Observability
Практика: Делаем базовый дашборд и настраиваем необходимые алерты

Тема 2: Теория SRE

SLO, SLI, SLA
Durability
Error budget
Практика: Добавляем на дашборд SLO/SLI + алерты
Практика: Первая нагрузка системы

Практика, решение 1 кейса: зависимость downstream.
В большой системе существует много взаимозависимых сервисов, и не всегда они работают одинаково хорошо. Особенно обидно, когда с вашим сервисом порядок, а соседний, от которого вы зависите, периодически уходит в down.
Учебный проект окажется именно в таких условиях, а вы сделаете так, чтобы он все равно выдавал качество на максимально возможном уровне.

Тема 3: Управление инцидентами

Resiliencе Engineering
Как выстраивается пожарная бригада
Насколько ваша команда эффективна в инциденте
7 правил для лидера инцидента
5 правил для пожарного
HiPPO — highest paid person's opinion. Communications Leader

Практика, решение 2 кейса: зависимость upstream.
Одно дело, когда вы зависите от сервиса с низким SLO. Другое дело, когда ваш сервис является таковым для других частей системы. Так бывает, если критерии оценки не согласованы: например, вы отвечаете на запрос в течение секунды и считаете это успехом, а зависимый сервис ждёт всего 500 мск и уходит с ошибкой.
В кейсе обсудим важность согласования метрик и научимся смотреть на качество глазами клиента.

Второй день практически полностью построен вокруг решения двух кейсов: проблемы с окружением (здесь будет подробный разбор Health Checking) и проблемы с архитектурой. Спикеры расскажут про работу с постмортерами (post mortem) и дадут шаблоны, которые вы сможете использовать в своей команде.

Тема 4: Health Checking

Health Check в Kubernetes
Жив ли наш сервис?
Exec probes
InitialDelaySeconds
Secondary Health Port
Sidecar Health Server
Headless Probe
Hardware Probe

Практика, решение 3 кейса: проблема с окружением, билеты купить невозможно.
Задача Healthcheck — обнаружить неработающий сервис и заблокировать трафик к нему. И если вы думаете, что для этого достаточно сделать рутом запрос к сервису и получить ответ, то вы ошибаетесь: даже если сервис ответит, это не гарантирует его работоспособность — проблемы могут быть в окружении.
Через этот кейс вы научитесь настраивать корректный Healthcheck и не пускать трафик туда, где он не может быть обработан.

Тема 5: Практика работы с постмортемами

Практика: Пишем постмортем по предыдущему кейсу и разбираем его со спикерами.

Тема 6: Решение проблем с инфраструктурой

Мониторинг PostgreSQL
SLO/SLI для PostgreSQL
Anomaly detection

Практика, решение 4 кейса: проблемы с базой данных.
База данных тоже может быть источником проблем. Например, если не следить за replication relay, то реплика устареет и приложение будет отдавать старые данные. Причём дебажить такие случаи особенно сложно: сейчас данные рассогласованы, а через несколько секунд уже нет, и в чём причина проблемы — непонятно.
Через кейс вы прочувствуете всю боль дебага и узнаете, как предотвращать подобные проблемы.

Тут два кейса про высокую доступность продакшена: traffic shielding и canary deployment. Вы узнаете об этих подходах и научитесь их применять. Хардкорной настройки руками не планируем, хотя кто знает.

Тема 7: Traffic shielding

Поведение графиков роста количества запросов и бизнес операций
Понятие saturation и capacity planning
Traffic shielding и внедрение rate limiting
Настройка sidecar с rate-limiting на 100 запросов в секунду

Практика, решение 5 кейса: Traffic shielding, исследуем поведение провайдера под нагрузкой, которую он не в состоянии выдержать.
Когда падает прод? Например, когда мощности рассчитаны на 100 пользователей, а приходит 1000. Вы столкнётесь с подобным кейсом и научитесь делать так, чтобы система не падала целиком, а продолжала обслуживать то количество клиентов, на которое была рассчитана.
Блокируя избыточный трафик, вы сохраните возможность системы выполнять задачи для части пользователей.

Тема 8: Canary Deployment

Стратегии деплоя в k8s (RollingUpdate vs Recreate)
Canary и blue-green стратегии
Обзор инструментов для blue-gree/canary release в k8s
Настройка canary release в GitLab CI/CD
Пояснение схемы работы canary release
Внесение изменений в .gitlab-ci.yml

Практика, решение 6 кейса: проблема с кодом.
Как бы хорошо новые фичи не работали на стейджинге, всегда есть вероятность, что в продакшене что-то пойдёт не так. Снизить потенциальный ущерб можно, если выкатить обновление только на часть пользователей и предусмотреть возможность быстрого отката назад.
Подобный подход называется Canary Deployment, и через практический кейс вы научитесь его применять.

Тема 9: SRE онбординг проекта
В крупных компаниях нередко формируют отдельную команду SRE, которая берёт на поддержку сервисы других отделов. Но не каждый сервис готов к тому, чтобы его можно было взять на поддержку. Расскажем, каким требованиям он должен отвечать.

Спикеры

Иван Круглов
Staff Software Engineer в Databricks

Доклад на митапе Backend United #3
Выступление на HighLoad++ 2018
Выступление на HighLoad++ 2017

Павел Селиванов
Архитектор в VK Cloud Solutions

Выступление на DevOpsDays Moscow
Выступление на DevOpsConf 2019

Владимир Федорков
Архитектор высоконагруженных проектов в Сбермаркет

Выступление на Highload++ 2021
Выступление на Big Data Days 2021

О формате

Практика

Вы будете разбирать горящие проблемы своими руками и решать практические кейсы (хотя немного теории все же будет).

Работа в команде

Будем работать в командах по 6 человек. Вы сможете обменяться опытом с коллегами из других компаний.

Записи

После интенсива будут доступны записи лекций, практические задания и презентации.

Рабочее приложение

Специально для интенсива написано боевое приложение, подготовлены виртуальные сервера и проблемы.

Оставить заявку

Оплатить как юр.лицо

Оставить заявку на команду

Стоимость за участника

Особое предложение для команд от 5 человек

70 000 ₽

27–29 мая 2022

90 000 ₽

Также рекомендуем

Service mesh

На интенсиве раскроем механики работы service mesh и поможем подготовиться к внедрению без даунтайма. Теорея и практический опыт внедрения технологии.

____
Интенсив 13–15 мая

Купить и начать обучение

Kubernetes для разработчиков

Практический курс для тех, кто не знает Kubernetes, но хочет с ним познакомиться в комфортном для себя режиме и начать работать.

____
Интенсив, дата уточняется

Подать заявку

Kubernetes: Мега-поток

Разбираем в теории и на практике тонкости установки и конфигурации production-ready кластера, обеспечим безопасность и отказоустойчивость приложений.

____
Поток с 12 апреля

Купить и начать обучение

Инфраструктурный партнёр Слёрм.
Selectel: IT-инфраструктура для бизнеса: выделенные и облачные серверы, объектное хранилище, облачные базы данных, Managed Kubernetes.

Southbridge: серверное администрирование, поддержка высоконагруженных проектов.

Дмитрий Симонов. Технический директор и основатель телеграм-канала для тех. диров.

О нас и наших курсах

Личный кабинет студента
Каталог
Вебинары
Календарь курсов и мероприятий
Спикеры
Блог

Блог на Хабре
ДЖУНгли на Дискорде
Telegram-канал
Вконтакте
YouTube
Twitter
LinkedIn

Корпоративное обучение

Корпоративные программы
Универсальные доступы ко всем курсам для команд
Оформителям обучения от компании

Политика конфиденциальности
Публичная оферта

Партнёрские проекты

«Разработчик, или от Мидла до Сеньора» с Raiffeisen DGTL

Вечерняя школа Kubernetes для разработчиков при поддержке VK Cloud Solutions и Intel

Cassandra Day Russia'21 с DataStax

+7 (495) 248-05-80
[email protected]
2018-2022 ООО «Слёрм»

Мы используем cookie-файлы