Интенсив «SRE: data-driven подход к управлению надежностью систем»

Подписка на новости

Пятый интенсив по SRE: 17–19 июня

Подробнее

data-driven подход к управлению надёжностью систем

Site
Reliability
Engineering

интенсив 17—19 июня 2022 г.

«Я согласен(на) с Политикой Конфиден-циальности Слёрм и предоставляю согласие на обработку персональных данных»

Обсудим ваши цели и текущие знания.
Обучение платное

Консультация с менеджером

Об интенсиве

Мы проводим этот практикум для инженеров в пятый раз. Программа сформирована с участием SRE-инженеров из зарубежных и российских компаний, таких как: Google, Booking, Databricks, TangoMe, Яндекс, Ecommpay, Leroy Merlin, Финам.

На время обучения вы станете SRE для сервиса покупки билетов в кинотеатр. Решая предложенные кейсы, вы получите представление, чем занимается SRE в реальности.

На интенсиве вы:

узнаете, как снизить ущерб от отказов в будущем.

внедрите правки прямо в прод;

узнаете, как решать конкретные проблемы, связанные с надежностью сервиса;

поймете, какие метрики собирать и как это делать правильно;

научитесь быстро поднимать продакшн силами команды;

Кому полезно
Результат
Как проходит
Программа
Подготовка
Спикеры
Оставить заявку

Кому полезно

ЛЮДЯМ

SRE-инженером может стать как инженер эксплуатации, так и разработчик.

На интенсиве вы будете много практиковаться, а полученные навыки и знания можно адаптировать и внедрить в любую сферу.

БИЗНЕСУ

SRE решает те же проблемы, что и DevOps: увеличивает скорость выхода новых фич и налаживает процессы в команде. Но основная задача SRE – обеспечить стабильность и надежность работы сервисов, исключая ситуации, когда пользователи жалуются на сбои, а у инженеров «графики зеленые».

На интенсиве сотрудники получат представление о задачах специалиста по SRE в компании, изучат практики повышения надежности. Новая культура производства приведет к следующим изменениям:

Результаты внедрения SRE-подхода

Снижение процента отказов сервиса

Повышение скорости реагирования на отказы

Снижение рисков при выкате новых фич

Увеличение скорости разработки

Как внедрить

SRE подход — это методология работы с цифровыми продуктами. Её задача — через улучшение процессов и автоматизацию уменьшить время простоя и количество ошибок сервиса, делая бизнес, основанный на информационных системах, более предсказуемым и устойчивым.

Чтобы внедрить SRE предстоит:

определить команды разработки, где будет внедряться SRE. Экономический эффект будет максимальным, если эти команды отвечают за решения, генерирующие основную выручку;

обучить лидеров и сотрудников этих команд подходу и инструментам SRE;

сформировать процессы улучшения этих метрик.

выработать политику улучшения этих метрик (подход к мониторингу, бюджет ошибок, соответствующую автоматизацию);

определить метрики, которые будет улучшать SRE, и научиться их замерять;

В результате интенсива

Могу настроить:

мониторинг SRE-метрик (SLO, SLI, error budget) для своего сервиса. Понимаю как эти метрики выбрать;

мониторинг SRE-инфраструктурных сервисов. Умею опознавать и решать проблемы с инфраструктурой;

alerting и healthcheck;

разные методы деплоймента, знаю какие инструменты для этого существуют.

пожарную команду в случае инцидента, раздать роли коллегам и выступить лидером. Знаю, какие инцидент сервисы существуют;

надежные коммуникации между сервисами retry, timeout, circuit breaker.

Могу организовать:

Вы сможете составить план действий по внедрению SRE подхода в своей компании. Поймете, как коммуницировать с бизнесом, с коллегами в случае аварии, как принимать сервисы на поддержку.

Как проходит интенсив

ИЗУЧАЕМ ТЕОРИЮ

ЗНАКОМИМСЯ ВНУТРИ КОМАНДЫ И НАЛАЖИВАЕМ ВЗАИМОДЕЙСТВИЕ

РЕШАЕМ ПРАКТИЧЕСКИЕ КЕЙСЫ

ПОДВОДИМ ИТОГИ, РЕФЛЕКСИРУЕМ

ОБСУЖДАЕМ ОНБОРДИНГ SRE-ПОДХОДА В ВАШЕЙ КОМПАНИИ

Строим:

Наш учебный сайт состоит из нескольких микросервисов. Он агрегирует данные о сеансах, ценах и свободных местах со всех кинотеатров, показывает анонсы фильмов, дает выбрать кинотеатр, сеанс, зал и место, забронировать и оплатить билеты.

Мы сформулируем показатели SLO, SLI, SLA для этого сайта, разработаем архитектуру и инфраструктуру, которая их обеспечит, настроим мониторинг и алертинг.

Внутренние и внешние факторы начинают «портить» SLO

Ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки приводят к тому, что SLO ухудшаются.

Разбираем устойчивость, error budget, практику тестирования, управление прерываниями и операционной нагрузкой.

Ломаем:

Чиним:

incident response

Произошла авария. Сервис обработки платежей лег. Как действовать, чтобы восстановить работоспособность в минимальные сроки?

Организуем работу группы по ликвидации аварии: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Тренируемся работать под давлением в условиях предельно ограниченного времени.

Cмотрим на сайт и инциденты с точки зрения SRE

Разбираем подход к сайту с точки зрения SRE. Анализируем инциденты (причины возникновения, ход устранения). Принимаем решение по их дальнейшему предотвращению: улучшаем мониторинг, меняем архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируем процессы.

Изучаем:

Программа

В первый день вы познакомитесь с теорией SRE, научитесь настраивать мониторинг и алёртинг, а также объединитесь в команду с другими участниками интенсива.

Расскажем про метрики SLO, SLI, SLA и как они соотносятся с требованиями бизнеса. Поделимся Best Practices по настройке мониторинга. Дадим первые практические кейсы.

Введение

Обсудим цели и задачи курса, а также расскажем что такое SRE.

Тема 1: Мониторинг

Зачем нужен мониторинг
Перцентили
Alerting
Observability

Тема 2: Теория SRE

SLO, SLI, SLA
Durability
Error budget

Практика: Делаем базовый дашборд и настраиваем необходимые алерты

Практика: Добавляем на дашборд SLO/SLI + алерты

Практика: Первая нагрузка системы

Решение 1 кейса: зависимость downstream.

В большой системе существует много взаимозависимых сервисов, и не всегда они работают одинаково хорошо. Особенно обидно, когда с вашим сервисом порядок, а соседний, от которого вы зависите, периодически уходит в down.

Учебный проект окажется именно в таких условиях, а вы сделаете так, чтобы он все равно выдавал качество на максимально возможном уровне.

Второй день построен вокруг решения двух кейсов: зависимость upstream и проблемы с архитектурой. Спикеры расскажут про управление инцидентами, правила для пожарной команды и работу с постмортерами (post mortem) и дадут шаблоны, которые вы сможете использовать в своей команде.

Тема 3: Управление инцидентами

Resiliencе Engineering
Как выстраивается пожарная бригада
Насколько ваша команда эффективна в инциденте
7 правил для лидера инцидента
5 правил для пожарного
HiPPO — highest paid person's opinion. Communications Leader

Решение 2 кейса: зависимость upstream.

Одно дело, когда вы зависите от сервиса с низким SLO. Другое дело, когда ваш сервис является таковым для других частей системы. Так бывает, если критерии оценки не согласованы: например, вы отвечаете на запрос в течение секунды и считаете это успехом, а зависимый сервис ждёт всего 500 мск и уходит с ошибкой.

В кейсе обсудим важность согласования метрик и научимся смотреть на качество глазами клиента.

Тема 4: Инструменты варрума и алерт менеджмента.

Вest practiсe других компаний в организации инцидент-менеджмента.

Решение 3 кейса: проблемы с базой данных.

База данных тоже может быть источником проблем. Например, если не следить за replication relay, то реплика устареет и приложение будет отдавать старые данные. Причём дебажить такие случаи особенно сложно: сейчас данные рассогласованы, а через несколько секунд уже нет, и в чём причина проблемы — непонятно.

Через кейс вы прочувствуете всю боль дебага и узнаете, как предотвращать подобные проблемы.

Тема 5: Практика работы с постмортемами

Практика: Пишем постмортем по предыдущему кейсу и разбираем его со спикерами.

В третий день мы разберем кейс, посвященный проблеме с окружением (здесь будет подробный разбор Health Checking), а также поэтапно разберем, как внедрять SRE в компании и узнаем опыт компаний, в которых работают спикеры интенсива.

Тема 6: Health Checking

Health Check в Kubernetes
Жив ли наш сервис?
Exec probes
InitialDelaySeconds
Secondary Health Port
Sidecar Health Server
Headless Probe
Hardware Probe

Решение 4 кейса: проблема с окружением, билеты купить невозможно.

Задача Healthcheck — обнаружить неработающий сервис и заблокировать трафик к нему. И если вы думаете, что для этого достаточно сделать рутом запрос к сервису и получить ответ, то вы ошибаетесь: даже если сервис ответит, это не гарантирует его работоспособность — проблемы могут быть в окружении.

Через этот кейс вы научитесь настраивать корректный Healthcheck и не пускать трафик туда, где он не может быть обработан.

Тема 7: Способы деплоймента

Тема 8: SRE онбординг проекта

В крупных компаниях нередко формируют отдельную команду SRE, которая берёт на поддержку сервисы других отделов. Но не каждый сервис готов к тому, чтобы его можно было взять на поддержку. Расскажем, каким требованиям он должен отвечать. А также спикеры поделяться опытом, как у них проходило внедрение SRE и на какие грабли они наступали.

Подготовка

В процессе решения кейсов вам необходимо будет писать код на Python, если вы кодить не умеете, мы определим вас в команду, где эта экспертиза будет.

Также необходимо знать Linux и иметь навыки работы в кластере Kubernetes.

Спикеры интенсива

Интенсив основан на реальном опыте специалистов из крупных российских и зарубежных компаний. Программа дорабатывалась с каждым последующим интенсивом. Над данным интенсивом работали:

— Спикер Highload++ 2022
— Десятки успешных проектов по подъему нагрузки в США, Европе и России
— Серьезный опыт кризис-менеджмента и ведения инцидентов
— Регулярный докладчик на конференциях и митах

Записи выступлений:
Highload++ 2021
Big Data Days 2021

Эксперт в области высоких нагрузок

Владимир Федорков

— На счету десятки выстроенных инфраструктур и сотни написанных пайплайнов CI/CD
— Certified Kubernetes Administrator
— Автор нескольких курсов по Kubernetes и DevOps
— Регулярный докладчик на российских и международных IT-конференциях

Записи выступлений:
DevOpsDays Moscow
DevOpsConf 2019

Архитектор Yandex Cloud

Павел Селиванов

— Тысячи выстроенных пайплайнов CI/CD
— Более 100 инсталляций Kubernetes в продакшен
— Автор нескольких курсов по DevOps и его внедрению

Tech Lead SRE

Максим Гусев

— 10+ лет в IT и администрировании
— Более 2 лет развивает мониторинг

Tech Lead в Leroy Merlin

Антон Токарев

Начать учиться

Участник

Видео
с теорией

Доступ к материалам на 2 года

Практика на микросервисном приложении

Zoom-трансляция и AMA-cессии

Техподдержка и разбор ошибок

Работа в группах с куратором или спикером

есть рассрочка

Оплатить от юрлица

Оплатить участие

90 000 ₽

Особое
предложение
для команд
от 5 человек

за участника

Оставить заявку на команду

70 000 ₽

Вы можете их задать директору курса Татьяне Гребенюковой

Остались вопросы?

SRE как профессиональный рост для специалиста и прорыв для компании

бесплатный вебинар

9 июня

19:00 (МСК)

Узнать подробности

О курсе

Комплект курсов

Купить за 112 000 ₽

Выгода составит 18 000 ₽

Интенсив 24—26 июня

Python: работа с API
и фреймворками

SRE: data-driven подход к управлению надёжностью систем

Интенсив 17—19 июня

Инфраструктурный партнёр Слёрм.
Selectel: IT-инфраструктура для бизнеса: выделенные и облачные серверы, объектное хранилище, облачные базы данных, Managed Kubernetes.

Southbridge: DevOps-аутсорсер, поддержка высоконагруженных проектов.

Программа «СКС-дисконт» — самая большая дисконтная система для студентов всей страны в формате приложения. Проект Студенческого координационного совета Общероссийского профсоюза образования.

Дмитрий Симонов. Технический директор и основатель телеграм-канала для тех. диров.

О нас и наших курсах

Личный кабинет студента
Каталог
Вебинары
Календарь курсов и мероприятий
Спикеры
Блог

Блог на Хабре
ДЖУНгли на Дискорде
Telegram-канал
Вконтакте
YouTube
Twitter
LinkedIn

Корпоративное обучение

Корпоративные программы
Универсальные доступы ко всем курсам для команд
Оформителям обучения от компании

Политика конфиденциальности
Публичная оферта

Партнёрские проекты

«Разработчик, или от Мидла до Сеньора» с Raiffeisen DGTL

Вечерняя школа Kubernetes для разработчиков при поддержке VK Cloud Solutions и Intel

Cassandra Day Russia'21 с DataStax

+7 (495) 248-05-80
[email protected]
2018-2022 ООО «Слёрм»

Мы используем cookie-файлы