Подумайте О Sre: Взгляд На Проекты Глазами Инженера Sre

В обзорах Slurm Kubernetes была фраза: «Kubernetes оказался проще, чем я думал».

Сейчас это уже не звучит, мифа о сложности к8с больше не существует. Это инструмент, который легко освоить, но трудно освоить.

Мы хотим сделать то же самое с SRE. Покажите, что SRE проще и понятнее, чем кажется.

Смените парадигму: позвольте людям взглянуть на проект глазами SRE-инженера.

Как всегда в начале, в уравнении много неизвестных.

И как всегда на старте, самое интересное будет первым.

Подумайте о SRE: взгляд на проекты глазами инженера SRE

3-5 февраля мы проводим Slurm SRE в Москве.

Билет на трехдневный интенсив стоит 60 тысяч.

Что участник получит за свои деньги? Когда я рассказываю друзьям и коллегам о SRE, меня встречают со здоровым скептицизмом:

Про SRE первый раз слышу, это какая-то алхимия.
Внедрить SRE сложно, это удел таких гигантов, как Google.
Это дорого и долго, времени не дадут и не выделят бюджет.
То, что вы описываете, слишком хорошо, чтобы быть правдой.

Это вопросы, которые я хочу затронуть.

Пришло время узнать, что такое SRE

На уровне слогана: SRE — это одна из реализаций DevOps. Он зародился более 10 лет назад в Google, но только недавно начал проникать на «обычный» рынок, в первую очередь благодаря книге Site Reliability Engineering, выпущенной Google в 2016 году.

Связь между SRE и DevOps хорошо объяснена в этом видео: Плохо то, что лозунги ни о чем.

Ну DevOps, ну реализация, очередное «за все хорошее против всего плохого».

Книгу можно прочитать (и это того стоит).

Но читатель окажется в положении человека, обучающегося каратэ по рисункам.

В книге описана концепция без применения к реальности.

Учитель ведет вас за руку по определенному пути и указывает на ошибки на этом пути.

В стоимость входит быстрый и углубленный обзор подхода и инструментов SRE.

Внедрить SRE проще, чем кажется

В Slurm мы будем тестировать SRE руками: подберем метрики, настроим их измерение, оповещения, сталкиваемся с инцидентами, решаем и анализируем их, перестраиваем проект по всем канонам SRE. То есть мы дадим пошаговые инструкции, которые вы сможете реализовать у себя дома после возвращения с интенсивного курса.

Я лгу.

По сути, мы дадим не инструкцию, а образец, с которого можно скопировать кучу идей и решений.

В стоимость входит образец для реализации.

Основная проблема в том, что вам придется убеждать тех, кто не был в Слерме.

Поэтому в идеале на интенсив нужно приходить командой.

Поэтому мы даем большие скидки группам.

Было бы неплохо прийти в Слерм во главе с STO. И SEO тоже полезно, и именно об этом этот раздел…

.
как убедить высшее руководство в том, что SRE полезен и необходим.

Обычно возникает конфликт задач между CEO (высшим руководством), STO (ИТ-менеджментом), разработчиками и эксплуатацией.

Я намеренно не говорю «конфликт интересов»; это именно конфликт задач.

Руководителям нужны финансовые показатели.

СТО – это понятная, управляемая и по возможности комфортная ситуация.

То есть четкие задачи с понятной бизнес-ценностью, соблюдением сроков, нормальным стеком, большим количеством функций и меньшим количеством лажей.

Разработчикам необходимо внедрить больше функций, а операторам необходимо обеспечить доступность (что явно противоречит понятию «больше функций»).

SRE утверждает, что все участники процесса преследуют единственную цель: счастье пользователя.

Здоровый баланс между новыми функциями и надежностью сервиса радует пользователя.

Счастливый пользователь платит больше денег.

Чтобы управлять счастьем пользователя, необходимы специализированные инструменты.

Более того, SRE, будучи основанным на метриках, позволяет переводить финансовые показатели в целевые показатели для различных метрик, а они, в свою очередь, в задачи DevOps-команд. Разрешает перевод - я утрировал.

Наличие этих метрик позволяет найти взаимосвязи между состоянием метрик и финансовыми показателями.

Это отдельная большая, но понятная задача.

Есть проект ДОРА, DevOps-исследования и оценки , он проводит ежегодные исследования коммерческой ценности и рентабельности инвестиций DevOps и его подкласса SRE. В настоящее время мы переводим текущий отчет на русский язык.

Существуют формулы оценки, которые можно с определенной степенью точности применить к вашей компании.

Резюме: SRE дает бизнесу возможность управлять финансовыми показателями, устанавливая целевые метрики, а команда DevOps, глядя на текущие метрики, четко понимает, что нужно сделать сейчас с максимальной выгодой для финансовых показателей.

Какой генеральный директор откажется от такого инструмента? Получить ресурсы для реализации SRE вполне возможно.

В стоимость курса включен набор аргументов в пользу перехода на SRE и DevOps.

И даже в небольших компаниях есть место SRE.

SRE делится на инструменты, культуру и организационную структуру.

Некоторые инструменты, например Service Mesh, нужны для больших и сложных проектов.

Но те же повторы, отсрочки, внесение ошибок и плавная деградация могут быть реализованы в небольших проектах и дают огромную отдачу.

Культура также полезна в любой компании.

Классический администратор при настройке Прометея будет действовать стандартно: включать мониторинг потребления памяти и диска и прочий привычный мониторинг.

Инженер SRE сначала обсудит с бизнесом ключевые показатели бизнес-процессов, а затем настроит их мониторинг.

Сразу понятно, что инженерная культура SRE полезна даже в микростартапе.

Но организационная структура в небольших компаниях, вероятно, ненужна и даже вредна.

Когда все сотрудники являются универсалами, нет необходимости принудительно распределять команды SRE.

Все, что мы описываем, уже работает

Курс создан теми, кто уже давно внедрил SRE в своих командах и давно живет в этой парадигме.

Иван Круглов и Бен Тайлер, ведущие разработчики Booking.com. Евгений Варавва, генеральный разработчик Google. «Дуард Медведев, технический директор Tungsten Labs, выросший из инженера SRE. Эдуард проводит вебинар «SRE – хайп или будущееЭ» 12 декабря в 11:00.

О программе

Что касается программы.

Я уже получаю отзывы от экспертов, что программа «не работает»: слишком широка и местами нелогична.

Это верно.

По сути, у нас есть каркас программы, набор идей, которые мы хотим раскрыть.

Впереди у нас два месяца напряженной работы; По мере подготовки программа будет дорабатываться: удалим лишнее и уточним остальное.

Но уже в нынешнем виде программа четко показывает направление, в котором мы работаем.

Программа Slurm SRE Тема №1: Основные принципы и методы SRE.

Что нужно, чтобы стать SRE?
DevOps против SRE
Почему разработчики ценят SRE и очень грустят, когда их нет в проекте
SLI, SLO и SLA
Бюджет ошибок и его роль в SRE

Тема №2: Проектирование распределенных систем

Архитектура и функциональность приложения
Неабстрактное проектирование больших систем
Работоспособность/Проектирование на случай отказа
gRPC или ОТДЫХ
Управление версиями и обратная совместимость

Тема № 3: Как принимается проект SRE

Лучшие практики от SRE
Контрольный список приемки проекта
Ведение журнала, метрики, трассировка
Берем CI/CD в свои руки

Тема №4: Проектирование и запуск распределенной системы

Реверс-инжиниринг – как работает система?
Договариваемся о SLI и SLO
Практикуйте планирование мощности
Запуская трафик в приложение, наши пользователи начинают им «пользоваться»
Запускаем Prometheus, Grafana, Elastic

Тема №5: Мониторинг, наблюдаемость и оповещение

Мониторинг против наблюдаемости
Настройка мониторинга и оповещений с помощью Prometheus
Практический мониторинг SLI и SLO
Симптомы против причин
Мониторинг «черного ящика» и «белого ящика»
Распределенный мониторинг доступности приложений и серверов
4 золотых сигнала (обнаружение аномалий)

Тема №6: Практика тестирования надежности систем

Работа под давлением
Инъекция отказов
Обезьяна Хаоса

Тема №7: Практика реагирования на инциденты

Алгоритм управления стрессом
Взаимодействие между участниками инцидента
Посмертное
Обмен знаниями
Формирование культуры
Мониторинг неисправностей
Проведение безупречного разбора полетов

Тема № 8: Практика управления нагрузкой

Балансировка нагрузки
Отказоустойчивость приложения: повторная попытка, тайм-аут, внесение сбоя, автоматический выключатель
DDoS (создание нагрузки) + Каскадные сбои

Тема № 9: Реагирование на инциденты

разбор полетов
Практика по вызову
Различные типы аварий (тестирование, изменение конфигурации, аппаратный сбой)
Протоколы управления инцидентами

Тема № 10: Диагностика и решение проблем.

Ведение журнала
Отладка
Практикуйтесь в анализе и отладке нашего приложения

Тема №11: Тестирование надежности системы.

Стресс-тестирование
Тестирование конфигурации
Тестирование производительности
Канарский релиз

Тема №12: Независимая работа и экспертиза Стоит ли все вышеперечисленное своих денег?

ПС.
При чем здесь хаб Kubernetes?

Вся практика выполняется в Kubernetes. У владельцев Kubernetes есть прямой путь к тому, чтобы стать инженерами SRE. Для тех, кто не владеет - на нашем Курсы по Кубернетесу .

Регистрация на Slurm SRE

Теги: #Системное администрирование #Администрирование серверов #Kubernetes #DevOps #event #sre #training #slurm

Подумайте О Sre: Взгляд На Проекты Глазами Инженера Sre

Последнее изменение: 2024-10-19 21:10:22

Вместе с данным постом часто просматривают:

Упрощение Хостинга Вашего Веб-Сайта
19 Oct, 24
Пулемет – Это Событие?
19 Oct, 24
Fon – Бесплатный Wi-Fi По Всему Миру
19 Oct, 24
Transcend T.sonic 330 (8Гб)
19 Oct, 24
Доходы Google Упали Впервые В Истории
19 Oct, 24
Искусство Программирования - Выпуск №50 [Vm] / Особенности Jvm
19 Oct, 24
Первый Конкурс Icamp 2009 «История Успеха Icamp»
19 Oct, 24
Установка И Первоначальная Настройка Check Point R75
19 Oct, 24
Еженедельный Подкаст От Умпутуна (Сша, Чикаго) №157
19 Oct, 24
«Аллея Инноваций» На Выставке Riw 2009.
19 Oct, 24