Подумайте О Sre: Взгляд На Проекты Глазами Инженера Sre

В обзорах Slurm Kubernetes была фраза: «Kubernetes оказался проще, чем я думал».

Сейчас это уже не звучит, мифа о сложности к8с больше не существует. Это инструмент, который легко освоить, но трудно освоить.

Мы хотим сделать то же самое с SRE. Покажите, что SRE проще и понятнее, чем кажется.

Смените парадигму: позвольте людям взглянуть на проект глазами SRE-инженера.

Как всегда в начале, в уравнении много неизвестных.

И как всегда на старте, самое интересное будет первым.



Подумайте о SRE: взгляд на проекты глазами инженера SRE

3-5 февраля мы проводим Slurm SRE в Москве.

Билет на трехдневный интенсив стоит 60 тысяч.

Что участник получит за свои деньги? Когда я рассказываю друзьям и коллегам о SRE, меня встречают со здоровым скептицизмом:

  • Про SRE первый раз слышу, это какая-то алхимия.

  • Внедрить SRE сложно, это удел таких гигантов, как Google.
  • Это дорого и долго, времени не дадут и не выделят бюджет.
  • То, что вы описываете, слишком хорошо, чтобы быть правдой.

Это вопросы, которые я хочу затронуть.



Пришло время узнать, что такое SRE

На уровне слогана: SRE — это одна из реализаций DevOps. Он зародился более 10 лет назад в Google, но только недавно начал проникать на «обычный» рынок, в первую очередь благодаря книге Site Reliability Engineering, выпущенной Google в 2016 году.

Связь между SRE и DevOps хорошо объяснена в этом видео: Плохо то, что лозунги ни о чем.

Ну DevOps, ну реализация, очередное «за все хорошее против всего плохого».

Книгу можно прочитать (и это того стоит).

Но читатель окажется в положении человека, обучающегося каратэ по рисункам.

В книге описана концепция без применения к реальности.

Учитель ведет вас за руку по определенному пути и указывает на ошибки на этом пути.

В стоимость входит быстрый и углубленный обзор подхода и инструментов SRE.

Внедрить SRE проще, чем кажется

В Slurm мы будем тестировать SRE руками: подберем метрики, настроим их измерение, оповещения, сталкиваемся с инцидентами, решаем и анализируем их, перестраиваем проект по всем канонам SRE. То есть мы дадим пошаговые инструкции, которые вы сможете реализовать у себя дома после возвращения с интенсивного курса.

Я лгу.

По сути, мы дадим не инструкцию, а образец, с которого можно скопировать кучу идей и решений.

В стоимость входит образец для реализации.

Основная проблема в том, что вам придется убеждать тех, кто не был в Слерме.

Поэтому в идеале на интенсив нужно приходить командой.

Поэтому мы даем большие скидки группам.

Было бы неплохо прийти в Слерм во главе с STO. И SEO тоже полезно, и именно об этом этот раздел…

.

как убедить высшее руководство в том, что SRE полезен и необходим.

Обычно возникает конфликт задач между CEO (высшим руководством), STO (ИТ-менеджментом), разработчиками и эксплуатацией.

Я намеренно не говорю «конфликт интересов»; это именно конфликт задач.

Руководителям нужны финансовые показатели.

СТО – это понятная, управляемая и по возможности комфортная ситуация.

То есть четкие задачи с понятной бизнес-ценностью, соблюдением сроков, нормальным стеком, большим количеством функций и меньшим количеством лажей.

Разработчикам необходимо внедрить больше функций, а операторам необходимо обеспечить доступность (что явно противоречит понятию «больше функций»).

SRE утверждает, что все участники процесса преследуют единственную цель: счастье пользователя.

Здоровый баланс между новыми функциями и надежностью сервиса радует пользователя.

Счастливый пользователь платит больше денег.

Чтобы управлять счастьем пользователя, необходимы специализированные инструменты.

Более того, SRE, будучи основанным на метриках, позволяет переводить финансовые показатели в целевые показатели для различных метрик, а они, в свою очередь, в задачи DevOps-команд. Разрешает перевод - я утрировал.

Наличие этих метрик позволяет найти взаимосвязи между состоянием метрик и финансовыми показателями.

Это отдельная большая, но понятная задача.

Есть проект ДОРА, DevOps-исследования и оценки , он проводит ежегодные исследования коммерческой ценности и рентабельности инвестиций DevOps и его подкласса SRE. В настоящее время мы переводим текущий отчет на русский язык.

Существуют формулы оценки, которые можно с определенной степенью точности применить к вашей компании.

Резюме: SRE дает бизнесу возможность управлять финансовыми показателями, устанавливая целевые метрики, а команда DevOps, глядя на текущие метрики, четко понимает, что нужно сделать сейчас с максимальной выгодой для финансовых показателей.

Какой генеральный директор откажется от такого инструмента? Получить ресурсы для реализации SRE вполне возможно.

В стоимость курса включен набор аргументов в пользу перехода на SRE и DevOps.

И даже в небольших компаниях есть место SRE.

SRE делится на инструменты, культуру и организационную структуру.

Некоторые инструменты, например Service Mesh, нужны для больших и сложных проектов.

Но те же повторы, отсрочки, внесение ошибок и плавная деградация могут быть реализованы в небольших проектах и дают огромную отдачу.

Культура также полезна в любой компании.

Классический администратор при настройке Прометея будет действовать стандартно: включать мониторинг потребления памяти и диска и прочий привычный мониторинг.

Инженер SRE сначала обсудит с бизнесом ключевые показатели бизнес-процессов, а затем настроит их мониторинг.

Сразу понятно, что инженерная культура SRE полезна даже в микростартапе.

Но организационная структура в небольших компаниях, вероятно, ненужна и даже вредна.

Когда все сотрудники являются универсалами, нет необходимости принудительно распределять команды SRE.

Все, что мы описываем, уже работает

Курс создан теми, кто уже давно внедрил SRE в своих командах и давно живет в этой парадигме.

Иван Круглов и Бен Тайлер, ведущие разработчики Booking.com. Евгений Варавва, генеральный разработчик Google. «Дуард Медведев, технический директор Tungsten Labs, выросший из инженера SRE. Эдуард проводит вебинар «SRE – хайп или будущееЭ» 12 декабря в 11:00.

О программе

Что касается программы.

Я уже получаю отзывы от экспертов, что программа «не работает»: слишком широка и местами нелогична.

Это верно.

По сути, у нас есть каркас программы, набор идей, которые мы хотим раскрыть.

Впереди у нас два месяца напряженной работы; По мере подготовки программа будет дорабатываться: удалим лишнее и уточним остальное.

Но уже в нынешнем виде программа четко показывает направление, в котором мы работаем.

Программа Slurm SRE Тема №1: Основные принципы и методы SRE.

  • Что нужно, чтобы стать SRE?
  • DevOps против SRE
  • Почему разработчики ценят SRE и очень грустят, когда их нет в проекте
  • SLI, SLO и SLA
  • Бюджет ошибок и его роль в SRE
Тема №2: Проектирование распределенных систем
  • Архитектура и функциональность приложения
  • Неабстрактное проектирование больших систем
  • Работоспособность/Проектирование на случай отказа
  • gRPC или ОТДЫХ
  • Управление версиями и обратная совместимость
Тема № 3: Как принимается проект SRE
  • Лучшие практики от SRE
  • Контрольный список приемки проекта
  • Ведение журнала, метрики, трассировка
  • Берем CI/CD в свои руки
Тема №4: Проектирование и запуск распределенной системы
  • Реверс-инжиниринг – как работает система?
  • Договариваемся о SLI и SLO
  • Практикуйте планирование мощности
  • Запуская трафик в приложение, наши пользователи начинают им «пользоваться»
  • Запускаем Prometheus, Grafana, Elastic
Тема №5: Мониторинг, наблюдаемость и оповещение
  • Мониторинг против наблюдаемости
  • Настройка мониторинга и оповещений с помощью Prometheus
  • Практический мониторинг SLI и SLO
  • Симптомы против причин
  • Мониторинг «черного ящика» и «белого ящика»
  • Распределенный мониторинг доступности приложений и серверов
  • 4 золотых сигнала (обнаружение аномалий)
Тема №6: Практика тестирования надежности систем
  • Работа под давлением
  • Инъекция отказов
  • Обезьяна Хаоса
Тема №7: Практика реагирования на инциденты
  • Алгоритм управления стрессом
  • Взаимодействие между участниками инцидента
  • Посмертное
  • Обмен знаниями
  • Формирование культуры
  • Мониторинг неисправностей
  • Проведение безупречного разбора полетов
Тема № 8: Практика управления нагрузкой
  • Балансировка нагрузки
  • Отказоустойчивость приложения: повторная попытка, тайм-аут, внесение сбоя, автоматический выключатель
  • DDoS (создание нагрузки) + Каскадные сбои
Тема № 9: Реагирование на инциденты
  • разбор полетов
  • Практика по вызову
  • Различные типы аварий (тестирование, изменение конфигурации, аппаратный сбой)
  • Протоколы управления инцидентами
Тема № 10: Диагностика и решение проблем.

  • Ведение журнала
  • Отладка
  • Практикуйтесь в анализе и отладке нашего приложения
Тема №11: Тестирование надежности системы.

  • Стресс-тестирование
  • Тестирование конфигурации
  • Тестирование производительности
  • Канарский релиз
Тема №12: Независимая работа и экспертиза Стоит ли все вышеперечисленное своих денег?

ПС.

При чем здесь хаб Kubernetes?

Вся практика выполняется в Kubernetes. У владельцев Kubernetes есть прямой путь к тому, чтобы стать инженерами SRE. Для тех, кто не владеет - на нашем Курсы по Кубернетесу .



Регистрация на Slurm SRE

Теги: #Системное администрирование #Администрирование серверов #Kubernetes #DevOps #event #sre #training #slurm
Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.