В обзорах Slurm Kubernetes была фраза: «Kubernetes оказался проще, чем я думал».
Сейчас это уже не звучит, мифа о сложности к8с больше не существует. Это инструмент, который легко освоить, но трудно освоить.
Мы хотим сделать то же самое с SRE. Покажите, что SRE проще и понятнее, чем кажется.
Смените парадигму: позвольте людям взглянуть на проект глазами SRE-инженера.
Как всегда в начале, в уравнении много неизвестных.
И как всегда на старте, самое интересное будет первым.
3-5 февраля мы проводим Slurm SRE в Москве.
Билет на трехдневный интенсив стоит 60 тысяч.
Что участник получит за свои деньги? Когда я рассказываю друзьям и коллегам о SRE, меня встречают со здоровым скептицизмом:
- Про SRE первый раз слышу, это какая-то алхимия.
- Внедрить SRE сложно, это удел таких гигантов, как Google.
- Это дорого и долго, времени не дадут и не выделят бюджет.
- То, что вы описываете, слишком хорошо, чтобы быть правдой.
Пришло время узнать, что такое SRE
На уровне слогана: SRE — это одна из реализаций DevOps. Он зародился более 10 лет назад в Google, но только недавно начал проникать на «обычный» рынок, в первую очередь благодаря книге Site Reliability Engineering, выпущенной Google в 2016 году.Связь между SRE и DevOps хорошо объяснена в этом видео: Плохо то, что лозунги ни о чем.
Ну DevOps, ну реализация, очередное «за все хорошее против всего плохого».
Книгу можно прочитать (и это того стоит).
Но читатель окажется в положении человека, обучающегося каратэ по рисункам.
В книге описана концепция без применения к реальности.
Учитель ведет вас за руку по определенному пути и указывает на ошибки на этом пути.
В стоимость входит быстрый и углубленный обзор подхода и инструментов SRE.
Внедрить SRE проще, чем кажется
В Slurm мы будем тестировать SRE руками: подберем метрики, настроим их измерение, оповещения, сталкиваемся с инцидентами, решаем и анализируем их, перестраиваем проект по всем канонам SRE. То есть мы дадим пошаговые инструкции, которые вы сможете реализовать у себя дома после возвращения с интенсивного курса.Я лгу.
По сути, мы дадим не инструкцию, а образец, с которого можно скопировать кучу идей и решений.
В стоимость входит образец для реализации.
Основная проблема в том, что вам придется убеждать тех, кто не был в Слерме.
Поэтому в идеале на интенсив нужно приходить командой.
Поэтому мы даем большие скидки группам.
Было бы неплохо прийти в Слерм во главе с STO. И SEO тоже полезно, и именно об этом этот раздел…
.
как убедить высшее руководство в том, что SRE полезен и необходим.
Обычно возникает конфликт задач между CEO (высшим руководством), STO (ИТ-менеджментом), разработчиками и эксплуатацией.
Я намеренно не говорю «конфликт интересов»; это именно конфликт задач.
Руководителям нужны финансовые показатели.
СТО – это понятная, управляемая и по возможности комфортная ситуация.
То есть четкие задачи с понятной бизнес-ценностью, соблюдением сроков, нормальным стеком, большим количеством функций и меньшим количеством лажей.
Разработчикам необходимо внедрить больше функций, а операторам необходимо обеспечить доступность (что явно противоречит понятию «больше функций»).
SRE утверждает, что все участники процесса преследуют единственную цель: счастье пользователя.
Здоровый баланс между новыми функциями и надежностью сервиса радует пользователя.
Счастливый пользователь платит больше денег.
Чтобы управлять счастьем пользователя, необходимы специализированные инструменты.
Более того, SRE, будучи основанным на метриках, позволяет переводить финансовые показатели в целевые показатели для различных метрик, а они, в свою очередь, в задачи DevOps-команд. Разрешает перевод - я утрировал.
Наличие этих метрик позволяет найти взаимосвязи между состоянием метрик и финансовыми показателями.
Это отдельная большая, но понятная задача.
Есть проект ДОРА, DevOps-исследования и оценки , он проводит ежегодные исследования коммерческой ценности и рентабельности инвестиций DevOps и его подкласса SRE. В настоящее время мы переводим текущий отчет на русский язык.
Существуют формулы оценки, которые можно с определенной степенью точности применить к вашей компании.
Резюме: SRE дает бизнесу возможность управлять финансовыми показателями, устанавливая целевые метрики, а команда DevOps, глядя на текущие метрики, четко понимает, что нужно сделать сейчас с максимальной выгодой для финансовых показателей.
Какой генеральный директор откажется от такого инструмента? Получить ресурсы для реализации SRE вполне возможно.
В стоимость курса включен набор аргументов в пользу перехода на SRE и DevOps.
И даже в небольших компаниях есть место SRE.
SRE делится на инструменты, культуру и организационную структуру.Некоторые инструменты, например Service Mesh, нужны для больших и сложных проектов.
Но те же повторы, отсрочки, внесение ошибок и плавная деградация могут быть реализованы в небольших проектах и дают огромную отдачу.
Культура также полезна в любой компании.
Классический администратор при настройке Прометея будет действовать стандартно: включать мониторинг потребления памяти и диска и прочий привычный мониторинг.
Инженер SRE сначала обсудит с бизнесом ключевые показатели бизнес-процессов, а затем настроит их мониторинг.
Сразу понятно, что инженерная культура SRE полезна даже в микростартапе.
Но организационная структура в небольших компаниях, вероятно, ненужна и даже вредна.
Когда все сотрудники являются универсалами, нет необходимости принудительно распределять команды SRE.
Все, что мы описываем, уже работает
Курс создан теми, кто уже давно внедрил SRE в своих командах и давно живет в этой парадигме.
Иван Круглов и Бен Тайлер, ведущие разработчики Booking.com. Евгений Варавва, генеральный разработчик Google. «Дуард Медведев, технический директор Tungsten Labs, выросший из инженера SRE. Эдуард проводит вебинар «SRE – хайп или будущееЭ» 12 декабря в 11:00.
О программе
Что касается программы.Я уже получаю отзывы от экспертов, что программа «не работает»: слишком широка и местами нелогична.
Это верно.
По сути, у нас есть каркас программы, набор идей, которые мы хотим раскрыть.
Впереди у нас два месяца напряженной работы; По мере подготовки программа будет дорабатываться: удалим лишнее и уточним остальное.
Но уже в нынешнем виде программа четко показывает направление, в котором мы работаем.
Программа Slurm SRE Тема №1: Основные принципы и методы SRE.
- Что нужно, чтобы стать SRE?
- DevOps против SRE
- Почему разработчики ценят SRE и очень грустят, когда их нет в проекте
- SLI, SLO и SLA
- Бюджет ошибок и его роль в SRE
- Архитектура и функциональность приложения
- Неабстрактное проектирование больших систем
- Работоспособность/Проектирование на случай отказа
- gRPC или ОТДЫХ
- Управление версиями и обратная совместимость
- Лучшие практики от SRE
- Контрольный список приемки проекта
- Ведение журнала, метрики, трассировка
- Берем CI/CD в свои руки
- Реверс-инжиниринг – как работает система?
- Договариваемся о SLI и SLO
- Практикуйте планирование мощности
- Запуская трафик в приложение, наши пользователи начинают им «пользоваться»
- Запускаем Prometheus, Grafana, Elastic
- Мониторинг против наблюдаемости
- Настройка мониторинга и оповещений с помощью Prometheus
- Практический мониторинг SLI и SLO
- Симптомы против причин
- Мониторинг «черного ящика» и «белого ящика»
- Распределенный мониторинг доступности приложений и серверов
- 4 золотых сигнала (обнаружение аномалий)
- Работа под давлением
- Инъекция отказов
- Обезьяна Хаоса
- Алгоритм управления стрессом
- Взаимодействие между участниками инцидента
- Посмертное
- Обмен знаниями
- Формирование культуры
- Мониторинг неисправностей
- Проведение безупречного разбора полетов
- Балансировка нагрузки
- Отказоустойчивость приложения: повторная попытка, тайм-аут, внесение сбоя, автоматический выключатель
- DDoS (создание нагрузки) + Каскадные сбои
- разбор полетов
- Практика по вызову
- Различные типы аварий (тестирование, изменение конфигурации, аппаратный сбой)
- Протоколы управления инцидентами
- Ведение журнала
- Отладка
- Практикуйтесь в анализе и отладке нашего приложения
- Стресс-тестирование
- Тестирование конфигурации
- Тестирование производительности
- Канарский релиз
ПС.
При чем здесь хаб Kubernetes? Вся практика выполняется в Kubernetes. У владельцев Kubernetes есть прямой путь к тому, чтобы стать инженерами SRE. Для тех, кто не владеет - на нашем Курсы по Кубернетесу .
Регистрация на Slurm SRE
Теги: #Системное администрирование #Администрирование серверов #Kubernetes #DevOps #event #sre #training #slurm-
Упрощение Хостинга Вашего Веб-Сайта
19 Oct, 24 -
Пулемет – Это Событие?
19 Oct, 24 -
Fon – Бесплатный Wi-Fi По Всему Миру
19 Oct, 24 -
Transcend T.sonic 330 (8Гб)
19 Oct, 24 -
Доходы Google Упали Впервые В Истории
19 Oct, 24 -
«Аллея Инноваций» На Выставке Riw 2009.
19 Oct, 24