О Чем Следует Помнить При Введении Дежурных Смен

Автор книги «Эффективный DevOps» Рин Дэниэлс делится стратегиями, которые каждый может использовать для создания более эффективных, менее разочаровывающих и более устойчивых ротаций дежурств.



О чем следует помнить при введении дежурных смен

С появлением Devops многие инженеры в наши дни так или иначе организуют смены, что когда-то было исключительной ответственностью системных администраторов или инженеров по эксплуатации.

Дежурство, особенно в нерабочее время, не является задачей, которая доставляет удовольствие большинству людей.

Дежурство может нарушить наш сон, помешать нормальной работе, которую мы пытаемся выполнять в течение дня, и помешать нашей жизни в целом.

Поскольку в дежурствах участвует все больше и больше команд, мы задали вопрос: «Что мы, отдельные лица, команды и организации, можем сделать, чтобы сделать дежурства более гуманными и устойчивымиЭ»



Сохрани свой сон

Часто первое, о чем люди думают, когда думают о дежурстве, — это то, что это отрицательно скажется на их сне; никто не хочет, чтобы оповещение разбудило его посреди ночи.

Если ваша организация или команда становится достаточно большой, вы можете использовать ротацию «следуя за солнцем», когда команды из разных часовых поясов участвуют в одной и той же ротации с более короткими дежурствами.

поэтому каждый часовой пояс будет дежурить только в свои рабочие часы (или хотя бы часы пробуждения).

Установление такой ротации может творить чудеса, уменьшая ночную нагрузку, которую берет на себя обслуживающий персонал.

Если у вас недостаточно инженеров и географического распределения, чтобы поддерживать вращение по движению Солнца, вы все равно можете кое-что сделать, чтобы уменьшить вероятность того, что люди будут без необходимости просыпаться посреди ночи.

В конце концов, одно дело встать с постели в 4 утра, чтобы решить насущную проблему клиента; Совсем другое – проснуться и обнаружить, что вы имеете дело с ложной тревогой.

Это может помочь просмотреть все настроенные вами оповещения и спросить свою команду, какие из них действительно необходимы, чтобы разбудить кого-то в нерабочее время, и могут ли эти оповещения подождать до утра.

Может быть трудно заставить людей согласиться отключить некоторые неработающие оповещения, особенно если пропущенные проблемы вызывали проблемы в прошлом, но важно помнить, что инженер, лишенный сна, — не самый эффективный инженер.

Установите эти оповещения в рабочее время, когда они действительно важны.

Большинство инструментов оповещений в наши дни позволяют вам устанавливать различные правила для уведомлений в нерабочее время, будь то периоды уведомлений Nagios или настройка различных расписаний в PagerDuty.

Сон, долг и командная культура

Другие решения проблемы нарушения сна предполагают более масштабные культурные изменения.

Один из способов решения этой проблемы — отслеживать оповещения, обращая особое внимание на то, когда они приходят и можно ли предпринять какие-либо действия.

Опсеженедельно — это инструмент, созданный и опубликованный Etsy, который позволяет командам отслеживать и классифицировать получаемые ими оповещения.

Он может генерировать графики, показывающие, сколько оповещений разбудили людей (с использованием данных сна с фитнес-трекеров), а также сколько оповещений на самом деле потребовало действий человека.

Используя эти технологии, вы можете отслеживать эффективность дежурства по вызову и его влияние на сон с течением времени.

Команда может сыграть роль в обеспечении полноценного отдыха каждому дежурному.

Создайте культуру, которая побуждает людей заботиться о себе: если вы теряете сон из-за того, что вас вызвали ночью, вы можете поспать утром немного дольше, чтобы попытаться наверстать упущенное время сна.

Члены команды могут следить друг за другом: когда команды делятся друг с другом данными о своем сне через что-то вроде Opsweekly, они могут пойти к своим дежурным коллегам и сказать: «Похоже, вчера вечером у вас была тяжелая ночь с PagerDuty».

ночью - хочешь, я прикрою тебя сегодня вечером, чтобы ты мог немного отдохнуть? Поощряйте людей поддерживать друг друга таким образом и не поощряйте «культуру героев», когда люди доводят себя до предела и избегают просить о помощи.



Снижение влияния дежурства на работе

Когда инженеры устают из-за того, что их разбудили во время дежурства, они, очевидно, не смогут работать на 100% в течение дня, но даже без учета депривации сна дежурство может иметь и другие последствия для работы.

Одна из самых значительных потерь при дежурстве связана с фактором прерывания, сменой контекста: единичное прерывание может привести к потере не менее 20 минут из-за потери фокуса и переключения контекста.

Вполне вероятно, что у ваших команд будут другие источники помех, например заявки, созданные другими командами, запросы или вопросы, поступающие через чат и/или электронную почту.

В зависимости от объема этих других перерывов вы можете рассмотреть возможность добавления их к существующей ротации во время дежурства или создания второй ротации только для обработки этих других запросов.

Важно учитывать это при планировании работы, которую будет выполнять команда, как в долгосрочной, так и в краткосрочной перспективе.

Если ваша команда имеет довольно интенсивные дежурные смены, этот факт необходимо учитывать при долгосрочном планировании, поскольку у вас может возникнуть ситуация, когда весь персонал в любой момент времени фактически находится на дежурстве, а не выполняет другую работу.

При краткосрочном планировании вы можете обнаружить, что дежурный сотрудник не может уложиться в сроки из-за своих дежурных обязанностей – этого следует ожидать, а остальная часть команды должна быть готова приспособиться и помочь обеспечить выполнение работы.

будет выполнено, а дежурному сотруднику будет оказана поддержка в выполнении его рабочих задач.

Независимо от того, вызван ли дежурный, дежурная смена повлияет на его способность выполнять другую работу — не ждите, что дежурный будет работать по ночам, чтобы выполнять запланированные проекты в дополнение к работе.

дежурство в нерабочее время.

Командам придется найти способ справиться с дополнительной работой, возникающей во время дежурства.

Эта работа может быть реальной работой по исправлению реальных проблем, обнаруженных системами мониторинга и оповещения, или это может быть работа по корректировке мониторинга и оповещений, чтобы уменьшить количество ложных срабатываний оповещений.

Каким бы ни был характер создаваемой работы, важно справедливо и устойчиво распределять ее между членами команды.

Не все дежурные смены одинаковы, некоторые из них более сложны, чем другие, поэтому утверждение, что человек, получивший предупреждение, является лицом, ответственным за устранение всех последствий этого предупреждения, может привести к неравномерному распределению работы.

Возможно, имеет смысл, если дежурный будет отвечать за планирование или распределение работы, ожидая, что остальная часть команды будет готова помочь завершить созданную работу.



Создание и поддержание баланса между работой и личной жизнью

Подумайте о влиянии дежурства на вашу жизнь вне работы.

Находясь на дежурстве, вы, скорее всего, будете чувствовать себя привязанным к мобильному телефону и ноутбуку, а это значит, что вы всегда носите с собой ноутбук и мобильный роутер (usb-модем) или просто не выходите из дома/офиса.

Быть на связи обычно означает отказаться от таких вещей, как встречи с друзьями или семьей во время смены.

Это означает, что продолжительность каждой смены зависит от количества людей в вашей команде, а частота смен может создавать чрезмерную нагрузку на людей.

Возможно, вам придется поэкспериментировать с продолжительностью и графиком ваших смен, чтобы найти график, который подойдет хотя бы большинству задействованных людей, поскольку разные команды и люди будут иметь разные приоритеты и предпочтения.

Крайне важно осознавать влияние, которое служебные обязанности окажут на жизнь людей, как на уровне руководства, так и на индивидуальном уровне.

Следует отметить, что воздействие непропорционально ощутят люди с меньшими привилегиями.

Например, если вам приходится тратить время на уход за детьми или другими членами семьи или если вы обнаруживаете, что большая часть работы по дому ложится на ваши плечи, у вас уже меньше времени и энергии, чем у того, кто этого не делает. обязанности.

Такого рода работа во «вторую смену» или «третью смену», как правило, оказывает непропорционально сильное влияние на людей, и если вы устанавливаете дежурство с таким графиком или интенсивностью, которые предполагают, что у участников нет личной жизни за пределами офиса, вы ограничиваете людей, которые может участвовать в вашей команде.

Поощряйте людей стараться придерживаться своего обычного графика.

Вам следует подумать об обеспечении команды мобильными маршрутизаторами (USB-модемами), чтобы люди могли выходить из дома со своим ноутбуком и при этом сохранять хоть какое-то подобие жизни.

Поощряйте людей обмениваться часами дежурства друг с другом, если это необходимо, на короткие периоды времени, чтобы люди могли пойти в спортзал или обратиться к врачу во время дежурства.

Не создавайте культуру, в которой пребывание на дежурстве означает, что инженеры буквально ничего не делают, кроме как быть на связи.

Баланс между работой и личной жизнью является важной частью любой работы, но особенно если учесть нерабочее время, более старшие члены вашей команды должны подавать пример другим в отношении баланса между работой и личной жизнью, насколько это возможно, во время работы.

На индивидуальном уровне не забудьте объяснить, что значит дежурство, вашим друзьям, семье, партнерам, домашним животным и т. д. (вашим кошкам, вероятно, будет все равно, поскольку они уже проснулись в 4 утра, когда вы получите оповещение).

, хотя они никоим образом не захотят помочь вам в ее решении).

Обязательно наверстывайте упущенное время после окончания смены, например, чтобы увидеться с друзьями, семьей или поспать.

Если можете, подумайте об установке беззвучного будильника (например, умных часов), который сможет разбудить вас звонком на запястье, чтобы вы не разбудили никого вокруг.

Найдите способы позаботиться о себе, когда вы находитесь в середине дежурной смены и когда она закончилась.

Возможно, вы захотите собрать «комплект выживания по вызову», который поможет вам расслабиться: послушайте плейлист с любимой музыкой, почитайте любимую книгу или найдите время, чтобы поиграть со своим питомцем.

Менеджеры должны поощрять заботу о себе, предоставляя людям выходной после недели дежурства и следя за тем, чтобы люди просили (и получали) помощь, когда она им нужна.



Улучшение опыта службы

В целом дежурство не должно восприниматься просто как ужасная работа: у вас есть возможность и ответственность как дежурного человека активно работать над тем, чтобы улучшить жизнь людей, которые будут дежурить в будущем, а это означает, что люди получит меньше сообщений и они будут более точными.

Опять же, отслеживание ценности ваших оповещений с помощью чего-то вроде Opsweekly может помочь вам выяснить, что вас раздражает, и исправить это.

Что касается неактивных оповещений, спросите себя, есть ли способы избавиться от этих оповещений — возможно, это означает, что они будут срабатывать только в рабочее время, потому что есть некоторые вещи, на которые вам просто не нужно реагировать посреди ночи.

Не бойтесь удалять оповещения, изменять их или менять способ отправки с «отправить на телефон и электронную почту» на «только электронная почта».

«Эксперименты и итерации являются ключом к улучшению работы с течением времени.

Для оповещений, которые действительно можно предпринять, вам следует подумать, насколько легко инженеру предпринять необходимые действия.

Каждое запущенное оповещение должно иметь соответствующую книгу Runbook. Рассмотрите возможность использования такого инструмента, как nagios-herald, для добавления ссылок Runbook в ваши оповещения.

Если оповещение достаточно простое и для него не требуется модуль Runbook, оно, вероятно, достаточно простое, чтобы можно было автоматизировать ответ с помощью чего-то вроде обработчиков событий Nagios, что избавляет людей от необходимости просыпаться или прерывать себя для выполнения легко автоматизированных задач.

И Runbook, и nagios-herald могут помочь вам добавить ценный контекст к вашим оповещениям, что поможет людям реагировать на них более эффективно.

Посмотрите, сможете ли вы ответить на распространенные вопросы, например: Когда в последний раз сработало это оповещение? Кто ответил на него в прошлый раз и какие действия они в конечном итоге предприняли (если таковые были)? Какие еще оповещения появляются одновременно с этим и связаны ли они? Этот тип контекстной информации часто попадает только в мозг людей, поэтому поощрение культуры документирования и обмена контекстной информацией может снизить объем накладных расходов, необходимых для реагирования на предупреждения.

Большая часть усталости от дежурств заключается в том, что они никогда не заканчиваются: если в вашей команде есть дежурства, маловероятно, что они закончатся когда-либо в обозримом будущем.

Смены никогда не заканчиваются, и нам может казаться, что они всегда будут ужасными.

Отсутствие надежды является серьезной психической проблемой, которая может способствовать стрессу и истощению, поэтому устранение представления (в дополнение к реальности) о том, что долг всегда будет ужасным, является хорошей отправной точкой для того, чтобы начать думать о своем долге в долгосрочной перспективе.

Чтобы дать людям надежду на то, что ситуация на дежурстве когда-нибудь улучшится, необходимо иметь наблюдаемость системы (то самое отслеживание и категоризацию дежурств, о которой я говорил ранее).

Отслеживайте, сколько у вас оповещений, какой процент из них требует сопутствующего вмешательства, сколько из них будят людей, а затем работайте над созданием культуры, которая побуждает людей делать что-то лучше.

Если у вас большая команда, может возникнуть соблазн, как только ваша вахта подойдет к концу, вскинуть руки и сказать «это проблема будущего дежурного», а не копаться, чтобы что-то исправить — кто хочет тратить больше усилие при исполнении служебных обязанностей, чем от них требуется? Именно здесь культура сочувствия может иметь большое значение, поскольку вы заботитесь не только о своем благополучии на службе, но и о благополучии своих коллег.



Все дело в сочувствии

«Сочувствие — важная часть того, что позволяет нам мотивировать производительность, улучшающую качество обслуживания по вызову.

Будучи менеджером или участником, вы можете положительно оценивать или даже вознаграждать людей за поведение, которое способствует улучшению изменений.

Поддержка эксплуатации — одна из тех областей, где инженерам часто кажется, что люди обращают на них внимание только тогда, когда что-то идет не так: люди будут кричать на них, когда сайт выходит из строя, но они редко узнают о закулисных усилиях, которые осуществляются в процессе эксплуатации.

инженеры вкладывают средства в поддержание работоспособности сайта в остальное время.

Признание работы может иметь большое значение, будь то благодарность кого-то на собрании или в общем электронном письме за улучшение конкретного оповещения, технический аспект дежурства или предоставление кому-то времени на некоторое время подменить другого инженера на смене.

Поощряйте людей тратить время и усилия на улучшение ситуации с вызовами в долгосрочной перспективе.

Если у вашей команды есть дежурные, вам следует планировать и расставлять приоритеты в этой работе так же, как и в любой другой работе по вашей дорожной карте.

Дежурства — это энтропия на 90%, и если вы не будете активно работать над их улучшением, со временем они будут становиться все хуже и хуже.

Работайте со своей командой, чтобы выяснить, что лучше всего мотивирует и вознаграждает людей, а затем используйте это, чтобы побудить людей уменьшить шум оповещений, написать инструкции и создать инструменты, которые решают их проблемы, связанные с вызовом.

Что бы вы ни делали, не соглашайтесь на ужасную обязанность как на постоянную часть положения дел.

Теги: #Системное администрирование #DevOps #Управление персоналом #sre #teamlead #sysadmin #duty

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.