Как Мы Изменили Состояние «Всегда Включен», Чтобы Предотвратить Профессиональное Выгорание

Перевод статьи подготовлен специально для студентов курса.

«Практики и инструменты DevOps» .



Как мы изменили состояние «всегда включен», чтобы предотвратить профессиональное выгорание

Миссия Intercom — персонализация онлайн-бизнеса.

Но вы не можете персонализировать продукт, если он не работает. как .

Производительность имеет решающее значение для успеха нашего бизнеса не только потому, что наши клиенты платят нам, но и потому, что мы сами используем с вашим продуктом .

Если наш сервис не работает, мы буквально чувствуем боль наших клиентов.

Бесперебойная работа зависит от многих факторов, таких как архитектура программного обеспечения и качество повседневной работы.

Однако довольно часто все сводится к тому, что на звонки от ПейджерДьюти .

Этот вид технической поддержки может стать мощным клиентоориентированным инструментом, сочетающим помощь инженеров с тем, что клиенты получают при покупке вашего продукта.

Это также прекрасная возможность для обучения и роста, ведь неудачи и ошибки могут стать хорошей возможностью попрактиковаться в навыках и понять сложные механизмы работы.

Быть «постоянным» в нерабочее время пагубно влияет на вашу жизнь.

Но в то же время быть «всегда включенным» может пагубно сказаться на вашей жизни.

Вы должны быть готовы быстро и грамотно отреагировать на сигнал о том, что что-то сломалось.

Как я знаю из личного опыта, даже если в любой момент вас не вызывают на пейджинг, постоянное пребывание на связи может вызвать беспокойство.

Из-за этого особенно сильно ухудшается качество сна.

Регулярное нахождение в зоне доступа в любое время суток может привести к выгоранию, апатии или вообще желанию никогда больше не видеть компьютер.



История состояния «всегда на связи» в Intercom

На заре существования Intercom наш технический директор Киаран единолично обеспечивал целую команду круглосуточной технической поддержки, как в офисе, так и за его пределами.

По мере роста Интеркома была создана оперативная группа, чтобы помочь Кьярану.

Вскоре после этого новые команды разработчиков начали создавать множество новых функций и сервисов и взяли на себя все обязанности по технической поддержке.

В любой момент времени было слишком много людей «по вызову».

В то время этот подход казался простым, поскольку это был простой способ в любой момент масштабировать нашу команду технической поддержки, он соответствовал нашим ценностям и удовлетворял нашим требованиям.

чувство собственности .

В итоге, без каких-либо планов, у нас получилось четыре-пять команд, которые регулярно связывались с клиентами в нерабочее время.

У остальных команд разработчиков не было большого количества сложных проблем, которые могли вызвать ошибку, поэтому к ним обращались редко, если вообще когда-либо.

Мы поняли, что попали в ситуацию, когда у нас есть механика технической поддержки, которой мы не можем гордиться, и ряд критических проблем, которые мы хотели исправить, таких как: Было слишком много людей, готовых принять вызов в любой момент времени.

Наша инфраструктура была недостаточно велика, чтобы требовать, чтобы минимум пять инженеров-разработчиков работали без регулярных выходных.

Качество наших сигналов тревоги и процедур звонков не было одинаковым в разных командах, и мы использовали специальные процессы для проверки новых и существующих оповещений о проблемах.

Инструкции в модуле Runbook (которые необходимо соблюдать при получении уведомления о проблеме) в основном бросались в глаза своим отсутствием.

В зависимости от команды, в которой работали инженеры, у них были противоречивые ожидания.

Например, только у самой первой команды техподдержки была компенсация за дежурства и срыв выходных.

Судя по всему, существовал общий уровень терпимости к ненужным звонкам в неурочные часы.

Наконец, этот вид работы подходит не всем.

Жизненные обстоятельства порой показывали, что дежурные смены не лучшим образом сказывались на людях.



Поиск правильного состояния «всегда включен»

Мы решили создать новую виртуальную команду, которая будет выполнять работу по технической поддержке каждой команды в нерабочее время.

Команда будет состоять из добровольцев, а не призывников из какой-либо команды организации.

Инженеры виртуальной команды менялись примерно каждые шесть месяцев, проводя недели «по вызову».

К счастью, у нас не было проблем с поиском достаточного количества волонтеров, чтобы собрать виртуальную команду.

В результате наша команда поддержки сократилась с 30 человек до 6–7. Затем группа согласовала и определила, как должны выглядеть оповещения и описания проблем в runbook, а также описала процесс пересылки оповещений в новую группу поддержки.

Они определили все оповещения в коде с помощью модуля Terraform и начали использовать экспертную оценку для каждого изменения.

Мы ввели уровень оплаты за еженедельную смену, который вполне удовлетворил дежурных.

Мы также создали расширенную команду второго уровня, состоящую только из менеджеров.

Эта группа должна быть единой точкой эскалации для инженеров технической поддержки.

У нас было несколько месяцев упорной работы, в течение которых мы наладили этот процесс; в результате на вызове теперь было не 30 инженеров, как раньше, а всего 6 или 7. В рабочее время команды самостоятельно решают проблемы со своими функциями или сервисами, в это время обычно происходит наибольшее количество поломок.

, но в остальное время техподдержку оказывают волонтеры.



Что мы узнали

После того как мы запустили нашу виртуальную команду технической поддержки, мы ожидали притока новых задач, таких как расследование причин проблем или совместная работа над решением одной проблемы, вызвавшей сбой.

Однако наши команды разработчиков взяли на себя полную ответственность за факторы, вызвавшие сбои, и любое последующее реагирование обычно было немедленным.

Нам также нужно было избежать ситуации, при которой задание на техническую консультацию будет отправлено обратно команде, от которой оно пришло, чтобы не заставлять инженеров обращаться в нерабочее время.

Количество звонков в нерабочее время сократилось до менее 10 в месяц.

Наш процесс эскалации редко использовался официально.

Более распространенным мнением было то, что инженеру неофициально помогала команда, которая в данный момент была онлайн, особенно наши ребята из офиса в Сан-Франциско.

Многие проблемы были устранены или уменьшены благодаря командной работе и оперативному решению.

Инженеры нашего офиса в Сан-Франциско присоединились к команде на постоянной основе и вышли за рамки обычной технической поддержки.

Мы столкнулись с некоторыми накладными расходами, но распределение членства в нашей команде поддержки по нескольким офисам пошло нам на пользу, поскольку оказалось хорошим способом построить отношения, укрепить их и узнать больше о стеке технологий, с которым мы все работаем.

Работа разработчиков Интеркома в наших командах стала более слаженной, и мы можем с уверенностью говорить о преимуществах работы системным инженером на нашем сайте.

Карьера , заявляя, что нет необходимости всегда быть на связи, если вы этого не хотите.

Наряду с фундаментальной работой по стабилизации и масштабированию наших хранилищ данных, постоянное внимание к решению проблем привело к тому, что количество звонков в нерабочее время сократилось до менее 10 в месяц.

Мы очень гордимся этой цифрой.

Мы продолжаем работать над поддержанием и улучшением нашей команды технической поддержки, и по мере роста Intercom нам, возможно, придется пересмотреть наши решения, потому что то, что работает сегодня, не обязательно будет работать в следующий раз, когда наш штат увеличится вдвое.

Однако этот опыт оказался чрезвычайно положительным для нашей организации и значительно улучшил качество жизни наших инженеров-разработчиков, качество наших ответов на звонки и, прежде всего, опыт наших клиентов.

Теги: #DevOps #burnout #техническая поддержка #домофон

Вместе с данным постом часто просматривают: