Факапы

Факапы бывают у всех, потому что нет тех кто не ошибается. Тут конечно можно уйти в сторону, что "не ошибается тот кто ничего не делает", но, мне кажется, нужен баланс.
Больше всего мне нравится как оценивают факап в Гугле - https://sre.google. Если коротко, то они предлагают сильнее заморачиваться над критической инфраструктурой и меньше над не критической. Кроме того, важным элементом этой техники - ведение журнала инцидентов. И квинтэссенция всего это, это не искать виновных, но сделать все возможное, чтоб факап больше не повторился. Т.е. чисто гипотетически, в качестве превентивной меры можно кого-нибудь уволить 😀 Хотя эт не главное…

Так вот, эту технику следует держать в голове как руководителю (тимлиду) так и работнику который нафакапил. Т.е. если кто-то случайно "приложил" сервис, разумеется надо сфокусироваться над его подъемом (бывает так, что уже на этом этапе начинается наказание невиновных и награждение непричастных), затем прокрутить всю цепочку событий и только после этого принимать решение как сделать так, чтоб эта ситуация не повторилась.
Но если и подходить к ответственности, то ее величина прямо пропорциональна насколько критический для человека (или человечества) случился факап. Если лёг сайт в котором нагрузка 2.5rps в час, то влияния никакого и отвественности нет. Если лёг, к примеру, Facebook, то это уже неприятно т.к. есть убытки но можно обойтись проф.беседой. А вот если по вине отдела упал самолёт или взорвалась атомная станция, то это уже повод для серьезного расследования. Впрочем, в последних примерах, ответственность ложится на всю компанию в целом (т.к. скорее виноваты процессы чем люди) и расследование ведёт третья сторона.

Резюме этого поста такое - если ты работаешь не в авиации/атомной энергетике/медицине, то нужно меньше заморачиваться над своими факапами, но при этом обязательно представлять как их избегать в будущем. В любом случае, эта ситуаиция уже свершилась и на прошлое уже никак не повлиять 🤷