Ce qu'un crash complet de notre production nous a appris

Jean-françois Lépine

Friday 14 October 2022 from 15:25 to 16:05

Talk in French at Forum PHP 2022
Short URL: https://joind.in/talk/24863 (QR-Code (opens in new window))

Avg. Rating

En janvier 2020 on perd 50% de nos serveurs. Notre cluster RabbitMQ ? Mort ! Nos clusters Redis, ElasticSearch ? Morts. Nos frontaux ? Morts ! Les gateway ? Et ben non, celles-ci ne sont pas tombées, tiens…

3 semaines de rush intense plus tard, une décision est prise : ÇA N’ARRIVERA PLUS JAMAIS !

2 ans plus tard, voici les actions que nous avons menées pour avoir un plan de reprise d’activité efficace.

De la documentation, à l’automatisation, en passant par les workflows de travail, voici quelques idées pour que vous ne viviez pas ce que l’on a subi en 2020.