Dans ton Kube : retour sur 2 ans d’incidents (Kubernetes) en production
Ça y est, l’heure du Meetup CNCF Bordeaux est arrivée ! Pour rappel, je vais y parler de Kubernetes et des incidents que j’ai eu en production depuis mon arrivée chez Lectra.
Pour ceux qui sont présents (et ceux qui ne sont PAS présents aussi, en fait), je met à disposition les slides du talk, un peu en avance.

Le podcast, le podcast !
Si je n’oublie pas de lancer l’enregistrement, je mettrais aussi un fichier audio de la conf, en mode podcast :-p.
Le pitch, le pitch !
Je vous remet le petit pitch pour vous vendre le truc 😉
Pour héberger ses services cloud, Lectra a misé sur Kubernetes. Et si personne n’a réussi (pour l’instant) à planter TOUTE la Prod, ça a parfois secoué un peu ;-).
Je reviendrai donc sur ces deux années passées par la team Ops, et vous partagerai quelques petites tips, souvent apprises sur le tas.
Super intéressant comme REX. Petite question, est-ce que vous poussez les développements à être déployé sur ces plateformes ou pas ? Autrement dit, est-ce que les objectifs de disponibilité sont là ?
Réponse courte : oui, la disponibilité est au rendez-vous !
Réponse plus détaillée : ça dépend de quoi on parle exactement. Si on parle des applications containerisées stateless et orchestrées dans Kubernetes, il n’y a pas photo. Tout est très résilient. Si on parle d’Azure, c’est « un peu » moins vrai (je n’irai pas dans la caricature et dire que Microsoft fait du mauvais travail, c’est faux). Dans tous les cas, la conjonction des deux fait que nous avons très (très très très) peu d’incidents en production qui ont un impact pour le client.
Et même lors des incidents que nous avons eu, suites aux erreurs que je cite dans le REX notamment, les impacts ont été minimaux. Les applications étant de nouveau disponibles en quelques… secondes ! Difficile de faire mieux.