Ma mission chez Orange PFS a commencé en juin 2022 et a duré jusqu'en novembre 2022. J'y suis allé juste après mon projet précédent, qui consistait à construire une infrastructure sécurisée.
Avec mon équipe, nous exploitions une grande infrastructure composée de serveurs Redhat Linux. Ceux-ci étaient virtualisés dans un centre de données Orange sur VMware. Cette infrastructure était déjà dans un environnement de production, et nous devions nous assurer que tout fonctionnait comme prévu, ainsi que mettre à jour fréquemment les applications qui tournaient dessus.
Cette infrastructure était chargée de traiter les demandes des clients d'Orange lorsqu'ils changeaient de forfait de données ou d'options sur leur contrat de téléphone. Il s'agissait d'un environnement très critique, car s'il tombait en panne, les clients auraient été lourdement affectés. En effet, sur la base de données Oracle, nous pouvions voir chaque heure le nombre de requêtes SQL. Et il y en avait beaucoup. Cela signifiait que beaucoup de clients faisaient fréquemment des changements sur leurs forfaits mobiles au cours de la journée.
Ma tâche principale consistait à m'assurer que tout fonctionnait correctement. Je devais notamment surveiller le système de surveillance, les informations de la base de données et les journaux du système. Je devais également faire attention aux alertes par courrier électronique, et nous avions un système de billetterie automatisé où les incidents étaient signalés lorsque quelque chose ne fonctionnait pas.
Je devais également être proactif. S'il y avait quelque chose qui, selon moi, pouvait entraîner une défaillance, je devais essayer de le réparer avant qu'il n'ait un impact sur le système. C'était aussi le travail de toute l'équipe.
De temps en temps, nous devions mettre à jour le système et les applications. Comme tout était en production, nous devions tout planifier en conséquence. Il s'agissait notamment de lire attentivement la documentation pour s'assurer qu'il n'y avait pas d'erreur, de s'assurer qu'il existait une procédure de retour en arrière et de procéder à l'installation pendant la nuit pour que l'impact sur les utilisateurs soit minimal.
Pour un système aussi critique que celui-ci, nous avions également un service d'astreinte, où nous pouvions être appelés 24 heures sur 24 et 7 jours sur 7 en cas d'incident. Nous disposions alors d'un temps limité pour le résoudre avant qu'il ne s'aggrave et soit remonté à nos supérieurs.
Le travail d'équipe était ici très important en raison de l'aspect critique de l'infrastructure. Une bonne communication était essentielle, car toute action sur les machines avait des conséquences pour nous, et potentiellement pour les clients d'Orange. Nous devions nous assurer que tout le monde était sur la même longueur d'onde à chaque action et décision prise.
Ce projet m'a beaucoup aidé à réaliser tous les aspects de la gestion d'une infrastructure de production critique. J'ai beaucoup appris sur la prudence, la précision et l'anticipation nécessaires au bon fonctionnement de cette infrastructure.