Du chaos à la confiance, un incident à la fois
Comme tout développeur vous le dira, quelles que soient la robustesse et la résilience de la technologie, les incidents demeurent une triste réalité. Les pannes de routeur, les interruptions de service ou même l’afflux inattendu d’utilisateurs sur un système (comme de nombreuses entreprises l’ont connu avec la COVID-19) peuvent entraîner l’arrêt d’une application.
RBC est la plus grande banque du Canada et l’une des dix plus grandes banques à l’échelle mondiale, au chapitre de la capitalisation boursière. Par conséquent, il est primordial de s’assurer que nos systèmes s’adaptent et fonctionnent malgré les défis techniques. Les applications comme NOMI ou MonConseiller font appel à des systèmes distribués complexes et c’est pourquoi l’assurance qualité traditionnelle n’est pas suffisante pour se préparer à ces scénarios.
« Dans le cadre de notre contexte, il est primordial de pouvoir cerner et résoudre les problèmes qui touchent nos clients le plus rapidement possible, déclare Dan Clark, directeur général principal, Développement et exploitation, et interface de programmation. Nous devions comprendre ce qui arrive à nos clients lorsque les choses tournent mal, mettre en pratique nos mesures en cas d’incident et trouver des points à améliorer dans l’ensemble. »
Afin de renforcer et de consolider ses pratiques en matière de gestion d’incident, RBC a récemment fait passer la mise en œuvre de l’ingénierie du chaos à un niveau supérieur dans le cadre de la journée de compétition, un concours collaboratif et interactif entre équipes. Lors de la journée de compétition, nous avons délibérément créé des incidents tout au long des cycles de développement et d’essai de diverses applications, ce qui a permis à nos équipes responsables des plateformes et des applications de s’exercer en temps réel à coordonner les interventions et la résolution des incidents.
Dans le cadre de cet événement auquel participaient les équipes Technologie et exploitation et Services bancaires aux particuliers et aux entreprises de RBC, nous avons découvert et vérifié comment les applications et les plateformes réagissaient aux différentes situations de crise. Les équipes ont mis à profit les systèmes d’exploitation de l’IA afin de surveiller les incidents, ont amélioré la résilience des solutions et le délai moyen de reprise, puis ont résolu toute vulnérabilité potentielle afin d’éviter qu’elle ne se concrétise.
« Il est essentiel que nous aidions nos clients à gérer leurs finances avec facilité et précision. Nous n’avons donc pas droit à l’erreur, indique Ranji Narine, premier vice-président, Infonuagique et transformation. La journée jeux a entraîné un travail d’équipe incroyable et l’émergence de nouvelles données qui changeront la façon dont nous développerons les applications et réglerons les incidents dans l’avenir. »
RBC s’affaire actuellement à intégrer les résultats et le cadre de travail de la journée jeux au reste de l’entreprise et à cerner les nouvelles applications à ajouter à la prochaine série de scénarios.
« L’objectif est d’exécuter ces scénarios régulièrement et d’ajouter d’autres tests en fonction des renseignements tirés d’incidents antérieurs, affirme John Keenleyside, directeur général, Ingénierie infonuagique, et technologue principal et chef, projet, Journée de compétition. Nos équipes sont prêtes à apprendre, à s’adapter et à créer pour répondre aux besoins en constante évolution de nos clients. »
Découvrez notre équipe Technologie et exploitation, ainsi que d’autres initiatives emballantes en cours d’élaboration.