Data centers : des choix stratégiques pour anticiper la résilience numérique et économique
La crise sanitaire engendrée par le Covid-19 a pour conséquence de démontrer, s'il en était besoin, à quel point la continuité d’exploitation des data centers, et des infrastructures IT en général, est un élément clé de la continuité de la nation. Quelles sont les bonnes pratiques, au niveau des data centers, pour organiser la résilience numérique, et économique des organisations et de la société dans son ensemble ?
Continuité de service numérique : des fondamentaux inchangés
La continuité des activités d’une entreprise, ou d’un service public, est en grande partie dépendante du bon fonctionnement de ses systèmes d’information. Cette dépendance accrue a poussé à l’adoption en France du statut d’opérateur de services essentiels (OSE)[1], en prolongement du statut d’Opérateur d’Importance Vitale (OIV), afin de caractériser une entité qui fournit un service essentiel et qui est tributaire de systèmes d’informations dont l’arrêt aurait un impact significatif sur le fonctionnement de l’économie ou la société.
Ce constat de dépendance s’est encore renforcé à l’occasion de la crise sanitaire du Covid-19 avec l’indispensable disponibilité des systèmes d’information hospitaliers et des opérateurs Télécom/internet, la continuité des institutions, le télétravail massif, l’école à distance, les téléconsultations médicales, etc. La politique de confinement généralisée dans le monde a entraîné une forte hausse du trafic internet pouvant atteindre 70% dans certains pays européens selon KPMG[2]. Les infrastructures qui soutiennent ces services ont jusqu’ici tenu car elles sont nativement conçues pour être résilientes.
Un design pour garantir la continuité de service
Réceptacle des infrastructures numériques, le data center joue un rôle essentiel dans la disponibilité des applications. Son architecture est définie selon certains objectifs de continuité de service dans le référentiel de l’Uptime Institute (Tier I à IV pour des disponibilités croissantes de 99,671 % à 99,995 % du temps de fonctionnement). En outre, l’exploitant de data center, peut mettre en œuvre des systèmes de réplication de sites (« dual sites ») pour une reprise immédiate en cas de coupure totale.
Pour pallier l’explosion de certains besoins, comme c’est le cas actuellement pour les applications de travail collaboratifs, les fournisseurs de services peuvent s’appuyer sur les technologies cloud qui offrent une élasticité importante pour des compléments de ressources en stockage et de traitement des données dans un délai très réduit. La stratégie du maillage territorial des grands fournisseurs de services numériques contribue également, via une décentralisation du trafic (Edge Data center), à assurer la fourniture des services à tout un chacun.
La stratégie de connectivité pour maintenir un trafic fluide
Les services numériques doivent leur bon acheminement à la continuité de services des réseaux fixes et mobiles grâce à l’interconnexion des réseaux des différents opérateurs nationaux. En outre, les investissements consentis pour la décentralisation des fonctions CDN (Content delivery networks) ont contribué, en réduisant les distances entre les contenus et leurs lieux de consommation, à améliorer la résilience des grandes plateformes de contenus, gourmandes en bande passante. Au niveau des entreprises, l’accès à de multiples fournisseurs de connectivités concurrents permet également aux data centers de répartir le risque et d’assurer l’écoulement du trafic.
En période de forte sollicitation, les DSI peuvent recourir à plusieurs stratégies de priorisation pour assurer la résilience des applications critiques afin d’adapter la qualité de service selon la typologie et la criticité des flux, notamment via l’usage du SD-WAN (Software-Defined Wide Area Network). La question de la priorisation des flux se pose également sur Internet, notamment concernant la concurrence d’acheminement entre les flux « professionnels » (applications utilisées pour le télétravail par exemple) et flux « récréatifs » (vidéo en streaming par exemple).
PCA et PRA : l’assurance-vie de l’entreprise
Au sein d’une organisation, qu’elle soit publique ou privée, prévoir l’imprévisible ne se limite pas aux outils numériques, même si, comme on l’a vu, ces derniers constituent un axe majeur de la continuité d’activité. Pour parer à toute éventualité, à savoir des événements imprévisibles, empêchant la bonne marche de l’activité en raison de l’inaccessibilité de l’appareil productif ou l’impossibilité aux équipes d’accomplir leurs missions, l’entreprise doit se préparer.
C’est en l’occurrence tout l’objectif des plans de continuité d’activité (PCA) et plans de reprise d’activité (PRA) qui sont le quotidien des opérateurs de datacenters : ce qui caractérise, et donc différencie principalement, ces dispositifs est la temporalité. Ainsi, là où le PCA répond à des risques à court terme avec des procédures permettant de maintenir les activités essentielles d’une organisation, le PRA a pour fonction de remettre en ordre de marche l’ensemble de l’activité, de la façon la plus ordonnée et rapide possible. Le PRA est donc davantage « long-termiste », et fait généralement suite un arrêt brutal de toute une chaîne de production : incident majeur sur l’appareil productif, épidémie, etc.
Les PCA et PRA doivent notamment permettre de maintenir, voire renforcer, le niveau de sécurité/sûreté des sites centraux d’autant plus critiques en cas de crise. Concrètement, il s’agit par exemple d’adopter de nouvelles procédures d’accréditation réduisant les contacts physiques lors de l’accès aux sites sensibles par exemple, mettre en place une télésurveillance pour les bâtiments fermés au public avec une levée de doute audio/vidéo ou établir une équipe de sécurité de réserve capable de suppléer tout agent qui serait en arrêt maladie par exemple.
Les PCA et PRA doivent bénéficier de procédures écrites claires et structurées pour être efficaces. Et surtout couvrir tous les sujets, autour du triptyque qui constitue aujourd’hui toute organisation : ressources humaines, outils de production et infrastructures numériques. Ce n’est qu’à l’aune de l’existence et de la pertinence de ces documentations qu’une organisation pourra faire face à tout type d’imprévus, en essuyant le moins de pertes possibles.
[1] La Directive Sécurité des Réseaux Informatiques (SRI) précise les règles de désignation des OSE.
[2] https://www.forbes.com/sites/markbeech/2020/03/25/covid-19-pushes-up-internet-use-70-streaming-more-than-12-first-figures-reveal/