Qu'est-ce que la Cloud Monitoring ?

Arfan Sharif - février 16, 2023

Définition

La surveillance du cloud désigne la pratique consistant à évaluer les workloads présents dans le cloud au regard de mesures et de seuils spécifiques.

La surveillance du cloud vous permet de déterminer si vos applications cloud s’exécutent conformément à leur accord de niveau de service (SLA), de détecter les risques de sécurité potentiels, d’identifier les problèmes de capacité éventuels et d’analyser les coûts.

Dans cet article, nous analyserons la surveillance du cloud public sous tous les angles, et plus particulièrement les aspects suivants :

  • L’importance de la surveillance du cloud
  • Les services cloud à surveiller
  • Les différents types de surveillance disponibles
  • Le fonctionnement de la surveillance des services cloud
  • Les fonctionnalités indispensables de toute plateforme de surveillance du cloud

Pourquoi la surveillance du cloud est-elle importante ?

La surveillance du cloud s’inscrit dans le cadre de l’observabilité, la pratique consistant à analyser les résultats d’un système afin d’en comprendre l’état interne. Au sein du paysage informatique moderne, les entreprises recourent à l’observabilité pour obtenir un tableau complet de l’état de santé de leurs applications distribuées complexes.

Comme les entreprises peuvent exécuter certains workloads, voire tous, dans le cloud, la surveillance du cloud joue un rôle déterminant dans leur stratégie globale d’observabilité. Cependant, elle traite essentiellement des indicateurs et des logs. Examinons quelques exemples pratiques de la surveillance du cloud en action.

Optimisation des coûts

En surveillant votre empreinte cloud, vous pouvez contrôler l’utilisation de vos ressources et ainsi optimiser vos coûts. Par exemple, si la surveillance montre que vos machines virtuelles basées dans le cloud fonctionnent uniquement à pleine capacité pendant les heures de bureau, vous gagnerez à les éteindre en dehors de ces plages horaires.

Performances

Imaginons à présent que vous veniez de découvrir que vos applications cloud fonctionnent au ralenti. Vous pourriez augmenter la capacité de votre processeur ou de votre mémoire et en mesurer les avantages en surveillant le rapport mise à l’échelle-performances. Lorsque ce dernier atteint un plateau, signe que la capacité supplémentaire ou l’élasticité ne contribue plus à améliorer les performances, une analyse plus poussée des indicateurs et des logs pourrait vous aider à identifier la cause sous-jacente de ce ralentissement.

Évaluation

La surveillance des applications cloud performantes vous permet également d’établir des critères de référence de base, que vous pourrez ensuite utiliser pour obtenir des données comparatives avant-après lors de la mise à niveau de votre infrastructure ou de l’ajout d’une nouvelle fonctionnalité à l’application.

Sécurité

La surveillance du cloud offre également des avantages sur le plan de la sécurité. En effet, la solution de surveillance analyse les logs de l’application, du serveur, de la passerelle d’API ou du pare-feu et vous alerte en cas d’anomalie, de tentative d’accès malveillant ou d’attaque DDoS. Les données produites par cette surveillance peuvent ensuite être utilisées pour renforcer votre niveau de sécurité.

EN SAVOIR PLUS

Dans cet article, nous verrons en quoi consiste l’analyse cloud, passerons en revue les différents types d’analyse cloud et étudierons leur fonctionnement. Lisez maintenant: Qu'est-ce que l'analyse cloud

Quels services cloud dois-je surveiller ?

La réponse à cette question est on ne peut plus simple : tous les services que vous utilisez. Les entreprises recourent à différents types de services cloud, notamment :

  • Le SaaS (Software-as-a-Service), comme Google Workspace, Microsoft 365 et Salesforce
  • L’IaaS (Infrastructure-as-a-Service), tels qu’AWS, Google Cloud Platform et Microsoft Azure
  • Le PaaS (Platform-as-a-service), notamment les pare-feux d’applications web managés, les services de conteneurs, les passerelles d’API et les services DNS
  • Le FaaS (Functions-as-a-service), tel qu’AWS Lambda et Google Cloud Functions
  • Le DBaaS (Database-as-a-service), notamment Oracle Cloud, Azure Synapse et Snowflake

La quantité d’informations de surveillance fournie par chaque plateforme ou service varie.

Vous devez donc collecter les indicateurs et les logs qui présentent de l’intérêt pour votre cas d’usage parmi tous ceux que vos plateformes cloud peuvent produire. Par exemple, il n’est peut-être pas utile de capturer les indicateurs provenant de vos serveurs de développement. De même, les indicateurs issus d’une fonction sans serveur de niveau inférieur essentiellement dédiée à la recherche peuvent se révéler peu utiles (même dans un environnement de production), tandis que les logs d’accès aux serveurs web ou les logs des requêtes lentes adressées aux bases de données présenteront vraisemblablement un plus grand intérêt.

Quels indicateurs cloud dois-je surveiller ?

Les applications cloud modernes utilisent des dizaines, voire des centaines, de services cloud proposés par une multitude de fournisseurs. Face à la multiplicité des indicateurs résultant de ces configurations complexes, les équipes chargées des opérations se sentent souvent submergées d’informations. Le rapport signal-bruit est souvent trop élevé, de sorte que les signaux d’alerte réels peuvent facilement passer inaperçus.

Dans ce contexte, il vous appartient de déterminer, d’une part, les catégories d’informations dont vous avez besoin et, d’autre part, les éléments d’information qu’il convient de capturer pour chacune de ces catégories. Voici une liste succincte de ces catégories :

Réseau

  • Logs des flux
  • Utilisation de la bande passante du réseau par les serveurs

Sécurité

  • Logs des pare-feux, des logiciels antivirus, des passerelles d’API, des serveurs web et des accès au serveur de base de données
  • Échecs de connexion
  • Logs d’accès aux objets, y compris ceux exposés par les compartiments S3 d’AWS
  • Logs système (syslog)

Applications

  • Piles d’exécution des microservices et logs des applications
  • Logs des bibliothèques d’exécution (log4j, par exemple)

Couche de calcul

  • Indicateurs du serveur, comme l’utilisation du processeur, la mémoire disponible, les performances du disque et la latence des E/S

Applications conteneurisées

  • Nombre de pods prévus par minute ou nombre de pods qui plantent par nœud

Fonctions sans serveur

  • Uniquement si ces fonctions exécutent des tâches complexes comportant plusieurs étapes
  • Logs des tâches cron ou du programmateur d’événements pour les tâches planifiées importantes

Bases de données

  • Logs des requêtes lentes
  • Indicateurs de performance
  • Événements

Cette liste n’est pas exhaustive, mais vous donne un aperçu des points sur lesquels concentrer vos efforts.

La surveillance du cloud, comment ça marche ?

Maintenant que vous savez quelles plateformes cloud et quels indicateurs surveiller, voyons comment cela fonctionne concrètement.

La plupart des fournisseurs de services cloud proposent leur propre service de surveillance. Par exemple, Amazon CloudWatch et CloudWatch Logs vous permettent de surveiller la plupart des services AWS. De même, GCP possède sa propre suite Google Cloud Operations et Azure utilise Azure Monitor. D’autres services cloud, comme DigitalOcean, proposent quelques indicateurs de base, tandis que Snowflake joint à ses logs de requête des plans de requête.

Si votre entreprise possède un environnement multicloud, vous risquez de vous retrouver avec des centaines de workloads exécutés sur de multiples comptes auprès de différents fournisseurs de services cloud, de même qu’avec des indicateurs et des logs de services pour chaque compte cloud.

Collecter, compiler, indexer et lancer des recherches dans des millions de lignes de logs, d’indicateurs, de traces et d’événements, tout en investiguant la cause sous-jacente d’un problème, s’apparente souvent à une mission impossible.

C’est la raison pour laquelle une toute nouvelle génération de plateformes de surveillance et de génération de rapports est apparue sur le marché. Ces plateformes peuvent collecter des logs et des indicateurs auprès de tous vos points de contact cloud, puis en extraire les données pertinentes, normaliser les formats et indexer les données pour optimiser les recherches. Elles peuvent également vous fournir une vue d’ensemble de vos applications multicloud grâce à l’analyse des tendances, à la détection des anomalies et à des tableaux de bord intelligents.

Ces solutions peuvent être exécutées sur site ou sous la forme d’un service SaaS sur abonnement. Ces deux configurations présentent des avantages et des inconvénients. Dans les deux cas, pour accéder à vos comptes cloud et capturer les informations nécessaires, ces applications utilisent des privilèges administratifs. Vous devrez donc peut-être installer un logiciel spécifique (tel que des agents collecteurs sur le système cible), mais ces intégrations sont parfois natives à la plateforme et utilisent des protocoles courants.

Fonctionnalités indispensables de toute plateforme de surveillance du cloud

Si vous souhaitez vous doter d’une solution de surveillance du cloud, vous devez vous assurer que celle-ci intègre certaines fonctions essentielles. Avant toute chose, la plateforme doit être facile à déployer, à configurer et à maintenir.

Intégrations

La plateforme doit inclure la plupart des intégrations requises, si pas toutes, par rapport à vos systèmes existants et prévus. Si la plateforme ne propose pas toutes les intégrations dont vous avez besoin, assurez-vous au moins qu’elle peut prendre en charge un écosystème d’intégrations tierces. Vérifiez également que ces intégrations ne nuisent pas aux performances de votre système lorsqu’elles collectent les indicateurs et logs de vos workloads cloud.

Analyse et présentation

La plateforme doit également être en mesure de synthétiser les données ingérées afin de vous offrir une vue d’ensemble de la santé de votre application. Elle doit être personnalisable afin de pouvoir être adaptée aux besoins de votre entreprise. Par exemple, si vous avez besoin d’un rapport sur le coût des services cloud, la plateforme doit pouvoir extraire les données relatives aux coûts de l’année des différents comptes cloud et les présenter sous une forme adéquate. Si vous souhaitez en savoir plus sur les menaces de cybersécurité, la plateforme doit être en mesure d’exécuter des analyses des tendances associées aux attaques par force brute.

Stockage, indexation et recherche des données

Les logs collectés auprès de toutes vos ressources cloud peuvent facilement atteindre plusieurs téraoctets ou pétaoctets de données. La plateforme de surveillance du cloud doit non seulement pouvoir stocker de tels volumes de données, mais aussi les indexer et y effectuer des recherches rapidement. Elle doit intégrer des syntaxes de recherche telles que RegEx ou un langage de type SQL.

Assainissement ou masquage

Dans certains cas, les logs peuvent contenir des données sensibles, telles que des informations financières ou personnelles, que les entreprises souhaitent généralement masquer. Par ailleurs, certaines entreprises peuvent être tenues de se conformer à des réglementations sectorielles leur interdisant de stocker des logs sur des plateformes SaaS situées en dehors de leur zone géographique. Si votre entreprise se trouve dans l’une de ces situations, assurez-vous que la plateforme de surveillance est en mesure de respecter ces exigences.

Journalisez toutes vos données et répondez à toutes les questions – gratuitement

Falcon LogScale Community Edition (anciennement Humio) offre une plateforme moderne et gratuite de gestion des logs pour le cloud. Exploitez l’ingestion des données de streaming pour bénéficier d’une visibilité instantanée sur les systèmes distribués, de même que détecter et résoudre les incidents.

Falcon LogScale Community Edition, disponible instantanément et gratuitement, inclut les fonctionnalités suivantes :

  • Ingestion de jusqu’à 16 Go de données par jour
  • Durée de rétention de 7 jours
  • Aucune carte de crédit requise
  • Accès continu sans période d’essai
  • Journalisation sans index, alertes en temps réel et tableaux de bord en direct
  • Accès à notre place de marché et à nos packages, y compris aux guides de création de nouveaux packages
  • Formation et collaboration avec une communauté active

À PROPOS DE L'AUTEUR

Arfan Sharif est responsable du marketing produits pour le portefeuille d’observabilité chez CrowdStrike. Il possède plus de 15 ans d’expérience dans les solutions de gestion des logs, ITOps, d’observabilité, de sécurité et d’expérience client pour des entreprises telles que Splunk, Genesys et Quest. Arfan est titulaire d’un diplôme en informatique de la Buckinghamshire New University, et a travaillé aussi bien dans le marketing produits que dans l’ingénierie commerciale.