Qu'est-ce que l'AIOps ? Guide de démarrage

large-illustration-machine-learning-anomaly-1200x630.png

Comprendre l'AIOps pour l'observabilité 

L'intelligence artificielle pour les opérations informatiques ("Artificial Intelligence for IT Operations" ou AIOps) est résolument un sujet d'actualité pour les développeurs, les ingénieurs SRE et les spécialistes DevOps. Les arguments en faveur de l'AIOps sont particulièrement fondamentaux étant donné la nature expansive des mesures d'observabilité actuelles au sein des environnements multicloud et hybrides. À l'instar de la plupart des plateformes d'observabilité, tout commence par vos données télémétriques : événements, traces, logs et indicateurs. 

Dès que les équipes chargées des opérations informatiques recueillent ces informations et commencent à les analyser, l'AIOps révèle rapidement ses atouts. Elle vise à identifier de manière précise et proactive les domaines sur lesquels se concentrer, mais aussi à aider les équipes informatiques à résoudre plus rapidement les problèmes. En tant qu'êtres humains, nous ne sommes pas en mesure d'analyser des pétaoctets de données d'observabilité brutes. L'AIOps apporte une couche d'intelligence grâce à ses fonctionnalités d'analyse et d'automatisation, ce qui diminue la surcharge des équipes. Examinons ensemble les principales questions que ce sujet essentiel soulève et les réponses possibles.   

Qu'est-ce que l'AIOps et en quoi peut-elle m'être utile ? 

L'AIOps est la capacité des systèmes logiciels à faciliter et à accompagner les opérations informatiques grâce à l'utilisation de l'intelligence artificielle et du Machine Learning, mais aussi aux technologies d'analyse connexes. Les capacités de l'AIOps peuvent s'appliquer à l'ingestion et au traitement de diverses données opérationnelles, notamment les données de log, les traces et les indicateurs. 

Des entreprises, comme Gartner™ et Forrester™, ont fourni des définitions et des explications visant à clarifier la notion souvent obscure et confuse de l'AIOps. Cette dernière peut aider à détecter, à comprendre, à investiguer et à déterminer la cause première des problèmes et des incidents, mais aussi à trouver plus rapidement une solution adéquate, ce qui fait gagner beaucoup de temps et d'énergie. Grâce à l'accélération du processus de dépannage, le personnel informatique peut se consacrer davantage à des projets et à des tâches à plus forte valeur ajoutée. 

Pourquoi avez-vous besoin de l'AIOps dans le cadre de votre stratégie d'observabilité ? 

Qu'il s'agisse des initiatives de transformation numérique, de la migration vers le cloud ou encore des déploiements d'applications cloud-native, hybrides ou distribuées, les opérations informatiques évoluent de manière drastique sous l'impulsion des dynamiques du marché. 

Ces évolutions présentent les trois caractéristiques suivantes.

  • Volume de données : la quantité des informations sur l'observabilité continue d'augmenter de manière exponentielle.  
  • Complexité : les applications, les charges de travail et les déploiements deviennent de plus en plus complexes, éphémères et distribués.
  • Rythme des changements : les modifications (touchant les applications et les infrastructures) surviennent à des fréquences de plus en plus rapprochées.

Ces caractéristiques ne s'excluent pas mutuellement. D'une certaine manière, c'est même le contraire. Par exemple, les grands nombres de changements et de déploiements complexes ayant recours au scaling automatique engendrent un volume encore plus conséquent de données. À cause de cette complexité croissante, les êtres humains dépendront de plus en plus des systèmes. Par ailleurs, l'automatisation doit suivre le rythme de ces changements. Pour relever ces défis, l'AIOps joue un rôle crucial. 

L'utilisation de l'intelligence artificielle et du Machine Learning afin de synthétiser et de traiter les données, mais aussi de les classer de manière intelligente à des fins de stockage, permet d'atténuer certains des défis liés au volume des informations. Des représentations visuelles précises d'un environnement d'applications, notamment à l'aide de cartes montrant les dépendances entre les infrastructures et les services, et une navigation contextuelle aident à harmoniser les efforts de dépannage avec la tendance naturelle des internautes d'envisager leur déploiement. En outre, l'identification automatique des problèmes et les analyses de leur cause première permettent de relever d'autres défis posés par la complexité. 

Les produits d'observabilité devront effectuer un suivi de toutes les modifications apportées aux applications et aux infrastructures, puis les corréler avec le comportement des systèmes et l'expérience des internautes. En effet, ces changements sont souvent la cause première des comportements anormaux graves. Une mise à niveau ou un correctif d'une nouvelle fonctionnalité aux conséquences fortuites en constitue un exemple type. Grâce à ces corrélations, les équipes gagnent en agilité et en expertise pour suivre le rythme des changements fréquents. Ainsi, elles sont en mesure de garantir les performances des services.

Ainsi, l'AIOps joue un rôle fondamental. Lorsqu'elle est mise en œuvre et utilisée de manière appropriée, elle aide à relever de manière efficace ces défis, ce qui permet aux équipes chargées des opérations de se concentrer sur des tâches plus importantes. 

Quels cas d'utilisation d'observabilité sont le mieux pris en charge par l'AIOps ?

Plusieurs cas d'utilisation et workflows d'observabilité sont déjà bien pris en charge grâce à l'application de technologies et de techniques d'AIOps, notamment les suivants : 

  • La détection des anomalies peut repérer la dégradation des services, comme les variations soudaines ou inattendues de la latence. 
  • Les importants volumes de données, notamment les messages de log non structurés ou semi-structurés, peuvent être automatiquement classés, hiérarchisés et synthétisés afin d'en faciliter l'utilisation et l'analyse. 
  • Il est possible de corréler plusieurs symptômes, événements et problèmes afin de diminuer les "bruits" d'alerte et les délais de détermination de la cause première. 
  • La notation automatique de la santé des systèmes fondée sur l'évaluation de l'impact, l'étendue des anomalies et d'autres mesures peut aider à identifier les problèmes les plus graves en priorité, ce qui diminue davantage le bruit. 

Dans le cadre d'une mise en relation bien comprise et éprouvée d'un symptôme avec sa cause première probable, l'AIOps peut rechercher, détecter et classer ce symptôme de manière automatique, puis en repérer les causes premières éventuelles. En outre, l'AIOps impulse des mesures de résolution visant à remédier aux problèmes courants ou insignifiants. Dans un prochain article, nous étudierons plus en détail les principaux cas d'utilisation et vous expliquerons comment vous pouvez identifier les scénarios d'application de l'AIOps dans le cadre de vos opérations quotidiennes. 

Comment l'AIOps génère-t-elle de la valeur pour une entreprise ? 

À l'instar de nombreuses initiatives en développement logiciel et informatique, l'AIOps bénéficie aux entreprises et aux équipes de diverses manières. Elle peut diminuer de manière significative les tâches banales et répétitives des équipes chargées des opérations informatiques (ITOps), de l'ingénierie de fiabilité des sites (SRE) et DevOps. Elle apporte aussi d'importants avantages aux entreprises : 

  • La réduction des temps moyens de détection et de résolution entraîne une baisse de l'indisponibilité des services, une amélioration des accords de niveau de service et une optimisation de l'expérience de la clientèle. 
  • Les entreprises peuvent gérer de manière intelligente des volumes de données à la croissance rapide, ce qui diminue le coût total de possession et allège les défis liés au scaling. 
  • Grâce à la réduction des bruits d'alerte et des signaux, mais aussi à la mise en œuvre d'une meilleure automatisation, les équipes chargées des opérations ont plus de temps pour prendre des initiatives à plus forte valeur ajoutée. 
  • En améliorant la capacité des entreprises à gérer la complexité informatique en constante hausse et le rythme général des changements, l'AIOps leur permet d'apporter plus rapidement et plus souvent de la valeur à la clientèle. 

Face au volume, à la complexité et au rythme des changements dans les environnements d'applications hybrides et cloud-natives actuels, les équipes chargées des opérations informatiques considèrent de plus en plus l'AIOps comme une compétence fondamentale au lieu d'une capacité à envisager.  

Comment susciter de la confiance dans l'AIOps et la rendre prête pour la production ? 

Le personnel informatique, les équipes SRE et les ingénieurs DevOps se confrontent à plusieurs obstacles en matière d'adoption qu'ils doivent franchir afin d'intégrer et d'utiliser l'AIOps pour leurs cas d'utilisation d'observabilité. 

Tout d'abord, il existe d'importants défis en vogue, dont regorge le marché pour l'AIOps. Les internautes doivent réfléchir à diverses questions, comme la valeur commerciale au-delà de ces modes. Ils doivent définir si l'AIOps les aidera à détecter les problèmes et à les résoudre de manière plus efficace par rapport à leur configuration actuelle de monitoring ou d'observabilité. Au-delà des modes et du battage, les internautes ne savent pas toujours s'ils tireront des avantages de l'intelligence artificielle et du Machine Learning pour un cas d'utilisation spécifique. 

Ensuite, il existe des obstacles liés à la confiance. Il s'agit de l'incapacité des internautes à déterminer la précision des informations exploitables fondées sur l'AIOps. Ils ne se rendent peut-être même pas compte de l'exhaustivité de l'analyse, des informations utilisées, du fonctionnement des algorithmes, de la méthode de déduction des conclusions ou de leur éventuelle pertinence dans le cadre de leur investigation actuelle, ce qui les amène à ne pas faire globalement confiance aux boîtes noires de l'AIOps. Dans certains cas, les politiques ou les pressions organisationnelles générées par un manque de confiance peuvent également faire obstacle à l'adoption de l'AIOps.  

D'après notre expérience, une adoption lente et régulière est la meilleure méthode pour bénéficier de la valeur de l'AIOps. Tout d'abord, pour commencer à adopter l'AIOps en tant que démonstration de faisabilité, il faut identifier des cas d'utilisation spécifiques et éprouvés. Ensuite, la fonctionnalité de l'AIOps doit être appliquée à un petit sous-ensemble de votre déploiement tout en validant et en intégrant ses avantages et les résultats obtenus à chaque étape. Après avoir remporté quelques victoires, il faut continuer à mettre en œuvre la fonctionnalité de l'AIOps de manière graduelle en ciblant les environnements de production. Ce parcours délibéré de déploiement allège certains des défis traditionnellement liés à la mise en place d'une nouvelle technologie qui auraient pu entraver l'adoption de l'AIOps de manière élargie. 

Il peut être utile de tester et d'éprouver l'efficacité de la technologie dans un petit laboratoire ou dans un environnement non dédié à la production, puis de mesurer les résultats obtenus et de les communiquer à la direction afin d'augmenter la confiance dans l'AIOps et d'en favoriser l'adhésion dans un environnement de production concret. De tels tests permettraient d'identifier d'autres lacunes et exigences, comme des données manquantes ou incohérentes, une couverture superficielle ou bien une puissance de calcul ou un stockage d'un niveau insuffisant. Lorsque vous déployez l'AIOps dans un environnement de production, vérifiez si votre solution Observability peut scaler ses fonctionnalités de manière appropriée et gérer les charges de travail de votre entreprise. Certaines fonctionnalités de l'AIOps qui s'adaptent parfaitement aux environnements des laboratoires ou des démonstrations de faisabilité peuvent ne pas réussir à satisfaire aux exigences à grande échelle souvent liées aux environnements de production. 

Comment l'observabilité peut-elle exploiter davantage l'intelligence artificielle et le Machine Learning au-delà des définitions traditionnelles de l'AIOps ?  

Tout commence par les données. Plus les quantités de données pouvant être analysées sont riches et exhaustives, plus vous pouvez les exploiter à l'aide de technologies d'intelligence artificielle et de Machine Learning. En intégrant ces dernières de manière avancée, cela peut favoriser des cas d'utilisation supplémentaires, notamment l'obtention d'informations exploitables commerciales, la génération d'indicateurs prédictifs ou de premier plan à partir de plusieurs signaux ou bien la définition et le déploiement de systèmes d'intelligence artificielle et de Machine Learning entièrement personnalisés, lorsque cela est nécessaire. 

Le traitement automatique du langage naturel est un exemple de l'utilisation de l'intelligence artificielle et du Machine Learning au-delà de l'AIOps traditionnelle. Cette technique aide à classer et à hiérarchiser des données textuelles. Elle est utile pour les cas d'utilisation comme l'analyse des sentiments qui permet de mesurer le point de vue des internautes à propos d'événements, tels que le lancement d'une nouvelle application ou d'importantes mises à niveau de fonctionnalité, qui alimentent et améliorent l'observabilité.  

En vue d'obtenir une solution répondant aux exigences spécifiques et personnalisées des entreprises, les équipes informatiques peuvent utiliser leurs propres schémas de modélisation du Machine Learning à des fins de développement, d'entraînement, de test et de déploiement en production. Les résultats fournis par ces modèles peuvent être visualisés dans des rapports ou des tableaux de bord personnalisés. Ainsi, les entreprises informatiques peuvent répondre à leurs besoins spécifiques, ponctuels ou particuliers jusque-là insatisfaits grâce à des fonctionnalités prêtes à l'emploi. 

Quels cas d'utilisation et tendances l'AIOps sera-t-elle en mesure de gérer à l'avenir ? 

Au fur et à mesure du parcours des données depuis la collecte jusqu'à la remédiation en passant par la persistance (équilibrage de la disponibilité des données et performance avec coût total de possession), par l'analyse et par la visualisation, l'AIOps continuera de jouer un rôle important. 

Comme les volumes de données continuent d'augmenter, l'analyse assistée par l'intelligence artificielle lors de la collecte des données permettra d'identifier les informations les plus intéressantes à recueillir et à étudier. L'exécution d'algorithmes d'intelligence artificielle et de Machine Learning lors de la collecte aidera aussi à synthétiser les données à cette étape, tout en distribuant les fonctionnalités de l'intelligence artificielle et en réduisant l'exigence de centralisation de toutes les analyses. Les modèles de classification et de catégorisation décideront de manière dynamique d'envoyer ou non les données entrantes dans des niveaux "Warm" ou "Cold" de stockage, ce qui optimise le coût total de possession. Les analyses traiteront de manière indépendante plusieurs signaux et données en détectant les comportements anormaux, puis en isolant rapidement leur cause première. En outre, l'automatisation de la remédiation gagnera en autonomie pour davantage de cas d'utilisation et de scénarios à mesure que la confiance de la clientèle dans la remédiation automatique commence à augmenter. Les systèmes d'observabilité formeront graduellement des boucles davantage fermées pour recueillir, stocker et analyser des données, mais aussi détecter davantage d'incidents automatiques et les résoudre en nécessitant une intervention humaine considérablement réduite. 

L'importance de l'AIOps pour les équipes DevOps dans les environnements cloud-native actuels

À l'instar de nombreuses nouvelles technologies, la définition de l'AIOps et ses avantages continuent d'évoluer. L'intégration de l'AIOps à votre stratégie d'observabilité est une composante de la réponse naturelle à des données, une complexité et un rythme de changement en constante évolution. En outre, lorsqu'elle est bien mise en œuvre, l'AIOps peut engendrer une valeur commerciale importante. 

Ne manquez pas notre prochain article qui s'intéressera en détail aux cas d'utilisation courants de l'AIOps favorisant améliorations et efficacité.