Comment Orca utilise la recherche optimisée par l'IA pour aider les utilisateurs à gagner en visibilité, à se mettre en conformité et à classer les risques par ordre de priorité

9 juillet 2024

À mesure que les organisations continuent à déployer davantage d'applications dans le cloud, il devient essentiel de gérer leur posture de sécurité dans le cloud. Les prestataires de technologies de sécurité tels qu'Orca Security mènent la danse lorsqu'il s'agit de fournir aux organisations de meilleurs moyens de protéger leurs environnements et de hiérarchiser les risques les plus importants liés au cloud. Cependant, il peut être très difficile pour les équipes de sécurité de rechercher les données les plus pertinentes, car leurs écosystèmes deviennent de plus en plus complexes, et les attaques deviennent de plus en plus sophistiquées. C'est d'autant plus vrai pour les organisations qui adoptent plusieurs fournisseurs cloud. De ce fait, les analystes devront peut-être prendre en compte les nuances des différentes taxonomies pour chaque fournisseur, ce qui rend la récupération d'informations clés plus difficile.

Malgré l'évaluation d'un produit de base de données axé sur le plongement vectoriel, Orca a découvert qu'il manquait des résultats si aucune recherche correcte par mots-clés n'était ajoutée au plongement. C'est pourquoi Orca s'est tourné vers Elasticsearch, et a intégré ses capacités de recherche avancées pour créer un moteur de recherche plus intelligent et axé sur l'IA pour sa solution de sécurité. Ce choix stratégique a transformé la plateforme d'Orca et a permis à ses utilisateurs d'effectuer facilement et avec précision des recherches complexes spécifiques à un domaine.

La recherche au centre de l'attention

Orca Security souhaitait utiliser un outil lui permettant de garder une longueur d'avance et de suivre le rythme des demandes des équipes de cybersécurité (ainsi que des équipes de développeurs, de DevOps, d'architecte du cloud, de gouvernance des risques et de conformité), qui avaient besoin de comprendre exactement ce que contenaient leurs environnements cloud, et ce facilement et de façon intuitive. Orca voulait que les équipes de toute l'organisation, quel que soit leur niveau de compétences, puissent répondre rapidement au risque d’attaque zero day, réaliser des audits, optimiser les ressources cloud et comprendre l'exposition aux menaces afin de faciliter les décisions axées sur les données.

Orca s'est rendu compte que ses utilisateurs avaient besoin d'un moyen plus intelligent et plus intuitif de lancer dans l'application des recherches spécifiques au domaine, de poser des questions complexes en langage simple et d'obtenir des résultats précis instantanément ; un client peut par exemple poser la question suivante "quelles machines virtuelles exposées à Internet contiennent des informations personnelles concernant la santé ?" Ces demandes nécessitent de comprendre des sujets, des attributs et des relations complexes au sein des données. Orca avait besoin d'un moteur de recherche pouvant interpréter ces questions et générer automatiquement les filtres appropriés.

L'équipe d'Orca a donc cherché à implémenter un moteur de recherche alimentée par l'IA qui pouvait faciliter ces tâches complexes, et Elasticsearch s'y prêtait parfaitement. Elasticsearch a apporté plusieurs avantages appréciables et contribué à la promesse globale faite par le moteur de recherche optimisé par l'IA d'Orca Security. Vous trouverez ci-dessous certains des avantages clés qui ont convaincu l'équipe d'Orca d'adopter Elasticsearch :

Performances élevées des capacités de recherche

Elasticsearch délivre une configuration de recherche hybride qui associe la correspondance par mot-clé à la correspondance vectorielle, fournissant ainsi des résultats précis et pertinents, même pour les requêtes les plus complexes impliquant des termes et attributs spécifiques au domaine. Ses puissantes capacités de filtrage sont essentielles, en particulier lorsque vous travaillez avec des schémas tels que le schéma Orca. Par exemple, s'il a été déterminé que le sujet de la requête était une machine virtuelle et que l'IA recherche un attribut tel que "Contient des informations personnelles d'identification", Elasticsearch évalue et filtre la recherche de sorte qu'elle inclut uniquement les attributs associés aux machines virtuelles. Cela exclut les attributs non pertinents provenant des autres modèles, tels que les informations personnelles d'identification sur une base de données, ce qui garantit aussi bien la précision que la création de requêtes valides.

Flexibilité et personnalisation

La capacité d'Elasticsearch à gérer des accélérations personnalisées des performances ainsi que des champs à correspondances multiples améliore la qualité de la recherche. Par exemple, le fait d'accélérer différemment les performances de pondération des noms et des descriptions garantit un résultat de recherche équilibré. Orca a utilisé ces fonctionnalités pour affiner les paramètres de recherche, fournissant ainsi une expérience sur mesure à ses utilisateurs.

Rentabilité et performances

Elasticsearch permet de réaliser des économies importantes pour les cas d'utilisation de GenAI en réduisant efficacement la charge qui pèse sur les grands modèles de langage (LLM), qui peuvent s'avérer chers et lents, en particulier lors du traitement de grands volumes de données. Les capacités de filtrage et de récupération d'Elasticsearch permettent des recherches plus rapides et plus rentables. En optimisant la sélection d'exemples pertinents pour chaque requête, connue sous le nom de Génération augmentée de récupération (RAG), Elasticsearch réduit de façon significative le coût des opérations LLM.

Par essence, les LLM de fondation, entraînés sur des données génériques, ne comprennent souvent pas le langage de requête d'Orca (DSL) ou le graphique de données de cybersécurité en évolution constante contenant des milliers de types de ressources et d'attributs uniques. Le simple fait d'expliquer les règles de DSL a consommé environ 2 000 tokens, et le fait de fournir des exemples de transformation en a ajouté encore plus. Étant donné le contexte limité des fenêtres de LLM (8 000 tokens pour l'instant), chaque token supplémentaire augmentait la latence et le coût. En utilisant Elasticsearch, nous pouvions sélectionner les trois à six exemples les plus pertinents parmi plusieurs centaines, garantissant que seules les données nécessaires étaient envoyées au LLM. Cette approche a non seulement fait réaliser des économies, mais a également amélioré la précision et réduit la latence.

Charge sur les LLM

Bien que nous ne puissions pas dévoiler de données spécifiques, voici le point clé à retenir : Elasticsearch nous a permis de réduire de façon drastique la quantité de données envoyées au LLM. En pré-filtrant et en sélectionnant uniquement les exemples les plus pertinents (de trois à six plutôt qu'éventuellement quelques centaines), nous avons minimisé la charge de travail du LLM. Cela s'est directement traduit en temps de réponse plus rapides, en coûts beaucoup moins élevés et globalement, en expérience de recherche plus efficace.

La recherche propulsée par l'IA fait partie des fonctionnalités les plus appréciées de la plateforme, et les utilisateurs ont réalisé des recherches avec des milliers de concepts et permutations de cybersécurité différents, dans plusieurs dizaines de langues différentes (nous vous en apprendrons plus sur la prise en charge des langages dans une prochaine publication).

Une expérience de sécurité du cloud surpuissante grâce à la recherche propulsée par l'IA

En utilisant la puissance d'Elasticsearch, ainsi que l'engagement profond de l'équipe d'Orca envers l'innovation de l'IA, il a été possible d'améliorer grandement le parcours de l'utilisateur. La nouvelle expérience de recherche abaisse les seuils de compétence, simplifie les tâches, accélère la résolution et améliore la compréhension de l'environnement cloud. Voici comment elle fonctionne :

Représentation de l'IA de recherche qui aide à démocratiser les informations exploitables pour les utilisateurs, en utilisant Elasticsearch

Étape 1 : Traitement de la requête utilisateur

L'examen commence lorsque l'utilisateur entre une requête dans la zone de recherche. Orca Security utilise un LLM pour convertir la question de l'utilisateur en format intermédiaire. Ce format comprend le sujet (p. ex., une machine virtuelle) et les attributs nécessaires (p. ex., des informations personnelles concernant la santé).

Étape 2 : Transformation des données et RAG

Dans le contexte d'Orca, le RAG implique des exemples organisés qui transforment les requêtes des utilisateurs en format intermédiaire. Lorsqu'un utilisateur entre une requête, Elasticsearch sélectionne les exemples les plus pertinents en associant la correspondance par mots-clés et la recherche par plongement.

Par exemple, si la requête est "Actifs contenant des informations personnelles d'identification (PII)", Elasticsearch trouve les exemples sélectionnés les plus proches, tels que :

"Avons-nous des informations personnelles d'identification en dehors de l'Europe ?"
"Machines virtuelles avec des cartes de crédit et des PCI ayant des clés SSH non chiffrées"
"Actifs et ressources abandonnés"

Chaque exemple s'accompagne de sa sortie et de son raisonnement JSON, sélectionnés et prévus. Ce processus garantit que le LLM contient suffisamment de contexte pour transformer de façon précise la requête en format structuré, améliorant ainsi l'expérience de recherche globale et assurant la bonne création de la requête.

Lors de l'étape 2, le RAG utilisant Elasticsearch est essentiel pour traduire les requêtes des utilisateurs en représentation interne d'Orca. Voici comment elle fonctionne :

Exemples sélectionnés : Nous avons créé des centaines d'exemples démontrant comment transformer les requêtes en langage naturel en format structuré d'Orca.
Le rôle d'Elasticsearch : Pour chaque nouvelle requête utilisateur, Elasticsearch identifie les exemples les plus pertinents à partir de l'ensemble que nous avons sélectionné. Pour cela, il combine la correspondance par mots-clés (le fait de trouver les termes exacts) et la recherche par plongement (le fait de comprendre les similarités sémantiques).
Par exemple : Si un utilisateur demande "montre-moi tous les serveurs Internet avec des vulnérabilités", il est possible qu'Elasticsearch récupère des exemples comme "Trouve les actifs exposés à Internet", "Liste tous les serveurs avec des CVE critiques", et "Montre-moi les ressources auxquelles il manque des correctifs de sécurité".
La tâche du LLM : Ces exemples pertinents, ainsi que la requête originale de l'utilisateur, sont envoyés au LLM. Le LLM utilise ensuite ce contexte pour transformer de façon précise la requête de l'utilisateur en langage de requête structuré d'Orca.

Nous avons également évalué une base de données axée sur le plongement vectoriel, mais nous avons découvert qu'il manquait des résultats si aucune recherche correcte par mots-clés n'était ajoutée au plongement.

Étape 3 : Modélisation des schémas et correspondances des attributs

Orca Security a modélisé l'intégralité de son schéma au sein d'Elasticsearch, y compris des centaines de sujets et des milliers d'attributs. Les capacités de correspondance précises d'Elasticsearch aident à traduire les requêtes des utilisateurs dans des termes corrects utilisés dans la base de données d'Orca. Un utilisateur peut par exemple parler d'une "VM", mais le système doit comprendre plusieurs termes associés comme "machine virtuelle" ou "instances virtuelles".

Étape 4 : Améliorer la pertinence avec les mots-clés

Pour améliorer la pertinence des résultats de recherche, le LLM génère des mots-clés à partir de la requête de l'utilisateur. Ces mots-clés améliorent la pertinence des attributs de recherche, ce qui garantit que le système récupérera les données les plus pertinentes. Le LLM convertit également la requête en langage spécifique au domaine d'Orca Security, ce qui la rend exécutable en front-end.

Exemple d'une expérience de recherche optimisée par l'IA d'Orca, utilisant Elasticsearch, qui abaisse les seuils de façon significative en autorisant les utilisateurs à poser des questions en langage naturel

La recherche optimisée par l'IA peut anticiper ce que vous recherchez probablement, et ce, même si vous n'utilisez peut-être pas les mêmes termes. Ici, une expérience de recherche optimisée par l'IA d'Orca élimine la nécessité de connaître les différentes conventions de nommage pour chaque fournisseur cloud.

Prochaines étapes pour Orca et l'IA

La vision d'Orca Security dépasse le simple fait d'améliorer les capacités de recherche, il s'agit également de rendre l'analyse avancée des données accessibles à tous, quel que soit leur niveau d'expertise technique. En utilisant Elasticsearch et l'IA, l'objectif d'Orca Security est de transformer la façon dont les utilisateurs interagissent avec les données et les interprète. Grâce à cette intégration, Orca Security a non seulement amélioré son offre de services, mais a également défini une nouvelle norme pour les recherches optimisées par l'IA dans l'industrie de la cybersécurité. L'avenir semble prometteur pour Orca Security, qui continue à repousser les limites de ce qui est possible avec l'IA et Elasticsearch.

En savoir plus sur Elastic et Orca Security :

Consultez le site web d'Orca Security pour en savoir plus sur ses services.
Découvrez ce sur quoi nous travaillons actuellement dans Elastic Search Labs.
Voir davantage de cas d'utilisation d'expériences de recherche innovantes en matière d'IA au sein d'Elastic.

La publication et la date de publication de toute fonctionnalité ou fonction décrite dans le présent article restent à la seule discrétion d'Elastic. Toute fonctionnalité ou fonction qui n'est actuellement pas disponible peut ne pas être livrée à temps ou ne pas être livrée du tout.

Dans cet article, nous sommes susceptibles d'avoir utilisé ou mentionné des outils d'intelligence artificielle générative tiers appartenant à leurs propriétaires respectifs qui en assurent aussi le fonctionnement. Elastic n'a aucun contrôle sur les outils tiers et n'est en aucun cas responsable de leur contenu, de leur fonctionnement, de leur utilisation, ni de toute perte ou de tout dommage susceptible de survenir à cause de l'utilisation de tels outils. Lorsque vous utilisez des outils d'IA avec des informations personnelles, sensibles ou confidentielles, veuillez faire preuve de prudence. Toute donnée que vous saisissez dans ces solutions peut être utilisée pour l'entraînement de l'IA ou à d'autres fins. Vous n'avez aucune garantie que la sécurisation ou la confidentialité des informations renseignées sera assurée. Vous devriez vous familiariser avec les pratiques en matière de protection des données personnelles et les conditions d'utilisation de tout outil d'intelligence artificielle générative avant de l'utiliser.

Elastic, Elasticsearch, ESRE, Elasticsearch Relevance Engine et les marques associées sont des marques commerciales, des logos ou des marques déposées d'Elasticsearch N.V. aux États-Unis et dans d'autres pays. Tous les autres noms de produits et d'entreprises sont des marques commerciales, des logos ou des marques déposées appartenant à leurs propriétaires respectifs.