Détection automatisée des anomalies dans les infrastructures Cloud

    A la une | Cloud | data | Infrastructure | Data Lake | IA | Education - posté le 12-10-2020 par Arthur Vervaet

    Dans le cadre de notre volonté de soutenir l’éducation et le développement des jeunes talents, nous menons régulièrement des actions auprès des établissements scolaires. Les visites des collaborateurs de 3DS OUTSCALE au sein des établissements permettent de présenter les opportunités de carrière dans la filière numérique. Notre programme de sensibilisation auprès des jeunes filles a pour objectif d’informer sur les métiers du numérique et de promouvoir ainsi la mixité des emplois. En outre, des projets collaboratifs permettent d’offrir aux étudiants un cadre pratique de qualité pour mener des travaux de recherche.

    C’est le cas du projet collaboratif entre 3DS OUTSCALE et l’école d’ingénieurs ISEP mené par Arthur Vervaet, qui nous dévoile dans cet article le sujet passionnant de son travail de recherche et les bénéfices partagés par l’industrie et l’institution d’enseignement supérieur.

     

    Data Lake

    Historiquement, un livre de bord ou logbook désigne un ensemble de registres utilisés par l’équipage d’un navire pour enregistrer chronologiquement différents événements tels que les changements de cap et les chargements de marchandise.

    Ces recueils permettaient par la suite aux inspecteurs de retracer le déroulement des opérations dans la recherche d’éventuelles fraudes ou erreurs.

     
     
    Une traçabilité omniprésente dans le monde informatique 

    Cette journalisation des événements se retrouve dans le monde informatique, les équipements générant des messages datés chaque fois qu'une action notable se produit. Les registres ainsi générés, appelés fichiers de logs, sont une source d’information précieuse pour l’analyse et le monitoring d’un système. L’inspection de ces fichiers permet de retracer les différentes étapes d’un processus à la recherche d’une anomalie pouvant être à l’origine d’une panne système, du crash d’une application ou de tout autre événement susceptible d’affecter la qualité du service, et de garantir ainsi l’amélioration  de la performance et de l’expérience client.

     

    Mission à la limite du possible : traiter des centaines de milliers d’événements par seconde

    Dans le contexte du Cloud computing en général, le traitement des fichiers de logs présente plusieurs défis. Tout d’abord, il faut faire face à une volumétrie importante, matérialisée par la génération de centaines de milliers de lignes de log chaque seconde. Il est également nécessaire de prendre en compte la disparité des messages, chaque source pouvant avoir sa propre structure de log et les types de messages générés étant susceptibles de varier dans le temps.

     

    Un challenge technique et technologique d'ampleur

    Pour répondre à ces enjeux rendant impossible une inspection entièrement manuelle, les administrateurs recherchent des patterns prédéfinis correspondant à des comportements anormaux connus. Cependant, cette pratique nécessite une connaissance préalable des types d’erreurs recherchées, ce qui n’est pas possible dans le cas d’anomalies nouvelles.

    Il est de ce fait important de développer des systèmes autonomes capables de détecter de façon efficace des anomalies (précision),  en temps quasi-réel (ordre de la ms) et en conservant leurs performances dans le temps. Ce dernier critère est particulièrement important pour garantir l’autonomie de la solution et sa pertinence sur le long terme. De tels systèmes devront également être à même d’identifier le plus précisément possible le contexte et le type d’une anomalie afin de notifier l’équipe la plus à même de la prendre en charge.

    Dans le cadre de ma thèse, je m’intéresse à la détection d'anomalies au sein d’infrastructures Cloud à l’aide des logs. Mon enjeu : contribuer à la conception d'un système autonome de détection des anomalies, notamment pour assurer qu'il saura s'adapter aux contraintes de forte volumétrie et de variabilité des logs que l’on peut retrouver chez 3DS OUTSCALE.

     

    Deep Learning et réseaux de neurones au service de la détection d’anomalies

    Pour ce faire, je regarde de près le Deep Learning. L’utilisation des réseaux de neurones convolutionnels (en anglais “CNN”) a ouvert la voie à la reconnaissance faciale et au développement de voitures autonomes. Les réseaux de neurones du type LSTM (“long short-term memory”) ont permis l’émergence de correcteurs d'orthographe prenant mieux en compte le contexte d’un mot ou d’une phrase. 

    L’utilisation du Deep Learning pour la détection d’anomalies dans les logs a produit ses premiers résultats avec l’utilisation d’empilements de réseaux LSTM. Ces travaux restent cependant relativement récents et sont encore sujets à de nombreuses pistes d’amélioration, le pré-traitement des logs étant, à mon sens, encore sous-exploité, de même que l’analyse liée au contexte d’une anomalie.

     

    Collaboration gagnante pour l'industrie et le monde scientifique

    Le cadre pratique de 3DS OUTSCALE est idéal pour la conduite de ces travaux scientifiques. L’accès à de nombreuses données et à une puissance de calcul conséquente sont des facteurs clés pour les recherches liées au Deep Learning. C’est également la possibilité d’être en contact quotidien avec des experts du secteur et de profiter de leurs connaissances. Les travaux seront menés dans le cadre d’une collaboration entre 3DS OUTSCALE et le laboratoire de recherche LISITE-ISEP. Celui-ci travaillait déjà sur des problématiques de détection d’anomalies et pourra profiter des avantages du partenariat pour développer ses activités de recherche.

     

    À propos de l'auteur : Arthur Vervaet

    Arthur Vervaet est doctorant Big Data au sein de 3DS OUTSCALE depuis début 2020. En lien avec le laboratoire de recherche LISITE-ISEP, il effectue des travaux de recherche sur la détection automatisée des anomalies dans les flux de données massifs. Sa position lui permet de servir de relais entre le monde de la recherche et celui de l’entreprise.

    Commentaires