Apache Spark gagne du terrain par rapport à Hadoop

    Big Data - posté le 14-06-2016 par Hind Bouzidi

    apache spark hadoopUn récent sondage a montré qu'Apache Spark est de plus en plus adopté pour les charges de travail de Big Data d'entreprise. Hadoop règne toujours en maître sur la majorité des tâches de stockage et de traitement Big Data. Cependant, l'association de Spark à Hadoop ou à un autre système de stockage est de plus en plus commune, car pour de nombreuses tâches, Spark traite les charges de travail plus rapidement et présente moins de difficultés en termes de code.

    Les technologies Hadoop et Spark consistent à mettre en place des clusters à grande échelle pour l'exécution parallèle d'opérations Big Data sur de nombreux nœuds de calcul individuels.

    Le Big Data comporte un nombre de données astronomique. En réalité, il y a bien trop de données pour qu'une seule machine puisse les traiter dans un délai raisonnable. Même les serveurs les plus puissants et les plus récents auraient des difficultés à gérer l'immense quantité de données que les entreprises d'aujourd'hui ont besoin de traiter rapidement. La solution consiste à diviser la tâche en fragments pouvant être traités par une seule machine.

    Hadoop coordonne le mouvement en mettant en place une structure MapReduce pour paralléliser les opérations. Les systèmes MapReduce lisent les données d'un ou de plusieurs stockages, puis exécutent les fonctions map et reduce. La fonction map convertit les données en paire clé/valeur (tuples). La fonction reduce traite les résultats de la fonction map, pour obtenir un ensemble de tuples plus petit. Ainsi, les opérations allant du simple calcul à l'analyse statistique complexe sont distribuées en parallèle dans un cluster de serveurs, qui peut regrouper quelques machines ou plusieurs milliers de nœuds individuels.

    Grâce aux avancées réalisées dans le cadre MapReduce, Spark est plus efficace pour de nombreuses opérations, notamment les opérations I/O de données. De plus, il utilise une abstraction de mise en mémoire cache permettant à de multiples opérations d'utiliser les mêmes données en mémoire. Spark est capable d'exécuter les charges de travail bien plus rapidement que Hadoop, car il a moins souvent besoin de stocker des données persistantes sur un disque.

    Prenant en charge plusieurs langages de programmation comme Java, Scala, Python et R, Spark est un projet mature compatible avec une multitude de sources de données (notamment celles de Hadoop) et de plateformes d'infrastructures.

    Les outils comme Hadoop et Spark renforcent le lien entre Big Data et IaaS. La conception de la plateforme IaaS internationale d'Outscale permet le déploiement flexible d'une infrastructure Big Data. La création et la destruction rapides des nœuds sur lesquels les charges de travail Spark s'exécutent sont les éléments clés de la gestion d'une infrastructure Big Data efficace.

    Image Flickr / Jim Kaskade

     

    À propos de l'auteur : Hind Bouzidi

    En tant que spécialiste de la communication, Hind fait preuve de pédagogie et de vulgarisation pour mettre à la portée de tous des sujets techniques dans le domaine des nouvelles technologies.

    https://fr.outscale.com

    Commentaires