Introduction, Fonctionnement et Avantages du Combineur Hadoop

Pour vous tenir au courant des dernières tendances technologiques, Rejoignez TechVidvan sur Telegram

Objectif

Dans ce tutoriel Hadoop, nous vous fournirons une description détaillée du Combineur Hadoop. Tout d’abord, nous verrons ce qu’est le Combineur MapReduce, quel est le rôle clé du Combineur dans MapReduce. Ensuite, nous discuterons de l’exemple du programme MapReduce avec et sans combineur dans Hadoop. Enfin, nous verrons également certains avantages et inconvénients du Combineur dans MapReduce.

 Combineur Hadoop

2. Qu’est-ce que Hadoop Combiner ?

Le combineur est également connu sous le nom de « Mini-Réducteur » qui résume l’enregistrement de sortie du mappeur avec la même clé avant de passer au Réducteur.

Sur un grand ensemble de données lorsque nous exécutons le travail MapReduce. Ainsi, Mapper génère de gros morceaux de données intermédiaires. Ensuite, le cadre transmet ces données intermédiaires sur le réducteur pour un traitement ultérieur. Cela conduit à une énorme congestion du réseau. Le framework Hadoop fournit une fonction appelée Combineur qui joue un rôle clé dans la réduction de la congestion du réseau.

Le travail principal du Combineur a »Mini-Réducteur est de traiter les données de sortie du Mappeur, avant de les transmettre au Réducteur. Il s’exécute après le mappeur et avant le Réducteur. Son utilisation est facultative.

Comment fonctionne le Combinateur dans Hadoop?

Maintenant, apprenons comment les choses changent lorsque nous utilisons le combineur dans MapReduce?

 Programme MapReduce sans Combineur

Comme nous le voyons dans le diagramme ci-dessus, aucun combineur n’est là. L’entrée est divisée en deux mappeurs. Le framework génère 9 clés à partir des mappeurs.

Donc, nous avons maintenant des données intermédiaires (9 clés / valeurs). Un autre mappeur envoie cette valeur-clé directement au réducteur. Lors de l’envoi de données au réducteur, il consomme de la bande passante réseau. Le transfert de données vers reducer prend plus de temps si la taille des données est importante.

 Programme MapReduce avec Combineur

Maintenant, à partir du diagramme ci-dessus, si nous utilisons un combineur entre le mappeur et le réducteur. Ensuite, le combineur mélangera 9 touches / valeurs avant de l’envoyer au réducteur. Et génère ensuite 4 paires clé / valeur en sortie.

Maintenant, le réducteur ne doit traiter que 4 données de paires clé / valeur générées à partir de 2 combineurs. Par conséquent, le réducteur n’est exécuté que 4 fois pour produire la sortie finale. Ainsi, cela augmente les performances globales.

Avantages du Combineur dans MapReduce

Discutons maintenant des avantages du combineur Hadoop dans MapReduce.

  • L’utilisation du combineur réduit le temps de transfert des données entre le mappeur et le réducteur.
  • Le combineur améliore les performances globales du réducteur.
  • Il diminue la quantité de données que le réducteur doit traiter.

Inconvénients du Combineur dans MapReduce

Il y a aussi quelques inconvénients du combineur Hadoop. Discutons maintenant de la même chose.

  • Dans le système de fichiers local, lorsque Hadoop stocke les paires clé-valeur et exécute le combineur plus tard, cela entraînera des E/S de disque coûteuses.
  • Les travaux MapReduce ne peuvent pas dépendre de l’exécution du combineur car il n’y a aucune garantie dans son exécution.

Conclusion

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.