Hadoop Combiner Einführung, Arbeiten & Vorteile

Um Sie über die neuesten Technologietrends auf dem Laufenden zu halten, besuchen Sie TechVidvan auf Telegramm

In diesem Hadoop-Tutorial erhalten Sie eine detaillierte Beschreibung von Hadoop Combiner. Zunächst werden wir sehen, was MapReduce Combiner ist, was die Schlüsselrolle von Combiner in MapReduce ist. Dann werden wir das Beispiel des MapReduce-Programms mit und ohne Combiner in Hadoop diskutieren. Endlich werden wir auch einige Vor- und Nachteile des Kombinierers in MapReduce sehen.

Hadoop-Kombinierer

2. Was ist Hadoop Combiner?

Combiner ist auch als „Mini-Reducer“ bekannt, der den Mapper-Ausgabedatensatz mit demselben Schlüssel zusammenfasst, bevor er an den Reducer übergeben wird.

Auf einem großen Datensatz, wenn wir MapReduce Job ausführen. Mapper generiert also große Teile von Zwischendaten. Dann übergibt das Framework diese Zwischendaten zur weiteren Verarbeitung an den Reduzierer. Dies führt zu einer enormen Überlastung des Netzwerks. Das Hadoop-Framework bietet eine Funktion namens Combiner, die eine Schlüsselrolle bei der Verringerung der Netzwerküberlastung spielt.

Die Hauptaufgabe von Combiner a „Mini-Reducer besteht darin, die Ausgabedaten vom Mapper zu verarbeiten, bevor sie an Reducer übergeben werden. Es läuft nach dem Mapper und vor dem Reducer. Seine Verwendung ist optional.

Wie funktioniert Combiner in Hadoop?

Lassen Sie uns nun lernen, wie sich die Dinge ändern, wenn wir den Kombinator in MapReduce verwenden?

 MapReduce-Programm ohne Combiner

Wie wir im obigen Diagramm sehen, ist kein Combiner vorhanden. Die Eingabe wird in zwei Mapper aufgeteilt. Das Framework generiert 9 Schlüssel aus den Mappern.

Jetzt haben wir also (9 Schlüssel / Wert) Zwischendaten. Der Mapper sendet diesen Schlüsselwert direkt an den Reduzierer. Beim Senden von Daten an den Reduzierer wird eine gewisse Netzwerkbandbreite verbraucht. Das Übertragen von Daten in den Reduzierer dauert länger, wenn die Daten groß sind.

MapReduce-Programm mit Combiner

Nun aus dem obigen Diagramm, wenn wir einen Combiner zwischen Mapper und Reducer verwenden. Dann mischt der Combiner 9 Schlüssel / Werte, bevor er an den Reduzierer gesendet wird. Und generiert dann 4 Schlüssel / Wert-Paare als Ausgabe.

Jetzt muss der Reduzierer nur 4 Schlüssel / Wert-Paardaten verarbeiten, die von 2 Kombinierern generiert werden. Daher wird der Reduzierer nur 4 Mal ausgeführt, um die endgültige Ausgabe zu erzeugen. Somit erhöht dies die Gesamtleistung.

Vorteile von Combiner in MapReduce

Lassen Sie uns nun die Vorteile von Hadoop Combiner in MapReduce diskutieren.

  • Die Verwendung von Combiner reduziert die Zeit für die Datenübertragung zwischen Mapper und Reducer.
  • Combiner verbessert die Gesamtleistung des Reduzierstücks.
  • Es verringert die Datenmenge, die der Reduzierer verarbeiten muss.

Nachteile des Kombinierers in MapReduce

Es gibt auch einige Nachteile des Hadoop-Kombinierers. Lassen Sie uns jetzt dasselbe diskutieren.

  • Wenn Hadoop im lokalen Dateisystem die Schlüssel-Wert-Paare speichert und den Kombinator später ausführt, führt dies zu teuren Festplatten-E / A.
  • MapReduce-Jobs können nicht von der Combiner-Ausführung abhängen, da es keine Garantie für deren Ausführung gibt.

Fazit

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.