Hadoop Combinatore Introduzione, di lavoro e vantaggi

Tenerti aggiornato con le ultime tendenze tecnologiche, Unisciti a TechVidvan su Telegram

Obiettivo

In questo tutorial Hadoop, ti forniremo una descrizione dettagliata di Hadoop Combiner. Prima di tutto, vedremo cos’è MapReduce Combiner, qual è il ruolo chiave di Combiner in MapReduce. Poi discuteremo l’esempio del programma MapReduce con e senza combinatore in Hadoop. Infine, vedremo anche alcuni vantaggi e svantaggi del Combinatore in MapReduce.

 Combinatore Hadoop

2. Che cosa è Hadoop Combinatore?

Combinatore è anche conosciuto come” Mini-Riduttore ” che riassume il record di uscita Mapper con la stessa chiave prima di passare al riduttore.

Su un set di dati di grandi dimensioni quando eseguiamo il lavoro MapReduce. Quindi Mapper genera grandi blocchi di dati intermedi. Quindi il framework passa questi dati intermedi sul riduttore per ulteriori elaborazioni. Questo porta ad un’enorme congestione della rete. Il framework Hadoop fornisce una funzione nota come Combinatore che svolge un ruolo chiave nel ridurre la congestione della rete.

Il compito principale del combinatore a “Mini-Riduttore è quello di elaborare i dati di uscita dal Mappatore, prima di passarli al riduttore. Corre dopo il mappatore e prima del riduttore. Il suo utilizzo è facoltativo.

Come funziona Combiner in Hadoop?

Ora impariamo come cambiano le cose quando usiamo il combinatore in MapReduce?

Programma MapReduce senza Combinatore

Come vediamo nel diagramma sopra nessun combinatore è lì. L’input è diviso in due mappatori. Il framework genera 9 chiavi dai mapper.

Quindi, ora abbiamo (9 chiave/valore) dati intermedi. Inoltre mapper invia questo valore-chiave direttamente al riduttore. Durante l’invio di dati al riduttore, consuma una certa larghezza di banda di rete. Ci vuole più tempo per trasferire i dati al riduttore se la dimensione dei dati è grande.

Programma MapReduce con Combinatore

Ora dal diagramma sopra, se usiamo un combinatore tra mapper e reducer. Quindi combinatore mescolerà 9 chiave / valore prima di inviarlo al riduttore. E quindi genera 4 coppie chiave / valore come output.

Ora, Reducer deve elaborare solo 4 dati di coppia chiave / valore generati da 2 combinatori. Pertanto il riduttore viene eseguito solo 4 volte per produrre l’output finale. Pertanto, questo aumenta le prestazioni complessive.

Vantaggi del combinatore in MapReduce

Discutiamo ora i vantaggi del Combinatore Hadoop in MapReduce.

  • L’uso del combinatore riduce il tempo impiegato per il trasferimento dei dati tra mappatore e riduttore.
  • Combinatore migliora le prestazioni complessive del riduttore.
  • Diminuisce la quantità di dati che reducer deve elaborare.

Svantaggi del combinatore in MapReduce

Ci sono anche alcuni svantaggi del Combinatore Hadoop. Discutiamo ora lo stesso.

  • Nel filesystem locale, quando Hadoop memorizza le coppie chiave-valore ed esegue il combinatore in seguito, questo causerà un costoso IO del disco.
  • I lavori MapReduce non possono dipendere dall’esecuzione del combinatore in quanto non vi è alcuna garanzia nella sua esecuzione.

Conclusione

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.