Hadoop Combiner Introducere , lucru și avantaje

ținându-vă la curent cu cele mai recente tendințe tehnologice, Alăturați-vă TechVidvan pe telegramă

obiectiv

în acest tutorial Hadoop, vă vom oferi o descriere detaliată a combinatorului Hadoop. În primul rând, vom vedea ce este MapReduce Combiner, care este rolul cheie al Combiner în MapReduce. Apoi vom discuta exemplul programului MapReduce cu și fără combiner în Hadoop. În cele din urmă, vom vedea, de asemenea, unele avantaje și dezavantaje ale Combiner în MapReduce.

Hadoop Combiner

2. Ce este Hadoop Combiner?

Combiner este, de asemenea, cunoscut sub numele de „mini-reductor”, care rezumă înregistrarea de ieșire Mapper cu aceeași cheie înainte de a trece la reductor.

pe un set de date mare, atunci când vom rula MapReduce de locuri de muncă. Deci Mapper generează bucăți mari de date intermediare. Apoi, cadrul transmite aceste date intermediare pe reductor pentru prelucrare ulterioară. Acest lucru duce la o congestie enormă a rețelei. Cadrul Hadoop oferă o funcție cunoscută sub numele de Combinator care joacă un rol cheie în reducerea congestiei rețelei.

sarcina principală a Combiner a „mini-reductor este de a procesa datele de ieșire de la Mapper, înainte de a trece la reductor. Se execută după mapper și înainte de reductor. Utilizarea sa este opțională.

cum funcționează Combinatorul în Hadoop?

acum să învățăm cum se schimbă lucrurile când folosim combinatorul în MapReduce?

MapReduce program fără Combiner

după cum vedem în diagrama de mai sus nu combiner este acolo. Intrare este împărțit în două mappers. Cadrul generează 9 chei de la mappers.

Deci, acum avem (9 cheie/valoare) date intermediare. Mapper mai departe trimite această cheie-valoare direct la reductor. În timp ce trimite date către reductor, consumă o lățime de bandă a rețelei. Este nevoie de mai mult timp pentru a transfera date pentru a reduce dacă dimensiunea datelor este mare.

MapReduce Program cu Combiner

acum, din diagrama de mai sus, dacă vom folosi un combiner între mapper și reductor. Apoi combiner va amesteca 9 cheie / valoare înainte de a trimite-l la reductor. Și apoi generează 4 cheie / valoare pereche ca o ieșire.

acum, reductor trebuie să proceseze doar 4 Date cheie/valoare pereche care sunt generate de 2 combinatoare. Prin urmare, reductor este executat doar 4 ori pentru a produce producția finală. Astfel, acest lucru crește performanța generală.

avantajele Combiner în MapReduce

să discutăm acum beneficiile Hadoop Combiner în MapReduce.

  • utilizarea combinatorului reduce timpul necesar transferului de date între mapper și reductor.
  • Combinatorul îmbunătățește performanța generală a reductorului.
  • scade cantitatea de date pe care reductor trebuie să o proceseze.

dezavantajele Combiner în MapReduce

există, de asemenea, unele dezavantaje ale Combiner Hadoop. Să discutăm acum același lucru.

  • în sistemul de fișiere local, când Hadoop stochează perechile cheie-valoare și rulează combinatorul mai târziu, acest lucru va cauza un disc scump IO.
  • joburile MapReduce nu pot depinde de execuția combinatorului, deoarece nu există nicio garanție în executarea acestuia.

concluzie

Lasă un răspuns

Adresa ta de email nu va fi publicată.