Hadoop Combiner introduktion, arbejde & fordele

holde dig opdateret med nyeste teknologi tendenser, slutte TechVidvan på Telegram

mål

i denne Hadoop tutorial, vil vi give dig en detaljeret beskrivelse af Hadoop Combiner. Først og fremmest vil vi se, hvad der er MapReduce Combiner, hvad er nøglerollen for Combiner i MapReduce. Så vil vi diskutere eksemplet med MapReduce program med og uden combiner i Hadoop. Endelig vil vi også se nogle fordele og ulemper ved Combiner i MapReduce.

 Hadoop Combiner

2. Hvad er Hadoop Combiner?

Combiner er også kendt som “Mini-Reducer”, der opsummerer Mapper output record med den samme nøgle, før den går videre til reduceren.

på et stort datasæt, når vi kører MapReduce job. Så Mapper genererer store bidder af mellemliggende data. Derefter passerer rammen disse mellemliggende data på reduceren til videre behandling. Dette fører til enorm overbelastning af netværket. Hadoop-rammen giver en funktion kendt som Combiner, der spiller en nøglerolle i at reducere netværksbelastning.

det primære job med Combiner a “Mini-Reducer er at behandle outputdataene fra Kortlæggeren, inden de sendes til Reducer. Den kører efter mapper og før Reducer. Dens anvendelse er valgfri.

Hvordan fungerer Combiner i Hadoop?

lad os nu lære, hvordan tingene ændrer sig, når vi bruger kombinereren i MapReduce?

MapReduce program uden Combiner

som vi ser i ovenstående diagram ingen combiner er der. Input er opdelt i to kortlæggere. Rammen genererer 9 nøgler fra mapperne.

så nu har vi (9 nøgle/værdi) mellemliggende data. Yderligere mapper sender denne nøgle-værdi direkte til reduceren. Mens du sender data til reduceren, bruger den noget netværksbåndbredde. Det tager længere tid at overføre data for at reducere, hvis datastørrelsen er stor.

MapReduce Program med Combiner

nu fra ovenstående diagram, hvis vi bruger en combiner mellem mapper og reducer. Derefter blander combiner 9 nøgle / værdi, før den sendes til reduceren. Og derefter genererer 4 nøgle / værdi par som et output.

nu skal Reducer kun behandle 4 nøgle/værdi par data, der genereres fra 2 kombinatorer. Derfor reduceres kun 4 gange for at producere det endelige output. Dette øger således den samlede præstation.

fordele ved Combiner i MapReduce

lad os nu diskutere fordelene ved Hadoop Combiner i MapReduce.

  • brug af combiner reducerer den tid, det tager for dataoverførsel mellem mapper og reducer.
  • Combiner forbedrer den samlede ydelse af reduceren.
  • Det reducerer mængden af data, som reduceren skal behandle.

ulemper ved Combiner i MapReduce

der er også nogle ulemper ved Hadoop Combiner. Lad os nu diskutere det samme.

  • i det lokale filsystem, når Hadoop gemmer nøgleværdiparrene og kører kombinereren senere, vil dette medføre dyre disk IO.
  • MapReduce job kan ikke afhænge af combiner udførelse, da der ikke er nogen garanti i udførelsen.

konklusion

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.