Hadoop Combiner introduktion, arbete och fördelar

att hålla dig uppdaterad med senaste tekniktrender, gå TechVidvan på Telegram

mål

i denna Hadoop handledning kommer vi att ge dig en detaljerad beskrivning av Hadoop Combiner. Först och främst kommer vi att se vad som är MapReduce Combiner, Vad är Kombinerarens nyckelroll i MapReduce. Då kommer vi att diskutera exemplet med MapReduce-programmet med och utan combiner i Hadoop. Äntligen kommer vi också att se några fördelar och nackdelar med Combiner i MapReduce.

 Hadoop Combiner

2. Vad är Hadoop Combiner?

Combiner är också känd som ”Mini-Reducer” som sammanfattar Mapperutgångsposten med samma nyckel innan den skickas till reduceraren.

på en stor dataset när vi kör MapReduce jobb. Så Mapper genererar stora bitar av mellanliggande data. Sedan passerar ramverket denna mellanliggande data på reduceraren för vidare bearbetning. Detta leder till enorm överbelastning av nätverket. Hadoop framework ger en funktion som kallas Combiner som spelar en nyckelroll för att minska överbelastning i nätverket.

det primära jobbet med Combiner a ”Mini-Reducer är att bearbeta utgångsdata från Mapper, innan den överförs till Reducer. Den går efter mapparen och före reduceraren. Dess användning är valfri.

hur fungerar Combiner i Hadoop?

låt oss nu lära oss hur saker förändras när vi använder combiner i MapReduce?

MapReduce program utan Combiner

som vi ser i ovanstående diagram finns ingen combiner där. Ingången är uppdelad i två mappare. Ramverket genererar 9 nycklar från kartläggarna.

så nu har vi (9 nyckel/värde) mellanliggande data. Ytterligare mapper skickar detta nyckelvärde direkt till reduceraren. När du skickar data till reduceraren förbrukar den viss nätverksbandbredd. Det tar längre tid att överföra data till reducer om storleken på data är stor.

MapReduce Program med Combiner

nu från ovanstående diagram, om vi använder en combiner mellan mapper och reducer. Då combiner kommer att blanda 9 nyckel / värde innan du skickar den till reducer. Och genererar sedan 4 nyckel/värdepar som en utgång.

nu behöver Reducer bara bearbeta 4 nyckel/värdepardata som genereras från 2 kombinationer. Därför reducer får exekveras endast 4 gånger för att producera den slutliga utgången. Således ökar detta den totala prestandan.

fördelar med Combiner i MapReduce

Låt oss nu diskutera fördelarna med Hadoop Combiner i MapReduce.

  • användning av combiner minskar den tid det tar för dataöverföring mellan mapper och reducer.
  • Combiner förbättrar reducerarens totala prestanda.
  • Det minskar mängden data som reducer måste bearbeta.

nackdelar med Combiner i MapReduce

det finns också några nackdelar med Hadoop Combiner. Låt oss nu diskutera detsamma.

  • i det lokala filsystemet, när Hadoop lagrar nyckelvärdesparen och kör kombineraren senare kommer det att orsaka dyr disk IO.
  • MapReduce jobb kan inte bero på combiner utförande eftersom det inte finns någon garanti i dess utförande.

slutsats

Lämna ett svar

Din e-postadress kommer inte publiceras.