Hadoop Combiner wprowadzenie, Praca i zalety

informując Cię na bieżąco o najnowszych trendach technologicznych, Dołącz do TechVidvan na Telegramie

Objective

w tym samouczku Hadoop dostarczymy Ci szczegółowy opis Hadoop Combiner. Przede wszystkim zobaczymy, czym jest MapReduce Combiner, jaka jest kluczowa rola Combinera w MapReduce. Następnie omówimy przykład programu MapReduce z i bez combinera w Hadoop. W końcu zobaczymy również kilka zalet i wad Combiner w MapReduce.

 Kombinator Hadoop

2. Co To jest Hadoop Combiner?

Combiner jest również znany jako” Mini-reduktor”, który podsumowuje rekord wyjścia Mappera tym samym kluczem przed przekazaniem do reduktora.

na dużym zbiorze danych, gdy uruchamiamy zadanie MapReduce. Maper generuje więc duże porcje danych pośrednich. Następnie framework przekazuje te dane pośrednie na reduktorze do dalszego przetwarzania. Prowadzi to do ogromnego przeciążenia sieci. Framework Hadoop zapewnia funkcję znaną jako Combiner, która odgrywa kluczową rolę w zmniejszaniu przeciążenia sieci.

podstawowym zadaniem kombinatora a „Mini-reduktora jest przetwarzanie danych wyjściowych z Mapera, przed przekazaniem ich do reduktora. Biegnie za maperem i przed reduktorem. Jego użycie jest opcjonalne.

jak działa Combiner w Hadoop?

teraz dowiedzmy się, jak rzeczy się zmieniają, gdy używamy kombinatora w MapReduce?

program MapReduce bez kombinatora

jak widzimy na powyższym diagramie nie ma kombinatora. Wejście jest podzielone na dwa mapery. Framework generuje 9 kluczy z maperów.

więc teraz mamy (9 klucz/wartość) dane pośrednie. Kolejny maper wysyła tę wartość klucza bezpośrednio do reduktora. Podczas wysyłania danych do reduktora zużywa on pewną przepustowość sieci. Przesyłanie danych do reduktora zajmuje więcej czasu, jeśli rozmiar danych jest duży.

program MapReduce z kombinatorem

teraz z powyższego diagramu, jeśli użyjemy kombinatora pomiędzy maperem a reduktorem. Następnie combiner przetasuje 9 klucz/wartość przed wysłaniem go do reduktora. A następnie generuje 4 pary klucz / wartość jako wyjście.

teraz reduktor musi przetwarzać tylko 4 Dane pary klucz / wartość, które są generowane z 2 kombinatorów. Dlatego reduktor jest wykonywany tylko 4 razy, aby uzyskać końcowy wynik. W ten sposób zwiększa to ogólną wydajność.

zalety Combinera w MapReduce

omówmy teraz zalety Combinera Hadoop w MapReduce.

  • zastosowanie kombinatora skraca czas potrzebny na transfer danych pomiędzy maperem a reduktorem.
  • kombinator poprawia ogólną wydajność reduktora.
  • zmniejsza ilość danych, które reduktor musi przetworzyć.

wady kombinatora w MapReduce

istnieją również pewne wady kombinatora Hadoop. Porozmawiajmy teraz o tym samym.

  • w lokalnym systemie plików, gdy Hadoop przechowuje pary klucz-wartość i uruchamia kombinator później, spowoduje to drogie Disk IO.
  • MapReduce jobs nie może zależeć od wykonania combinera, ponieważ nie ma gwarancji jego wykonania.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.