Introducción, Funcionamiento y Ventajas del Combinador Hadoop

Manteniéndolo actualizado con las últimas tendencias tecnológicas, únase a TechVidvan en Telegram

Objective

En este tutorial de Hadoop, le proporcionaremos una descripción detallada del Combinador de Hadoop. En primer lugar, veremos qué es MapReduce Combiner, cuál es el papel clave del Combinador en MapReduce. Luego discutiremos el ejemplo del programa MapReduce con y sin combinador en Hadoop. Por último, también veremos algunas ventajas y desventajas del Combinador en MapReduce.

 Combinador Hadoop

2. ¿Qué es el combinador Hadoop?

El combinador también se conoce como» Mini-Reductor » que resume el registro de salida del Mapeador con la misma clave antes de pasar al Reductor.

En un conjunto de datos grande cuando ejecutamos el trabajo MapReduce. Por lo tanto, Mapper genera grandes trozos de datos intermedios. Luego, el marco pasa estos datos intermedios al Reductor para su posterior procesamiento. Esto conduce a una enorme congestión de la red. El marco de Hadoop proporciona una función conocida como Combinador que desempeña un papel clave en la reducción de la congestión de la red.

El trabajo principal del Combinador a «Mini-Reductor» es procesar los datos de salida del Mapeador, antes de pasarlos al Reductor. Se ejecuta después del mapeador y antes del Reductor. Su uso es opcional.

¿Cómo funciona el Combinador en Hadoop?

Ahora aprendamos cómo cambian las cosas cuando usamos el combinador en MapReduce?

 Programa MapReduce sin Combinador

Como vemos en el diagrama anterior, no hay combinador. La entrada se divide en dos mapeadores. El framework genera 9 claves de los mapeadores.

Por lo tanto, ahora tenemos (9 clave/valor) datos intermedios. El mapeador adicional envía este valor clave directamente al reductor. Al enviar datos al reductor, consume algo de ancho de banda de red. Se necesita más tiempo para transferir datos al reductor si el tamaño de los datos es grande.

 Programa MapReduce con combinador

Ahora del diagrama anterior, si usamos un combinador entre mapeador y reductor. A continuación, combinador barajará 9 clave/valor antes de enviarlo al reductor. Y luego genera 4 pares clave / valor como salida.

Ahora, Reducer necesita procesar solo 4 datos de pares clave/valor que se generan a partir de 2 combinadores. Por lo tanto, el reductor se ejecuta solo 4 veces para producir la salida final. Por lo tanto, esto aumenta el rendimiento general.

Ventajas del Combinador en MapReduce

Ahora hablemos de los beneficios del Combinador Hadoop en MapReduce.

  • El uso del combinador reduce el tiempo necesario para la transferencia de datos entre el mapeador y el reductor.
  • Combinador mejora el rendimiento general del reductor.
  • Disminuye la cantidad de datos que reducer tiene que procesar.

Desventajas del Combinador en MapReduce

También hay algunas desventajas del combinador Hadoop. Ahora discutamos lo mismo.

  • En el sistema de archivos local, cuando Hadoop almacena los pares clave-valor y ejecuta el combinador más tarde, esto causará costosas E / S de disco.
  • Los trabajos MapReduce no pueden depender de la ejecución del combinador, ya que no hay garantía en su ejecución.

Conclusión

Deja una respuesta

Tu dirección de correo electrónico no será publicada.