Edureka proporciona una buena lista de videos Tutorial de Hadoop. Le recomendaría que lea esta lista de reproducción de videos del tutorial de Hadoop , así como la serie de blogs del Tutorial de Hadoop .
Primero entienda Big Data y los desafíos asociados con Big Data. Entonces, puedes entender cómo Hadoop surgió como una solución a esos problemas de Big Data. Este blog de Qué es Hadoop y Hadoop Tutorial te lo presentará.
Entonces debe comprender cómo funciona la arquitectura de Hadoop con respecto a HDFS, YARN y MapReduce.
Más adelante, debe instalar Hadoop en su sistema para que pueda comenzar a trabajar con Hadoop. Esto le ayudará a comprender los aspectos prácticos en detalle.
Avanzando, sumérjase en Hadoop Ecosystem y aprenda varias herramientas dentro de Hadoop Ecosystem con sus funcionalidades. Por lo tanto, aprenderá cómo crear una solución personalizada de acuerdo con sus requisitos.
Vamos a entender en breve:
¿Qué es Big Data?
Big Data es un término usado para una colección de conjuntos de datos que son grandes y complejos, que es difícil de almacenar y procesar utilizando las herramientas de administración de bases de datos disponibles o las aplicaciones tradicionales de procesamiento de datos. El desafío incluye capturar, curar, almacenar, buscar, compartir, transferir, analizar y visualizar estos datos.
Hadoop y su arquitectura.
Los componentes principales de HDFS son NameNode y DataNode .
NombreNodo
Es el daemon maestro el que mantiene y administra los DataNodes (nodos esclavos). Registra los metadatos de todos los archivos almacenados en el clúster, por ejemplo, la ubicación de los bloques almacenados, el tamaño de los archivos, los permisos, la jerarquía, etc. Registra todos y cada uno de los cambios que se producen en los metadatos del sistema de archivos.
DataNode
Estos son demonios esclavos que se ejecutan en cada máquina esclava. Los datos reales se almacenan en DataNodes. Son responsables de atender las solicitudes de lectura y escritura de los clientes. También son responsables de crear bloques, eliminar bloques y replicarlos de acuerdo con las decisiones tomadas por NameNode.
Para el procesamiento, utilizamos YARN (Yet Another Resource Negotiator). Los componentes de YARN son ResourceManager y NodeManager .
Administrador de recursos
Es un componente de nivel de clúster (uno para cada clúster) y se ejecuta en la máquina maestra. Administra los recursos y programa las aplicaciones que se ejecutan sobre YARN.
NodeManager
Es un componente de nivel de nodo (uno en cada nodo) y se ejecuta en cada máquina esclava. Es responsable de administrar los contenedores y monitorear la utilización de los recursos en cada contenedor. También realiza un seguimiento del estado del nodo y la gestión de registro. Se comunica continuamente con ResourceManager para mantenerse actualizado.
Por lo tanto, puede realizar un procesamiento paralelo en HDFS utilizando MapReduce.
Mapa reducido
Es el componente central del procesamiento en un ecosistema de Hadoop, ya que proporciona la lógica de procesamiento. En otras palabras, MapReduce es un marco de software que ayuda a escribir aplicaciones que procesan grandes conjuntos de datos utilizando algoritmos distribuidos y paralelos dentro del entorno de Hadoop. En un programa MapReduce, Map () y Reduce () son dos funciones. La función Map realiza acciones como filtrar, agrupar y clasificar. Mientras tanto, reduce los agregados de funciones y resume el resultado producido por la función map.El resultado generado por la función Map es un par de valores clave (K, V) que actúa como entrada para la función Reducir.
Puede pasar por este video para comprender Hadoop y su arquitectura en detalle.
Instale Hadoop Single Node y Multi Node Cluster
Luego puede ir a través de este blog de Hadoop Ecosystem para aprender Hadoop Ecosystem en detalle.
También puede ver este video tutorial de Hadoop Ecosystem.
Cerdo
PIG tiene dos partes: Pig Latin , the language y the pig runtime, para el entorno de ejecución. Puedes entenderlo mejor como Java y JVM. Es compatible con la lengua latina de cerdo .
Colmena
Facebook creó HIVE para las personas que dominan SQL. Por lo tanto, HIVE los hace sentir como en casa mientras trabajan en un ecosistema de Hadoop. Básicamente, HIVE es un componente de almacenamiento de datos que realiza la lectura, escritura y administración de grandes conjuntos de datos en un entorno distribuido mediante una interfaz similar a la de SQL.
HBase
HBase es una base de datos distribuida de fuente abierta, no relacional. En otras palabras, es una base de datos NoSQL. Es compatible con todo tipo de datos y, por eso, es capaz de manejar cualquier cosa dentro de un ecosistema de Hadoop. Se basa en el modelo BigTable de Google, que es un sistema de almacenamiento distribuido diseñado para hacer frente a grandes conjuntos de datos.
Edureka proporciona una buena lista de videos Tutorial de Hadoop. Le recomendaría que lea esta lista de reproducción de videos del tutorial de Hadoop , así como la serie de blogs del Tutorial de Hadoop . Su aprendizaje debe estar alineado con la certificación Hadoop .