Debería leer primero el conjunto de videos y videos de Big Data y Hadoop para comprender qué es Big Data y cómo Hadoop apareció en escena. Entonces debe comprender cómo funciona la arquitectura de Hadoop con respecto a HDFS, YARN y MapReduce.
Más adelante, debe instalar Hadoop en su sistema para que pueda comenzar a trabajar con Hadoop. Esto le ayudará a comprender los aspectos prácticos en detalle.
Más adelante, realice una inmersión profunda en el ecosistema Hadoop y aprenda varias herramientas dentro del ecosistema Hadoop con sus funcionalidades. Por lo tanto, aprenderá cómo crear una solución personalizada de acuerdo con sus requisitos.
- ¿Cuál es la mejor plataforma para realizar cursos en línea? Estaba usando “GoToMeeting” pero tiene problemas con el audio.
- ¿Cuáles son los sitios web de inglés de aprendizaje mejor pagados que hablan con otros estudiantes o tienen funciones de intercambio de idiomas?
- ¿Hay un curso gratuito en línea para la programación en C?
- ¿Cuál es la mejor manera de encontrar cursos en línea?
- Cómo encontrar o rastrear ofertas de Udemy para cursos gratuitos
Vamos a entender en breve:
¿Qué es Big Data?
Big Data es un término usado para una colección de conjuntos de datos que son grandes y complejos, que es difícil de almacenar y procesar utilizando las herramientas de administración de bases de datos disponibles o las aplicaciones tradicionales de procesamiento de datos. El desafío incluye capturar, curar, almacenar, buscar, compartir, transferir, analizar y visualizar estos datos.
Se caracteriza por 5 V’s.
VOLUMEN: El volumen se refiere a la ‘cantidad de datos’, que crece día a día a un ritmo muy rápido.
VELOCIDAD: la velocidad se define como el ritmo en el que las diferentes fuentes generan los datos todos los días. Este flujo de datos es masivo y continuo.
VARIEDAD: Como hay muchas fuentes que contribuyen a Big Data, el tipo de datos que generan es diferente. Puede ser estructurado, semiestructurado o no estructurado.
VALOR: Es bueno tener acceso a big data, pero a menos que podamos convertirlo en valor, es inútil. Encuentre ideas en los datos y saque provecho de ellos.
VERACIDAD: Veracidad se refiere a los datos en duda o incertidumbre de los datos disponibles debido a la inconsistencia y falta de datos de los datos.
¿Qué es Hadoop y su arquitectura?
Los componentes principales de HDFS son NameNode y DataNode .
NombreNodo
Es el demonio maestro que mantiene.
y gestiona los DataNodes (nodos esclavos). Registra los metadatos de todos los archivos almacenados en el clúster, por ejemplo, la ubicación de los bloques almacenados, el tamaño de los archivos, los permisos, la jerarquía, etc. Registra todos y cada uno de los cambios que se producen en los metadatos del sistema de archivos.
Por ejemplo, si un archivo se elimina en HDFS, el NameNode lo grabará inmediatamente en el EditLog. Regularmente recibe un informe de Heartbeat y de bloque de todos los DataNodes en el clúster para asegurar que los DataNodes estén activos. Mantiene un registro de todos los bloques en HDFS y en qué nodos se almacenan estos bloques.
DataNode
Estos son demonios esclavos que se ejecutan en cada máquina esclava. Los datos reales se almacenan en DataNodes. Son responsables de atender las solicitudes de lectura y escritura de los clientes. También son responsables de crear bloques, eliminar bloques y replicarlos de acuerdo con las decisiones tomadas por NameNode.
Para el procesamiento, utilizamos YARN (Yet Another Resource Negotiator). Los componentes de YARN son ResourceManager y NodeManager .
Administrador de recursos
Es un componente de nivel de clúster (uno para cada clúster) y se ejecuta en la máquina maestra. Administra los recursos y programa las aplicaciones que se ejecutan sobre YARN.
NodeManager
Es un componente de nivel de nodo (uno en cada nodo) y se ejecuta en cada máquina esclava. Es responsable de administrar los contenedores y monitorear la utilización de los recursos en cada contenedor. También realiza un seguimiento del estado del nodo y la gestión de registro. Se comunica continuamente con ResourceManager para mantenerse actualizado.
Por lo tanto, puede realizar un procesamiento paralelo en HDFS utilizando MapReduce.
Mapa reducido
Es el componente central del procesamiento en un ecosistema de Hadoop, ya que proporciona la lógica de procesamiento. En otras palabras, MapReduce es un marco de software que ayuda a escribir aplicaciones que procesan grandes conjuntos de datos utilizando algoritmos distribuidos y paralelos dentro del entorno de Hadoop. En un programa MapReduce, Map () y Reduce () son dos funciones. La función Map realiza acciones como filtrar, agrupar y clasificar. Mientras tanto, reduce los agregados de funciones y resume el resultado producido por la función map.El resultado generado por la función Map es un par de valores clave (K, V) que actúa como entrada para la función Reducir.
Debes pasar por una serie de videos y blogs orientados a Hadoop para aprender Big Data y Hadoop con una comprensión clara. Le sugiero que primero entienda Big Data y las oportunidades ocultas en Big Data. Entonces, al avanzar, descubriría los problemas asociados al encapsular las oportunidades de Big Data y cómo Hadoop resolvió esos problemas.
Puede ver este video para comprender la introducción de Big Data y Hadoop:
Luego, en el futuro, debe comprender qué es Hadoop para aprender la arquitectura de Hadoop en términos de HDFS y YARN y sus arquitecturas. Más adelante, puede ir a través de MapReduce para aprender cómo lleva el procesamiento paralelo. Ir a través de este video de introducción de Hadoop:
Después de esto, preferiría que instale Hadoop utilizando este único clúster y blogs de clústeres de múltiples nodos . Alternativamente, puedes pasar por este video de instalación de Hadoop.
Después de esto, prácticamente puedes entender Hadoop, HDFS y ejecutar los programas MapReduce sobre él. Ir a través de este tutorial de MapReduce que incluye muchos ejemplos de MapReduce que le ayudarán a comprender de forma práctica MapReduce.
Ahora la plataforma está configurada para que usted aprenda el ecosistema de Hadoop y varias herramientas dentro del ecosistema de Hadoop, para que pueda comprender las funcionalidades de cada herramienta y dónde usar cada herramienta. Ir a través de este video para comprender Hadoop Ecosystem en breve:
Ahora, para aprender sobre varias herramientas, puede ir a través de la lista de reproducción de videos de Big Data y Hadoop:
Videos tutoriales de Big Data Hadoop – YouTube
Le recomendaría que también pase por esta serie de Big Data y Hadoop Blog .
Edureka ofrece capacitación en línea dirigida por instructores en vivo en Big Data y Hadoop. Estas son sesiones de clases virtuales en vivo con un profesional de la industria con la mejor experiencia. Edureka tiene un servicio de atención al cliente 24 x 7 para ayudarlo con todas las consultas / problemas que enfrenta durante su aprendizaje. Aparte de estos, también tendrá acceso de por vida al curso y trabajará en proyectos.
Por favor, echa un vistazo. Estoy proporcionando el enlace de la página del curso y lo que dicen nuestros clientes sobre nosotros. Puedes ver los detalles aquí.