¿Cuál es el mejor curso en línea para aprender Hadoop?

Debería leer primero el conjunto de videos y videos de Big Data y Hadoop para comprender qué es Big Data y cómo Hadoop apareció en escena. Entonces debe comprender cómo funciona la arquitectura de Hadoop con respecto a HDFS, YARN y MapReduce.

Más adelante, debe instalar Hadoop en su sistema para que pueda comenzar a trabajar con Hadoop. Esto le ayudará a comprender los aspectos prácticos en detalle.

Más adelante, realice una inmersión profunda en el ecosistema Hadoop y aprenda varias herramientas dentro del ecosistema Hadoop con sus funcionalidades. Por lo tanto, aprenderá cómo crear una solución personalizada de acuerdo con sus requisitos.

Vamos a entender en breve:

¿Qué es Big Data?

Big Data es un término usado para una colección de conjuntos de datos que son grandes y complejos, que es difícil de almacenar y procesar utilizando las herramientas de administración de bases de datos disponibles o las aplicaciones tradicionales de procesamiento de datos. El desafío incluye capturar, curar, almacenar, buscar, compartir, transferir, analizar y visualizar estos datos.

Se caracteriza por 5 V’s.

VOLUMEN: El volumen se refiere a la ‘cantidad de datos’, que crece día a día a un ritmo muy rápido.

VELOCIDAD: la velocidad se define como el ritmo en el que las diferentes fuentes generan los datos todos los días. Este flujo de datos es masivo y continuo.

VARIEDAD: Como hay muchas fuentes que contribuyen a Big Data, el tipo de datos que generan es diferente. Puede ser estructurado, semiestructurado o no estructurado.

VALOR: Es bueno tener acceso a big data, pero a menos que podamos convertirlo en valor, es inútil. Encuentre ideas en los datos y saque provecho de ellos.

VERACIDAD: Veracidad se refiere a los datos en duda o incertidumbre de los datos disponibles debido a la inconsistencia y falta de datos de los datos.

¿Qué es Hadoop y su arquitectura?

Los componentes principales de HDFS son NameNode y DataNode .

NombreNodo

Es el demonio maestro que mantiene.

y gestiona los DataNodes (nodos esclavos). Registra los metadatos de todos los archivos almacenados en el clúster, por ejemplo, la ubicación de los bloques almacenados, el tamaño de los archivos, los permisos, la jerarquía, etc. Registra todos y cada uno de los cambios que se producen en los metadatos del sistema de archivos.

Por ejemplo, si un archivo se elimina en HDFS, el NameNode lo grabará inmediatamente en el EditLog. Regularmente recibe un informe de Heartbeat y de bloque de todos los DataNodes en el clúster para asegurar que los DataNodes estén activos. Mantiene un registro de todos los bloques en HDFS y en qué nodos se almacenan estos bloques.

DataNode

Estos son demonios esclavos que se ejecutan en cada máquina esclava. Los datos reales se almacenan en DataNodes. Son responsables de atender las solicitudes de lectura y escritura de los clientes. También son responsables de crear bloques, eliminar bloques y replicarlos de acuerdo con las decisiones tomadas por NameNode.

Para el procesamiento, utilizamos YARN (Yet Another Resource Negotiator). Los componentes de YARN son ResourceManager y NodeManager .

Administrador de recursos

Es un componente de nivel de clúster (uno para cada clúster) y se ejecuta en la máquina maestra. Administra los recursos y programa las aplicaciones que se ejecutan sobre YARN.

NodeManager

Es un componente de nivel de nodo (uno en cada nodo) y se ejecuta en cada máquina esclava. Es responsable de administrar los contenedores y monitorear la utilización de los recursos en cada contenedor. También realiza un seguimiento del estado del nodo y la gestión de registro. Se comunica continuamente con ResourceManager para mantenerse actualizado.

Por lo tanto, puede realizar un procesamiento paralelo en HDFS utilizando MapReduce.

Mapa reducido

Es el componente central del procesamiento en un ecosistema de Hadoop, ya que proporciona la lógica de procesamiento. En otras palabras, MapReduce es un marco de software que ayuda a escribir aplicaciones que procesan grandes conjuntos de datos utilizando algoritmos distribuidos y paralelos dentro del entorno de Hadoop. En un programa MapReduce, Map () y Reduce () son dos funciones. La función Map realiza acciones como filtrar, agrupar y clasificar. Mientras tanto, reduce los agregados de funciones y resume el resultado producido por la función map.El resultado generado por la función Map es un par de valores clave (K, V) que actúa como entrada para la función Reducir.

Debes pasar por una serie de videos y blogs orientados a Hadoop para aprender Big Data y Hadoop con una comprensión clara. Le sugiero que primero entienda Big Data y las oportunidades ocultas en Big Data. Entonces, al avanzar, descubriría los problemas asociados al encapsular las oportunidades de Big Data y cómo Hadoop resolvió esos problemas.

Puede ver este video para comprender la introducción de Big Data y Hadoop:

Luego, en el futuro, debe comprender qué es Hadoop para aprender la arquitectura de Hadoop en términos de HDFS y YARN y sus arquitecturas. Más adelante, puede ir a través de MapReduce para aprender cómo lleva el procesamiento paralelo. Ir a través de este video de introducción de Hadoop:

Después de esto, preferiría que instale Hadoop utilizando este único clúster y blogs de clústeres de múltiples nodos . Alternativamente, puedes pasar por este video de instalación de Hadoop.

Después de esto, prácticamente puedes entender Hadoop, HDFS y ejecutar los programas MapReduce sobre él. Ir a través de este tutorial de MapReduce que incluye muchos ejemplos de MapReduce que le ayudarán a comprender de forma práctica MapReduce.

Ahora la plataforma está configurada para que usted aprenda el ecosistema de Hadoop y varias herramientas dentro del ecosistema de Hadoop, para que pueda comprender las funcionalidades de cada herramienta y dónde usar cada herramienta. Ir a través de este video para comprender Hadoop Ecosystem en breve:

Ahora, para aprender sobre varias herramientas, puede ir a través de la lista de reproducción de videos de Big Data y Hadoop:

Videos tutoriales de Big Data Hadoop – YouTube

Le recomendaría que también pase por esta serie de Big Data y Hadoop Blog .

Edureka ofrece capacitación en línea dirigida por instructores en vivo en Big Data y Hadoop. Estas son sesiones de clases virtuales en vivo con un profesional de la industria con la mejor experiencia. Edureka tiene un servicio de atención al cliente 24 x 7 para ayudarlo con todas las consultas / problemas que enfrenta durante su aprendizaje. Aparte de estos, también tendrá acceso de por vida al curso y trabajará en proyectos.

Por favor, echa un vistazo. Estoy proporcionando el enlace de la página del curso y lo que dicen nuestros clientes sobre nosotros. Puedes ver los detalles aquí.

También compartiré mi experiencia de aprendizaje (si solo necesita la respuesta a los cursos en línea recomendados, vaya directamente a las últimas 5 líneas):
1. Comience a aprender los conceptos básicos del ecosistema Hadoop y HDFS de CBT Nuggets (Apache Hadoop – Introducción al curso de Hadoop) (1 semana es gratis). Solo vea las 3 primeras conferencias.
2. El siguiente paso sería organizar los datos en tablas de Hive (la base de datos SQL de Big Data). Siga este tutorial (Tutorial de Hive para principiantes – Orzota) para aprender lo básico sobre cómo trabajar con Hive.
3. Hay varias maneras de proceder después de esto, dependiendo de su problema: necesita análisis rápido, use Apache Spark, necesita mejores tablas, HBase, etc.
También utilicé Python para escribir código para automatizar consultas usando pyhs2 ( https://pypi.python.org/pypi/pyhs2 )

Un conjunto de cursos que puedes revisar (respondiendo a tu pregunta original)
1. https://www.udacity.com/course/i…
2. http://www.cbtnuggets.com/it-tra
3. Otros han sido mencionados en las respuestas restantes.

¡Espero que esto ayude!

Si desea aprender Hadoop y desea sumergirse profundamente en el uso en el mundo real de Hadoop y las API y herramientas relacionadas, le recomiendo este Curso de capacitación para desarrolladores de Hadoop $ 399 Con ejercicios del mundo real.

El curso está a cargo de un instructor con 21 años de experiencia práctica con arquitecturas que van desde sistemas integrados hasta supercomputadoras y proporciona liderazgo técnico a líderes del mercado como CSC, General Dynamics, AAA, Daimler-Benz y Hearst.

Le ayudaría a dominar todos los detalles relevantes de las API de Hadoop y completar tareas rigurosas y desafiantes en el contexto de un estudio de caso de agregador de datos.

También hay un curso de analista de Big Data si buscas experiencia práctica con Hadoop, Pig and Hive.