¿Dónde puedo aprender Hadoop y big data desde cero?

Primero entienda Big Data y los desafíos asociados con Big Data. Entonces, puedes entender cómo Hadoop surgió como una solución a esos problemas de Big Data. Este blog de What is Hadoop y Hadoop Tuorial te lo presentará.

Entonces debe comprender cómo funciona la arquitectura de Hadoop con respecto a HDFS, YARN y MapReduce.

Más adelante, debe instalar Hadoop en su sistema para que pueda comenzar a trabajar con Hadoop. Esto le ayudará a comprender los aspectos prácticos en detalle.

Más adelante, realice una inmersión profunda en el ecosistema Hadoop y aprenda varias herramientas dentro del ecosistema Hadoop con sus funcionalidades. Por lo tanto, aprenderá cómo crear una solución personalizada de acuerdo con sus requisitos.

Vamos a entender en breve:

¿Qué es Big Data?

Big Data es un término usado para una colección de conjuntos de datos que son grandes y complejos, que es difícil de almacenar y procesar utilizando las herramientas de administración de bases de datos disponibles o las aplicaciones tradicionales de procesamiento de datos. El desafío incluye capturar, curar, almacenar, buscar, compartir, transferir, analizar y visualizar estos datos.

Se caracteriza por 5 V’s.

VOLUMEN: El volumen se refiere a la ‘cantidad de datos’, que crece día a día a un ritmo muy rápido.

VELOCIDAD: la velocidad se define como el ritmo en el que las diferentes fuentes generan los datos todos los días. Este flujo de datos es masivo y continuo.

VARIEDAD: Como hay muchas fuentes que contribuyen a Big Data, el tipo de datos que generan es diferente. Puede ser estructurado, semiestructurado o no estructurado.

VALOR: Es bueno tener acceso a big data, pero a menos que podamos convertirlo en valor, es inútil. Encuentre ideas en los datos y saque provecho de ellos.

VERACIDAD: Veracidad se refiere a los datos en duda o incertidumbre de los datos disponibles debido a la inconsistencia y falta de datos de los datos.

¿Qué es Hadoop y su arquitectura?

Los componentes principales de HDFS son NameNode y DataNode .

NombreNodo

Es el daemon maestro el que mantiene y administra los DataNodes (nodos esclavos). Registra los metadatos de todos los archivos almacenados en el clúster, por ejemplo, la ubicación de los bloques almacenados, el tamaño de los archivos, los permisos, la jerarquía, etc. Registra todos y cada uno de los cambios que se producen en los metadatos del sistema de archivos.

Por ejemplo, si un archivo se elimina en HDFS, el NameNode lo grabará inmediatamente en el EditLog. Regularmente recibe un informe de Heartbeat y de bloque de todos los DataNodes en el clúster para asegurar que los DataNodes estén activos. Mantiene un registro de todos los bloques en HDFS y en qué nodos se almacenan estos bloques.

DataNode

Estos son demonios esclavos que se ejecutan en cada máquina esclava. Los datos reales se almacenan en DataNodes. Son responsables de atender las solicitudes de lectura y escritura de los clientes. También son responsables de crear bloques, eliminar bloques y replicarlos de acuerdo con las decisiones tomadas por NameNode.

Para el procesamiento, utilizamos YARN (Yet Another Resource Negotiator). Los componentes de YARN son ResourceManager y NodeManager .

Administrador de recursos

Es un componente de nivel de clúster (uno para cada clúster) y se ejecuta en la máquina maestra. Administra los recursos y programa las aplicaciones que se ejecutan sobre YARN.

NodeManager

Es un componente de nivel de nodo (uno en cada nodo) y se ejecuta en cada máquina esclava. Es responsable de administrar los contenedores y monitorear la utilización de los recursos en cada contenedor. También realiza un seguimiento del estado del nodo y la gestión de registro. Se comunica continuamente con ResourceManager para mantenerse actualizado.

Por lo tanto, puede realizar un procesamiento paralelo en HDFS utilizando MapReduce.

Mapa reducido

Es el componente central del procesamiento en un ecosistema de Hadoop, ya que proporciona la lógica de procesamiento. En otras palabras, MapReduce es un marco de software que ayuda a escribir aplicaciones que procesan grandes conjuntos de datos utilizando algoritmos distribuidos y paralelos dentro del entorno de Hadoop. En un programa MapReduce, Map () y Reduce () son dos funciones. La función Map realiza acciones como filtrar, agrupar y clasificar. Mientras tanto, reduce los agregados de funciones y resume el resultado producido por la función map.El resultado generado por la función Map es un par de valores clave (K, V) que actúa como entrada para la función Reducir.

Puede pasar por este video para comprender Hadoop y su arquitectura en detalle.

Instale Hadoop Single Node y Multi Node Cluster

Luego puede ir a través de este blog de Hadoop Ecosystem para aprender Hadoop Ecosystem en detalle.

También puede ver este video tutorial de Hadoop Ecosystem.

Cerdo

PIG tiene dos partes: Pig Latin , the language y the pig runtime, para el entorno de ejecución. Puedes entenderlo mejor como Java y JVM. Es compatible con la lengua latina de cerdo .

Como todo el mundo no pertenece desde un fondo de programación. Entonces, Apache PIG los alivia. Usted podría ser curioso saber cómo?

Bueno, les contaré un dato interesante:

10 linea de cerdo latino = aprox. 200 líneas de código Java de Map-Reduce

Pero no se sorprenda cuando digo que en el extremo posterior del trabajo de Pig, se ejecuta un trabajo de reducción de mapas. El compilador convierte internamente pig latin a MapReduce. Produce un conjunto secuencial de trabajos de MapReduce, y eso es una abstracción (que funciona como una caja negra). PIG fue desarrollado inicialmente por Yahoo. Le brinda una plataforma para generar flujo de datos para ETL (Extraer, Transformar y Cargar), procesando y analizando grandes conjuntos de datos.

Colmena

Facebook creó HIVE para las personas que dominan SQL. Por lo tanto, HIVE los hace sentir como en casa mientras trabajan en un ecosistema de Hadoop. Básicamente, HIVE es un componente de almacenamiento de datos que realiza la lectura, escritura y administración de grandes conjuntos de datos en un entorno distribuido mediante una interfaz similar a la de SQL.

HIVE + SQL = HQL

El lenguaje de consulta de Hive se llama Hive Query Language (HQL), que es muy similar a SQL. La colmena es altamente escalable. Como, puede servir tanto para propósitos, es decir, procesamiento de grandes conjuntos de datos (es decir, procesamiento de consultas por lotes) como procesamiento en tiempo real (es decir, procesamiento de consultas interactivo). Hive se convierte internamente en programas de MapReduce.

Es compatible con todos los tipos de datos primitivos de SQL. Puede usar funciones predefinidas o escribir funciones personalizadas definidas por el usuario (UDF) también para satisfacer sus necesidades específicas.

Puede almacenar datos en HBase en función de sus necesidades.

HBase

HBase es una base de datos distribuida de fuente abierta, no relacional. En otras palabras, es una base de datos NoSQL. Es compatible con todo tipo de datos y, por eso, es capaz de manejar cualquier cosa dentro de un ecosistema de Hadoop. Se basa en el modelo BigTable de Google, que es un sistema de almacenamiento distribuido diseñado para hacer frente a grandes conjuntos de datos.

El HBase fue diseñado para ejecutarse sobre HDFS y proporciona capacidades similares a BigTable. Nos brinda una forma tolerante de fallas de almacenar datos dispersos, que es común en la mayoría de los casos de uso de Big Data. El HBase está escrito en Java, mientras que las aplicaciones HBase se pueden escribir en REST, Avro y Thrift API.

Para una mejor comprensión, tomemos un ejemplo. Tiene miles de millones de correos electrónicos de clientes y necesita averiguar la cantidad de clientes que han utilizado la palabra queja en sus correos electrónicos. La solicitud debe procesarse rápidamente (es decir, en tiempo real). Entonces, aquí estamos manejando un gran conjunto de datos mientras recuperamos una pequeña cantidad de datos. Para resolver este tipo de problemas, se diseñó HBase.

Edureka proporciona una buena lista de videos Tutorial de Hadoop. Le recomendaría que lea esta lista de reproducción de videos del tutorial de Hadoop , así como la serie de blogs del Tutorial de Hadoop . Su aprendizaje debe estar alineado con la certificación Hadoop .

En primer lugar, esta pregunta es demasiado vaga. La pregunta correcta sería qué ya sabes y dónde te gustaría estar.

También cuál es su motivación para aprender importa mucho, como promoción, trabajo, mejora de habilidades o ‘hey es una palabra de moda que escuché que debería aprender’. Elaboraré esta parte más adelante en la respuesta.

Digamos que tiene todos los requisitos previos correctos desde un punto de vista no técnico.

Ahora llegando a la pregunta principal,

Depende de lo que ya sabes sobre programación.

Comencemos desde el peldaño más bajo, no tienes un fondo en codificación:

A.) Aprenda a codificar en un lenguaje

B.) Aprendizaje fundamental de bases de datos relacionales (SQL).

C.) Aprender conceptos avanzados de bases de datos [Particionamiento / fragmentación]

D.) Continúe rellenando los datos en su base de datos o aumente el tamaño de su archivo hasta que su consulta / tiempo de búsqueda sea difícil.

E.) Aprenda los comandos del sistema operativo Unix y siéntase cómodo con los comandos básicos.

Enhorabuena, ahora ha alcanzado todos los requisitos previos técnicos:

Los puntos A), B) y E) tienen una curva de aprendizaje empinada pero necesaria.

Ciertos conceptos del punto C) son necesarios en la arquitectura de Big Data.

D.) es la motivación técnica para Big Data. El primer lugar por qué se introdujo.

En este punto, está listo para aprender Hadoop o sobre Big Data.

Recomiendo encarecidamente aprender de Cloudera Training o algún curso estructurado como CBT Nuggets.

También puede comenzar desde este libro Amazon.com: Hadoop: The Definitive Guide (9781449311520): Tom White: Books.

Pero si ha dominado A), B), C), D) y E) puede comenzar directamente leyendo la documentación de Apache.

Tomé la capacitación en línea de Big Data Hadoop de DataFlair y me tomó alrededor de 2 meses completar la capacitación junto con proyectos en tiempo real. En este tiempo de 2 meses, me enseñaron todos los conceptos de Big Data Hadoop, desde el inicio hasta la función avanzada, y la capacitación completa estaba orientada a la práctica.

A continuación se presentan algunas de sus características clave que me gustaría resaltar aquí:

1. El contenido del curso está muy bien organizado, y ejemplos de problemas reales de la industria.

2. El instructor tiene un gran conocimiento que compartió su experiencia en tiempo real con nosotros para hacernos entender mejor las cosas. Siempre nos animó a trabajar más duro para comenzar nuestra carrera en Big Data.

3. Me pareció muy útil tener el contenido del curso disponible en LMS de por vida.

4. Los cuestionarios y las preguntas de asignación nos ayudaron a verificar nuestro conocimiento y el nivel de trabajo duro que necesitamos para hacer más.

5. Entrevistas simuladas y sesiones de estudiantes que se ubican en el dominio de Big Data es una característica clave más de DataFlair que lo hace tan popular.

En general, mi experiencia con el entrenamiento en línea de DataFlair fue muy buena y se la sugeriré a otros también. Puede comunicarse conmigo en [email protected] si necesita ayuda relacionada con la tecnología o el asesoramiento profesional.

Agute soft ofrece capacitación en línea en DATA SCIENCE, BIG DATA-HADOOP, BIG DATA-SPARK con SCALA en AWS por expertos en tiempo real en la industria.

Contamos con entrenadores sobresalientes que brindan un mejor crecimiento para su carrera.

La tarifa de capacitación es menos comparada con todos los institutos de capacitación en línea.

Regístrese para un seminario web gratuito: Big data-Hadoop LIVE WEBINAR GRATIS de Acute soft por expertos en tiempo real.

Regístrese con este enlace: https://goo.gl/8MSUg6 .

Visite nuestro sitio: Capacitación en línea sobre Big Data Hadoop | Capacitación en análisis de Big Data | Acutesoft.

debe inscribirse en el siguiente mocio proporcionado por UDACITY: introducción a Hadoop y MapReduce.

Para lograr este mooc tienes que conocer algunas bases de Python. Afortunadamente, UDACITY proporciona una introducción a Python

Hay un instituto de capacitación llamado SimpliLearn (www.simplilearn.com). Sugiero inscribirse en su curso de Master. En ese curso te entrenan desde cero hasta nivel experto. Lo que han hecho es clasificar los cursos en múltiples niveles. Todo el paquete Masters tiene mucho sentido desde el punto de vista económico y educativo.

Es posible que desee consultar Big data university o que ahora se llama http://congnitive.ai , tienen clases gratuitas de hadoop en línea que son geniales y prácticas.

More Interesting