¿Cómo debo empezar a aprender Hadoop?

Debería leer primero el conjunto de videos y videos de Big Data y Hadoop para comprender qué es Big Data y cómo Hadoop apareció en escena. Entonces debe comprender cómo funciona la arquitectura de Hadoop con respecto a HDFS, YARN y MapReduce.

Más adelante, debe instalar Hadoop en su sistema para que pueda comenzar a trabajar con Hadoop. Esto le ayudará a comprender los aspectos prácticos en detalle.

Más adelante, realice una inmersión profunda en el ecosistema Hadoop y aprenda varias herramientas dentro del ecosistema Hadoop con sus funcionalidades. Por lo tanto, aprenderá cómo crear una solución personalizada de acuerdo con sus requisitos.

Vamos a entender en breve:

¿Qué es Big Data?

Big Data es un término usado para una colección de conjuntos de datos que son grandes y complejos, que es difícil de almacenar y procesar utilizando las herramientas de administración de bases de datos disponibles o las aplicaciones tradicionales de procesamiento de datos. El desafío incluye capturar, curar, almacenar, buscar, compartir, transferir, analizar y visualizar estos datos.

Se caracteriza por 5 V’s.

VOLUMEN: El volumen se refiere a la ‘cantidad de datos’, que crece día a día a un ritmo muy rápido.

VELOCIDAD: la velocidad se define como el ritmo en el que las diferentes fuentes generan los datos todos los días. Este flujo de datos es masivo y continuo.

VARIEDAD: Como hay muchas fuentes que contribuyen a Big Data, el tipo de datos que generan es diferente. Puede ser estructurado, semiestructurado o no estructurado.

VALOR: Es bueno tener acceso a big data, pero a menos que podamos convertirlo en valor, es inútil. Encuentre ideas en los datos y saque provecho de ellos.

VERACIDAD: Veracidad se refiere a los datos en duda o incertidumbre de los datos disponibles debido a la inconsistencia y falta de datos de los datos.

¿Qué es Hadoop y su arquitectura?

Los componentes principales de HDFS son NameNode y DataNode .

NombreNodo

Es el demonio maestro que mantiene.

y gestiona los DataNodes (nodos esclavos). Registra los metadatos de todos los archivos almacenados en el clúster, por ejemplo, la ubicación de los bloques almacenados, el tamaño de los archivos, los permisos, la jerarquía, etc. Registra todos y cada uno de los cambios que se producen en los metadatos del sistema de archivos.

Por ejemplo, si un archivo se elimina en HDFS, el NameNode lo grabará inmediatamente en el EditLog. Regularmente recibe un informe de Heartbeat y de bloque de todos los DataNodes en el clúster para asegurar que los DataNodes estén activos. Mantiene un registro de todos los bloques en HDFS y en qué nodos se almacenan estos bloques.

DataNode

Estos son demonios esclavos que se ejecutan en cada máquina esclava. Los datos reales se almacenan en DataNodes. Son responsables de atender las solicitudes de lectura y escritura de los clientes. También son responsables de crear bloques, eliminar bloques y replicarlos de acuerdo con las decisiones tomadas por NameNode.

Para el procesamiento, utilizamos YARN (Yet Another Resource Negotiator). Los componentes de YARN son ResourceManager y NodeManager .

Administrador de recursos

Es un componente de nivel de clúster (uno para cada clúster) y se ejecuta en la máquina maestra. Administra los recursos y programa las aplicaciones que se ejecutan sobre YARN.

NodeManager

Es un componente de nivel de nodo (uno en cada nodo) y se ejecuta en cada máquina esclava. Es responsable de administrar los contenedores y monitorear la utilización de los recursos en cada contenedor. También realiza un seguimiento del estado del nodo y la gestión de registro. Se comunica continuamente con ResourceManager para mantenerse actualizado.

Por lo tanto, puede realizar un procesamiento paralelo en HDFS utilizando MapReduce.

Mapa reducido

Es el componente central del procesamiento en un ecosistema de Hadoop, ya que proporciona la lógica de procesamiento. En otras palabras, MapReduce es un marco de software que ayuda a escribir aplicaciones que procesan grandes conjuntos de datos utilizando algoritmos distribuidos y paralelos dentro del entorno de Hadoop. En un programa MapReduce, Map () y Reduce () son dos funciones. La función Map realiza acciones como filtrar, agrupar y clasificar. Mientras tanto, reduce los agregados de funciones y resume el resultado producido por la función map.El resultado generado por la función Map es un par de valores clave (K, V) que actúa como entrada para la función Reducir.

Puede pasar por este video para comprender Hadoop y su arquitectura en detalle.

Instale Hadoop Single Node y Multi Node Cluster

Luego puede ir a través de este blog de Hadoop Ecosystem para aprender Hadoop Ecosystem en detalle.

También puede ver este video tutorial de Hadoop Ecosystem.

Cerdo

PIG tiene dos partes: Pig Latin , the language y the pig runtime, para el entorno de ejecución. Puedes entenderlo mejor como Java y JVM. Es compatible con la lengua latina de cerdo .

Como todo el mundo no pertenece desde un fondo de programación. Entonces, Apache PIG los alivia. Usted podría ser curioso saber cómo?

Bueno, les contaré un dato interesante:

10 linea de cerdo latino = aprox. 200 líneas de código Java de Map-Reduce

Pero no se sorprenda cuando digo que en el extremo posterior del trabajo de Pig, se ejecuta un trabajo de reducción de mapas. El compilador convierte internamente pig latin a MapReduce. Produce un conjunto secuencial de trabajos de MapReduce, y eso es una abstracción (que funciona como una caja negra). PIG fue desarrollado inicialmente por Yahoo. Le brinda una plataforma para generar flujo de datos para ETL (Extraer, Transformar y Cargar), procesando y analizando grandes conjuntos de datos.

Colmena

Facebook creó HIVE para las personas que dominan SQL. Por lo tanto, HIVE los hace sentir como en casa mientras trabajan en un ecosistema de Hadoop. Básicamente, HIVE es un componente de almacenamiento de datos que realiza la lectura, escritura y administración de grandes conjuntos de datos en un entorno distribuido mediante una interfaz similar a la de SQL.

HIVE + SQL = HQL

El lenguaje de consulta de Hive se llama Hive Query Language (HQL), que es muy similar a SQL. La colmena es altamente escalable. Como, puede servir tanto para propósitos, es decir, procesamiento de grandes conjuntos de datos (es decir, procesamiento de consultas por lotes) como procesamiento en tiempo real (es decir, procesamiento de consultas interactivo). Hive se convierte internamente en programas de MapReduce.

Es compatible con todos los tipos de datos primitivos de SQL. Puede usar funciones predefinidas o escribir funciones personalizadas definidas por el usuario (UDF) también para satisfacer sus necesidades específicas.

Puede almacenar datos en HBase en función de sus necesidades.

HBase

HBase es una base de datos distribuida de fuente abierta, no relacional. En otras palabras, es una base de datos NoSQL. Es compatible con todo tipo de datos y, por eso, es capaz de manejar cualquier cosa dentro de un ecosistema de Hadoop. Se basa en el modelo BigTable de Google, que es un sistema de almacenamiento distribuido diseñado para hacer frente a grandes conjuntos de datos.

El HBase fue diseñado para ejecutarse sobre HDFS y proporciona capacidades similares a BigTable. Nos brinda una forma tolerante de fallas de almacenar datos dispersos, que es común en la mayoría de los casos de uso de Big Data. El HBase está escrito en Java, mientras que las aplicaciones HBase se pueden escribir en REST, Avro y Thrift API.

Para una mejor comprensión, tomemos un ejemplo. Tiene miles de millones de correos electrónicos de clientes y necesita averiguar la cantidad de clientes que han utilizado la palabra queja en sus correos electrónicos. La solicitud debe procesarse rápidamente (es decir, en tiempo real). Entonces, aquí estamos manejando un gran conjunto de datos mientras recuperamos una pequeña cantidad de datos. Para resolver este tipo de problemas, se diseñó HBase.

Edureka proporciona una buena lista de videos Tutorial de Hadoop. Le recomendaría que lea esta lista de reproducción de videos del tutorial de Hadoop , así como la serie de blogs del Tutorial de Hadoop . Su aprendizaje debe estar alineado con Big Data Certifications .

Hace un año, tuve que iniciar un POC en Hadoop y no tenía idea de lo que es Hadoop. Describiría la forma en que empecé. Funcionó bien para mí y para los miembros de mi equipo.

1. Ir a través de algunos videos introductorios en Hadoop
Es muy importante tener una idea de alto nivel de hadoop antes de comenzar a trabajar directamente en él. Estos videos introductorios ayudarán a comprender el alcance de Hadoop y los casos de uso donde se puede aplicar. Hay una gran cantidad de recursos disponibles en línea para el mismo y pasar por cualquiera de los videos será beneficioso.

2. Entendiendo MapReduce
La segunda cosa que me ayudó fue entender qué es Reducir Mapa y cómo funciona. Se explica muy bien en este documento: http: //static.googleusercontent… .

Otro tutorial agradable está disponible aquí: http://ksat.me/map-reduce-a-real

3. Comenzando con Cloudera VM
Una vez que entienda los conceptos básicos de Hadoop, puede descargar la VM proporcionada por cloudera y comenzar a ejecutar algunos comandos de hadoop en ella. Puede descargar la máquina virtual desde este enlace: http://www.cloudera.com/content/

Sería bueno familiarizarse con los comandos básicos de Hadoop en la VM y comprender cómo funciona.

4. Configuración del Hadoop autónomo / pseudo distribuido
Recomendaría configurar su propio Hadoop autónomo en su máquina una vez que esté familiarizado con Hadoop utilizando la máquina virtual. Los pasos para la instalación se explican muy bien en este blog por Michael G. Noll: Ejecución de Hadoop en Ubuntu Linux (Clúster de un solo nodo) – Michael G. Noll

5. Entendiendo el ecosistema de Hadoop
Sería bueno familiarizarse con otros componentes en el ecosistema de Hadoop, como Apache Pig, Hive, Hbase, Flume-NG, Hue, etc. Todos estos tienen diferentes propósitos y tener alguna información sobre todos estos será de gran ayuda para desarrollar cualquier producto. El ecosistema hadoop. Puede instalar todo esto fácilmente en su máquina y comenzar a utilizarlos. Cloudera VM por tiene la mayoría de estos ya instalados.

6. Redactar Mapa Reducir Trabajos
Una vez que haya terminado con los pasos 1-5, no creo que escribir Map Reduce sea un desafío. Se explica a fondo en La Guía Definitiva. Si MapReduce realmente te interesa mucho, sugeriría leer este libro Mining Massive Datasets de Anand Rajaraman, Jure Leskovec y Je ff rey D. Ullman: Página sobre Stanford

Puede que haya perdido algunos puntos aquí, pero así es como empecé con Hadoop y mi viaje hasta ahora ha sido muy interesante y gratificante.

Como Hadoop está en la demanda. Hay un gran margen para los candidatos de Hadoop y, según mi experiencia personal, descubrí que Big Data Hadoop es la tecnología mejor pagada.

Big Data Hadoop es la tecnología actual. Entonces, si quieres aprender Hadoop, es un buen momento para comenzar tu carrera en esta tecnología en auge. Tuve una muy buena caminata después de cambiar a Big data Hadoop. Así que recomiendo que empieces a aprender Hadoop a partir de ahora. No pierdas tu tiempo.

Hoy en día, Big Data es la palabra de moda más grande en la industria y todos y cada uno de los individuos buscan hacer un cambio de carrera en esta tecnología emergente y de tendencia Apache Hadoop. Así que hay que destacar de ellos.

Puedes aprender Hadoop fácilmente si trabajas duro y dedicas tu dedicación al estudio. Para aprender Hadoop, debe pasar por los conjuntos de blogs gratuitos y videos gratuitos disponibles en Internet.

Si realmente desea comenzar su carrera en la tecnología Big Data Hadoop, comience desde lo básico, ya que siempre escribo en mi respuesta. Si tiene una buena comprensión de los conceptos básicos, entonces puede aprender fácilmente la parte compleja.

Tengo buenas colecciones de blogs para Big Data Hadoop que me ayudaron a aprender Big Data Hadoop.

Entonces, vamos a empezar con lo básico.

  • Big Data

Cualquier información puede ser considerada como datos. Estos datos pueden estar en varias formas y en varios tamaños. Puede variar desde datos pequeños a datos muy grandes. Los conjuntos de datos extremadamente grandes se llaman Big Data.

Cualquier dato que no pueda residir en el disco duro o en un solo sistema se considera Big Data. Su tamaño es de más de 1000 GB.

Para más detalles: Big Data Guide

Si está interesado en conocer la generación de datos, eche un vistazo a la siguiente infografía que muestra la cantidad de generación de datos.

Uno de los más importantes es que más del 90% de todos los datos del mundo se crearon en los últimos 2 años.

Ahora piensa que tan rápido estamos generando datos.

Si desea conocer el historial de Big Data sobre cómo Big Data entró en escena, haga clic en el enlace de abajo.

Big Data – Historia

  • Hadoop

Hadoop es una herramienta de código abierto de ASF. Código abierto significa que sus códigos están fácilmente disponibles y su marco está escrito en Java. Se utiliza para el almacenamiento distribuido y el procesamiento de datos de Big Data.

Para más detalles, haga clic en el enlace: Guía de introducción de Hadoop

Una vez que haya terminado con la parte de introducción, continúe con las partes principales de Hadoop.

  • HDFS
  • Mapa reducido
  • Hilo

HDFS (Sistema de archivos distribuidos de Hadoop)

Es parte del proyecto Apache Hadoop. Es el sistema de almacenamiento más confiable del mundo. Su diseño consiste en almacenar archivos de gran tamaño y proporciona un alto rendimiento.

Cada vez que un archivo debe escribirse en HDFS, se divide en pequeños fragmentos de datos conocidos como bloques. HDFS tiene un tamaño de bloque predeterminado de 128 MB que puede aumentarse según los requisitos.

Como sabemos, Hadoop funciona de manera maestro-esclavo, HDFS también tiene 2 tipos de nodos que funcionan de la misma manera. Hay namenode (s) y datanodes en el clúster.

1) Nodo maestro (también denominado nodo Nombre): como sugiere su nombre, este nodo administra todos los nodos esclavos y asigna trabajo a los esclavos. Debe implementarse en hardware confiable ya que es la pieza central de HDFS.

Para saber más consulte el siguiente enlace:

Breve descripción de HDFS

Después de HDFS aprender MapReduce. Debido a que MapReduce es una parte compleja de Hadoop, trate de dedicar la mayor parte de su tiempo al aprendizaje de MapReduce. Una vez que obtenga el conocimiento profundo de MapReduce, será muy fácil aprender otros conceptos de Hadoop.

Mapa reducido

MapReduce es el diseño del modelo de programación de Hadoop. Su proporcionar procesamiento por lotes. Su trabajo es para procesar grandes volúmenes de datos en paralelo al dividir el trabajo en un conjunto de tareas independientes.

Map-Reduce divide el trabajo en partes pequeñas, cada una de las cuales se puede hacer en paralelo en el grupo de servidores. Un problema se divide en un gran número de problemas más pequeños, cada uno de los cuales se procesa de forma independiente para dar salidas individuales. Estas salidas individuales se procesan adicionalmente para dar salida final.

Hadoop Map-Reduce es altamente escalable y se puede usar en muchas computadoras. Muchas máquinas pequeñas pueden usarse para procesar trabajos que normalmente no podrían ser procesados ​​por una máquina grande.

MapReduce se forma combinando Mapa y Reducir. Así que veamos que:

¿Cómo mapear y reducir trabajan juntos?

¿Entendamos cómo el mapa y la reducción trabajan juntos en Hadoop?

Los datos de entrada dados al asignador se procesan a través de una función definida por el usuario escrita en el asignador. Toda la lógica de negocios compleja requerida se implementa en el nivel del asignador, de modo que el procesamiento se realiza en paralelo, ya que el número de asignadores es mucho más que el número de reductores. El asignador genera una salida que es datos intermedios y esta salida pasa como entrada al reductor.

Este resultado intermedio luego se procesa mediante una función definida por el usuario escrita en el reductor y se genera la salida final. Por lo general, en el reductor se realiza un procesamiento muy ligero. Esta salida final se almacena en HDFS y la replicación se realiza de la manera habitual.

Ahora, para el procesamiento utilizamos YARN. Así que ahora vamos a aprender a YARN.

  • HILO

Apache Yarn – “Sin embargo, otro negociador de recursos” es la capa de administración de recursos de Hadoop . El hilo fue introducido en Hadoop 2.x. Yarn permite que los diferentes motores de procesamiento de datos, como el procesamiento de gráficos, el procesamiento interactivo, el procesamiento de secuencias y el procesamiento por lotes, se ejecuten y procesen datos almacenados en HDFS (Hadoop Distributed File System). Además de la gestión de recursos, Yarn también se utiliza para la programación de trabajos. Yarn extiende el poder de Hadoop a otras tecnologías en evolución, para que puedan aprovechar las ventajas de HDFS (el sistema de almacenamiento más confiable y popular del planeta) y el clúster económico.

Para más detalles consulte el siguiente enlace:

YARN en profundidad

También puede consultar a continuación la mejor lista de libros para aprender Big Data Hadoop:

1- Hadoop – La guía definitiva por Tom White

Desde mi mexp personal [erience, encontré que este es el mejor libro para principiantes que aprenden a Hadoop a ser desarrolladores de Hadoop y administradores de Hadoop. El lenguaje es bastante fácil y abarca los conceptos de Hadoop y su ecosistema.

Lista de los mejores libros para aprender Big Data Hadoop

Al final, no se olvide de aprender los componentes de los elementos de eco de Hadoop como PIG, HIVE, HBase.

Si tiene buenos conocimientos de SQL, puede escribir códigos fácilmente en HiveQL

Así que empecemos a aprender sobre PIG, HIVE y HBase

CERDO

Como proyecto de investigación en Yahoo el año 2006, Apache Pig fue desarrollado para crear y ejecutar trabajos de MapReduce en grandes conjuntos de datos. En 2007, Apache Pig fue de código abierto. Más tarde, en 2008, salió el primer lanzamiento de Apache Pig.

2. Introducción a Apache Pig

Pig se creó para simplificar la carga de escribir códigos Java complejos para realizar trabajos de MapReduce. Los desarrolladores anteriores de Hadoop tienen que escribir códigos java complejos para realizar el análisis de datos. Apache Pig proporciona un lenguaje de alto nivel conocido como Pig Latin que ayuda a los desarrolladores de Hadoop a escribir programas de análisis de datos. Mediante el uso de varios operadores proporcionados por Pig, los programadores de lenguaje latino pueden desarrollar sus propias funciones para leer, escribir y procesar datos.

Necesidad de cerdo

Para todos aquellos programadores que no son tan buenos en Java, normalmente tienen que esforzarse mucho para trabajar con Hadoop, especialmente cuando necesitan realizar cualquier tarea de MapReduce. Apache Pig aparece como una herramienta útil para todos estos programadores.

No es necesario desarrollar códigos Java complejos para realizar tareas de MapReduce. Simplemente escribiendo Pig Latin scripts, los programadores ahora pueden realizar fácilmente tareas de MapReduce sin necesidad de escribir códigos complejos en Java.

Para más detalles consulte el enlace:

CERDO en profundidad

Puedes consultar este libro para aprender PIG en profundidad.

Este es el mejor libro para aprender el componente del ecosistema de Apache Pig – Hadoop para procesar datos utilizando los scripts de Pig Latin. Proporciona conocimientos básicos para avanzar en el nivel de Pig, incluyendo el lenguaje de secuencias de comandos latín de Pig, Grunt Shell y las funciones definidas por el usuario para extender Pig. También aprenderá cómo Pig convierte estos scripts en programas Map Reduce para un trabajo eficiente en Hadoop.

  • Programming Hive por Dean Wampler, Edward Capriolo y Jason Rutherglen

Esta guía completa lo introduce a la infraestructura de almacenamiento de datos de Apache Hive – Hadoop. Le ayudará a aprender el dialecto SQL de Hive – Hive QL para resumir, consultar y analizar grandes conjuntos de datos almacenados en HDFS.

Entonces, disfruta aprendiendo desde ahora

Hola,

Puedes aprender Hadoop siguiendo estos pasos

Paso 0 – Aprende lo básico primero

Antes de comenzar a aprender Hadoop, será bueno si tiene experiencia con cualquier lenguaje de programación. Debería conocer los comandos básicos * nix y tener conocimientos básicos de SQL.

Recomendaré aprender python, si no estás familiarizado con ningún lenguaje de programación. También puedes ensuciarte las manos con Java. Aunque Java no es obligatorio para aprender Hadoop, el conocimiento de Java le dará una ventaja en ciertos escenarios como la configuración de opciones avanzadas en MapReduce. MapReduce es un paradigma de programación para escribir su lógica en forma de funciones de mapeador y reductor

Paso 1 – Ir a través de recursos en línea gratis

Aquellos que tienen una gran cantidad de autoaprendizaje pueden aprender a usar Hadoop usando los excelentes recursos en línea que se enumeran a continuación. Para otros que prefieren cursos guiados por un instructor, también hay buenos cursos en línea.

Recursos gratuitos para los autodidactas.

  1. Yahoo Blog
  2. Guia definitiva de Hadoop
  3. Tutoriales de práctica de HortonWorks

Estos recursos en línea lo ayudarán a familiarizarse con la arquitectura de Hadoop, los componentes y otras tecnologías relacionadas con Big Data.

Paso 2 – Practica y practica más en el clúster de Hadoop

El mayor desafío al que se enfrenta cualquier alumno de Hadoop es la práctica. Cuanto más practique, más práctica obtendrá con Hadoop y las tecnologías de Big Data relacionadas. En general, para practicar Hadoop, los alumnos descargan y configuran una máquina virtual proporcionada por los principales proveedores de Hadoop, como Hortownworks y Cloudera. Practicar Hadoop en una máquina virtual no te dará la experiencia del mundo real. También la descarga, instalación y configuración de la máquina virtual es un proceso doloroso. Pocos de los inconvenientes de las máquinas virtuales son

  1. Las máquinas virtuales tienen un tamaño enorme, por ejemplo, la máquina virtual de HortonWorks es de 9 GB.
  2. Es posible que tengas que actualizar tu RAM a 8 GB.
  3. Algunos BIOS no permiten la virtualización. Es posible que tenga que cambiar la configuración del BIOS.
  4. Es posible que algunas máquinas, como las computadoras de escritorio o portátiles, no permitan la instalación.

Yo también enfrenté el mismo problema de practicar cuando estaba aprendiendo Hadoop. Para resolver estos problemas de la máquina virtual y proporcionar la experiencia del mundo real a los estudiantes de Hadoop, hemos creado un clúster en línea llamado CloudxLab. CloudxLab es un clúster de Hadoop basado en la nube virtual para practicar Hadoop y las tecnologías de Big Data relacionadas

Practica y escribe código mientras pasas por encima de los recursos gratuitos. Practicar te ayudará a aprender Hadoop de forma más rápida y adecuada.

Espero que esto ayude. ¡¡Feliz aprendizaje!!

Chuck el libro – ¡Adelante!

Sugerencias y comentarios: el libro de Tom White es increíble, pero primero obtenga la infraestructura, aprender haciendo es la mejor manera, después de todo.

Pasé bastante tiempo configurando una instalación Hadoop independiente (/ pseudo distribuida) en mi sistema (usé Virtual Box con Ubuntu 12.04, 32 bit). En un principio, estaba buscando una manera perfecta de configurar la infraestructura para poder experimentar en mi máquina local y luego explorar el marco de trabajo escribiendo trabajos de reducción de mapa.

Puede ser demasiado prescriptivo (¿Algoritmo?), Pero para ser conciso: (Deseaba tenerlo cuando configuré el mío, principalmente al fallar y reiniciar mi pensamiento 🙂)
1. Obtenga un cuadro virtual (Chuck Cygwin, que no es una interfaz tan buena para Unix, si su sistema operativo base es Windows) e instale el sistema operativo con el sabor de Unix que elija en el cuadro virtual

Saber cómo ? Cómo instalar Ubuntu en Oracle VM VirtualBox

2. Configure el Hadoop autónomo / pseudo distribuido
Paso definitivo paso a paso la disposición aquí –
Ejecución de Hadoop en Ubuntu Linux (clúster de un solo nodo) – Michael G. Noll

3. (No, así) Finalmente escribiendo Mapa reducir trabajos
Actualmente estoy explorando una forma elegante de Map-reduce (en python, que es mi fuerte), pero puedes programarlo en el idioma que prefieras. (Mi caso de uso es explorar algunos de los módulos de programa en Python que fallaron en mi sistema inicialmente debido a razones de memoria, y trasladarlos a un sistema distribuido (HDFS, que es lo que estoy intentando ahora)
Escribiendo un programa de Hadoop MapReduce en Python – Michael G. Noll

PPS: Encontré el trabajo de Michael Noll muy bien presentado. No puedo recomendarlo más. Siempre fallará en algunos pasos, pero encontrará la ayuda en línea. Me tomó menos de 2 días poner en funcionamiento la infraestructura (con un ejemplo de reducción de mapa de frecuencia de palabras) y mucho más para sintetizar lo que había aprendido. Por supuesto, me tomó más tiempo averiguar cómo obtener los 3 pasos anteriores. Esperamos que te sea útil .

Feliz aprendizaje, fracaso y re-aprendizaje !! Menos…

Personalmente prefiero el enfoque de abajo hacia arriba. Así que si alguno de los tuyos siente lo mismo, entonces puedes probar esto.

  1. Utilizo las operaciones Hadoop de Eric Sammer como mi principal referencia. Cubre las habilidades necesarias para instalar y configurar Hadoop. Cubre gran parte de la arquitectura involucrada. Esto le da a él un buen fondo de por qué las cosas funcionan.
  2. Yo escogería una distribución para empezar. Personalmente prefiero Cloudera CDH pero cualquiera haría. Empezaré desde abajo y subiré. Así HDFS primero luego algunos ejercicios allí. Después de lo cual iría con Pig, luego Hive, luego Streaming y luego Mahout. Este conjunto le brinda los conceptos básicos de Hadoop y sus herramientas clave del ecosistema y los roles que desempeñan. Cada herramienta tendrá fortalezas particulares y será conveniente para determinados tipos de usuarios. En este punto, sugiero que se ramifique dependiendo de sus objetivos.
  3. Trabajar en problemas. Hay muchas opciones aquí y esto puede variar dependiendo de lo que quieras hacer. Hay muchos conjuntos de datos como la actividad de la red, los registros del sistema e incluso el comportamiento del consumidor (Movielens).

Los elementos clave de este enfoque es aprender bien el fondo y obtener una amplia apreciación de las herramientas del ecosistema central. Aprender el lado operativo te da una vista “debajo del capó”. Este enfoque es adecuado para aquellos que son más administradores de sistemas -inclinados.

El término Big Data se usa a menudo para denotar un sistema de almacenamiento donde se pueden almacenar diferentes tipos de datos en diferentes formatos para el análisis y para impulsar las decisiones comerciales.

Big Data es un surtido de cursos de datos tan grandes y complejos de Big Data en Intellipaat que se vuelve muy tedioso para capturarlos, almacenarlos, procesarlos, recuperarlos y analizarlos con la ayuda de las bases de datos RDBMS tradicionales o las técnicas tradicionales de procesamiento de datos.

Según IBM, hay tres características principales de Big Data:

1.

Volumen: Facebook genera más de 500 terabytes de datos por día solo como ejemplo. El volumen de datos está creciendo a un ritmo sin precedentes todos los días.

2.

Velocidad: por ejemplo, una organización puede necesitar analizar 2 millones de registros cada día para identificar el motivo de las pérdidas. Compañías como Facebook y Google analizan un conjunto de datos mucho más grande cada día para sus necesidades de procesamiento de datos.

3.

Variedad: imágenes, audio, video, datos de sensores, archivos de registro, etc.

Hadoop es un marco que permite el procesamiento distribuido de grandes conjuntos de datos en grupos de computadoras de productos básicos utilizando un modelo de programación simple.

Los datos no estructurados, como los archivos de registro, los feeds de Twitter, los archivos multimedia y los datos de Internet en general son cada vez más relevantes para las empresas. Todos los días una gran cantidad de datos no estructurados se vuelca en nuestras máquinas. El mayor desafío no es almacenar grandes conjuntos de datos en nuestros sistemas, sino recuperar y analizar este tipo de big data en las organizaciones.

Hadoop es un marco que tiene la capacidad de almacenar y analizar datos presentes en diferentes máquinas en diferentes ubicaciones de manera muy rápida y rentable. Utiliza el concepto de Reducción de mapa que le permite dividir la consulta en partes pequeñas y procesarlas en paralelo.

Debido a su poder de procesamiento distribuido, Hadoop puede manejar grandes volúmenes de datos estructurados y no estructurados de manera más eficiente que el almacén de datos empresarial tradicional. Hadoop es de código abierto y, por lo tanto, puede ejecutarse en hardware básico. Eso significa que los ahorros de costos iniciales son dramáticos con Hadoop, mientras que pueden continuar creciendo a medida que crecen los datos de su organización.

Aquí hay algunas características clave de Hadoop:

Uno de los mayores desafíos que han tenido las organizaciones en ese pasado fue el desafío de manejar datos no estructurados. Seamos realistas, solo el 20% de los datos en una organización está estructurado, mientras que el resto no está estructurado, cuyo valor se ha ignorado en gran medida debido a la falta de tecnología para analizarlo.

Hadoop administra los datos ya sea estructurados o no estructurados, codificados o formateados, o cualquier otro tipo de datos. Hadoop trae el valor a la tabla donde los datos no estructurados pueden ser útiles en el proceso de toma de decisiones.

El Sistema de archivos distribuidos de Hadoop (HDFS) es un sistema de archivos que proporciona almacenamiento y acceso de datos confiables a todos los nodos de un clúster de Hadoop. Vincula los sistemas de archivos en muchos nodos locales para crear un solo sistema de archivos.

Los datos en un clúster de Hadoop se dividen en partes más pequeñas (denominadas bloques) y se distribuyen a través de varios nodos en el clúster. De esta manera, las funciones de mapa y reducción pueden ejecutarse en subconjuntos más pequeños de sus conjuntos de datos más grandes, y esto proporciona la escalabilidad que se necesita para el procesamiento de big data. Esta potente característica es posible gracias al HDFS de Hadoop.

Map Reduce es un marco de programación de Hadoop adecuado para escribir aplicaciones que procesan grandes cantidades de datos estructurados y no estructurados en paralelo en un grupo de miles de máquinas, de manera confiable y tolerante a fallos.

Mapa Reducir es el corazón de Hadoop. Es este paradigma de programación el que permite una escalabilidad masiva en cientos o miles de servidores en un clúster de Hadoop. El concepto Map Reduce es bastante simple de entender para aquellos que están familiarizados con las soluciones de procesamiento de datos de escalamiento en clúster.

YARN es una tecnología de gestión de cluster. Es una de las características clave de la segunda generación de Hadoop.

Es la siguiente generación de Map Reduce, que asigna CPU, memoria y almacenamiento a las aplicaciones que se ejecutan en un clúster de Hadoop. Permite que otros marcos de aplicación distintos de Map Reduce se ejecuten en Hadoop, lo que abre una gran cantidad de posibilidades.

Como parte del proyecto central de Hadoop, YARN es el centro arquitectónico de Hadoop que permite múltiples motores de procesamiento de datos, como SQL interactivo, transmisión en tiempo real, ciencia de datos y procesamiento por lotes para manejar los datos almacenados en una sola plataforma.

Big Data va a dominar la próxima década en el mundo del procesamiento de datos y el ecosistema de Hadoop, con todos los proyectos de acceso a datos a su alrededor, será el centro de todo. Todas las herramientas de integración de datos tradicionales ahora vienen con Hadoop y Big Data para cumplir con el siguiente nivel de desafíos de procesamiento de datos.

Espero que esta publicación le agregue valor y aumente su repositorio de conocimientos sobre el ecosistema de Hadoop y sus componentes. Discutiremos más detalladamente sobre cada uno de los componentes de Hadoop y los proyectos de acceso a datos en futuras publicaciones donde profundizaremos en ellos.

Para comenzar a aprender Hadoop, podemos ir a cualquier capacitación en el aula o virtual que es proporcionada por muchas instituciones. Pero el problema aquí es que no todos tendrán tiempo libre todos los días para asistir a la capacitación en el aula en las instituciones o para asistir a las sesiones virtuales en cualquier momento en particular.

Pero si no podemos asignar un tiempo particular diariamente, entonces la mejor manera es ir a la auto capacitación en línea siguiendo los tutoriales disponibles en varios sitios web y practicándonos siguiendo las pautas y los ejemplos que se proporcionan.

Entonces, si hemos comprado estos tutoriales en línea, también podemos obtener ayuda en línea cada vez que tengamos algunas dudas o aclaraciones necesarias, podemos establecer una base de contacto con esos sitios web y obtener opiniones de expertos sobre sus problemas.

Aprendiendo Hadoop:

Para aprender Hadoop, se requieren conocimientos básicos y conocimientos sobre Java y conceptos orientados a objetos. También puede requerir algún conocimiento sobre los comandos básicos con Database y Unix.

Para aprender Hadoop desde cero, debe esforzarse adecuadamente e invertir su tiempo sabiamente en la preparación para el examen de certificación.

Actualmente, Hadoop tiene una tendencia en el mercado y hay mucha demanda para los profesionales de Hadoop, ya que hay muchas vacantes para los puestos clave, pero las compañías no están consiguiendo a las personas con las habilidades y conocimientos necesarios.

Así que están listos para pagar cuánto exige el candidato si la persona seleccionada demuestra que es digna y que responde a las exigencias de este requisito de trabajo.

De hecho, el alcance de la certificación Hadoop es mayor y actualmente solo hay un número menor de candidatos elegibles para el proceso de entrevista. Se prevé que habrá una gran escasez de profesionales de Hadoop en comparación con la demanda para el año 2020.

Por lo tanto, algunas de las compañías están listas para ocuparse incluso de algunas nuevas empresas certificadas por Hadoop si no pudieron encontrar personas con experiencia adecuadas para el trabajo.

La mayoría de las aperturas serían para el papel de los científicos de datos o analistas de datos. Deben poder procesar una gran cantidad de datos en un corto período de tiempo y realizar las técnicas de manipulación de datos requeridas para comprender las tendencias de los datos y realizar el análisis de pronóstico y la predicción sobre cómo se proyectarán y realizarán los datos en un futuro próximo.

Por lo tanto, es un trabajo muy desafiante y, por lo tanto, obtener un poco de conocimiento teórico no servirá y debemos practicar por nuestra cuenta para obtener el conocimiento práctico requerido, que es una necesidad aquí.

Más información sobre el examen de certificación Hadoop

Aquí le proporciono parte de la información útil para aprender el examen de certificación Hadoop.

  • Certificación HDPCA en Hortonworks
  • Certificación de Administrador Certificado HDP (HDPCA)
  • ¿Qué es Apache Hadoop?
  • ¿Cuáles son los requisitos previos para aprender Hadoop y big data?

¡¡Espero que esto ayude!!

Si está buscando ayuda para prepararse para los exámenes de certificación de Hadoop, envíeme un mensaje.

Debido al fuerte impulso de Hadoop, tiene muchos recursos a su alcance. A continuación, daré solo los que vienen directamente a mi mente. Estoy seguro de que una sesión con su motor de búsqueda favorito le dará resultados inmediatos y numerosos. Aquí están algunos de los recursos, los consulto a lo largo de mi viaje …

  1. Consulte la Wiki de Apache sobre temas como Hadoop, HDFS, Map Reduce, Hive, Pig, Scoop, HBase. Ver ¡Bienvenido a Apache ™ Hadoop®!
  2. Pregunte a Quoran cerca del latido del corazón de Hadoop, como Arun C Murthy, Eric Sammer o Quora User.
  3. Consulte las preguntas y temas existentes de Quora, tales como
    ¿Qué es Hadoop? ¿Para qué no es bueno Hadoop?, Apache Hive, Hadoop Distributed File System, Apache Pig, MapReduce, etc.
  4. Si te gusta leer libros, ve por
    Hadoop: la guía definitiva
    HBase: la guía definitiva
    Programación de la colmena
  5. Si te gusta sentarte y ver videos de web, ve a
    Biblioteca de recursos de Cloudera
    Recursos | Hortonworks
    Servicios de HDInsight para Windows (en-US)
  6. Si te gusta un enfoque de currículo en línea, ve por
    Big Data University de IBM – Aprenda Hadoop y Big Data con cursos gratuitos en línea
    Coursera – tiene toneladas de cursos sobre Big Data, R y análisis
  7. Si te gusta salir y conocer gente en el camino, considera ir a una Conferencia de Strata o Hadoop, o un Grupo Meetup, ve a
    Hacer que los datos funcionen
    Conferencia Mundial de Hadoop
  8. Busca otras comunidades, ve por
    LinkedIn: la red profesional más grande del mundo
    AnalyticBridge – Red social para profesionales analíticos

En última instancia, nada es mejor que una experiencia práctica. Entonces, sea cual sea el sistema operativo que ejecute, haga que Hadoop se ejecute en su máquina, pasando de un solo nodo, a un pseudo-distribuido a una instalación distribuida (tal vez dentro de una VM, o en un entorno de cómputo elástico bajo demanda). Cargue datos en HDFS, ejecute consultas de Pig sobre sus datos y juegue con Hive. Quizás consideres unirte a las respectivas listas de correo de Apache.

Por último, siempre intente entender qué es una herramienta (en este caso, el conjunto de sistemas de Hadoop) para qué sirve y qué no, y no intente forzar cada problema en un “problema de Hadoop”.

  1. Investigación : siempre recomendaría investigar en línea antes de comenzar a aprender algo. Solo revise algunos de los recursos gratuitos disponibles en línea en Big Data y Hadoop y podrá comprender qué es Big Data y Hadoop. Aquí hay algunos recursos que pueden ser útiles para usted:
      • 5 razones para aprender Hadoop
      • 10 razones por las que Big Data Analytics es el mejor movimiento de carrera
      • ¿Necesitas Java para aprender Hadoop?
      • ¿Por qué un ingeniero de pruebas de software debería aprender tecnologías de big data y ecosistemas de Hadoop?
      • Cambio de carrera: de Java a Big Data / Hadoop.

      2. Mida su interés : una vez que sepa qué es exactamente lo que le interesa ( después de haber aprendido su Hadoop 101 por su cuenta ), ahora puede tomar una decisión informada si realmente desea seguir una carrera en Hadoop.

      3. Aprenda de los expertos : si realmente desea aprender Hadoop, puede investigar algunos de los cursos de capacitación en línea que son muy populares en estos días. Sin embargo, una advertencia: elija una capacitación que le ofrezca un apoyo durante el período de capacitación y después de la capacitación. Esto se debe a que Hadoop es un tema en el que necesita orientación de un experto incluso después de haber aprendido algunas cosas. Uno de esos institutos de e-learning sería Edureka. Puedes ver su curso y su revisión en Quora a continuación:

      Curso de Big Data & Hadoop en línea | Certificacion edureka

      ¿Cuál es tu opinión de Edureka (empresa)?

      4. Haga un proyecto en Hadoop : este es el paso más importante para aprender y no lo omita. Hadoop es un tema muy práctico y, por lo tanto, necesita hacer un proyecto para participar en Hadoop.

      5. Prepárese para la entrevista: prepárese bien para su entrevista y descárguela para asegurar el trabajo de sus sueños. Aquí hay algunos recursos que pueden ayudarlo a resolver su entrevista de Hadoop:

          • Las 50 preguntas principales de la entrevista de Hadoop que debe preparar para 2016
          • Preguntas de la entrevista de Hadoop – PIG
          • Preguntas de la entrevista de Hadoop: configuración del clúster de Hadoop
          • Preguntas de la entrevista de Hadoop – HDFS
          • Preguntas de la entrevista de Hadoop -MapReduce

          ¡Espero que esto ayude!

          PD: trabajo para Edureka y mis puntos de vista pueden ser un poco sesgados. Sin embargo, mi publicación tiene el interés de proporcionar la mejor información posible sobre la consulta.

          La enorme cantidad de datos que se producen en varias industrias, globalmente, está teniendo un impacto masivo en “Big Data”. El aumento trascendental en los teléfonos inteligentes y otros dispositivos inteligentes (que generan datos constantemente) ha sido el contribuyente más importante de “Big Data”. Con la forma en que las cosas se mueven en términos de ventas de teléfonos inteligentes y otros dispositivos inteligentes, no parece haber una desaceleración en la producción de datos. De hecho, solo va a aumentar, lo que hace que sea más difícil almacenar y procesar los datos disponibles.

          Las áreas más prominentes de las aplicaciones de big data son telecomunicaciones, comercio minorista, atención médica, fabricación y servicios financieros. Sin embargo, la industria de servicios financieros es la pionera entre las industrias que demandan soluciones de big data. El almacenamiento y procesamiento de datos se ha convertido en el aspecto más crucial de la administración de datos para empresas de todo el mundo. Y esa ha sido la razón más importante detrás del auge de la tecnología Hadoop. Hadoop es un marco de procesamiento paralelo que facilita el procesamiento de “Big Data” (en su mayoría no estructurado).

          La demanda de Hadoop Developer aumenta constantemente debido a la gran cantidad de datos que se generan cada día. Según la última encuesta, habrá una demanda de alrededor de 200,000 desarrolladores de Hadoop en la India para 2018. En los EE. UU., Habrá una escasez de 140,000 a 200,000 desarrolladores de Hadoop para fines de 2018. Una cosa es segura de que existe una gran demanda de desarrolladores de Hadoop en el mundo, pero no hay suficientes desarrolladores de Hadoop. Esta brecha en la demanda y la oferta de Hadoop Developers presenta una maravillosa oportunidad para que los profesionales hagan una carrera en Hadoop

          Desarrollo. Las principales empresas que contratan desarrolladores de Hadoop son Amazon, e-bay, Netflix, Flurry, VMware, entre otras.

          Para los profesionales, no podría haber un mejor momento para capacitarse en Desarrollo de Hadoop. Collabera TACT ofrece la mejor capacitación en desarrollo de Hadoop para profesionales y profesionales. La mejor infraestructura de Collabera TACT, instructores expertos en la industria y el certificado reconocido en la industria hacen del curso de capacitación de Hadoop Development uno de los más buscados para los aspirantes a profesionales de Hadoop.

          Los cursos ‘ Big Data y Hadoop ‘ abren la puerta a una de las profesiones más interesantes del mundo: la de un “científico de datos” o “analista de datos”. Si nos preguntamos cómo deberíamos aprender a aprender “Hadoop”, no busque más, ya que presentamos algunos consejos a continuación:

          1. Comience mirando libros en el sitio de compras en línea en la India: compre en línea móviles, libros, relojes, zapatos y más o el sitio de compras en línea para móviles, moda, libros, electrónica, electrodomésticos y más. Sería prudente comenzar con los libros ‘Hadoop’ que son para principiantes. Para elegir el libro correcto, sería bueno leer los comentarios sobre el libro. Además, las buenas recomendaciones de boca en boca para un buen libro para principiantes también serían ideales.

          2. El siguiente paso sería mirar cursos gratuitos en Internet. Con ‘MOOC’ o ‘Cursos en línea abiertos masivos’ cada vez más populares y la posibilidad de estudiar en Harvard o MIT como una realidad, es bueno mirar los cursos gratuitos de la lista de MOOC.

          Lista MOOC

          Los cursos de Big Data con Hadoop se pueden elegir de Digital Vidya

          3. Además, a los puntos anteriores, también se puede aprender ‘Hadoop’ al inscribirse en un instituto de renombre. Los institutos de capacitación podrían ofrecer la mejor opción para aprender una nueva habilidad como ‘Hadoop’. Tienen buenos expertos en la industria que tienen años de experiencia en el tema. También tendrán mejores conocimientos sobre el tema, ya que habrían tratado con una serie de proyectos del mundo real en el área.

          Además, al finalizar el curso, también brindan asistencia de colocación al final del curso, lo que será una gran ayuda para los recién graduados.

          4. Si uno está inscrito en un colegio o universidad, también podría haber una opción para elegir un curso ‘Hadoop’ de su plan de estudios. Esto podría no ser del todo posible si se encuentra en la India, pero podría ser posible si está cursando estudios universitarios en el extranjero.

          ¡Esperamos que estas sugerencias te ayuden a comenzar con Hadoop!

          En primer lugar, diré que tomó una muy buena decisión de que desea comenzar a aprender Hadoop. Según la última tendencia, Big Data Hadoop es la mejor habilidad y existe una gran demanda de buenos profesionales de Big Data Hadoop. Si realmente trabajas duro, entonces puedes comenzar tu carrera en Hadoop fácilmente y puedes obtener suficiente paga.

          Puedes aprender Hadoop fácilmente. Para aprender Hadoop, primero entienda por qué empezamos a usar Hadoop, cómo entró Hadoop en la imagen, qué es Big Data, por qué deberíamos aprender Big Data, etc. Si desea aprender Hadoop en detalle, simplemente siga estos pasos.

          Siempre comienza con los datos y cifras para que puedas obtener más interés en aprender Big Data.

          Hechos y cifras

          • El 91% de los líderes pertenece al marketing. Las marcas exitosas utilizan los datos de los clientes para impulsar las decisiones comerciales.
          • El porcentaje global del total de datos mundiales que se ha creado solo en los últimos dos años es del 90%.
          • El 87% de las empresas está de acuerdo en capturar y compartir la información correcta es importante para medir efectivamente el ROI en su propia empresa.
          • 500 millones de llamadas analizadas diariamente por IBM para predecir las pérdidas de clientes. 350 mil millones de lecturas de medidores anuales convertidas por IBM a través de Big Data para predecir mejor el consumo de energía. En Facebook, los usuarios comparten 30 mil millones de contenido cada mes.

          Para más detalles haga clic en el enlace: Datos y cifras de Big Data.

          Después de leer los hechos y las cifras, espero que te interese saber más sobre Big Data.

          • Big Data

          Big Data es un conjunto de datos extremadamente grande. Los grandes volúmenes de datos son activos de información de gran variedad , velocidad rápida y variedad , que exigen una plataforma innovadora para una mejor comprensión y toma de decisiones.

          Big Data es una forma de resolver todos los problemas no resueltos relacionados con la administración y el manejo de datos, una industria anterior solía vivir con estos problemas. Con el análisis de Big Data, puede desbloquear patrones ocultos y conocer la visión de 360 ​​grados de los clientes y comprender mejor sus necesidades.

          Consulte el siguiente enlace para conocer los conceptos detallados de Big Data: guía completa de Big Data

          También puede ver el video a continuación para una introducción a Big Data:

          Ahora muévete hacia Hadoop.

          • ¿Qué es Apache Hadoop?

          Hadoop es una herramienta de código abierto de ASF – Apache Software Foundation. El proyecto de código abierto significa que está disponible de forma gratuita e incluso su código fuente se puede cambiar según los requisitos. Si cierta funcionalidad no cumple con su requisito, puede cambiarla de acuerdo con su necesidad. La mayoría del código de Hadoop está escrito por Yahoo, IBM, Facebook, cloudera.it proporciona un marco eficiente para ejecutar trabajos en múltiples nodos de clústeres. Cluster significa un grupo de sistemas conectados a través de LAN.

          Hadoop proporciona procesamiento paralelo de datos, ya que funciona en varias máquinas simultáneamente.

          Para más detalles consulte el siguiente enlace: guía completa de Hadoop

          También puede consultar el video a continuación para una introducción a Hadoop:

          Ahora, después de la introducción, parte hacia la arquitectura y sus componentes del ecosistema.

          En Hadoop Ecosystem aprende HDFS, MapReduce, Yarn y HDFS componenst, Pig, Hive, Hbase, etc.

          • HDFS

          Introducción a Hadoop HDFS

          El sistema de archivos distribuido Hadoop-HDFS es el sistema de almacenamiento más confiable del mundo. HDFS almacena archivos muy grandes que se ejecutan en un clúster de hardware básico. Funciona según el principio de almacenamiento de un número menor de archivos grandes en lugar del gran número de archivos pequeños. HDFS almacena datos de manera confiable incluso en el caso de una falla de hardware. Proporciona un alto rendimiento al proporcionar el acceso a los datos en paralelo.

          Para más detalles: Introducción a HDFS

          • Arquitectura HDFS

          Hadoop HDFS tiene una arquitectura Maestro / Esclavo en la que el Maestro es NameNode y el Esclavo es DataNode . La arquitectura HDFS consta de un único NameNode y todos los demás nodos son DataNodes.

          Para más detalles: arquitectura HDFS

          Consulte los enlaces a continuación para obtener un conocimiento completo de HDFS

          HDFS – Características HDFS –

          Operaciones de lectura-escritura

          HDFS – Comandos Parte 1

          HDFS – Comandos Parte 2

          HDFS – Comandos Parte 3

          HDFS – Comandos Parte-4

          HDFS – Bloques de datos

          HDFS – Concientización sobre bastidores

          HDFS – Alta disponibilidad

          HDFS – NameNode High

          DisponibilidadHDFS – Federación

          Después de que HDFS avance hacia la parte más compleja de Hadoop, es decir, MapReduce

          • Mapa reducido

          MapReduce es la capa de procesamiento de Hadoop . MapReduce es un modelo de programación diseñado para procesar grandes volúmenes de datos en paralelo al dividir el trabajo en un conjunto de tareas independientes. Solo necesita poner la lógica de negocios en la forma en que MapReduce funciona y el resto se encargará de la estructura. El trabajo (trabajo completo) que el usuario envía al maestro se divide en pequeños trabajos (tareas) y se asigna a los esclavos.

          Obtenga más información sobre MapReduce: Guía completa de MapReduce

          MapReduce es la parte más compleja de Hadoop. Mediante el enlace anterior, puede aprender MapReduce. Si desea comenzar su carrera como desarrollador de Hadoop, entonces céntrese principalmente en MapReduce, ya que contiene la parte de programación. Ahora después de MapReduce, aprende Yarn. El hilo es un tema fácil y pequeño de Hadoop.

          • HILO

          YARN proporciona la gestión de recursos. YARN se denomina como el sistema operativo de hadoop ya que es responsable de administrar y monitorear las cargas de trabajo. Permite que varios motores de procesamiento de datos, como la transmisión en tiempo real y el procesamiento por lotes, manejen los datos almacenados en una sola plataforma.

          YARN se ha proyectado como un sistema operativo de datos para Hadoop2. Las principales características de YARN son:

          • Flexibilidad: habilita otros modelos de procesamiento de datos especialmente diseñados más allá de MapReduce (por lotes), como el interactivo y el streaming. Debido a esta característica de YARN, otras aplicaciones también se pueden ejecutar junto con los programas Map Reduce en hadoop2.

          Para más detalles: Guía completa de hilo.

          Después de aprender Hadoop. Adelante con las preguntas de la entrevista.

          Top preguntas de la entrevista para Hadoop

          Espero que esto te ayude a aprender Hadoop.

          Puedo proporcionarte el camino para aprender Hadoop que te ayudará a aprender Hadoop

          • Para aprender Hadoop es imprescindible tener conocimientos básicos de Linux y principios de programación de Java.

          Hadoop es un software de código abierto creado en Java, por lo que es necesario que cada Hadooper esté bien informado con al menos los elementos esenciales de Java para Hadoop.

          • Después de aprender Java, aprenda lo básico de Big Data.

          Puede consultar los siguientes enlaces para aprender Big Data y Hadoop:

          Por qué debería aprender Big Data – Introducción a Big Data – DataFlair

          Tutorial de Hadoop – Guía de introducción de Hadoop – DataFlair

          • Una vez que haya terminado con la introducción, aprenda 2 componentes clave de Hadoop
          1. HDFS
          2. Mapa reducido

          Después de aprenderlo, necesita aprender más sobre Hadoop y sus componentes del ecosistema.

          Componentes del ecosistema de Hadoop y su función – DataFlair

          Siguiendo estos pasos puedes aprender fácilmente Hadoop.

          ¡Buena suerte!

          1. Siga la guía definitiva de Hadoop de Tom White.
          2. MapReduce es el núcleo de Hadoop. Por lo tanto, el enfoque debe estar en MapReduce.
          3. Tener experiencia / Conocimiento de Java y Base de datos será la columna vertebral para un aprendizaje rápido.
          4. Los conceptos de HDFS, Arquitectura Hadoop, bloques de datos de Hadoop deben aclararse antes de ir a MapReduce.
          5. MapReduce no es solo un ejemplo de WordCount, que se enseña en las clases de capacitación. Necesidad de hacer casos de uso complejos en clasificación secundaria, combinador, partición, comparador de agrupación.
          6. Muchos videos en línea están disponibles en Youtube para la arquitectura hadoop. Siguelos.
          7. Para prácticas: instale VMware® Workstation 12 Pro, descargue la imagen de Ubuntu y ábrala con VMware.
          8. Por último, si no tiene restricciones de dinero y tiene fines de semana disponibles durante 2 meses, vaya a una clase de capacitación (recomendaré clases orientadas, no en línea). Te ayudará a hacer las cosas con más precisión.

          Como principiante de Hadoop, si obtiene Linux y Java, acelerará su aprendizaje y comprensión en Hadoop.

          ¿Por qué Java?

          Como hadoop está escrito en Java, generalmente está optimizado para ejecutar las tareas de MapReduce que también están escritas en Java. Si su Java está bien, debería pasar algunas horas con su Java antes de comenzar a buscar en Hadoop. Es posible que desee revisar los conceptos de java como Interfaces, Objetos abstractos, Métodos estáticos, Variables, etc.

          ¿Por qué Linux?

          Aunque Hadoop también puede ejecutarse en Windows, pero fue construido inicialmente en Linux. LINUX es la plataforma recomendada y más preferida para instalar y administrar Hadoop. Tener una buena comprensión del shell de Linux también lo ayudará a comprender Hadoop, especialmente en lo que respecta a muchas de las líneas de comando de HDFS.

          Y cuando finalmente comience a aprender hadoop, recuerde que debe tener una nota clara sobre la arquitectura de Hadoop, ya que es la base que lo ayudará en todo el proceso.

          Bueno, puede optar por estudiar sobre Big Data Hadoop a través de artículos en línea, libros o bien conocidos tutores en línea.

          Personalmente recomiendo optar por Digital Vidya, ya que cuenta con profesionales que podrían ayudarlo a comprender los conceptos basados ​​en escenarios de la vida real con sus asignaciones y buenos conjuntos de datos. Más tarde, tendrá la confianza suficiente para realizar un análisis en Twitter o en los datos de YouTube. ¿Suena emocionante verdad? La mejor de las suertes.

          Espero que esto ayude.

          Es interesante saber que quieres aprender Hadoop. Trataré de ayudarte con respecto a

          ¡Bien! Puedes empezar a aprender, con tutoriales en línea.

          Para un mejor aprendizaje comienza con los fundamentos:

          Comience con, Introducción a Hadoop:

          Tutorial de Hadoop – Guía de Apache Hadoop completa para principiantes

          Después de eso puedes ir por las características, para aprender mejor.

          Características y principios de diseño de Hadoop

          Además, vaya por el ecosistema, para aprender.

          Los componentes del ecosistema de Hadoop y su papel

          Ahora también puedes aprender a instalarlo:

          Instale Hadoop 2.x en Ubuntu – Hadoop Multi Node Cluster Setup

          Instalación de Hadoop 3.x en Ubuntu en cluster de un solo nodo

          Para obtener más información sobre Hadoop, visite los siguientes enlaces:

          Top 50+ preguntas y respuestas de la entrevista HDFS

          Top 60 MapReduce preguntas y respuestas de la entrevista

          50 preguntas y respuestas de la entrevista de MapReduce

          Para aprender Hadoop, es necesario comprender por qué se creó Hadoop en primer lugar. El marco de trabajo de Hadoop se creó para resolver problemas de Big Data.

          Apache Hadoop: es un marco de Big Data que utiliza HDFS (Hadoop Distributed File System) para almacenar los datos y el marco de MapReduce para procesar esos datos. Java se usa como idioma nativo para escribir programas de MapReduce.

          Después de esto comienza a buscar Big Data y herramientas para resolverlos.

          Lea el artículo para más detalles sobre Big Data:

          ¿Qué es Big Data?

          Comienza con el sitio web oficial de Apache Hadoop.

          ¡Bienvenido a Apache ™ Hadoop®!

          MapReduce Tutorial

          Luego lea estos blogs para obtener más información sobre MapReduce.

          Conceptos básicos del mapa Reducir el algoritmo explicado con un ejemplo simple

          Cómo escribir un programa MapReduce

          http://www.myhadoopguru.com/intr

          Luego lea la guía definitiva de Hadoop

          Hadoop: la guía definitiva

          Después de eso, puedes leer sobre los patrones de diseño de MapReduce en las siguientes fuentes.

          http://barbie.uta.edu/~jli/Resou

          MapReduce patrones, algoritmos y casos de uso

          Si le gustan los tutoriales en video, puede ver el Mapa reducir videos relacionados o inscribirse en cursos.

          Hadoop Eco System – Tutoriales en línea de Hadoop
          Big Data University | Cursos de ciencia de datos

          Academia MapR
          Página en udacity.com
          itversidad
          Para tecnologías relacionadas con Nosql como Cassandra.
          Tutoriales y Entrenamiento Gratis de Cassandra

          Si desea aprender Hadoop y desea sumergirse profundamente en el uso en el mundo real de Hadoop y las API y herramientas relacionadas, puede inscribirse en este curso de capacitación para desarrolladores de Hadoop

          Está en Experfy, con sede en Harvard I Lab, una compañía que se enfoca en consultoría y capacitación de big data.

          El curso está a cargo de un instructor con 21 años de experiencia práctica con arquitecturas que van desde sistemas integrados hasta supercomputadoras y proporciona liderazgo técnico a líderes del mercado como CSC, General Dynamics, AAA, Daimler-Benz y Hearst.

          Le ayudaría a dominar todos los detalles relevantes de las API de Hadoop y completar tareas rigurosas y desafiantes en el contexto de un estudio de caso de agregador de datos.

          Si recién está comenzando, también hay un curso de Big Data Analyst que, si está buscando la experiencia práctica con Hadoop, Pig y Hive.

          Jeff ha proporcionado la respuesta fácil, felicitaciones a Cloudera por intensificarse y hacer que Hadoop sea accesible.

          En mi mente, realmente hay dos cosas separadas para comenzar con Hadoop, y personalmente las hice en el orden incorrecto: (i) aprender a escribir programas de Hadoop MapReduce y (ii) aprender a configurar y ejecutar un grupo de Hadoop y haga que los programas se ejecuten en ellos (no necesariamente su propio código, hay muchos programas de ejemplo que vienen con Hadoop).

          Si ya tiene una configuración de clúster disponible para usted, puede seguir adelante y hacer (i) y debería hacerlo bien. Pero hacer (ii) también le brinda la ventaja de conocer todas las peculiaridades de Hadoop, que pueden ser muchas.

          Para aprender a escribir un programa Hadoop, piense de manera abstracta en función de lo que hacen sus funciones de Mapa y Reducción, y cuáles son los tipos de datos de las entradas y salidas de los Mapas y Reducciones. Un buen punto de partida sería mirar los documentos de la API de Hadoop y los de InputFormat y de OutputFormat. Los más comunes son SequenceFileInputFormat y SequenceFileOutputFormat, que básicamente le permite ajustar otros tipos y tener entradas de archivos de texto sin formato.

          Para comenzar con los aspectos técnicos de escribir el programa real, puede descargar el código fuente de Hadoop y mirar los programas de ejemplo, como WordCount, para ver cómo se configuran la entrada y la salida del archivo. Luego, si tiene un clúster de Hadoop, use la herramienta HDFS de la línea de comandos para cargar la entrada en HDFS y configure sus InputPaths y OutputPaths según corresponda.

          Y finalmente, compile sus clases compiladas como un archivo Jar y use la herramienta de línea de comandos Hadoop para ejecutar el archivo Jar, O, también puede usar directamente java para ejecutar la clase y si los archivos de configuración se especifican correctamente, el trabajo Se enviará al nodo maestro.