Hoy en día, Big Data es la palabra de moda más grande en la industria y todos y cada uno de los individuos buscan hacer un cambio de carrera en esta tecnología emergente y de tendencia Apache Hadoop.
Puedo proporcionarte el camino que tomé para aprender Big Data Hadoop
: Para aprender Hadoop, primero, debe tener buenos comandos en lo básico. Por lo tanto, siempre comience a aprender desde cero. Comience su aprendizaje con big data y sus desafíos en profundidad, luego por qué es muy importante aprender big data para que pueda obtener interés en el aprendizaje, después de eso aprenda la introducción de Hadoop, MapReduce y HDFS, en MapReduce focus principalmente en la función de Mapeador y Reductor, luego aprenda cómo funciona Hadoop y luego conozca los componentes de su ecosistema.
Al final, no se olvide de resolver preguntas de la entrevista y cuestionarios. Las preguntas de la entrevista y los cuestionarios son las herramientas para el éxito. Te ayudará a mejorar tu conocimiento. Al resolver los cuestionarios, revisará los conceptos que ha aprendido.
Finalmente, instale Hadoop en su máquina y comience a trabajar con Hadoop para que pueda profundizar en conceptos teóricos y prácticos.
Vamos a empezar a aprender en detalle:
- ¿Por qué aprender Big Data?
Para obtener una respuesta de ¿Por qué deberías aprender Big Data? Comencemos con lo que los líderes de la industria dicen sobre Big Data:
Gartner – Big Data es el nuevo Oil.
IDC: el mercado de Big Data crecerá 7 veces más rápido que el mercado de TI en general.
IBM – Big Data no es solo una tecnología, es una estrategia empresarial para capitalizar los recursos de información.
IBM – Big Data es la palabra de moda más grande porque la tecnología hace posible analizar todos los datos disponibles.
McKinsey: Habrá una escasez de 1500000 profesionales de Big Data a finales de 2018.
Las industrias de hoy están buscando nuevas y mejores formas de mantener su posición y prepararse para el futuro. Según los expertos, el análisis de Big Data proporciona a los líderes un camino para capturar ideas e ideas para mantenerse a la vanguardia en la dura competencia.

Según Gartner:
Los grandes volúmenes de datos son activos de información de gran variedad , velocidad rápida y variedad , que exigen una plataforma innovadora para una mejor comprensión y toma de decisiones .
Una revolución, los autores lo explican como:
Big Data es una forma de resolver todos los problemas no resueltos relacionados con la administración y el manejo de datos, una industria anterior solía vivir con estos problemas. Con el análisis de Big Data, puede desbloquear patrones ocultos y conocer la visión de 360 grados de los clientes y comprender mejor sus necesidades
Puedes ver abajo el video para una introducción a Big Data:
Ahora aprendamos por qué deberías aprender Big Data:
Si está interesado en conocer Top Big Trends of Big data, consulte el siguiente enlace:
Panorama general de Big Data: las 10 principales tendencias de Big Data en 2017
También puede consultar el siguiente enlace para conocer los casos de uso de Big Data:
Casos de uso de Big Data
Después de aprender Big Data ahora vamos a Hadoop.
Entonces comience Hadoop con su introducción:

Hadoop es una herramienta de código abierto de ASF – Apache Software Foundation. Proyecto de código abierto significa que está disponible de forma gratuita e incluso podemos cambiar su código fuente según los requisitos.
Si cierta funcionalidad no satisface su necesidad, puede cambiarla de acuerdo con su necesidad. La mayoría del código de Hadoop está escrito por Yahoo, IBM, Facebook, Cloudera.
Proporciona un marco eficiente para ejecutar trabajos en múltiples nodos de clústeres. Cluster significa un grupo de sistemas conectados a través de LAN. Apache Hadoop proporciona procesamiento paralelo de datos, ya que funciona en varias máquinas simultáneamente.
Para más detalles, contesta esto.
Después de la introducción, avance hacia MapReduce y HDFS.
MapReduce es el componente central de Hadoop. Mapa-Reducir es el componente de procesamiento de datos de Hadoop. Conceptualmente, los programas Map-Reduce transforman las listas de elementos de datos de entrada en listas de elementos de datos de salida.
Un programa Map-Reduce lo hará dos veces, utilizando dos idiomas diferentes de procesamiento de listas
Entre Mapa y Reducir, hay una pequeña fase llamada Orden aleatorio y Ordenar.
Entendamos las terminologías básicas utilizadas en Map Reduce.
- Trabajo : un “programa completo”: una ejecución de un asignador y un reductor en un conjunto de datos. Es una ejecución de 2 capas de procesamiento, es decir, mapeador y reductor.
Para más detalles, conteste el siguiente enlace: inmersión profunda en MapReduce
Ahora, para saber cómo fluyen los datos en MapReduce, consulte el siguiente enlace:
Hadoop MapReduce Flow – Cómo fluyen los datos en MapReduce
Ahora aprendamos sobre el proceso MapReduce. MapReduce es un marco de software para escribir aplicaciones que procesan la gran cantidad de datos estructurados y no estructurados almacenados en el Sistema de archivos distribuidos de Hadoop (HDFS).
Dos tareas importantes realizadas por el algoritmo MapReduce son: Asignar tarea y Reducir tarea . La fase de Hadoop Map toma un conjunto de datos y los convierte en otro conjunto de datos, donde los elementos individuales se dividen en tuplas (pares clave / valor). La fase de reducción de Hadoop toma la salida del mapa como entrada y combina esas tuplas de datos basadas en la clave y, en consecuencia, modifica el valor de la clave.

Del ejemplo anterior de conteo de palabras, podemos decir que hay dos conjuntos de procesos paralelos, mapear y reducir; en el proceso del mapa, la primera entrada se divide para distribuir el trabajo entre todos los nodos del mapa como se muestra en una figura, y luego cada palabra se identifica y se asigna al número 1. Así se crean los pares llamados pares (clave-valor) pares . En el primer nodo mapeador se pasan tres palabras león, tigre y río. Sigue leyendo
Después de MapReduce seguir adelante con HDFS.
Vea el video de abajo para la introducción de HDFS:
Para obtener un conocimiento profundo de HDFS, consulte el siguiente enlace:
Arquitectura HDFS y sus características
Ahora aprendamos a leer y escribir la operación de HDFS por GIF:
Operación de escritura de datos:

Operación de lectura de datos:

Ahora, después de obtener el conocimiento completo de Hadoop, intente conocer las últimas actualizaciones:
Lea el blog que muestra la comparación de Hadoop2 y Hadoop3 porque a veces los reclutadores hacen la pregunta relacionada con las versiones y el problema asociado con la versión anterior.
Comparación entre Hadoop 2.x vs Hadoop 3.x
Después de eso resolveremos las preguntas de la entrevista.
Top 100+ preguntas de la entrevista de Hadoop
50 preguntas y respuestas de la entrevista de MapReduce
Espero que esto ayude.