Es realmente bueno que quieras aprender Hadoop. Espero, que sean conscientes de la demanda de Hadoop. Es un buen momento para comenzar su carrera en Hadoop Big Data porque las empresas están contratando a candidatos de Big Data Hadoop y están listas para pagar lo suficiente según la demanda de los candidatos.
Big Data Hadoop es la tecnología mejor pagada. Soy un desarrollador de Hadoop y mi salario es 18LPA.
Hoy todos están aprendiendo Hadoop Big Data, así que si quieres comenzar tu carrera en Hadoop tienes que trabajar duro e inteligentemente para poder diferenciarte de los demás.
Debería describir la forma en que empecé. Entonces, aprendamos Hadoop de una manera correcta. Siempre comienza con lo básico como siempre lo menciono en mi publicación. Comience con preguntas básicas como qué es Big Data, por qué debemos aprender Big Data, cómo Big Data entró en escena, cómo Hadoop proporcionó la solución, etc.
- Me gustaría aprender a crear una base de datos simple para un sitio web. Y usa los datos para crear una gráfica. ¿Cual es la mejor manera de hacerlo?
- Soy una mujer india de 24 años. ¿Cómo puedo cultivar el hábito de la curiosidad y aprender cosas nuevas?
- Puedo convertirme en un maestro chino en América; ¿Cuáles son las cosas más importantes que mi clase debe aprender?
- No encuentro la idea de divertirse de fiesta; En cambio, me gusta quedarme en casa con mi laptop y aprender algo nuevo. Salgo a manejar y todo, pero no me gusta beber y fumar. ¿Me estoy perdiendo la vida? ¿Soy raro?
- Deseo escribir contenido bueno e innovador. ¿De dónde puedo aprender?
- ¿Por qué deberíamos aprender Big Data?
Estamos generando datos en gran cantidad y el 80% de los datos no está estructurado. Por lo tanto, no podemos almacenar de manera eficiente esta enorme cantidad de datos por el método tradicional.
Big Data es una forma de resolver todos los problemas no resueltos relacionados con la administración y el manejo de datos, una industria anterior solía vivir con estos problemas. Con el análisis de Big Data, puede desbloquear patrones ocultos y conocer la visión de 360 grados de los clientes y comprender mejor sus necesidades.
Ahora, vamos a empezar Apache Hadoop.
- Hadoop?
Apache Hadoop es una plataforma de software de código abierto de Apache Software Foundation (ASF) para el almacenamiento distribuido y el procesamiento distribuido de conjuntos de datos muy grandes en clusters de computadoras construidos a partir de hardware básico.
Código abierto significa que cualquiera puede cambiar su código según los requisitos.
Tolearn más enlaces de referencia:
Hadoop y su historia
Hadoop completa introducción
También puede consultar conjuntos de blogs y videos gratuitos disponibles en Internet, pero intente elegir el correcto.
A continuación, vaya hacia MapReduce y HDFS
- ¿Qué es HDFS?
HDFS es el sistema de almacenamiento más confiable del mundo. HDFS es un sistema de archivos de Hadoop diseñado para almacenar archivos muy grandes que se ejecutan en un clúster de hardware básico. HDFS está diseñado en principio de almacenamiento de menos cantidad de archivos grandes en lugar de la enorme cantidad de archivos pequeños.
HDFS tiene dos capas principales:
- Namespace gestiona directorios, archivos y bloques. Es compatible con las operaciones del sistema de archivos, como la creación, modificación, eliminación y listado de archivos y directorios.
- Block Storage tiene dos partes: Block Management mantiene la membresía de los datanodes en el clúster. Admite operaciones relacionadas con bloques, como la creación, eliminación, modificación y obtención de la ubicación de los bloques. También se encarga de la réplica de colocación y replicación. Almacenamiento físico almacena los bloques y proporciona acceso de lectura / escritura a los mismos.
Para más detalles:
Federación HDFS Guía completa de HDFS Puede consultar el siguiente GIF para el ciclo de lectura y escritura de HDFS: Ahora avancemos hacia MapReduce. MapReduce MapReduce es la capa de procesamiento de Hadoop. MapReduce es un modelo de programación diseñado para procesar grandes volúmenes de datos en paralelo al dividir el trabajo en un conjunto de tareas independientes
Para más detalles refiérase a los siguientes enlaces:
MapReduce por hortonworks
Una vez que aprenda la teoría, entonces podrá comprender fácilmente la parte avanzada. Para aprender Hadoop, el punto clave es que fortalezca su HDFS y mapReduce después de eso, aprenda PIG, HIVE, Hbase.
Acabo de darles una breve introducción. Entonces, comience a aprender. Lo último, pero no menos importante, no se olvide de preparar las preguntas de la entrevista.