Soy un principiante y quiero aprender hadoop. ¿Cómo debo empezar?

Es realmente bueno que quieras aprender Hadoop. Espero, que sean conscientes de la demanda de Hadoop. Es un buen momento para comenzar su carrera en Hadoop Big Data porque las empresas están contratando a candidatos de Big Data Hadoop y están listas para pagar lo suficiente según la demanda de los candidatos.

Big Data Hadoop es la tecnología mejor pagada. Soy un desarrollador de Hadoop y mi salario es 18LPA.

Hoy todos están aprendiendo Hadoop Big Data, así que si quieres comenzar tu carrera en Hadoop tienes que trabajar duro e inteligentemente para poder diferenciarte de los demás.

Debería describir la forma en que empecé. Entonces, aprendamos Hadoop de una manera correcta. Siempre comienza con lo básico como siempre lo menciono en mi publicación. Comience con preguntas básicas como qué es Big Data, por qué debemos aprender Big Data, cómo Big Data entró en escena, cómo Hadoop proporcionó la solución, etc.

  • ¿Por qué deberíamos aprender Big Data?

Estamos generando datos en gran cantidad y el 80% de los datos no está estructurado. Por lo tanto, no podemos almacenar de manera eficiente esta enorme cantidad de datos por el método tradicional.

Big Data es una forma de resolver todos los problemas no resueltos relacionados con la administración y el manejo de datos, una industria anterior solía vivir con estos problemas. Con el análisis de Big Data, puede desbloquear patrones ocultos y conocer la visión de 360 ​​grados de los clientes y comprender mejor sus necesidades.

Ahora, vamos a empezar Apache Hadoop.

  • Hadoop?

Apache Hadoop es una plataforma de software de código abierto de Apache Software Foundation (ASF) para el almacenamiento distribuido y el procesamiento distribuido de conjuntos de datos muy grandes en clusters de computadoras construidos a partir de hardware básico.

Código abierto significa que cualquiera puede cambiar su código según los requisitos.

Tolearn más enlaces de referencia:

Hadoop y su historia

Hadoop completa introducción

También puede consultar conjuntos de blogs y videos gratuitos disponibles en Internet, pero intente elegir el correcto.

A continuación, vaya hacia MapReduce y HDFS

  • ¿Qué es HDFS?

HDFS es el sistema de almacenamiento más confiable del mundo. HDFS es un sistema de archivos de Hadoop diseñado para almacenar archivos muy grandes que se ejecutan en un clúster de hardware básico. HDFS está diseñado en principio de almacenamiento de menos cantidad de archivos grandes en lugar de la enorme cantidad de archivos pequeños.

HDFS tiene dos capas principales:

  • Namespace gestiona directorios, archivos y bloques. Es compatible con las operaciones del sistema de archivos, como la creación, modificación, eliminación y listado de archivos y directorios.
  • Block Storage tiene dos partes: Block Management mantiene la membresía de los datanodes en el clúster. Admite operaciones relacionadas con bloques, como la creación, eliminación, modificación y obtención de la ubicación de los bloques. También se encarga de la réplica de colocación y replicación. Almacenamiento físico almacena los bloques y proporciona acceso de lectura / escritura a los mismos.

Para más detalles:

Federación HDFS Guía completa de HDFS Puede consultar el siguiente GIF para el ciclo de lectura y escritura de HDFS: Ahora avancemos hacia MapReduce. MapReduce MapReduce es la capa de procesamiento de Hadoop. MapReduce es un modelo de programación diseñado para procesar grandes volúmenes de datos en paralelo al dividir el trabajo en un conjunto de tareas independientes

Para más detalles refiérase a los siguientes enlaces:

MapReduce por hortonworks

Una vez que aprenda la teoría, entonces podrá comprender fácilmente la parte avanzada. Para aprender Hadoop, el punto clave es que fortalezca su HDFS y mapReduce después de eso, aprenda PIG, HIVE, Hbase.

Acabo de darles una breve introducción. Entonces, comience a aprender. Lo último, pero no menos importante, no se olvide de preparar las preguntas de la entrevista.

Puedes tomar este curso de mejor venta en Udemy-

Enlace del curso: The Ultimate Hands-On Hadoop – ¡Domine su Big Data!

Hadoop, MapReduce, HDFS, Spark, Pig, Hive, HBase, MongoDB, Cassandra, Flume – ¡la lista continúa! Más de 25 tecnologías.

El mundo de Hadoop y el “Big Data” pueden ser intimidantes: cientos de tecnologías diferentes con nombres crípticos forman el ecosistema de Hadoop. Con este curso, no solo entenderá qué son esos sistemas y cómo encajan entre sí, sino que también aprenderá cómo usarlos para resolver problemas empresariales reales.

Aprenda y domine las tecnologías de big data más populares en este curso integral, impartido por un ex ingeniero y gerente senior de Amazon y IMDb . Vaya más allá de Hadoop y sumérjase en todo tipo de sistemas distribuidos con los que deba integrarse.

  • Instale y trabaje con una instalación real de Hadoop en su escritorio con Hortonworks y la interfaz de usuario de Ambari
  • Administre big data en un cluster con HDFS y MapReduce
  • Escribir programas para analizar datos en Hadoop con Pig and Spark
  • Almacene y consulte sus datos con Sqoop , Hive , MySQL , HBase , Cassandra , MongoDB , Drill , Phoenix y Presto
  • Diseñar sistemas del mundo real utilizando el ecosistema de Hadoop.
  • Aprenda cómo se maneja su grupo con YARN , Mesos , Zookeeper , Oozie , Zeppelin y Hue
  • Maneja los datos de transmisión en tiempo real con Kafka , Flume , Spark Streaming , Flink y Storm

Comprender Hadoop es una habilidad muy valiosa para cualquier persona que trabaje en compañías con grandes cantidades de datos.

Casi todas las grandes empresas en las que desea trabajar utilizan Hadoop de alguna manera, incluidos Amazon, Ebay, Facebook, Google, LinkedIn, IBM, Spotify, Twitter y Yahoo! Y no son solo las empresas de tecnología las que necesitan a Hadoop; incluso el New York Times utiliza Hadoop para procesar imágenes.

Este curso es exhaustivo y abarca más de 25 tecnologías diferentes en más de 14 horas de conferencias en video . Está lleno de actividades y ejercicios prácticos, por lo que obtienes una experiencia real en el uso de Hadoop, no es solo teoría.

Encontrará una variedad de actividades en este curso para personas en todos los niveles. Si usted es un administrador de proyectos que solo quiere aprender las palabras de moda, existen UI web para muchas de las actividades en el curso que no requieren conocimientos de programación. Si te sientes cómodo con las líneas de comando, también te mostraremos cómo trabajar con ellas. Y si eres programador, te desafiaré con la escritura de scripts reales en un sistema Hadoop usando Scala, Pig Latin y Python .

Saldrá de este curso con una comprensión profunda y real de Hadoop y sus sistemas distribuidos asociados, y podrá aplicar Hadoop a problemas del mundo real. ¡Más un valioso certificado de finalización te espera al final!

Tenga en cuenta que el enfoque en este curso está en el desarrollo de aplicaciones, no en la administración de Hadoop. Aunque recogerás algunas habilidades de administración a lo largo del camino.

¿Quién es el público objetivo?

  • Ingenieros y programadores de software que desean comprender el ecosistema más grande de Hadoop y usarlo para almacenar, analizar y vender “big data” a escala.
  • Gestores de proyectos, programas o productos que deseen comprender la jerga y la arquitectura de alto nivel de Hadoop.
  • Los analistas de datos y los administradores de bases de datos que tienen curiosidad por Hadoop y cómo se relaciona con su trabajo.
  • Arquitectos de sistemas que necesitan comprender los componentes disponibles en el ecosistema de Hadoop y cómo encajan entre sí.

Haga clic en el enlace del curso arriba para ver los contenidos del curso.

Hadoop no es para principiantes. Debes saber Linux, algo de java y mucha programación si quieres ser un desarrollador en él. Si solo desea aprender alguna herramienta, vaya a través de las herramientas de Hortonworks y Cloudera. Es un dominio que cambia rápidamente a 0, por lo que debe actualizarse cada cierto tiempo.

Un curso simple de una buena fuente puede impulsar. Después del curso, intente obtener el trabajo lo antes posible en ese dominio, de lo contrario, se desperdiciará después de un tiempo.