Primero déjame explicarte qué es Hadoop y luego te diré dónde puedes aprenderlo.
Hadoop es un marco de código abierto, escalable y tolerante a fallos de ASF – Apache Software Foundation escrito en Java. Fuente abierta significa que está disponible de forma gratuita y su fuente también se puede cambiar según los requisitos.
Hadoop procesa Big Data, que viene en grandes volúmenes, variedad y velocidad, en un clúster de hardware básico.
Lo bueno es que, si una determinada funcionalidad no funciona o no satisface sus necesidades, puede cambiarlas de acuerdo con sus necesidades. La mayoría del código de Hadoop está escrito por Yahoo, IBM, Facebook y Cloudera.
- ¿Cuáles son las mejores maneras de aprender una nueva habilidad?
- ¿Cuál crees que es el lenguaje más fácil de aprender?
- ¿Debo seguir aprendiendo PHP cuando sé que quiero hacer análisis de datos / aprendizaje automático?
- Estoy extremadamente interesado en los vehículos eléctricos, así que, ¿dónde puedo empezar a aprender acerca de Quora?
- Cuando Charles Munger habla de aprender el método de aprendizaje, ¿qué quiere decir exactamente?
Hadoop no es solo un sistema de almacenamiento; Es una plataforma para el almacenamiento de datos grandes, así como el procesamiento.
Proporciona un marco eficiente para ejecutar trabajos en múltiples nodos de clústeres.
Si no lo sabe, Cluster significa un grupo de sistemas conectados a través de LAN.
Apache Hadoop proporciona procesamiento paralelo de datos, ya que funciona en varias máquinas simultáneamente.
Características y características de Hadoop.
Apache Hadoop es la mejor y más poderosa herramienta para Big Data. Proporciona la capa de almacenamiento más confiable del mundo: HDFS, un motor de procesamiento por lotes, MapReduce y una capa de administración de recursos, YARN.
Algunas de las características importantes de Hadoop son:
- Fuente abierta
Apache Hadoop es un proyecto de código abierto, lo que significa que su código puede ser modificado por cualquiera de forma gratuita de acuerdo con los requisitos comerciales.
2. Procesamiento distribuido
Los datos se almacenan en el sistema de archivos distribuidos HDFS – Hadoop de manera distribuida en todo el clúster. Los datos se procesan en un grupo de nodos.
3. Tolerancia a fallos
Apache Hadoop es altamente tolerante a las fallas. Por defecto, almacena 3 réplicas de cada bloque en el clúster en Hadoop. Si cualquier nodo se cae, los datos en ese nodo se pueden recuperar de los otros nodos fácilmente. Así es como Hadoop es tolerante a fallos.
4. Fiabilidad
Debido a la característica de replicación de datos en el clúster, los datos se pueden almacenar de manera confiable en el clúster de la máquina a pesar de las fallas de la máquina.
Aprende Hadoop de Industry Ex
5. Alta disponibilidad
Big Data está altamente disponible y es accesible a pesar de la falla del hardware debido a las múltiples copias de datos que contiene. Incluso si una máquina falla, se puede acceder a los datos desde otra ruta.
6. escalabilidad
Hadoop es altamente escalable ya que se puede agregar cualquier cantidad de hardware a los nodos. También facilita la escalabilidad horizontal, lo que significa que los nuevos nodos se pueden agregar fácilmente sobre la marcha sin ningún tiempo de inactividad.
7. económico
Apache Hadoop es muy rentable ya que se ejecuta en un clúster de hardware básico. No se necesita una máquina especializada para ello. Hadoop también ofrece grandes ahorros de costos ya que es muy fácil agregar más nodos sobre la marcha aquí.
8. Fácil de usar
Sin necesidad de que el cliente se ocupe de la computación distribuida, el marco se encarga de todo. Así que es fácil de usar.
9. Localidad de datos
Hadoop trabaja en principio de localidad de datos. Este principio establece que mueva el cálculo a los datos en lugar de los datos al cálculo. Cuando un cliente envía el algoritmo MapReduce, este algoritmo se mueve a los datos en el clúster en lugar de llevar los datos a la ubicación donde se envía el algoritmo y luego procesarlos.
Ecosistema Hadoop
El ecosistema de Hadoop consta de componentes HDFS y HDFS, MapReduce, YARN, Hive, Apache Pig, Apache HBase y HBase componentes, HCatalogue, Avro, Thrift, Drill, Apache mahout, Sqoop, Apache Flume, Ambari, Zookeeper y Apache OOzie to deep sumérgete en Big Data Hadoop y conviértete en el maestro de la tecnología Hadoop.
Más sobre el ecosistema de Hadoop.
¿Dónde aprender Hadoop?
Estos son algunos enlaces donde puede aprender buena calidad de los tutoriales de Hadoop
Tutorial de Hadoop – Guía de Apache Hadoop completa para principiantes
Instale Hadoop 2 con YARN en modo pseudo-distribuido
Terminologías de Big Data y conceptos de Hadoop que debes conocer
Componentes del ecosistema de Hadoop y su papel
Cómo funciona Hadoop – Aprenda el funcionamiento interno de Hadoop
Si se toma en serio aprender Hadoop y hacer carrera en él, puede obtener una buena calidad de cursos en línea en los siguientes enlaces:
Curso certificado de Big Data y Hadoop
Capacitación en administración certificada de Hadoop