Cómo practicar para aprender Hadoop

Hola,

Yo también tuve el mismo problema de practicar, cuando estaba aprendiendo Hadoop. Descargar, instalar y configurar la máquina virtual es un proceso doloroso.

A continuación se muestran los pocos inconvenientes más de la máquina virtual:

  1. Las máquinas virtuales tienen un tamaño enorme, por ejemplo, la máquina virtual de HortonWorks es de alrededor de 9 GB.
  2. Es posible que tengas que actualizar tu RAM a 8 GB.
  3. Algunos BIOS no permiten la virtualización. Es posible que tengas que cambiar la configuración del BIOS
  4. Es posible que algunas máquinas, como las computadoras de escritorio o portátiles, no permitan la instalación.

Para resolver los problemas anteriores y proporcionar la experiencia del mundo real a los estudiantes de Hadoop, hemos configurado un clúster en línea llamado CloudxLab para practicar Hadoop, Spark y las tecnologías de Big Data relacionadas. Con CloudxLab puede practicar Hadoop en cualquier momento y en cualquier lugar de su navegador sin preocuparse por instalar y configurar nada.

Espero que esto ayude. Feliz aprendizaje !!

Para ejecutar el procesamiento a gran escala, se pueden conectar varias computadoras de productos básicos a una sola CPU, como un único sistema distribuido funcional y hacer que las máquinas agrupadas lean el conjunto de datos en paralelo y proporcionen resultados intermedios, y luego de la integración deseada. Big Data Hadoop Training con Certificación | Curso en linea | Intellipaat

Hadoop ejecuta el código en un grupo de computadoras y realiza las siguientes tareas:

  • Los datos se dividen principalmente en archivos y directorios. Los archivos se dividen en bloques de tamaño uniforme de 128M y 64M.
  • Luego, los archivos se distribuyen en varios nodos de clúster para su posterior procesamiento
  • El rastreador de trabajos luego comienza a programar programas en nodos individuales.
  • Una vez que todos los nodos están listos, la salida regresa.

Ventajas de Hadoop

  • Permite al usuario escribir y probar rápidamente los sistemas distribuidos y luego distribuye automáticamente los datos y funciona en las máquinas y, a su vez, utiliza el paralelismo primario de los núcleos de la CPU.
  • La biblioteca Hadoop se ha desarrollado para encontrar y manejar los fallos en la capa de aplicación.
  • Los servidores se pueden agregar o quitar del clúster dinámicamente.
  • Es de código abierto y compatible en todas las plataformas, ya que está basado en Java.

Depende. Si quieres aprender conceptos generales, el mejor libro es Hadoop, The Definitive Guide by O’reilly. Los conceptos de alto nivel son fáciles de entender. Pero a medida que profundices, necesitarás buenas habilidades en java y linux.

Si está inclinado hacia el lado del desarrollo, a menos que aprenda Java, no podrá comprender muchas cosas. Para principiantes, Head First Java es un buen libro.

Si está más inclinado hacia el lado de la administración, primero adquiera las habilidades de Linux.

Cloudera o hortonworks proporcionan tutoriales muy buenos y valiosos para aprender hadoop. Debería tener que descargar la máquina virtual proporcionada por estas comunidades y puede hacer prácticas en ese vms.

Este vms ya ha instalado hadoop y sw necesario.

También hay otros recursos como youtube, bigdata university , data science central etc. community. Puedes unirte a ellos y puedes aprender fácilmente.

También puedes seguir uno de los mejores libros de Hadoop: la guía definitiva .

Simple en lugar de instalar máquinas virtuales de servicios automatizados de hadoop.
Puede descargar e instalar Apache Hadoop desde allí sitio.
Incluso si tiene 2 GB de RAM, funcionará bien.
Puede consultar este blog manualmente instalando estructuras de datos hadoop, algoritmos, Java y Hadoop.
La única diferencia es que estas máquinas virtuales automatizadas inician el hadoop en el momento del arranque y, en su caso, si instala hadoop manualmente, debe iniciar los servicios por su cuenta.

Puede abrir una cuenta gratuita en AWS y suscribirse a 1 año de prueba gratis *. El entorno le permite realizar una configuración de clúster completa. Asegúrese de eliminar la configuración y liberar las máquinas después de la prueba para detener el uso del contador.

* Gratis con uso limitado. Han intentado usarlo, funciona absolutamente bien.

PS: Estaremos publicando los pasos de configuración pronto.

Puede realizar la práctica en Amazon AWS. Se paga en función del uso y no le costará mucho. ¿Vea el video a continuación para aprender a usar AWS para hadoop?

Por favor, eche un vistazo a esto. ¿Qué herramientas de código abierto están disponibles para simular Hadoop MapReduce?

Pues puedes empezar desde este proyecto gratuito de Hadoop.
Proyecto Big Data y Hadoop gratis

Instalación de Apache Hadoop 2.7.1 Clúster de nodo único en Ubuntu