¿Puedo aprender Hadoop sin conocimientos básicos de programación?

Sí, puedes aprender Hadoop sin conocimientos básicos de programación. Depende de su perfil que elija como Hadoop Developer & Hadoop Admin y también de la tecnología que elija para Big Data Analytics en el ecosistema de Hadoop.

Si tiene buenos conocimientos de programación, puede escribir tareas de MapReduce en Java y Python. Si está bien con las consultas de SQL, puede analizar los datos utilizando Hive & Spark SQL. Como alternativa para Hadoop Admin, debes ser bueno con tus comandos de Linux.

Le recomendaría que primero entienda Big Data y los desafíos asociados con Big Data. Entonces, puedes entender cómo Hadoop surgió como una solución a esos problemas de Big Data.

Entonces debe comprender cómo funciona la arquitectura de Hadoop con respecto a HDFS, YARN y MapReduce. Después de esto, debe instalar Hadoop en su sistema para que pueda comenzar a trabajar con Hadoop. Esto le ayudará a comprender los aspectos prácticos en detalle.

Más adelante, realice una inmersión profunda en el ecosistema Hadoop y aprenda varias herramientas dentro del ecosistema Hadoop con sus funcionalidades. Por lo tanto, aprenderá cómo crear una solución personalizada de acuerdo con sus requisitos.

¿Qué es Big Data?

Big Data es un término usado para una colección de conjuntos de datos que son grandes y complejos, que es difícil de almacenar y procesar utilizando las herramientas de administración de bases de datos disponibles o las aplicaciones tradicionales de procesamiento de datos. El desafío incluye capturar, curar, almacenar, buscar, compartir, transferir, analizar y visualizar estos datos.

Se caracteriza por 5 V’s.

VOLUMEN: El volumen se refiere a la ‘cantidad de datos’, que crece día a día a un ritmo muy rápido.

VELOCIDAD: la velocidad se define como el ritmo en el que las diferentes fuentes generan los datos todos los días. Este flujo de datos es masivo y continuo.

VARIEDAD: Como hay muchas fuentes que contribuyen a Big Data, el tipo de datos que generan es diferente. Puede ser estructurado, semiestructurado o no estructurado.

VALOR: Es bueno tener acceso a big data, pero a menos que podamos convertirlo en valor, es inútil. Encuentre ideas en los datos y saque provecho de ellos.

VERACIDAD: Veracidad se refiere a los datos en duda o incertidumbre de los datos disponibles debido a la inconsistencia y falta de datos de los datos.

¿Qué es Hadoop y su arquitectura?

Los componentes principales de HDFS son NameNode y DataNode .

NombreNodo

Es el demonio maestro que mantiene.

y gestiona los DataNodes (nodos esclavos). Registra los metadatos de todos los archivos almacenados en el clúster, por ejemplo, la ubicación de los bloques almacenados, el tamaño de los archivos, los permisos, la jerarquía, etc. Registra todos y cada uno de los cambios que se producen en los metadatos del sistema de archivos.

Por ejemplo, si un archivo se elimina en HDFS, el NameNode lo grabará inmediatamente en el EditLog. Regularmente recibe un informe de Heartbeat y de bloque de todos los DataNodes en el clúster para asegurar que los DataNodes estén activos. Mantiene un registro de todos los bloques en HDFS y en qué nodos se almacenan estos bloques.

DataNode

Estos son demonios esclavos que se ejecutan en cada máquina esclava. Los datos reales se almacenan en DataNodes. Son responsables de atender las solicitudes de lectura y escritura de los clientes. También son responsables de crear bloques, eliminar bloques y replicarlos de acuerdo con las decisiones tomadas por NameNode.

Para el procesamiento, utilizamos YARN (Yet Another Resource Negotiator). Los componentes de YARN son ResourceManager y NodeManager .

Administrador de recursos

Es un componente de nivel de clúster (uno para cada clúster) y se ejecuta en la máquina maestra. Administra los recursos y programa las aplicaciones que se ejecutan sobre YARN.

NodeManager

Es un componente de nivel de nodo (uno en cada nodo) y se ejecuta en cada máquina esclava. Es responsable de administrar los contenedores y monitorear la utilización de los recursos en cada contenedor. También realiza un seguimiento del estado del nodo y la gestión de registro. Se comunica continuamente con ResourceManager para mantenerse actualizado.

Puede realizar un procesamiento paralelo en HDFS utilizando MapReduce.

Mapa reducido

Es el componente central del procesamiento en un ecosistema de Hadoop, ya que proporciona la lógica de procesamiento. En otras palabras, MapReduce es un marco de software que ayuda a escribir aplicaciones que procesan grandes conjuntos de datos utilizando algoritmos distribuidos y paralelos dentro del entorno de Hadoop. En un programa MapReduce, Map () y Reduce () son dos funciones. La función Mapa realiza acciones como filtrado, agrupación y clasificación. Mientras que la función Reducir agrega y resume el resultado producido por la función de mapa. El resultado generado por la función Mapa es un par de valores clave (K, V) que actúa como entrada para la función Reducir.

Puede pasar por este video para comprender Hadoop y su arquitectura en detalle.

Instale Hadoop Single Node y Multi Node Cluster

Luego puede ir a través de este blog de Hadoop Ecosystem para aprender Hadoop Ecosystem en detalle.

También puede ver este video tutorial de Hadoop Ecosystem.

Chispa

Apache Spark es un marco para el análisis de datos en tiempo real en un entorno informático distribuido. El Spark está escrito en Scala y fue desarrollado originalmente en la Universidad de California, Berkeley. Ejecuta cálculos en memoria para aumentar la velocidad del procesamiento de datos a través de Map-Reduce. Es 100 veces más rápido que Hadoop para el procesamiento de datos a gran escala mediante la explotación de cálculos en memoria y otras optimizaciones. Por lo tanto, requiere un alto poder de procesamiento que Map-Reduce.

Como puede ver, Spark viene con bibliotecas de alto nivel, que incluyen soporte para R, SQL, Python, Scala, Java, etc. Estas bibliotecas estándar aumentan las integraciones sin problemas en el flujo de trabajo complejo. Sobre esto, también permite que varios conjuntos de servicios se integren con él como MLlib, GraphX, SQL + Data Frames, Streaming Services, etc. para aumentar sus capacidades.

También puede ver este video de preguntas de la entrevista de Hadoop para tener una idea de las preguntas formuladas en una entrevista de Hadoop.

Edureka proporciona una buena lista de videos Tutorial de Hadoop. Le recomendaría que lea esta lista de reproducción de videos del tutorial de Hadoop , así como la serie de blogs del Tutorial de Hadoop . También puede ver el tutorial de Spark en la lista de reproducción del video y la serie de blogs de Spark . Su aprendizaje debe estar alineado con la certificación Hadoop .

Sí, puedes aprender Hadoop, sin ningún conocimiento básico de programación. Lo único que importa es tu dedicación a tu trabajo. Si realmente quieres aprender algo, entonces puedes aprender fácilmente. También depende de qué perfil desea comenzar su trabajo, ya que hay varios campos en Hadoop. Cada campo tiene diferentes requisitos de habilidades.

Para el desarrollador de Hadoop, uno debe tener un buen dominio en lenguajes de programación como Java, Python, etc. El marco de trabajo de Hadoop está escrito en Java, pero puede codificar en cualquier lenguaje y el rol del desarrollador de Hadoop es escribir códigos y programación. Entonces, para el desarrollador de Hadoop, el conocimiento de programación es obligatorio.

Ahora, para el administrador de hadoop se requiere un conocimiento profundo de Hbase y habilidades de escritura sólidas en Linux.

Para saber más sobre el requisito de habilidades consulte el siguiente enlace:

Requisito de habilidades para Hadoop

Pero, para aprender Hadoop, debes tener una buena teoría básica.

Pero cada campo requiere los conceptos básicos de la asignatura. Significa que debes tener buen comando en Hadoop.

Entonces, entendamos qué es Big Data, por qué usamos Big Data, por qué Big Data entró en escena y cómo Hadoop emergió y le brindó una solución:

Big Data

Big Data es una enorme colección de datos.

Comencemos con lo que los líderes de la industria dicen sobre Big Data:

  1. Gartner – Big Data es el nuevo Oil.
  2. IDC: el mercado de Big Data crecerá 7 veces más rápido que el mercado de TI en general.
  3. IBM – Big Data no es solo una tecnología, es una estrategia empresarial para capitalizar los recursos de información.
  4. IBM – Big Data es la palabra de moda más grande porque la tecnología hace posible analizar todos los datos disponibles.
  5. McKinsey: Habrá una escasez de 1500000 profesionales de Big Data a finales de 2018.

Ahora, echemos un vistazo a las Cuatro V de Big Data de IBM.

Para más detalles sobre Big Data consulte el siguiente enlace:

  • Big Data – Introducción
  • Big Data – Historia
  • Big Data – Vulnerabilidad 10th V

Ahora, vamos a avanzar hacia las tecnologías de Big Data.

Tecnologías de Big Data

1 apache hadoop

Así que Big Data está creando gran impacto en las industrias de hoy. El 50% de los datos del mundo ya se ha trasladado a Hadoop – El corazón de Big Data. Se prevé que para 2017, más del 75% de los datos mundiales se trasladarán a Hadoop y esta tecnología será la más exigente en el mercado como lo es ahora.

2 chispa de apache

La mejora adicional de esta tecnología ha conducido a una evolución de Apache Spark: un motor de computación de propósito general y rápido como un rayo para el procesamiento a gran escala. Puede procesar los datos hasta 100 veces más rápido que MapReduce.

3 Apache Kafka

Apache Kafka es otra adición a este ecosistema de datos grandes, que es un sistema de mensajería distribuida de alto rendimiento que se usa con frecuencia con Hadoop.

Para saber más consulte el siguiente enlace:

Tecnologías de big data

Entonces, después de aprender Big Data, ahora empieza Hadoop.

  • Hadoop

Hadoop es la solución para Big Data. El método tradicional anterior no podía almacenar una cantidad tan enorme de datos de manera confiable. Entonces, Hadoop emergió. Hadoop es una herramienta de código abierto de Apache Software Foundation. Se utiliza para procesar y almacenar gran cantidad de datos enormes de manera confiable.

En el almacén de datos de Hadoop en HDFS.

Vea el video a continuación para una introducción suave a Hadoop:

También puede consultar el siguiente enlace para obtener detalles de Hadoop:

Hadoop – Una guía completa en profundidad.

Después de la introducción, aprenda principalmente 3 partes de Hadoop, es decir, MApReduce, HDFS y Yarn.

  • Mapa reducido

Es una capa de procesamiento de Hadoop. Es el corazón de Hadoop. Map-Reduce divide el trabajo en partes pequeñas, cada una de las cuales se puede hacer en paralelo en el grupo de servidores. Un problema se divide en un gran número de problemas más pequeños, cada uno de los cuales se procesa de forma independiente para dar salidas individuales.

Vea el video a continuación para una introducción a MapReduce:

También puede consultar a continuación los enlaces para obtener detalles de MapReduce:

MapReduce- Una guía completa .

Para HDFS y YARN consulte los siguientes enlaces:

Introducción a HDFS

Introducción de hilados

Entonces, a partir de ahora no te detengas y comienza a aprender.

El mundo de Hadoop y el “Big Data” pueden ser intimidantes: cientos de tecnologías diferentes con nombres crípticos forman el ecosistema de Hadoop. Con este curso, no solo entenderá qué son esos sistemas y cómo encajan entre sí, sino que también aprenderá cómo usarlos para resolver problemas comerciales reales.

Hadoop, MapReduce, HDFS, Spark, Pig, Hive, HBase, MongoDB, Cassandra, Flume – ¡la lista continúa! Más de 25 tecnologías.

Enlace del curso: The Ultimate Hands-On Hadoop – ¡Domine su Big Data !

Aprenda y domine las tecnologías de big data más populares en este curso integral, impartido por un ex ingeniero y gerente senior de Amazon y IMDb . Vaya más allá de Hadoop y sumérjase en todo tipo de sistemas distribuidos con los que deba integrarse.

  • Instale y trabaje con una instalación real de Hadoop en su escritorio con Hortonworks y la interfaz de usuario de Ambari
  • Administre big data en un cluster con HDFS y MapReduce
  • Escribir programas para analizar datos en Hadoop con Pig and Spark
  • Almacene y consulte sus datos con Sqoop , Hive , MySQL , HBase , Cassandra , MongoDB , Drill , Phoenix y Presto
  • Diseñar sistemas del mundo real utilizando el ecosistema de Hadoop.
  • Aprenda cómo se maneja su grupo con YARN , Mesos , Zookeeper , Oozie , Zeppelin y Hue
  • Maneja los datos de transmisión en tiempo real con Kafka , Flume , Spark Streaming , Flink y Storm

Comprender Hadoop es una habilidad muy valiosa para cualquier persona que trabaje en compañías con grandes cantidades de datos.

Casi todas las grandes empresas en las que desea trabajar utilizan Hadoop de alguna manera, incluidos Amazon, Ebay, Facebook, Google, LinkedIn, IBM, Spotify, Twitter y Yahoo! Y no son solo las empresas de tecnología las que necesitan a Hadoop; incluso el New York Times utiliza Hadoop para procesar imágenes.

Este curso es exhaustivo y abarca más de 25 tecnologías diferentes en más de 14 horas de conferencias en video . Está lleno de actividades y ejercicios prácticos, por lo que obtienes una experiencia real en el uso de Hadoop, no es solo teoría.

Encontrará una variedad de actividades en este curso para personas en todos los niveles. Si usted es un administrador de proyectos que solo quiere aprender las palabras de moda, existen UI web para muchas de las actividades en el curso que no requieren conocimientos de programación. Si te sientes cómodo con las líneas de comando, también te mostraremos cómo trabajar con ellas. Y si eres programador, te desafiaré con la escritura de scripts reales en un sistema Hadoop usando Scala, Pig Latin y Python .

Saldrá de este curso con una comprensión profunda y real de Hadoop y sus sistemas distribuidos asociados, y podrá aplicar Hadoop a problemas del mundo real. ¡Más un valioso certificado de finalización te espera al final!

Tenga en cuenta que el enfoque en este curso está en el desarrollo de aplicaciones, no en la administración de Hadoop. Aunque recogerás algunas habilidades de administración a lo largo del camino.

¿Quién es el público objetivo?

  • Ingenieros y programadores de software que desean comprender el ecosistema más grande de Hadoop y usarlo para almacenar, analizar y vender “big data” a escala.
  • Gestores de proyectos, programas o productos que deseen comprender la jerga y la arquitectura de alto nivel de Hadoop.
  • Los analistas de datos y los administradores de bases de datos que tienen curiosidad por Hadoop y cómo se relaciona con su trabajo.
  • Arquitectos de sistemas que necesitan comprender los componentes disponibles en el ecosistema de Hadoop y cómo encajan entre sí.

Haga clic en el enlace del curso arriba para ver los contenidos del curso.

¡Hola!

El conocimiento de programación es esencial para poner en marcha sus programas o proyectos.

¿Qué es Hadoop?

Hadoop es un marco de programación basado en Java de código abierto que admite el procesamiento y almacenamiento de conjuntos de datos extremadamente grandes en un entorno informático distribuido.

Básicamente, para aprender hadoop, debes conocer Java. De lo contrario, te resultará tedioso y difícil realizar tu aprendizaje.

Buena suerte

Es mejor tener conocimientos previos de codificación en cualquier idioma o lenguaje de scripting para comprender mejor las operaciones e interacciones del sistema hadoop, y el conocimiento básico le ayudará a escribir una lógica mejor y más precisa para resolver problemas.

Sin embargo, nunca es demasiado tarde para aprender algo nuevo e interesante. Puedes instalar cualquier framework de hadoop y seguir las pautas. Al final del día, debe codificar, ya sea ETL, Análisis de datos o BI, así que prepárese para eso.

Debe aprender un idioma, ya sea java, scala, spark, shell, sql, NoSql, R o python o SAP o SASS, si desea trabajar en sistemas bigData / hadoop.

Existen numerosos sitios web y tutoriales disponibles en línea y hay firmas de coaching que ayudan a los alumnos a aprender a programar casi desde cero. Puedes tomar la ayuda de esos. Comencé mi aprendizaje de simpliLearn, javatutorials, apache documentations y luego hice una certificación de las tecnologías mapR.

Espero que esto ayude.

Feliz aprendizaje !

No, necesita saber al menos Java para aprender hadoop porque en hadoop tiene que escribir el código MapReduce en java. Los programas MapReduce se pueden escribir en otros lenguajes como Python, pero en última instancia, se deben convertir en el programa Java MapReduce.

Vea una muestra del programa mapreduce escrito en java:

WordCountPractice.rar

No un gran nooooooo

Ir a Hadoop sin Java básico o python y sql no es una forma ideal de aprender.

Ir a través de conceptos básicos de oops en java y sql. Si es posible, aprender un poco de lenguaje scala también.

Todas las habilidades de programación básicas son indispensables para el aprendizaje de Hadoop.

Sí, puede aprender otros componentes de Hadoop como pig, hive, scoop, flume, etc. sin mucho lenguaje de programación, pero si desea escribir funciones de personalización, no podrá hacerlo sin el conocimiento del lenguaje de programación.

Al menos debes tener conocimientos básicos de programación.

Así que mejor aprender Core Java que hace que tu viaje sea más suave.