¿Puedo aprender Big Data (Hadoop, Talend, Spark, etc.) sin ningún conocimiento sobre Java?

Hola,

Si desea una respuesta directa, entonces diría ‘ sí, definitivamente puede aprender todas estas tecnologías sin ningún conocimiento de Java ‘. ¿Curioso por saber cómo? Bueno, la respuesta a esto es Talend .

Ahora puedes preguntar, ¿cómo?

Bueno, Talend es un proveedor / plataforma de integración de software de código abierto que ofrece soluciones de integración y gestión de datos. Se considera que es el líder de la próxima generación en software de integración de nube y big data. Proporciona el software que ayuda a las empresas a convertirse en datos impulsados ​​haciendo que los datos sean más accesibles, mejorando su calidad y moviéndolos rápidamente hacia donde se necesitan para tomar decisiones en tiempo real. Las siguientes son algunas de las características principales de Talend:

Talend ofrece varias herramientas, que se pueden usar para diferentes propósitos de procesamiento de datos, pero entre todos, Talend Open Studio es el más utilizado y popular. Ahora, cuando está trabajando con tecnologías de Big Data, necesita usar Talend Open Studio para Big Data o más popularmente conocido como TOS para Big Data.

Talend Open Studio (TOS) para big data desarrollado en el entorno de desarrollo gráfico de Eclipse. Es un software de código abierto y proporciona una GUI fácil de usar para los usuarios. Es una herramienta poderosa que aprovecha la plataforma de Big Data de Apache Hadoop y ayuda a los usuarios a acceder, transformar, mover y sincronizar los grandes datos. Hace que la interacción del usuario con grandes fuentes de datos y otros objetivos sea realmente sencilla, ya que no tienen que aprender ni escribir ningún código complicado para trabajar con él. Talend Open Studio actúa como un generador de código que produce scripts de transformación de datos y programas subyacentes en Java . Lo único que debe hacer es arrastrar y soltar los componentes en la GUI de TOS, conectarlos y configurarlos.

¡Muy sencillo, cierto! Esta es la razón por la que Talend se conoce como una solución integral para el procesamiento de datos.

Ahora, si desea obtener más información al respecto, puede consultar este blog de Talend para Big Data Tutorial . O si desea que los expertos de la industria lo capaciten en Talend, puede consultar aquí: Curso de certificación Talend | Edureka

Espero que esto ayude. ¡¡Feliz aprendizaje!!

Puede … si …

Tiene sentido…? Eso depende de lo que quieras hacer.

Personalmente difiero en cuatro áreas (algunos dicen que hay más … pero tomemos mis cuatro para este ejemplo).

Administración:

Difícil. Administración significa poder solucionar problemas de un clúster. Y además, esto significa que tienes que revisar los registros de errores. Así que debes saber qué es una excepción y cómo interpretarla.

Además, la administración de Hadoop requiere que conozca un poco sobre la memoria de Heap.

Por lo tanto, mi conclusión es: para Administración, no tienes que ser un Java rockstar, pero debes saber algunos conceptos básicos

Ingeniería de datos:

SÍ. Aquí lo necesitas. No puede resolver todos los problemas con lenguajes de alto nivel como Python o Pig. E incluso si programa en Pig, a veces es posible que tenga que programar su UDF. entonces necesitas Java.

Ciencia de los datos:

NO. Aquí más bien necesitas conocimientos de SQL, R o Python … y sobre todo, debes conocer las estadísticas.

Negocio :

No importa si está en ventas, análisis de negocios o lo que sea … Combino esto con un grupo, ya que está claro, no es necesario que sepa Java.

Depende de su perfil que elija como Hadoop Developer & Hadoop Admin y también de la tecnología que elija para Big Data Analytics en el ecosistema de Hadoop.

Si tiene buenos conocimientos de programación, puede escribir tareas de MapReduce en Java y Python. Si está bien con las consultas de SQL, puede analizar los datos utilizando Hive & Spark SQL. Como alternativa para Hadoop Admin, debes ser bueno con tus comandos de Linux.

Para aprender, Hadoop primero comprende Big Data y los desafíos asociados con Big Data. Entonces, puedes entender cómo Hadoop surgió como una solución a esos problemas de Big Data. Este blog de What is Hadoop y Hadoop Tuorial te lo presentará.

Entonces debe comprender cómo funciona la arquitectura de Hadoop con respecto a HDFS, YARN y MapReduce.

Más adelante, debe instalar Hadoop en su sistema para que pueda comenzar a trabajar con Hadoop. Esto le ayudará a comprender los aspectos prácticos en detalle.

Más adelante, realice una inmersión profunda en el ecosistema Hadoop y aprenda varias herramientas dentro del ecosistema Hadoop con sus funcionalidades. Por lo tanto, aprenderá cómo crear una solución personalizada de acuerdo con sus requisitos.

Vamos a entender en breve:

¿Qué es Big Data?

Big Data es un término usado para una colección de conjuntos de datos que son grandes y complejos, que es difícil de almacenar y procesar utilizando las herramientas de administración de bases de datos disponibles o las aplicaciones tradicionales de procesamiento de datos. El desafío incluye capturar, curar, almacenar, buscar, compartir, transferir, analizar y visualizar estos datos.

Se caracteriza por 5 V’s.

VOLUMEN: El volumen se refiere a la ‘cantidad de datos’, que crece día a día a un ritmo muy rápido.

VELOCIDAD: la velocidad se define como el ritmo en el que las diferentes fuentes generan los datos todos los días. Este flujo de datos es masivo y continuo.

VARIEDAD: Como hay muchas fuentes que contribuyen a Big Data, el tipo de datos que generan es diferente. Puede ser estructurado, semiestructurado o no estructurado.

VALOR: Es bueno tener acceso a big data, pero a menos que podamos convertirlo en valor, es inútil. Encuentre ideas en los datos y saque provecho de ellos.

VERACIDAD: Veracidad se refiere a los datos en duda o incertidumbre de los datos disponibles debido a la inconsistencia y falta de datos de los datos.

¿Qué es Hadoop y su arquitectura?

Los componentes principales de HDFS son NameNode y DataNode .

NombreNodo

Es el demonio maestro que mantiene.

y gestiona los DataNodes (nodos esclavos). Registra los metadatos de todos los archivos almacenados en el clúster, por ejemplo, la ubicación de los bloques almacenados, el tamaño de los archivos, los permisos, la jerarquía, etc. Registra todos y cada uno de los cambios que se producen en los metadatos del sistema de archivos.

Por ejemplo, si un archivo se elimina en HDFS, el NameNode lo grabará inmediatamente en el EditLog. Regularmente recibe un informe de Heartbeat y de bloque de todos los DataNodes en el clúster para asegurar que los DataNodes estén activos. Mantiene un registro de todos los bloques en HDFS y en qué nodos se almacenan estos bloques.

DataNode

Estos son demonios esclavos que se ejecutan en cada máquina esclava. Los datos reales se almacenan en DataNodes. Son responsables de atender las solicitudes de lectura y escritura de los clientes. También son responsables de crear bloques, eliminar bloques y replicarlos de acuerdo con las decisiones tomadas por NameNode.

Para el procesamiento, utilizamos YARN (Yet Another Resource Negotiator). Los componentes de YARN son ResourceManager y NodeManager .

Administrador de recursos

Es un componente de nivel de clúster (uno para cada clúster) y se ejecuta en la máquina maestra. Administra los recursos y programa las aplicaciones que se ejecutan sobre YARN.

NodeManager

Es un componente de nivel de nodo (uno en cada nodo) y se ejecuta en cada máquina esclava. Es responsable de administrar los contenedores y monitorear la utilización de los recursos en cada contenedor. También realiza un seguimiento del estado del nodo y la gestión de registro. Se comunica continuamente con ResourceManager para mantenerse actualizado.

Puede realizar un procesamiento paralelo en HDFS utilizando MapReduce.

Mapa reducido

Es el componente central del procesamiento en un ecosistema de Hadoop, ya que proporciona la lógica de procesamiento. En otras palabras, MapReduce es un marco de software que ayuda a escribir aplicaciones que procesan grandes conjuntos de datos utilizando algoritmos distribuidos y paralelos dentro del entorno de Hadoop. En un programa MapReduce, Map () y Reduce () son dos funciones. La función Mapa realiza acciones como filtrado, agrupación y clasificación. Mientras que la función Reducir agrega y resume el resultado producido por la función de mapa. El resultado generado por la función Mapa es un par de valores clave (K, V) que actúa como entrada para la función Reducir.

Puede pasar por este video para comprender Hadoop y su arquitectura en detalle.

Instale Hadoop Single Node y Multi Node Cluster

Luego puede ir a través de este blog de Hadoop Ecosystem para aprender Hadoop Ecosystem en detalle.

También puede ver este video tutorial de Hadoop Ecosystem.

Chispa

Apache Spark es un marco para el análisis de datos en tiempo real en un entorno informático distribuido. El Spark está escrito en Scala y fue desarrollado originalmente en la Universidad de California, Berkeley. Ejecuta cálculos en memoria para aumentar la velocidad del procesamiento de datos a través de Map-Reduce. Es 100 veces más rápido que Hadoop para el procesamiento de datos a gran escala mediante la explotación de cálculos en memoria y otras optimizaciones. Por lo tanto, requiere un alto poder de procesamiento que Map-Reduce.

Como puede ver, Spark viene con bibliotecas de alto nivel, que incluyen soporte para R, SQL, Python, Scala, Java, etc. Estas bibliotecas estándar aumentan las integraciones sin problemas en el flujo de trabajo complejo. Sobre esto, también permite que varios conjuntos de servicios se integren con él como MLlib, GraphX, SQL + Data Frames, Streaming Services, etc. para aumentar sus capacidades.

También puede ver este video de preguntas de la entrevista de Hadoop para tener una idea de las preguntas formuladas en una entrevista de Hadoop.

Edureka proporciona una buena lista de videos Tutorial de Hadoop. Le recomendaría que lea esta lista de reproducción de videos del tutorial de Hadoop , así como la serie de blogs del Tutorial de Hadoop . También puede ver el tutorial de Spark en la lista de reproducción del video y la serie de blogs de Spark . Su aprendizaje debe estar alineado con la certificación Hadoop .

sí..

Apache Hadoop es un destacado entre los acuerdos empresariales recibidos con mayor frecuencia por parte de enormes Goliat de TI, lo que lo convierte en uno de los 10 principales patrones de trabajo de TI para 2015. De esta manera, es obligatorio que los tecnólogos adquieran Hadoop rápidamente y que la comunidad biológica de Hadoop avanza. Por paso. El gran interés por el enorme examen de información está llevando a numerosos expertos de TI a cambiar su profesión a la innovación de Hadoop. Los expertos deben considerar las aptitudes antes de comenzar a aprender Hadoop.

La respuesta a esta pregunta se puede obtener en los mejores institutos de capacitación de Java en Pune , ya que pueden aconsejarle sobre esto. Si está interesado y desea aprender codificación en Java, vaya a un curso de programación Java en Pune .

Pero, por ahora: para obtener más respuestas: ¿Es necesario el conocimiento de Java para aprender Hadoop?

Intentaré ayudarte a comprender cómo funciona Talend para Big Data. Talend es una de las herramientas ETL más populares y poderosas del mercado.

¿POR QUÉ ES TALENDO TAN POPULAR?

  1. Talend ofrece la flexibilidad de realizar ETL y Analytics sin programación.
  2. Talend Community Edition es gratis y poderoso
  3. La gestión de datos es un negocio delicado y Talend lo resuelve sin necesidad de mucha experiencia técnica
  4. La integración de datos de Talend es compatible con Hadoop, Hive y otros marcos populares

¿QUE ES EL TALENDO DE LOS GRANDES DATOS?

Talend Open Studio (TOS) está construido sobre la plataforma Java de Eclipse y brinda las capacidades de programación a través de componentes . Talend Open Studio tiene muchos sabores. TOS Big Data es uno de los más populares entre TOS Data Integration, TOS Data Warehousing y otros.

Para los principiantes, así es como se ve TOS Big Data. El panel rojo resaltado a la derecha contiene varios componentes para procesar, analizar y manejar Big Data.

TOS Big Data es compatible con todos los marcos populares de Big Data como Hadoop, Cassandra, Impala, MongoDB, DynamoDB, Google BigQuery y Sqoop.

También amplía la compatibilidad con herramientas de BI como Jasper, SPSS, Splunk, OLAP y tecnologías en la nube como Azure, AWS, Dropbox, Google Drive y Salesforce.

MÁS INFORMACIÓN SOBRE EL TALEND

Puede aprender Talend con más detalle a través de nuestros Videos Tutoriales en Youtube.

Si desea dominar la plataforma de integración de Big Data con Talend Open Studio para conectar y analizar fácilmente los datos con la herramienta Talend ETL con HDFS, PIG y Hive con estudios de casos reales, consulte nuestra Capacitación de certificación Talend de Edureka que viene con un instructor en vivo. Clases en línea con soporte 24 * 7.

Espero que mi respuesta te haya dejado curioso por aprender más!

Sí tu puedes. Hadoop está escrito en Java y Spark está escrito en Scala, pero no necesariamente tiene que saberlo para desarrollar y utilizar aplicaciones de Big Data. Más importante es entender los conceptos y usar cualquier lenguaje que prefiera para escribir aplicaciones distribuidas. Cuando entiendes los conceptos, puedes intentar escribir tus propios programas usando un lenguaje mucho más fácil, como Python. Puede escribir programas Spark utilizando su API y conocimiento limitado de Python. Incluso puede aprender Python en un día; le llevará más tiempo entender la computación distribuida.

Me di cuenta de que hay muchas personas que quieren aprender tecnologías de Big Data, pero no conocen Java o tienen un dominio limitado en un lenguaje de programación. Creé un curso en línea que no requiere conocimientos de Java para comenzar a usar Big Data y Hadoop. Puedes encontrar más información en New Tech Academy.

No, no necesitas saber java para aprender hadoop.

Spark está escrito en Scala. La API de Java Python también está disponible para la chispa. Para la chispa, está usando Scala, su trabajo será fácil.

Hablando de core apache hadoop

El cerdo y la colmena, que se utilizan principalmente, usan SQL como consulta. Sólo para reducir el mapa puede requerir Java.

No necesitas conocer Java para hacer el desarrollo de Hadoop, ya que otros han mencionado que hay Hive, Pig, Python y Scala. Si usa la API de transmisión, puede usar cualquier idioma que lea desde la entrada estándar y escriba en la salida estándar. Dicho esto, el ecosistema en sí mismo es muy pesado en Java, y las API de cliente de JAVA para muchos de los componentes son fáciles de usar y tienen un alto rendimiento. Tener conocimiento de Java es útil, aunque solo sea para entender cómo funcionan internamente los componentes y para comprender la API del cliente lo suficiente como para llamar desde Scala u otro lenguaje JVM (el cliente de shell Hbase está escrito en JRuby, por ejemplo).

Aprender Big Data es como aprender algoritmos. Así aprendes el concepto matemático (y no) que luego aplicarás con un lenguaje de programación.

Hablando de Spark, aparte de Java, es compatible con Scala y Python.

Java es la base para hadoop. La mayor parte de la sintaxis en hadoop se basa en java. Si no sabe que Java no es un gran problema, Besant Technologies ofrece capacitación en hadoop desde el nivel básico con el mejor soporte de ubicación para más información 996 252 8294

La respuesta de Ramakant Singh Chandel a Antes de iniciar big data, ¿qué debería aprender? No tengo conocimientos en Java.