¿Cuánto tiempo tomará aprender desde el principio y conseguir un trabajo en Apache Spark? Soy nuevo en el mundo de Big Data?

En primer lugar, bienvenido a este mundo de Big Data. Has tomado una muy buena decisión para comenzar tu carrera en esta tecnología en auge.

Al comenzar su carrera en este campo, tendrá un futuro muy brillante. Hay una gran demanda de profesionales de Big Data hoy en día.

Ahora, hablar sobre el momento de aprender Apache Spark depende de su arduo trabajo e interés en esta tecnología.

Aquí estoy compartiendo algunos tutoriales de Apache Spark que te ayudarán a comenzar tu aprendizaje en este campo.

A partir de la introducción.

Apache Spark: Introducción

Apache Spark es un sistema de computación en clúster de código abierto que proporciona API de alto nivel en Java, Scala, Python y R. Puede acceder a datos de HDFS, Cassandra, HBase, Hive, Tachyon y cualquier fuente de datos Hadoop. Y ejecute en Standalone, YARN y Mesos cluster manager.

Apache Spark es un sistema de computación en clúster de uso general y rápido como un rayo. Proporciona API de alto nivel. Por ejemplo, Java, Scala, Python y R. Apache Spark es una herramienta para ejecutar aplicaciones Spark. Spark es 100 veces más rápido que Bigdata Hadoop y 10 veces más rápido que acceder a datos desde el disco.

Puede ir a través de este tutorial para un estudio detallado de Apache Spark- Apache Spark: una guía introductoria

Ahora avanzando hacia los componentes del ecosistema de Apache Spark.

Apache Spark: Componentes del Ecosistema

A continuación, se encuentran los componentes en el ecosistema Apache Spark que le dan poder a Apache Spark-Spark Core, Spark SQL, Spark Streaming, Spark MLlib, Spark GraphX ​​y SparkR.

1. Apache Spark Core

Todas las funcionalidades que proporciona Apache Spark se basan en la parte superior de Spark Core. Ofrece velocidad al proporcionar capacidad de cómputo en memoria. Por lo tanto, Spark Core es la base del procesamiento paralelo y distribuido de grandes conjuntos de datos.

2. Apache Spark SQL

El componente Spark SQL es un marco distribuido para el procesamiento de datos estructurados. Utilizando Spark SQL, Spark obtiene más información sobre la estructura de los datos y el cálculo. Con esta información, Spark puede realizar una optimización extra. Utiliza el mismo motor de ejecución mientras calcula una salida. No depende de API / idioma para expresar el cálculo.

3. Apache Spark Streaming

Es un complemento de la API de Spark central que permite el procesamiento de flujos de datos en vivo, escalable, de alto rendimiento y tolerante a fallos. Spark puede acceder a datos de fuentes como Kafka, Flume, Kinesis o TCP socket. Puede funcionar utilizando varios algoritmos. Finalmente, los datos así recibidos se entregan al sistema de archivos, las bases de datos y los tableros en vivo. Spark utiliza Micro-batching para transmisión en tiempo real.

Ir a través de este enlace para un estudio detallado de más componentes del ecosistema con sus características – Componentes del ecosistema de Apache Spark

Trabajo de Apache Spark

Trabaja con el sistema para distribuir datos a través del clúster y procesar los datos en paralelo. Spark utiliza la arquitectura maestro / esclavo, es decir, un coordinador central y muchos trabajadores distribuidos. Aquí, el coordinador central se llama el conductor.

El controlador se ejecuta en su propio proceso de Java. Estos controladores se comunican con un número potencialmente grande de trabajadores distribuidos llamados ejecutores. Cada ejecutor es un proceso java separado. Una aplicación Spark es una combinación de controlador y sus propios ejecutores. Con la ayuda de cluster manager, se lanza una aplicación Spark en un conjunto de máquinas. El Administrador de clúster independiente es el administrador de clúster integrado de Spark. Además de su administrador de clústeres incorporado, Spark también trabaja con algunos administradores de clústeres de código abierto como Hadoop Yarn, Apache Mesos, etc.

Ir a través de este enlace para el estudio interno de Apache Spark – ¿Cómo funciona Apache Spark?

También puedes seguir estos tutoriales para aprender Spark:

6 razones importantes para aprender Apache Spark?

Comparación entre Apache Spark y Hadoop MapReduce

¡¡Todo lo mejor!!

10.000 horas es el requisito para llegar a ser competente en algo. Eso equivale a 5–6 horas al día durante 5 años.

Verifique el libro de Malcom Gladwell “Outliers”. Puedes obtenerlo aqui

Es altamente subjetivo. Puede explorar Big Data de forma gratuita en este enlace, que le dará cierta claridad.

Si usted es un buen programador, tardará un máximo de 6 meses.

Si no eres programador, te llevará 1 año.

El cálculo anterior funcionará solo en su nivel de interés.