En primer lugar, bienvenido a este mundo de Big Data. Has tomado una muy buena decisión para comenzar tu carrera en esta tecnología en auge.
Al comenzar su carrera en este campo, tendrá un futuro muy brillante. Hay una gran demanda de profesionales de Big Data hoy en día.
Ahora, hablar sobre el momento de aprender Apache Spark depende de su arduo trabajo e interés en esta tecnología.
Aquí estoy compartiendo algunos tutoriales de Apache Spark que te ayudarán a comenzar tu aprendizaje en este campo.
- Soy un estudiante de inglés, pero quiero aprender codificación. Mi amigo de CS dijo que debería formar un equipo hackathon. ¿Cómo puedo ser útil sin saber nada?
- ¿Cuáles son las formas libres de aprender marketing en línea?
- Cómo aprender parte aplicada de esas cosas que aprendo en Matemáticas y Física.
- ¿Qué es lo más importante que has aprendido?
- ¿Cuáles son los mejores sitios para aprender Angular2?
A partir de la introducción.
Apache Spark: Introducción
Apache Spark es un sistema de computación en clúster de código abierto que proporciona API de alto nivel en Java, Scala, Python y R. Puede acceder a datos de HDFS, Cassandra, HBase, Hive, Tachyon y cualquier fuente de datos Hadoop. Y ejecute en Standalone, YARN y Mesos cluster manager.
Apache Spark es un sistema de computación en clúster de uso general y rápido como un rayo. Proporciona API de alto nivel. Por ejemplo, Java, Scala, Python y R. Apache Spark es una herramienta para ejecutar aplicaciones Spark. Spark es 100 veces más rápido que Bigdata Hadoop y 10 veces más rápido que acceder a datos desde el disco.
Puede ir a través de este tutorial para un estudio detallado de Apache Spark- Apache Spark: una guía introductoria
Ahora avanzando hacia los componentes del ecosistema de Apache Spark.
Apache Spark: Componentes del Ecosistema
A continuación, se encuentran los componentes en el ecosistema Apache Spark que le dan poder a Apache Spark-Spark Core, Spark SQL, Spark Streaming, Spark MLlib, Spark GraphX y SparkR.
1. Apache Spark Core
Todas las funcionalidades que proporciona Apache Spark se basan en la parte superior de Spark Core. Ofrece velocidad al proporcionar capacidad de cómputo en memoria. Por lo tanto, Spark Core es la base del procesamiento paralelo y distribuido de grandes conjuntos de datos.
2. Apache Spark SQL
El componente Spark SQL es un marco distribuido para el procesamiento de datos estructurados. Utilizando Spark SQL, Spark obtiene más información sobre la estructura de los datos y el cálculo. Con esta información, Spark puede realizar una optimización extra. Utiliza el mismo motor de ejecución mientras calcula una salida. No depende de API / idioma para expresar el cálculo.
3. Apache Spark Streaming
Es un complemento de la API de Spark central que permite el procesamiento de flujos de datos en vivo, escalable, de alto rendimiento y tolerante a fallos. Spark puede acceder a datos de fuentes como Kafka, Flume, Kinesis o TCP socket. Puede funcionar utilizando varios algoritmos. Finalmente, los datos así recibidos se entregan al sistema de archivos, las bases de datos y los tableros en vivo. Spark utiliza Micro-batching para transmisión en tiempo real.
Ir a través de este enlace para un estudio detallado de más componentes del ecosistema con sus características – Componentes del ecosistema de Apache Spark
Trabajo de Apache Spark
Trabaja con el sistema para distribuir datos a través del clúster y procesar los datos en paralelo. Spark utiliza la arquitectura maestro / esclavo, es decir, un coordinador central y muchos trabajadores distribuidos. Aquí, el coordinador central se llama el conductor.
El controlador se ejecuta en su propio proceso de Java. Estos controladores se comunican con un número potencialmente grande de trabajadores distribuidos llamados ejecutores. Cada ejecutor es un proceso java separado. Una aplicación Spark es una combinación de controlador y sus propios ejecutores. Con la ayuda de cluster manager, se lanza una aplicación Spark en un conjunto de máquinas. El Administrador de clúster independiente es el administrador de clúster integrado de Spark. Además de su administrador de clústeres incorporado, Spark también trabaja con algunos administradores de clústeres de código abierto como Hadoop Yarn, Apache Mesos, etc.
Ir a través de este enlace para el estudio interno de Apache Spark – ¿Cómo funciona Apache Spark?
También puedes seguir estos tutoriales para aprender Spark:
6 razones importantes para aprender Apache Spark?
Comparación entre Apache Spark y Hadoop MapReduce
¡¡Todo lo mejor!!