Apache Spark es una plataforma de computación en clúster, está diseñada para ser rápida y de propósito general. Apache Spark ha emergido rápidamente como uno de los más populares, extendiendo y generalizando MapReduce.
Si desea Master Spark , le recomiendo lo siguiente, el tiempo de aprendizaje tomará alrededor de 3 a 4 meses (depende de la capacidad de los alumnos y de la comprensión de otros modelos de computación distribuida como Hadoop).
i) Entienda a Spark en detalle : Consulte los trabajos de investigación originales.
1. Spark: Cluster Computing with Working
- ¿Qué todos los MOOCs tomó Ashish Kedia?
- ¿Cómo udemy promociona su primer curso?
- ¿Cuáles son los mejores cursos en línea de big data para profesionales del marketing?
- ¿Hay algún sitio para aprender php avanzado?
- Asesoramiento profesional: como desarrollador con 3 años de experiencia, ¿debo pagar por los certificados verificados de MOOC?
2. Conjuntos de datos distribuidos resilientes: una abstracción tolerante a fallas para la computación en clúster en memoria
3. GraphX: Unifying Data-Parallel y Graph-Parallel Analytics
4. Spark SQL: Procesamiento de datos relacionales en Spark. (mucho mas ….)
ii) Libro de referencia : Learning Spark; Análisis de Big Data ultrarrápido
iii) Consulte los tutoriales en video de Spark por Databricks
1. Introducción a Apache Spark-Paco (Databricks)
2. Advanced Apache Spark- Sameer Farooqui (Databricks)
iv) Edx ofrece un curso gratuito sobre Apache Spark; Regístrese para eso https://www.edx.org/course/intro…
v) Practicar – Descarga Apache Spark y comienza a escribir códigos
http://spark.apache.org/download…
Si realmente quieres dominar Apache Spark , lee su código fuente Github-Spark, Spark está escrito en Scala.
Buena suerte con tu viaje con Apache Spark.