Apache Spark fue desarrollado por Matei Zaharia en 2009 como un subproyecto de Hadoop en el AMPLab de UC Berkeley. Fue utilizado por primera vez por expertos en aprendizaje automático que utilizaron Spark para monitorear y predecir la congestión del tráfico en el área de la Bahía de San Francisco.

Apache Spark es el nuevo motor de procesamiento que forma parte de la Fundación de software Apache que impulsa las aplicaciones de Big Data en todo el mundo. Está tomando el relevo de donde salió Hadoop MapReduce o de donde MapReduce está encontrando cada vez más dificultades para hacer frente a las necesidades exigentes de la empresa de ritmo rápido.
Las grandes cantidades de datos no estructurados y la necesidad de una mayor velocidad para cumplir con los análisis en tiempo real han hecho de esta tecnología una alternativa real para los ejercicios computacionales de Big Data.
Hay una gran cantidad de datos que necesitan ser procesados en tiempo real. Veamos la magnitud de los datos que se discuten.
1) 30+ Petabytes de datos generados por el usuario se almacenan, acceden y analizan en Facebook
2) Por cada minuto, los usuarios de YouTube suben 48 horas de video nuevo.
3) Facebook tiene que servir solicitudes de carga en la magnitud de 100 terabytes
4) Por cada minuto hay más de 500 sitios creados.
Esta es la razón por la que Spark cumple con una gran necesidad de un marco de análisis en tiempo real competente.
Características de la chispa

1) La velocidad de procesamiento es alta : Spark es 100 veces más rápido que Hadoop cuando se ejecuta en la memoria y 10 veces más rápido que Hadoop cuando se ejecuta en el disco. La forma en que lo logra es que esencialmente reduce el número de lecturas y escrituras en el disco.
2) Tolerancia a fallos : para manejar con gracia los fallos de cualquier nodo de trabajo en el clúster, Spark y su abstracción RDD (conjunto de datos de distribución resistente) es útil. Por lo tanto no hay pérdida de datos.
3) En el procesamiento de la memoria : el disco se está volviendo exorbitante con la expansión de los volúmenes de información. La lectura de terabytes a petabytes de información del disco y la escritura en el disco crea una sobrecarga enorme. Por lo tanto, el manejo en memoria de las funciones de Spark es muy útil para ampliar la velocidad de procesamiento. Para un acceso más rápido los datos se guardan en la memoria. El motor de ejecución DAG de Spark es una de las razones de la alta velocidad debido al flujo de datos acíclicos y el cálculo en memoria.
4) Dinámico : el desarrollo de aplicaciones paralelas en Spark es posible gracias a más de 80 operadores de alto nivel. Aunque Scala es el idioma predeterminado para Spark; Python, Java y R se pueden usar para ejecutar Spark. Esta dinámica no se puede esperar en Hadoop MapReduce, que solo admite Java.
5) Se integra con Hadoop : el uso de YARN para la programación de recursos Spark puede ejecutarse sobre el clúster de Hadoop. Los expertos en Hadoop también pueden, por lo tanto, con Spark sin mucha dificultad.
6) Evaluación perezosa : una de las razones por las que Spark es tan rápido en el procesamiento es que demora la evaluación hasta que exista un requisito absoluto. Utiliza DAG para el cálculo y solo se ejecuta cuando un controlador solicita algunos datos.
Dominios donde se usa Chispa
Ahora, vamos a dar un paseo en varias áreas de dominio donde se utiliza Spark.
1. Administrar una cuenta : es imperativo garantizar intercambios tolerantes a fallas en todo el sistema bancario. Chispa es útil en este sentido. La detección de fraudes, el análisis de riesgo de crédito y para muchos otros propósitos, Spark es muy utilizado.

2. Gobierno : Incluso las agencias gubernamentales utilizan análisis en tiempo real de Spark para reforzar la seguridad nacional. Para las actualizaciones sobre amenazas a la seguridad nacional, las naciones de todo el mundo necesitan analíticas para realizar un seguimiento de todas sus agencias de inteligencia, militares y policiales.

3. Telecomunicaciones : las compañías de telecomunicaciones utilizan analíticas en tiempo real para respaldar llamadas, video chats y transmisión. Para mejorar la experiencia del cliente, se toman adecuadamente en cuenta las medidas de fluctuación y retraso.

4. Atención médica : para verificar constantemente el estado terapéutico de los pacientes críticos, las agencias de atención médica utilizan análisis en tiempo real. Los hospitales que están atentos a los trasplantes de sangre y órganos deben permanecer en contacto continuo en medio de crisis. Recibir tratamiento terapéutico a tiempo implica asuntos de vida o muerte para los pacientes. My Fitness Pal es una buena firma que rastrea datos de calorías de 80 millones de usuarios que usan Spark.

5. Mercado de valores : los corredores de bolsa utilizan análisis en tiempo real para anticipar el desarrollo de las carteras de acciones. Las organizaciones vuelven a examinar su modelo de negocios luego de utilizar análisis en tiempo real para investigar el interés del mercado por su marca. Renaissance Technologies está administrando con éxito una inversión de alrededor de $ 27 mil millones utilizando operaciones algorítmicas y análisis en tiempo real. En la India, hay varias empresas que proporcionan el beneficio de análisis en tiempo real a la gente común en el ámbito del mercado de valores. Minance, Squareoff y Return Wealth son algunos de ellos.

Para obtener más información sobre Apache Spark, puede consultar la capacitación de Intellipaat en Spark, Apache Spark Training. El curso de capacitación Intellipaat Apache Spark y Scala Certification le ofrece conocimientos prácticos para crear aplicaciones Spark utilizando la programación de Scala. Te da una comparación clara entre Spark y Hadoop. El curso le proporciona técnicas para aumentar el rendimiento de la aplicación y habilitar el procesamiento de alta velocidad con los RDD de Spark, así como la ayuda en la personalización de Spark con Scala.
Mira este tutorial de Spark para saber más sobre Apache Spark.
Haga upvote si encuentra útil esta respuesta para que la respuesta llegue a otros quoranes. Gracias.:)