Cómo aprender Apache Spark

Comience a aprender el concepto básico de Spark: Conjunto de datos distribuido resistente (RDD). Para obtener más información sobre RDD, consulte los enlaces a continuación. Contiene mucha información sobre cómo funciona RDD.

  1. https://www.usenix.org/system/fi…
  2. http://www.cs.berkeley.edu/~mate…

Además, también puedes ver este fantástico video en RDD por Matei Zaharia:

  1. Conjuntos de datos distribuidos resistentes: una abstracción tolerante a los fallos para la computación en clúster en memoria

Para ayudarlo a comenzar a usar Spark, los moldes de pantalla están disponibles en el sitio web de SPARK. Juega un rato con Spark para familiarizarte con la cáscara de la chispa.

  1. Primeros pasos con Spark – Screencast # 1
  2. Descripción general de la documentación de Spark – Screencast # 2
  3. Transformaciones y almacenamiento en caché – Spark Screencast # 3
  4. Un trabajo independiente en Scala – Spark Screencast # 4

Aunque, Spark proporciona API para varios idiomas, aprender Scala definitivamente ayudará. Una pequeña introducción a Scala shell está disponible-

  1. Introducción al Scala Shell

Una vez que te sientas cómodo con los conceptos anteriores y juegues con Spark por algún tiempo. Entrar en el interior de Spark. Matei Zaharia habla sobre los aspectos internos de SPARK en el siguiente video. [Un excelente video, me ayudó mucho]

Ahora es el momento de aprender técnicas de optimización:

  1. Tuning Spark – Documentación Spark 1.0.0
  2. Un poderoso trío de Big Data: Spark, Parquet y Avro

Además, puede registrarse en el canal Spark en Youtube. Spark Summit, Meetup y otros videos están disponibles en el canal de Youtube Apache Spark.

Otros enlaces que me ayudaron son:

  1. Diferencias en el lado aleatorio entre Hadoop y Spark- Page en berkeley.edu
  2. Spark con Java 8 – Haciendo que Spark sea más fácil de usar en Java con Java 8

La chispa es fantástica y fácil de aprender. Te sorprenderá ver lo que pueden hacer 2-3 líneas de código Spark.

¡Feliz codificación y bienvenido a un análisis rápido como un rayo!

Scala básico
Escuela scala
Un recorrido por Scala: Clases de casos

Chispa básica
4. Trabajar con pares clave-valor
Exploración de datos utilizando Spark
Página en latrobe.edu.au

Python lambda, reducir, filtrar
Tutorial de Python: operador Lambda, filtrar, reducir y mapear

Simple Spark SQL: prueba el SQL normal y observa cómo suceden las cosas mágicas
Guía de programación Spark SQL
Spark 1.0.2 ScalaDoc
Tenga en cuenta que Spark SQL actualmente utiliza un analizador SQL muy básico. Los usuarios que desean un dialecto de SQL más completo deben consultar el soporte de HiveQL proporcionado por HiveContext.

Buen truco con Spark
¿Por qué Apache Spark es un éxito cruzado para los científicos de datos?
Exploración de datos utilizando BlinkDB

Comience con Python
Página en ipython.org

Algunas API de Python equivalentes a Scala
PySpark

MLLib
Métodos lineales – MLlib – Spark 1.0.2 Documentation

Recomendador
Construyendo un motor de recomendación de alimentos con Spark / MLlib y Play
Agacharse los datos, Markov oculto
Similitud de todos los pares a través de DIMSUM | Blogs de Twitter

Spark + Mesos
mesos / chispa
Cómo construir Apache Mesos en Mac
Cómo configurar mesos para ejecutar spark en OS / X autónomo
Instalando Mesos en una Mac con Homebrew
Gestión de Cluster & Framework
Ejecución de Chispa en Mesos
Cloudera + Mesos + MapReduce + Spark + Chronos – ¿es posible? ¿Existen alternativas similares?
6 tutoriales para Apache Mesos: Hadoop, Spark, Chronos y más

Chispa + CHD
Ejecutando aplicaciones Spark

Aquellos que han estado en Big Data probablemente saben sobre Spark, popularmente conocido como la navaja suiza del análisis de Big Data. Hemos hablado de las diferentes características de Spark en nuestras publicaciones anteriores. Para aquellos que son nuevos en Spark, es un marco de cómputo de clústeres para el análisis de datos que puede manejar casi todo tipo de consultas de todo tipo de datos a una velocidad increíblemente rápida. Con las empresas existentes y nuevas que muestran un gran interés en adoptar Spark, el mercado está creciendo. Aquí hay cinco razones para aprender Apache Spark que se enfocan en por qué no debes evitar aprender esta tecnología revolucionaria de nueva generación.

Aprenda sobre Apache Spark aquí: https://hackr.io/tutorials/learn

1 # Integración con Hadoop

Spark se puede integrar bien con Hadoop y eso es una gran ventaja para aquellos que están familiarizados con este último. Técnicamente, un proyecto independiente, Spark ha sido diseñado de manera que se ejecute en el Sistema de Archivos Distribuidos de Hadoop. Se puede trabajar de inmediato con MapR. Puede ejecutarse en HDFS, dentro de MapReduce. Una vez implementado en YARN, incluso puede ejecutarse en el mismo clúster junto con los trabajos de MapReduce.

Lea más sobre ¿Por qué Spark con Hadoop importa?

2 # Cumplir con los estándares globales

De acuerdo con los pronósticos tecnológicos, Spark es el futuro del procesamiento mundial de Big Data. Los estándares de Big Data Analytics están aumentando enormemente con Spark, impulsados ​​por el procesamiento de datos a alta velocidad y los resultados en tiempo real. Al aprender Spark ahora, uno puede cumplir con los estándares globales para asegurar la compatibilidad entre la próxima generación de aplicaciones y distribuciones Spark al ser parte de la Comunidad de Desarrolladores Spark. Si crees que amas la tecnología, contribuir al desarrollo de una tecnología en crecimiento en su etapa de crecimiento puede dar un impulso a tu carrera. Después de esto, puede mantenerse al día con los últimos avances que tienen lugar en Spark y estar entre los primeros para construir la próxima generación de aplicaciones de big data.

3 # Fading MapReduce y Spark Chispa

Spark es un marco de procesamiento de datos en memoria y está configurado para asumir todo el procesamiento primario para las cargas de trabajo de Hadoop en el futuro. Al ser mucho más rápido y más fácil de programar que MapReduce, Spark se encuentra ahora entre los proyectos de Apache de alto nivel, que ha adquirido la participación de una gran comunidad de usuarios y colaboradores. Matei Zaharia, CTO, Databricks y uno de los cerebros detrás del proyecto Apache Spark presenta a Spark como una herramienta de consulta multifacética que podría ayudar a democratizar el uso de big data. También proyectó la posibilidad de finalizar la era MapReduce con el crecimiento de Apache Spark.

4 # Spark Ya se está utilizando en Producción

El número de compañías que están utilizando Spark o están planeando el mismo ha aumentado en el último año. Existe un aumento masivo en la popularidad de Spark, la razón es que sus componentes maduros de código abierto y una comunidad de usuarios en expansión. Las razones por las que Spark se ha convertido en uno de los proyectos más populares en Big Data son las herramientas integradas de alto rendimiento que manejan distintos problemas y cargas de trabajo, y una interfaz de programación simple y rápida en Scala, Java o Python.

Hay varias razones, en cuanto a por qué las empresas están adoptando cada vez más Spark, que van desde la velocidad y la eficiencia y la facilidad de uso hasta el sistema integrado único para todas las líneas de datos, y muchas más. Spark, que es el proyecto de big data más activo, ha sido implementado en la producción por todos los principales proveedores de Hadoop y no Hadoop en múltiples sectores, incluidos servicios financieros, minoristas, medios de comunicación, telecomunicaciones y sector público.

5 # enorme demanda de profesionales de chispa

Spark es completamente nuevo y, sin embargo, está completamente extendido en el mercado de big data. El uso de Spark está aumentando a una velocidad muy rápida entre muchas de las empresas de primer nivel, como la NASA, Yahoo y Adobe. Aparte de aquellos que pertenecen a la comunidad de Spark, hay un puñado de profesionales que han aprendido a usar Spark y pueden trabajar en ello. Esto, a su vez, ha creado una demanda creciente para los profesionales de Spark. En tal escenario, el aprendizaje de Spark puede darte una gran ventaja competitiva. Al aprender Spark en este momento, puede demostrar la validación reconocida por su experiencia. Esto es lo que John Tripier, Alliances and Ecosystem Lead de Databricks tiene que decir: “La adopción de Apache Spark por parte de empresas grandes y pequeñas está creciendo a un ritmo increíble en una amplia gama de industrias, y la demanda de desarrolladores con experiencia certificada se está acelerando rápidamente. siguiendo su ejemplo”.

Aprecio tu decisión de aprender Spark. Como Spark es un zumbido serio en el mercado. Es una tendencia hoy en día.

Hay muchas razones para aprender chispa:

  • Spark es una herramienta de procesamiento de datos. Opera en colecciones de datos distribuidos y no hace almacenamiento distribuido.
  • Spark fue diseñado principalmente para Hadoop.
  • Spark opera en todo el conjunto de datos en un barrido.
  • Spark incluye campañas de marketing en tiempo real y recomendaciones de productos en línea.
  • Spark tiene resiliencia incorporada en virtud del hecho de que sus objetos de datos se almacenan en conjuntos de datos distribuidos resilientes distribuidos en el grupo de datos.

Ahora avanzando hacia la introducción de Apache Spark.

Introducción a Apache Spark

Apache Spark es un sistema de computación en clúster de uso general y rápido como un rayo. Proporciona una API de alto nivel. Por ejemplo, Java, Scala, Python, R. Spark es 100 veces más rápido que BigData Hadoop y 10 veces más rápido en el acceso a datos desde el disco.

Fue presentado por UC Berkeley R&D Lab en 2009.

Obtenga más información sobre Introducción a Apache Spark

Ahora surge la pregunta, ¿cuál es la necesidad de Apache Spark?

Necesidad de Apache Spark

En la industria, hay una necesidad de herramientas de computación en grupo de propósito general como:

  • Hadoop MapReducecan solo realiza el procesamiento por lotes.
  • Apache Storm / S4 solo puede realizar el procesamiento de secuencias.
  • Apache Impala / Apache Tez solo puede realizar procesamiento interactivo
  • Neo4j / Apache Giraph solo puede realizar para procesar gráficos

Por lo tanto, en la industria, existe una gran demanda de un potente motor que pueda procesar los datos en tiempo real (transmisión) y en modo de proceso por lotes. Existe la necesidad de un motor que pueda responder en menos de un segundo y realizar el procesamiento en memoria.

Apache Spark es un potente motor de código abierto que ofrece procesamiento de flujo en tiempo real, procesamiento interactivo, procesamiento de gráficos, procesamiento en memoria y procesamiento por lotes con una velocidad muy rápida, facilidad de uso e interfaz estándar.

¿Por qué deberías aprender Apache Spark?

Con el aumento del tamaño de los datos que se generan a cada segundo, se ha vuelto importante analizar estos datos para obtener información importante sobre el negocio en menos tiempo. Varias opciones de Big Data como Hadoop, Storm, Spark, Flink, etc. lo han hecho posible.

Apache Spark es una herramienta de Big Data de próxima generación. Proporciona capacidades de procesamiento por lotes y transmisión para un procesamiento de datos más rápido. 9 de cada 10 empresas han comenzado a usar Apache Spark para el procesamiento de sus datos. Debido a su amplia gama de aplicaciones y la facilidad de uso para trabajar, Spark también se conoce como la navaja suiza de Big Data Analytics.

Ir a través de este enlace Razones para aprender Apache Spark

Componentes del ecosistema de Apache Spark

A continuación se incluyen 6 componentes en el ecosistema Apache Spark que le dan poder a Apache Spark-Spark Core, Spark SQL, Spark Streaming, Spark MLlib, Spark Graphics y Spark R.

1.Apache Spark Core:

Todas las funcionalidades que proporciona Apache Spark están construidas en la parte superior de Spark Core. Ofrece velocidad al proporcionar cálculos en memoria. Así, Spark Core es la base del procesamiento paralelo y distribuido de grandes conjuntos de datos.

Las características clave de Apache Spark Core son:

  • Está a cargo de las funcionalidades esenciales de E / S.
  • Significativo en la programación y observación del papel del clúster Spark.
  • Despacho de tareas.
  • Recuperación de fallos.
  • Supera el obstáculo de MapReduce mediante el uso de cálculos en memoria.

2.Apache Spark SQL :

El componente Spark SQL es un marco distribuido para el procesamiento de datos * estructurados *. Utilizando Spark SQL, Spark obtiene más información sobre la estructura de los datos y el cálculo. Con esta información, Spark puede tener un rendimiento óptimo adicional. Utiliza el mismo motor de ejecución mientras calcula una salida. No depende de API / idioma para expresar el cálculo.

3.Apache Spark Streaming:

Es un complemento del Core Spark API que permite el procesamiento de flujos de datos en vivo, escalable, de alto rendimiento y tolerante a fallos. Spark puede acceder a datos de fuentes como Kafka, Flume, Kinesis o TCP socket. Puede operar usando varios algoritmos. Finalmente, los datos así recibidos se entregan al sistema de archivos, las bases de datos y los tableros en vivo. Spark usa * Micro-batching * para transmisión en tiempo real.

Más información sobre los componentes del ecosistema de Apache Spark.

Instalación de Apache Spark

Chispa de apache Instalación en Ubuntu .

Instalación de Apache Spark en el cluster de múltiples nodos.

Ir a través de este video tutorial de Apache Spark

¡¡Espero eso ayude!!

El análisis de “big data” es una habilidad valiosa y muy valiosa, y este curso te enseñará la tecnología más avanzada en big data: Apache Spark . Los empleadores, incluidos Amazon , EBay , NASA JPL y Yahoo, usan Spark para extraer rápidamente el significado de datos masivos. se establece en un clúster de Hadoop tolerante a fallas. Aprenderá esas mismas técnicas utilizando su propio sistema Windows en casa. Es más fácil de lo que piensa y aprenderá de un ex ingeniero y gerente senior de Amazon y IMDb.

Curso Link- Apache Spark 2.0 con Scala – ¡Manos a la obra con Big Data!

¡Adéntrate en más de 20 ejemplos prácticos de análisis de grandes conjuntos de datos con Apache Spark, en tu escritorio o en Hadoop!

¿Que aprenderás?

  • Enmarcar problemas de análisis de big data como scripts de Apache Spark.
  • Desarrollar código distribuido usando el lenguaje de programación Scala.
  • Optimice los trabajos de Spark a través de particiones, almacenamiento en caché y otras técnicas
  • Cree, implemente y ejecute scripts Spark en clústeres de Hadoop
  • Procese flujos continuos de datos con Spark Streaming
  • Transformar datos estructurados utilizando SparkSQL y DataFrames
  • Recorrer y analizar estructuras gráficas usando GraphX

Requerimientos

  • Se requiere algo de experiencia previa en programación o scripting. Se incluye un curso intensivo en Scala, pero es necesario conocer los fundamentos de la programación para poder continuar.
  • Necesitará una PC de escritorio y una conexión a Internet. El curso se crea con Windows en mente, pero los usuarios que se sienten cómodos con MacOS o Linux pueden usar las mismas herramientas.
  • El software necesario para este curso está disponible de forma gratuita, y lo guiaré para descargarlo e instalarlo.

Descripción del curso por autor-

Spark funciona mejor cuando se usa el lenguaje de programación Scala, y este curso incluye un curso intensivo en Scala para que te pongas al día rápidamente. Para aquellos más familiarizados con Python, sin embargo, también está disponible una versión de Python de esta clase: “Control de Big Data con Apache Spark y Python – Hands On”.

Aprenda y domine el arte de encuadrar los problemas de análisis de datos como Spark a través de más de 20 ejemplos prácticos , y luego escalarlos para que se ejecuten en los servicios de computación en nube en este curso.

  • Aprenda los conceptos de los almacenes de datos distribuidos resistentes de Spark
  • Consigue un curso intensivo en el lenguaje de programación Scala
  • Desarrolle y ejecute trabajos de Spark rápidamente usando Scala
  • Convierta los problemas de análisis complejos en scripts Spark iterativos o de múltiples etapas.
  • Amplíe hasta conjuntos de datos más grandes con el servicio Elastic MapReduce de Amazon
  • Entienda cómo Hadoop YARN distribuye Spark en los clústeres de computación
  • Practique el uso de otras tecnologías Spark, como Spark SQL, DataFrames, DataSets, Spark Streaming y GraphX

Al final de este curso, estará ejecutando un código que analiza gigabytes de información, en la nube, en cuestión de minutos.

Este curso es muy práctico; pasará la mayor parte del tiempo siguiendo al instructor mientras escribimos, analizamos y ejecutamos código real juntos, tanto en su propio sistema como en la nube mediante el servicio Elastic MapReduce de Amazon. Se incluyen 7.5 horas de contenido de video , con más de 20 ejemplos reales de complejidad creciente que puede construir, ejecutar y estudiar por sí mismo. Muévete a través de ellos a tu propio ritmo, en tu propio horario. El curso concluye con una descripción general de otras tecnologías basadas en Spark, que incluyen Spark SQL, Spark Streaming y GraphX.

Disfruta el curso!

¿Quién es el público objetivo?

  • Ingenieros de software que desean expandir sus habilidades en el mundo del procesamiento de big data en un clúster
  • Si no tiene experiencia previa en programación o scripting, primero querrá tomar un curso de programación introductorio.

Curso Link- Apache Spark 2.0 con Scala – ¡Manos a la obra con Big Data!

Spark proporciona una muy buena documentación. Puedes seguir estos pasos.

  1. Ir a través de la visión general. Descripción general de Spark – Documentación Spark 1.2.1
  2. Comience con Spark – Inicio rápido – Documentación Spark 1.2.1
  3. Consulte la guía de programación de la Guía de programación de Spark (todas ellas, junto con otros documentos: configuración, modos de clúster, seguridad, etc.)
  4. Luego puedes mirar el canal de Spark Youtube, para obtener más información.
  5. Si quieres usar Spark con la API de Scala. Sugeriría Programación Scala y Programación Funcional en Scala

Puede hacer un poco de ayuda mientras revisa el material y prueba cosas a medida que avanza.

Aprenda sobre Apache Spark aquí: https://hackr.io/tutorials/learn

1 # Integración con Hadoop

Spark se puede integrar bien con Hadoop y eso es una gran ventaja para aquellos que están familiarizados con este último. Técnicamente, un proyecto independiente, Spark ha sido diseñado de manera que se ejecute en el Sistema de Archivos Distribuidos de Hadoop. Se puede trabajar de inmediato con MapR. Puede ejecutarse en HDFS, dentro de MapReduce. Una vez implementado en YARN, incluso puede ejecutarse en el mismo clúster junto con los trabajos de MapReduce.

2 # Cumplir con los estándares globales

De acuerdo con los pronósticos tecnológicos, Spark es el futuro del procesamiento mundial de Big Data. Los estándares de Big Data Analytics están aumentando enormemente con Spark, impulsados ​​por el procesamiento de datos a alta velocidad y los resultados en tiempo real. Al aprender Spark ahora, uno puede cumplir con los estándares globales para asegurar la compatibilidad entre la próxima generación de aplicaciones y distribuciones Spark al ser parte de la Comunidad de Desarrolladores Spark. Si crees que amas la tecnología, contribuir al desarrollo de una tecnología en crecimiento en su etapa de crecimiento puede dar un impulso a tu carrera. Después de esto, puede mantenerse al día con los últimos avances que tienen lugar en Spark y estar entre los primeros para construir la próxima generación de aplicaciones de big data.

3 # Fading MapReduce y Spark Chispa

Spark es un marco de procesamiento de datos en memoria y está configurado para asumir todo el procesamiento primario para las cargas de trabajo de Hadoop en el futuro. Al ser mucho más rápido y más fácil de programar que MapReduce, Spark se encuentra ahora entre los proyectos de Apache de alto nivel, que ha adquirido la participación de una gran comunidad de usuarios y colaboradores. Matei Zaharia, CTO, Databricks y uno de los cerebros detrás del proyecto Apache Spark presenta a Spark como una herramienta de consulta multifacética que podría ayudar a democratizar el uso de big data. También proyectó la posibilidad de finalizar la era MapReduce con el crecimiento de Apache Spark.

4 # Spark Ya se está utilizando en Producción

El número de compañías que están utilizando Spark o están planeando el mismo ha aumentado en el último año. Existe un aumento masivo en la popularidad de Spark, la razón es que sus componentes maduros de código abierto y una comunidad de usuarios en expansión. Las razones por las que Spark se ha convertido en uno de los proyectos más populares en Big Data son las herramientas integradas de alto rendimiento que manejan distintos problemas y cargas de trabajo, y una interfaz de programación simple y rápida en Scala, Java o Python.

Hay varias razones, en cuanto a por qué las empresas están adoptando cada vez más Spark, que van desde la velocidad y la eficiencia y la facilidad de uso hasta el sistema integrado único para todas las líneas de datos, y muchas más. Spark, que es el proyecto de big data más activo, ha sido implementado en la producción por todos los principales proveedores de Hadoop y no Hadoop en múltiples sectores, incluidos servicios financieros, minoristas, medios de comunicación, telecomunicaciones y sector público.

5 # enorme demanda de profesionales de chispa

Spark es completamente nuevo y, sin embargo, está completamente extendido en el mercado de big data. El uso de Spark está aumentando a una velocidad muy rápida entre muchas de las empresas de primer nivel, como la NASA, Yahoo y Adobe. Aparte de aquellos que pertenecen a la comunidad de Spark, hay un puñado de profesionales que han aprendido a usar Spark y pueden trabajar en ello. Esto, a su vez, ha creado una demanda creciente para los profesionales de Spark. En tal escenario, el aprendizaje de Spark puede darte una gran ventaja competitiva. Al aprender Spark en este momento, puede demostrar la validación reconocida por su experiencia. Esto es lo que John Tripier, Alliances and Ecosystem Lead de Databricks tiene que decir: “La adopción de Apache Spark por parte de empresas grandes y pequeñas está creciendo a un ritmo increíble en una amplia gama de industrias, y la demanda de desarrolladores con experiencia certificada se está acelerando rápidamente. siguiendo su ejemplo”.

Para cualquier tecnología relacionada con Big Data, incluyendo Spark, su primer inicio debe ser la documentación en su propio sitio web. El sitio web de Apache Spark tiene buena documentación sobre cómo funciona Spark y también proporciona varios ejemplos sobre cómo puede trabajar con Spark. Entonces, ese tiene que ser el primer paso.

Descarga, configuración y rutas de aprendizaje – Descripción general – Documentación Spark 2.0

Guía de inicio rápido – Inicio rápido – Documentación de Spark 2.0

Varios ejemplos útiles – Ejemplos | Chispa de apache

Si ha completado todo eso, tendría una idea bastante buena de lo que puede hacer Spark y también de cómo usarlo para sus problemas.

Aparte de esto, también puede consultar varios videos instructivos en YouTube. Algunos buenos videos que me ayudaron son los siguientes.

1. Descripción de Spark

2. Introducción a Spark – Brian Clapper

Ver esos dos videos debería ser capaz de cimentar su comprensión acerca de Spark y también tendrá cierta exposición práctica al final.

Luego, puede comenzar a aprender sobre cosas más complejas y avanzadas que se pueden hacer con Spark.

3. Advanced Spark Analytics – Sameer Farooqui

Este es posiblemente uno de los mejores videos de entrenamiento disponibles en línea para Spark.

También revisa otros videos en el canal de youtube de Apache Spark para obtener un conocimiento más profundo.

Apache Spark – Canal de YouTube

Aparte de todo esto, si aún tienes tiempo, puedes recomendar algunos libros sobre Spark. Algunos buenos libros para Spark son los siguientes:

La chispa de aprendizaje de O’reilly (muy recomendable)

Esto proporciona un conocimiento fundamental de Spark y tiene varios ejemplos en Java, Python y Scala.

Otro libro útil es, Mastering Apache Spark. por Mike Frampton. Este libro también proporciona muchos casos de uso y ejemplos.

Entonces, esas son mis recomendaciones para aprender Spark. ¡Feliz chispa!

Este no es un curso de clase típico (en línea). No es solo una serie de videos con un solo flujo de información. En su lugar, es un entorno altamente interactivo donde el instructor comparte detalles perspicaces cuando se plantea cualquier pregunta / duda durante la conferencia. Prinshu enseña apasionadamente conceptos complicados en un lenguaje fácil de entender, apoyado con buenas analogías y ejemplos efectivos. El curso Big Data Hadoop Training en Bangalore está bien estructurado y abarca los conceptos de Big Data en anchura y profundidad. Actualmente estoy a la mitad del curso y ya estoy trabajando para traducir los conceptos aprendidos en clase a problemas del mundo real.

El curso sobre el marco de Big Data Hadoop y Apache Spark Training está orientado a la aplicación práctica de los conceptos en lugar de ser un curso de libro de texto sobre la teoría. Además, el instructor ha configurado una nube / clúster con todas las herramientas de Big Data necesarias instaladas (junto con archivos de datos de muestra) a las que el estudiante puede acceder para practicar el material de las clases. Puede practicar ejercicios prácticos durante las clases o en su propio tiempo libre. ¡Algo muy emocionante! Este es el mejor instituto de entrenamiento para aprender BigData.

Para más información:

Dirección: No. 14, 29th Main, 2nd Cross, VP road, BTM-1st Stage, Bangalore – 560 068, India

Línea de tierra no: 080-416 456 25

Móvil no: +91 8147111254

ID de correo: [email protected]

Twitter: prwatech (@prwatech) | Gorjeo

Google+: Prwatech en (entrenamiento Hadoop) – Google+

Sitio web: http://prwatech.in/

Hay muchos cursos en línea disponibles en Apache Spark, te sugeriré el mejor curso

1. Apache Spark 2.0 con Scala – ¡Manos a la obra con Big Data!

Descripción

¡Nuevo! Actualizado para Spark 2.0.0.

El análisis de “big data” es una habilidad valiosa y muy valiosa, y este curso te enseñará la tecnología más avanzada en big data: Apache Spark . Los empleadores, incluidos Amazon , EBay , NASA JPL y Yahoo, usan Spark para extraer rápidamente el significado de datos masivos. se establece en un clúster de Hadoop tolerante a fallas. Aprenderá esas mismas técnicas utilizando su propio sistema Windows en casa. Es más fácil de lo que piensa y aprenderá de un ex ingeniero y gerente senior de Amazon y IMDb.

Spark funciona mejor cuando se usa el lenguaje de programación Scala, y este curso incluye un curso intensivo en Scala para que te pongas al día rápidamente. Para aquellos más familiarizados con Python, sin embargo, también está disponible una versión de Python de esta clase: “Control de Big Data con Apache Spark y Python – Hands On”.

Aprenda y domine el arte de encuadrar los problemas de análisis de datos como Spark a través de más de 20 ejemplos prácticos , y luego escalarlos para que se ejecuten en los servicios de computación en nube en este curso.

  • Aprenda los conceptos de los almacenes de datos distribuidos resistentes de Spark
  • Consigue un curso intensivo en el lenguaje de programación Scala
  • Desarrolle y ejecute trabajos de Spark rápidamente usando Scala
  • Convierta problemas de análisis complejos en scripts Spark iterativos o de múltiples etapas.
  • Amplíe hasta conjuntos de datos más grandes con el servicio Elastic MapReduce de Amazon
  • Entienda cómo Hadoop YARN distribuye Spark en los clústeres de computación
  • Practique el uso de otras tecnologías Spark, como Spark SQL, DataFrames, DataSets, Spark Streaming y GraphX

Al final de este curso, estará ejecutando un código que analiza gigabytes de información, en la nube, en cuestión de minutos.

Todo lo mejor.

Asegúrate de cuidar estos puntos:

  1. Apache Spark 2.X es la última versión. Asegúrate de seguir esto. La versión 2.X es fundamentalmente diferente de la 1.6. Las versiones anteriores utilizan RDD como su concepto central. Los últimos lanzamientos utilizan DataFrames como su núcleo.
  2. Se puede aprender utilizando Scala, Python, Java y R. Spark R es muy nuevo, es mejor abstenerse de hacerlo si es nuevo en R. Spark utilizando Java que no parece ir bien con las implementaciones modernas. Scala definitivamente no es lo más fácil de aprender. Chispa con Python puede ser el punto de entrada más fácil. Pero, tenga en cuenta que Spark está escrito en Scala.
  3. RDD es un componente básico: dedique ~ 5 horas a esto. Aquí está el resumen de artículos para cuidar – awantik / pyspark-tutorial
  4. Spark se está adoptando mucho en el mundo de la ciencia de datos. DataFrame es muy similar a los pandas. Focus on Spark Dataframes, que forma parte de Spark.SQL
  5. Haga un poco de trabajo de análisis de datos de Your Home for Data Science usando esto.
  6. Todos los demás componentes, como Aprendizaje automático, Streaming estructurado y Marcos de gráficos, han cambiado mucho desde la inducción de marcos de datos de chispa. De hecho, las API’s son completamente diferentes aquí.

Resumen: Entienda RDD para que obtenga información interna de Spark. Sumérgete en Spark DataFrames para que puedas aprender aplicaciones como Machine Learning, Streaming y GraphFrames (versión moderna de GraphX)

Un curso decente se puede encontrar aquí. http://zekelabs.com/courses/spar

Explicaré el método que utilicé para aprender Spark. Este método es un poco diferente de otras respuestas aquí y asume que hay una idea de cómo se incluye el software (estructura de directorios).

Antes de aprender RDD, DAG, Mllib, etc., todo lo que hice fue descargar Apache Spark de Descargas | Apache Spark. Atravesé la estructura de carpetas de Spark.

Los dos directorios que son importantes son spark / bin / y spark / conf.

Pasar por el directorio bin le brinda una breve idea de los idiomas admitidos y las aplicaciones disponibles en spark y play con el terminal interactivo de scala y python durante algún tiempo.

Ir a través del directorio de contras da una idea de varios parámetros de configuración y varios niveles de configuraciones que se pueden establecer en chispa.

Ahora debemos entender qué es Spark y en qué se diferencia de su predecesor Hadoop Hadoop MapReduce vs. Apache Spark ¿Quién gana la batalla? También tenga una idea de en el procesamiento de memoria Una arquitectura de datos moderna para procesar Big Data In-Memory – Hortonworks y también tiempo para ver DAG DAG vs MapReduce y la programación funcional ( http://www.cse.chalmers.se ).

Ahora es el momento de sumergirse profundamente en la chispa.

Para aprender scala, toma el curso coursera scala ( https://www.coursera.org/ )

Para aprender Python, tome el curso Edx Python (Introducción a la informática y la programación utilizando Python)

La mejor manera de aprender cualquier trabajo de marco es leer la documentación o el código fuente. Es mejor leer la documentación, ya que leer el código fuente lleva mucho tiempo.

Inicio rápido: la documentación de Spark 1.6.1 le brinda breves descripciones de varias aplicaciones disponibles en spark.

La Guía de programación de Spark te lleva a los detalles de la programación de spark.

El hecho de que Databricks sea uno de los comensales para encender su sitio web también es un buen lugar (Learn Spark – Recursos, guías y documentación de Databricks)

Ir a través de Sameer Farooqui (Databricks) otros videos en youtube:

Y hay una nueva serie de MOOC que está a la espera de spark: Data Science and Engineering with Spark

Siempre tome una declaración del problema y el trabajo es la mejor manera de aprender.

Ese es un muy buen pensamiento para aprender Apache Spark. Incluso puede aprender Spark por su cuenta a través de Tutoriales de Spark o también puede seleccionar la capacitación en video en línea como una opción.

Déjame contarte algunas ideas de Apache Spark:

Cuando se trata de Big Data Processing, una cosa que sobresale es Apache Spark. Es un sistema de computación en clúster rápido y de uso general rápido. Proporciona API de alto nivel. Por ejemplo, Java , Scala , Python y R. Apache Spark es una herramienta para ejecutar aplicaciones Spark. Spark es 100 veces más rápido que Bigdata Hadoop y 10 veces más rápido que acceder a datos desde el disco.

Inicia tu aprendizaje con la Introducción básica de Spark. Siga el enlace como:

Apache Spark – Un tutorial completo de Spark para principiantes

Ahora avanzando puedes aprender sobre su ecosistema,

Ecosistema Apache Spark – Guía completa de componentes Spark

Ahora ve a Abstractions of Spark,

Spark RDD – Introducción, características y operaciones de RDD

luego comienza a aprender, cómo Spark es el motor de soporte en tiempo real,

Spark Streaming Tutorial para principiantes

Después de completar el estudio, prueba tu propio conocimiento de Spark,

Más de 50 preguntas y respuestas sobre Apache Spark

Como mencioné anteriormente, también puede seleccionar la opción de capacitación en línea,

Consulte algunos tutoriales en video primero:

Estos son algunos videos tutoriales de DataFlair Online Training. Usted puede ir para la formación en línea de Data Flair. Se requieren 3 meses para completar la capacitación junto con los proyectos en línea en tiempo real. Contiene todos los conceptos de Apache Spark desde el principio hasta la función avanzada y una capacitación completa orientada a la práctica. Obtendrá un 100% de asistencia laboral y acceso de soporte de por vida.

Para saber más sobre este programa en línea, siga el enlace a DataFlair

Para aprender Spark, primero debes elegir un idioma básico que Spark Supports (R, Scala, Python y R).

Edureka tiene uno de los cursos en línea más detallados y completos de Apache Spark. Pero antes de pasar por cualquier entrenamiento en línea, simplemente pase por esto para tener un conocimiento básico de la tecnología y los fundamentos.

En primer lugar, comprenda el concepto de Big Data y Hadoop, y cómo Spark es la solución a la que se enfrentan algunos problemas debido a la aparición de Big Data.

Para avanzar, necesita aprender sobre Scala , ya que Spark-shell se ejecuta de forma predeterminada en Scala.

  • Scala es un lenguaje de programación de propósito general, cuyo objetivo es implementar patrones de programación comunes de manera concisa, elegante y segura para el tipo.
  • Admite estilos de programación tanto orientados a objetos como funcionales, lo que ayuda a los programadores a ser más productivos.

Más adelante, necesita aprender acerca de los RDD , que son los componentes básicos para cualquier código de chispa.

  • RDD (Resilient Distributed Dataset) es una abstracción de memoria distribuida que permite a los programadores realizar cálculos en memoria en grandes grupos de manera tolerante a fallas.
  • Son una colección de objetos de solo lectura divididos en un conjunto de máquinas que se pueden reconstruir si se pierde una partición.
  • Los RDD se pueden crear a partir de múltiples fuentes de datos, por ejemplo, la colección Scala, el sistema de archivos local, Hadoop, Amazon S3, la tabla HBase, etc.

Edureka proporciona una buena lista de videos de Spark. Te recomendaría que revises esta lista de reproducción de Edureka Spark y el Tutorial de Spark .

Espero que esto ayude.

A veces es una buena idea aprender el caso de uso de alguna aplicación específica de Apache Spark en combinación con otras plataformas. En ese caso, aprenderá cómo funciona y cómo puede construir una solución viable.

Por ejemplo, el verano pasado, el 23 de julio, demostramos cómo Spark Streaming podría usarse para recopilar los datos de rendimiento en tiempo real de los paneles solares a través de nuestra plataforma Kaa IoT. Así es como Apache Spark se puede utilizar en el campo de Internet de las cosas (IoT). Puede ver el video de ese seminario web aquí: Seminario web: Ingesta de datos de IoT en Spark Streaming usando Kaa

La próxima semana, el 10 de septiembre, realizaremos nuestro próximo seminario web gratuito sobre un tema similar, pero para Cassandra. Es diferente de Spark, pero puede ser útil para usted, especialmente cuando necesita aprender más sobre Big Data.

Durante este seminario web, construiremos una solución que ingiera datos en tiempo real de un sensor de temperatura conectado a Raspberry Pi en Cassandra para su posterior procesamiento y análisis. También revisaremos algunas de las mejores prácticas en el modelado de datos de IoT y big data y demostraremos lo fácil que es. Es reutilizarlos en la plataforma Kaa IoT.

Si desea ver cómo se puede usar Cassandra para recopilar datos en tiempo real de sensores de temperatura, no dude en registrarse aquí.

Apache spark es un marco distribuido, rápido, casi en tiempo real. No es un reemplazo para el marco tradicional de Mapreduce, pero se puede usar además.

La característica más beneficiosa para Apache Spark es la computación perezosa. Spark no ejecuta las transformaciones hasta que se encuentra alguna acción o se encuentra el caché.

Spark usa RDD como el nivel más bajo de abstracción y los marcos de datos o conjuntos de datos se basan únicamente en RDD.

Cada vez que algunos trabajos se ejecutan en chispa, se forma DAG (gráfico acíclico dirigido). Representa todas las transformaciones y acciones llamadas en el rdd en forma de un gráfico unidireccional.

Para proporcionar chispa de TOLERANCIA A FALTA utiliza este DAG. En el caso de fallos de nodo o cualquier otra pérdida, se vuelven a calcular desde el último punto seguro (caché o punto de control ) y, como resultado, el mismo rdd es la salida cada vez que se calcula este dag.

Además, otra ventaja principal de Spark es la COMPUTACIÓN EN MEMORIA. El marco de Mapreduce se utiliza para escribir los archivos intermedios generados como resultado del cálculo en alguna memoria y luego usar estos archivos en la fase de reducción, pero en caso de chispa, intenta almacenar los archivos en la memoria caché.

En chispa, usted como desarrollador debe ocuparse de la LOCALIDAD DE DATOS tanto como sea posible (5-6 modos de localidad de datos). Lo más cercano a los datos es que su trabajo es tan rápido porque se requiere un tiempo mínimo para obtener datos de la memoria caché que de un nodo en un rack totalmente diferente de su clúster.

Además, spark proporciona Spark SQL, spark streaming, spark MLIB frameworks en una casa y soporte para diferentes idiomas como scala, Python, java y se está trabajando para admitir R también. Como la chispa en sí misma está escrita en Scala, en su mayoría sería mejor escribir trabajos en Scala, pero Python es compatible con más bibliotecas, por lo que depende del caso en que idioma elija.

Apache Spark proporciona muchos marcos en un solo paquete con una gran comunidad de desarrolladores. Además, proporciona otras desventajas del marco como ventajas de chispa (mencionadas en negrita ).

Para aprender Apache Spark , muchos recursos están disponibles en línea.

Primero vea esta asombrosa explicación de Sameer Advanced Apache Spark Training – Sameer Farooqui (Databricks)

A continuación puedes pasar

1. http: // Learning Spark https: // ww … – Learning Spark

2. Chispa en acción: Petar Zecevic, Marko Bonaci: 9781617292606: Amazon.com: Libros – chispa en acción

Además, instale spark y conozca todas las transformaciones y acciones, cómo funcionan y qué operadores usar cuándo. Por ejemplo, se prefiere reducirByKey sobre groupByKey pero no se prefiere cuando los formatos de entrada y salida son diferentes.

También puede pasar por Mastering Apache Spark 2, donde Jacek ha combinado todos los conceptos necesarios para comenzar con Apache spark.

Espero que esto ayude. Feliz aprendizaje.

Avik aggarwal

Las pruebas en el mundo de Apache Spark a menudo han involucrado una gran cantidad de código artesanal enrollado a mano, lo que, francamente, es una buena manera de garantizar que los desarrolladores escriban la menor cantidad de pruebas posible. Aprendí apache spark con Intellipaat para probar y hacer que las pruebas de Spark sean tan fáciles como el software “normal” (y eliminar las excusas para no escribir pruebas). Probar Spark Streaming a mano implica superar una serie de obstáculos. Necesitamos averiguar cuándo se realizan nuestras pruebas (y si observas algunas pruebas, puedes ver a personas que esperan K-segundos, lo que es simplemente triste). Si quieres aprender Apache Spark, sugeriría Big Data Hadoop, Spark, Storm, Scala – Combo Training Classes Online | Big Data Hadoop, Spark, Storm, Scala – Combo Courses Online , necesitamos obtener nuestros datos en Spark Streaming (que a partir de 1.4.1 se ha vuelto más complicado; si necesita usar cualquier tipo de operaciones con estado, como operaciones de ventanas o ACTUALIZACIÓN DE TECLAS el enfoque tradicional de usar QUE Stream para las pruebas ya no funciona), y necesitamos recopilar nuestros datos. En lugar de lidiar con estos problemas, podemos especificar nuestra entrada y salida esperadas y usar la función de Operación de Prueba de la Base de Prueba de Chispa para probar nuestra función hipotética de token

En primer lugar, me gustaría sugerirle que vea tutoriales en video que expliquen qué es realmente Spark y cómo funciona. Si necesita un buen tutorial, puede ver este tutorial para principiantes que explica la Introducción a Spark & ​​Scala.

¿Quieres leer información más detallada sobre Spark. Comprenda qué es Apache Spark – Next-Gen Big Data Tool. Conozca cómo Spark está aligerando el marco de computación en clúster de propósito general y rápido.

Luego, le sugeriremos que aprenda cómo instalar Apache Spark en su máquina. Después de instalar Spark, siga esta guía completa que enumera los comandos / operaciones de Spark para interactuar con el shell de chispa. Procesar datos usando la acción y transformación de RDD.

Desea conocer conjuntos de datos distribuidos resilientes en Apache Spark. Comprenda qué es RDD y las características de RDD, qué se necesitaba para RDD y cómo hace de Spark una herramienta rica en características.

Ahora entienda cómo procesar datos utilizando transformaciones de RDD y API de acciones en Apache Spark

Para mejorar su conocimiento sobre Spark, también puede leer estos Libros completos sobre Apache Spark y Scala para aprender Apache Spark y comenzar su carrera en esta tecnología en auge.

Apache Spark fue desarrollado por Matei Zaharia en 2009 como un subproyecto de Hadoop en el AMPLab de UC Berkeley. Fue utilizado por primera vez por expertos en aprendizaje automático que utilizaron Spark para monitorear y predecir la congestión del tráfico en el área de la Bahía de San Francisco.

Apache Spark es el nuevo motor de procesamiento que forma parte de la Fundación de software Apache que impulsa las aplicaciones de Big Data en todo el mundo. Está tomando el relevo de donde salió Hadoop MapReduce o de donde MapReduce está encontrando cada vez más dificultades para hacer frente a las necesidades exigentes de la empresa de ritmo rápido.

Las grandes cantidades de datos no estructurados y la necesidad de una mayor velocidad para cumplir con los análisis en tiempo real han hecho de esta tecnología una alternativa real para los ejercicios computacionales de Big Data.

Hay una gran cantidad de datos que necesitan ser procesados ​​en tiempo real. Veamos la magnitud de los datos que se discuten.

1) 30+ Petabytes de datos generados por el usuario se almacenan, acceden y analizan en Facebook

2) Por cada minuto, los usuarios de YouTube suben 48 horas de video nuevo.

3) Facebook tiene que servir solicitudes de carga en la magnitud de 100 terabytes

4) Por cada minuto hay más de 500 sitios creados.

Esta es la razón por la que Spark cumple con una gran necesidad de un marco de análisis en tiempo real competente.

Características de la chispa

1) La velocidad de procesamiento es alta : Spark es 100 veces más rápido que Hadoop cuando se ejecuta en la memoria y 10 veces más rápido que Hadoop cuando se ejecuta en el disco. La forma en que lo logra es que esencialmente reduce el número de lecturas y escrituras en el disco.

2) Tolerancia a fallos : para manejar con gracia los fallos de cualquier nodo de trabajo en el clúster, Spark y su abstracción RDD (conjunto de datos de distribución resistente) es útil. Por lo tanto no hay pérdida de datos.

3) En el procesamiento de la memoria : el disco se está volviendo exorbitante con la expansión de los volúmenes de información. La lectura de terabytes a petabytes de información del disco y la escritura en el disco crea una sobrecarga enorme. Por lo tanto, el manejo en memoria de las funciones de Spark es muy útil para ampliar la velocidad de procesamiento. Para un acceso más rápido los datos se guardan en la memoria. El motor de ejecución DAG de Spark es una de las razones de la alta velocidad debido al flujo de datos acíclicos y el cálculo en memoria.

4) Dinámico : el desarrollo de aplicaciones paralelas en Spark es posible gracias a más de 80 operadores de alto nivel. Aunque Scala es el idioma predeterminado para Spark; Python, Java y R se pueden usar para ejecutar Spark. Esta dinámica no se puede esperar en Hadoop MapReduce, que solo admite Java.

5) Se integra con Hadoop : el uso de YARN para la programación de recursos Spark puede ejecutarse sobre el clúster de Hadoop. Los expertos en Hadoop también pueden, por lo tanto, con Spark sin mucha dificultad.

6) Evaluación perezosa : una de las razones por las que Spark es tan rápido en el procesamiento es que demora la evaluación hasta que exista un requisito absoluto. Utiliza DAG para el cálculo y solo se ejecuta cuando un controlador solicita algunos datos.

Dominios donde se usa Chispa

Ahora, vamos a dar un paseo en varias áreas de dominio donde se utiliza Spark.

1. Administrar una cuenta : es imperativo garantizar intercambios tolerantes a fallas en todo el sistema bancario. Chispa es útil en este sentido. La detección de fraudes, el análisis de riesgo de crédito y para muchos otros propósitos, Spark es muy utilizado.

2. Gobierno : Incluso las agencias gubernamentales utilizan análisis en tiempo real de Spark para reforzar la seguridad nacional. Para las actualizaciones sobre amenazas a la seguridad nacional, las naciones de todo el mundo necesitan analíticas para realizar un seguimiento de todas sus agencias de inteligencia, militares y policiales.

3. Telecomunicaciones : las compañías de telecomunicaciones utilizan analíticas en tiempo real para respaldar llamadas, video chats y transmisión. Para mejorar la experiencia del cliente, se toman adecuadamente en cuenta las medidas de fluctuación y retraso.

4. Atención médica : para verificar constantemente el estado terapéutico de los pacientes críticos, las agencias de atención médica utilizan análisis en tiempo real. Los hospitales que están atentos a los trasplantes de sangre y órganos deben permanecer en contacto continuo en medio de crisis. Recibir tratamiento terapéutico a tiempo implica asuntos de vida o muerte para los pacientes. My Fitness Pal es una buena firma que rastrea datos de calorías de 80 millones de usuarios que usan Spark.

5. Mercado de valores : los corredores de bolsa utilizan análisis en tiempo real para anticipar el desarrollo de las carteras de acciones. Las organizaciones vuelven a examinar su modelo de negocios luego de utilizar análisis en tiempo real para investigar el interés del mercado por su marca. Renaissance Technologies está administrando con éxito una inversión de alrededor de $ 27 mil millones utilizando operaciones algorítmicas y análisis en tiempo real. En la India, hay varias empresas que proporcionan el beneficio de análisis en tiempo real a la gente común en el ámbito del mercado de valores. Minance, Squareoff y Return Wealth son algunos de ellos.

Para obtener más información sobre Apache Spark, puede consultar la capacitación de Intellipaat en Spark, Apache Spark Training. El curso de capacitación Intellipaat Apache Spark y Scala Certification le ofrece conocimientos prácticos para crear aplicaciones Spark utilizando la programación de Scala. Te da una comparación clara entre Spark y Hadoop. El curso le proporciona técnicas para aumentar el rendimiento de la aplicación y habilitar el procesamiento de alta velocidad con los RDD de Spark, así como la ayuda en la personalización de Spark con Scala.

Mira este tutorial de Spark para saber más sobre Apache Spark.

Haga upvote si encuentra útil esta respuesta para que la respuesta llegue a otros quoranes. Gracias.:)

Algunos de los recursos que estoy usando para aprender Spark son:

  1. Documentación de Spark (Descripción general de Spark – Documentación de Spark 1.1.1)
    Consiste en Overviw, Guía de inicio rápido, Guía de programación y documentos API, etc.
  2. Canal de Apache Spark en YouTube (Apache Spark). Tienen muy buenas presentaciones de video en este canal.
  3. Los Databricks tienen algunos recursos de capacitación agradables (Spark Training Resources – Databricks)
  4. Algunos ejemplos iniciales para comenzar a aprender y jugar están disponibles en Ejemplos | Chispa de apache
  5. Spark Community es bastante activa en caso de que tenga algún problema, puede usar las listas de correo. Comunidad de cheques | Chispa de apache
  6. Si desea aprender Chispa desde el punto de vista de la investigación que se está realizando. Me gustaría referir estos trabajos de investigación Investigación | Chispa de apache

¡Feliz aprendizaje!