Responderé a esta pregunta, ya que recientemente realicé una buena cantidad de estudios para diseñar el currículo del curso para Big Data, ya que estamos lanzando los cursos en Digital Vidya. Mi confusión surgió del hecho de que no es posible aprender tantas habilidades al mismo tiempo en el nivel y profundidad adecuados. Vengo de más de 19 años de experiencia en tecnología de software; ensayó diferentes roles, y comprenda lo importante que es que un candidato sea capaz de aportar un cierto nivel de profundidad, claridad al presentarse para entrevistas técnicas y luego formar parte del equipo. El relleno del curriculum vitae es casi siempre un elemento disuasivo.
Mi confusión llegó a su punto máximo al ver muchos currículos que ofrecen todas las tecnologías en un paquete. Cuando hablé con los especialistas en la industria que trabajaban en proyectos de Big Data, surgió la claridad y, como esperaba, siempre es mejor tener una especialización para ser un colaborador importante de un proyecto. La ampliación de habilidades es importante, pero eso no se puede hacer de una sola vez, como un gran mash-up.
Con el contexto anterior, para que el lector pueda seguir el razonamiento, hemos diseñado dos especializaciones, y esto respondería la pregunta más directamente sobre qué aprender.
a) Big Data Engineer – Especialización para personas con antecedentes en SQL. Modelado ETL, Hive, Pig, Flume, Sqoop, Spark SQL
- Cómo empezar a aprender sobre los coches para convertirse en mecánico.
- ¿Los autos que conducen por sí mismos a veces tienen que permitir que ocurran las colisiones para que las personas aprendan que no son las maniobras en la carretera?
- ¿Por qué las lenguas del sur de la India son difíciles de aprender mientras que los indios del sur hablan bien el hindi?
- Cómo aprender y entender una ley particular.
- ¿Cuáles son las mejores y más eficientes formas de aprender algoritmos para principiantes?
b) Ingeniero de aplicaciones de Big Data – Especialización para personas con antecedentes en desarrollo / programación. Análisis en tiempo real, fundamentos de Apache Spark, Spark Advanced, Spark ML, integración con Kafka y Hive.
La base de Hadoop que incluye conocimiento de agrupación en clústeres, HDFS y una base de datos NOSQL está cubierta para que todos se aseguren de que las personas entiendan el marco básico para Big Data.
Un científico de datos, considerando su propia experiencia, toma una decisión. Si juegas bien en SQL, opta por el conjunto de habilidades de Big Data Engineer o si te gusta resolver problemas y hacer modelos ML, querrás adquirir las habilidades en Spark y su ecosistema.