¿Qué conocimientos debo tener para obtener una pasantía como Ingeniero de Ciencia de Datos?

Este es un paquete de habilidades técnicas que son útiles si no es necesario:

1- Conocimiento de un lenguaje de scripting. Recomiendo Python, muy fácil de aprender, versátil, con una comunidad activa que lo apoye. ‘R’ puede ser una opción también.
2- Conocimiento de paquetes científicos básicos, que, en el caso de Python, puede ser scikit-learn, numpy, scipy para empezar.
3- Comprensión de las estadísticas básicas (prueba t, prueba de correlación, modelos lineales, etc.)
4- Comprensión del aprendizaje automático básico para el análisis predictivo (modelos lineales, svm, pca)
5- Visualización de datos básicos.
6- Conocimiento del campo al que aplica la ciencia de datos. Por ejemplo, si analiza datos financieros, necesita saber algo sobre finanzas

Sin embargo, las habilidades técnicas no lo son todo, y la experiencia y la sensibilidad son tan importantes.
La ciencia de datos significa responder preguntas relevantes utilizando datos. Por lo tanto:
– ¿Cuál es la pregunta que quieres responder? (Esto está relacionado con el punto 6 anterior)
– ¿Cuál es la información que está disponible para usted? ¿Cuáles son los datos que podrían / ​​deberían estar disponibles para usted? (Los datos son un activo, y obtenerlos podría ser costoso en términos de tiempo, dinero, energía).
– ¿Puedes responder tu pregunta con tus datos? A esto lo llamo comprensión de problemas y datos.
– ¿Qué modelos puedo usar? ¿Cuáles son los pros y los contras de cada uno? ¿Estoy introduciendo aproximaciones o suposiciones que sean significativas?
– ¿Cómo puedo transmitir los resultados?

Te recomiendo que juegues con datos para ganar experiencia. Hay una gran cantidad de conjuntos de datos gratuitos en la web. Por ejemplo, aquí hay una colección: Stanford Large Network Dataset Collection

Además, es mejor que lea los artículos de investigación de conferencias de informática como KDD para tener una idea de cómo las personas capacitadas manejan los datos.

Cálculo 1-3, Álgebra Lineal, Estadística, programación y quizás algunos cursos de aprendizaje automático. Es una ventaja si ya tiene proyectos en los que analizó algún tipo de datos. Tenga en cuenta que algunas de las pasantías están dirigidas a estudiantes de doctorado.