Este es un paquete de habilidades técnicas que son útiles si no es necesario:
1- Conocimiento de un lenguaje de scripting. Recomiendo Python, muy fácil de aprender, versátil, con una comunidad activa que lo apoye. ‘R’ puede ser una opción también.
2- Conocimiento de paquetes científicos básicos, que, en el caso de Python, puede ser scikit-learn, numpy, scipy para empezar.
3- Comprensión de las estadísticas básicas (prueba t, prueba de correlación, modelos lineales, etc.)
4- Comprensión del aprendizaje automático básico para el análisis predictivo (modelos lineales, svm, pca)
5- Visualización de datos básicos.
6- Conocimiento del campo al que aplica la ciencia de datos. Por ejemplo, si analiza datos financieros, necesita saber algo sobre finanzas
Sin embargo, las habilidades técnicas no lo son todo, y la experiencia y la sensibilidad son tan importantes.
La ciencia de datos significa responder preguntas relevantes utilizando datos. Por lo tanto:
– ¿Cuál es la pregunta que quieres responder? (Esto está relacionado con el punto 6 anterior)
– ¿Cuál es la información que está disponible para usted? ¿Cuáles son los datos que podrían / deberían estar disponibles para usted? (Los datos son un activo, y obtenerlos podría ser costoso en términos de tiempo, dinero, energía).
– ¿Puedes responder tu pregunta con tus datos? A esto lo llamo comprensión de problemas y datos.
– ¿Qué modelos puedo usar? ¿Cuáles son los pros y los contras de cada uno? ¿Estoy introduciendo aproximaciones o suposiciones que sean significativas?
– ¿Cómo puedo transmitir los resultados?
Te recomiendo que juegues con datos para ganar experiencia. Hay una gran cantidad de conjuntos de datos gratuitos en la web. Por ejemplo, aquí hay una colección: Stanford Large Network Dataset Collection
- ¿Podría un átomo ser cortado en dos?
- ¿Qué se necesitaría para crear un transformador de la vida real?
- ¿Es lógico comparar religión con ciencia?
- ¡Me dan pistas de lo que sucederá en un futuro cercano! ¿Hay alguna explicación científica para esto?
- ¿Es posible que un objeto tenga dos centros de gravedad?
Además, es mejor que lea los artículos de investigación de conferencias de informática como KDD para tener una idea de cómo las personas capacitadas manejan los datos.