La ciencia de datos es una ciencia, es un campo bastante grande. La respuesta es mi percepción personal de cómo comenzar tu viaje.
En primer lugar, es importante comprender qué significa la ciencia de la información y los diferentes campos que se unen para formarla. Cuando comencé mi ruta de aprendizaje en Data Science, no tenía forma. Pasé por muchos cursos y materiales que no tenían ningún tipo de conexión. Sé que hay muchos cursos que enseñan ciencia de datos a partir de los conceptos básicos, pero este es un curso que recomendaría para un principiante (Data Science 101). Esta es una introducción completamente no técnica a Data Science en general. Te darás cuenta de la gran cantidad de problemas donde se aplican estas técnicas.
Una vez que haya terminado con una introducción informal al campo (el curso debería ayudarlo a tomar una decisión sobre si desea participar en este campo o no), es importante sumergirse en los componentes técnicos principales del flujo de trabajo de la ciencia de datos: estadísticas y Un poco de programación (preferiblemente Python o R). Personalmente uso Python porque estoy acostumbrado, pero realmente no hace una diferencia en el idioma que elijas. No tengo ningún enlace para dirigirte a aprender programación para la ciencia de la información, pero sería suficiente para que un principiante use bucles, sentencias condicionales, funciones y funciones básicas de otras bibliotecas como NumPy, SciPy, Pandas y MatplotLib. . Tengo un par de recomendaciones para clases de estadísticas que son gratuitas en línea, una de las cuales es impartida por Sebastian Thrun, cofundador de Udacity (Introducción a las estadísticas) y la otra es Murtaza Haider, profesora asociada de la Universidad Ryerson. , Canadá (Estadísticas 101). Prefiero el curso de Sebastian Thrun porque no tiene mucho que ver con los lenguajes de programación y tiene muchos cálculos manuales.
Para la programación, solo necesita conocer algunas funciones sobre cómo leer un conjunto de datos, mostrar cada fila, resumir cada columna (variable), etc. Si le interesa la ciencia de datos, debe estar familiarizado con el repositorio de Aprendizaje automático de la UCI ( Repositorio de aprendizaje automático de la UCI: conjuntos de datos). Tome su propio conjunto de datos: cualquier cosa que encuentre intrigante que lo empujará a pasar algún tiempo uno. Realice una pequeña cosa antes de comenzar. Un análisis no tiene juego final. Tome una fila y compárela con la otra para ver cómo una diferencia numérica / categórica impacta el valor objetivo, visualice el rango de valores para cada variable usando varios gráficos, dedique un poco de tiempo a escribir / registrar sus resultados en cada paso. ¿Por qué? cree que una variable A depende de otra variable H , pregunte si estas variables dependen unas de otras en el mundo real, o si su relación se limita a los datos en los que está trabajando, etc. La ciencia de datos no se trata solo de preguntar a la Preguntas correctas, también se trata de encuadrar la pregunta de una manera comprensible.
- Cómo protegerme de tener una crisis existencial cada vez que aprendo sobre un nuevo concepto.
- ¿Puedes aprender matemáticas únicamente de los ejercicios de la Academia Khan?
- ¿Los estudiantes lentos no son muy inteligentes?
- ¿Cuáles son las cosas que no aprendimos en la escuela pero debemos?
- ¿Cómo describirían los maestros sus procesos de preparación de lecciones?
Una vez que haya terminado con el análisis primario de datos, ahora ha crecido un poco en este campo. Es importante hacer predicciones para impulsar sus ideas al mundo real. Considere tomar el curso Aprendizaje automático de Andrew Ng (Aprendizaje automático | Coursera). Si completa con éxito este curso, siga los siguientes pasos como se indican en esta respuesta (la respuesta de Prudhvi Raj a ¿Desde dónde debo comenzar después del curso de Aprendizaje de máquinas de Andrew Ng en Coursera?)
Espero que esto te ayude y comenzarás tu viaje hacia el mundo de Data Science.