Si bien no quiero exagerar la complejidad del campo, 30 días es muy corto.
- Pasar la mayor parte de mi tiempo en los conceptos básicos de las estadísticas.
- Entonces echa un vistazo a 1 o 2 técnicas muy comunes. (p. ej., regresión lineal y regresión logística)
- Tome un conjunto de datos que le interese y realice algunas estadísticas descriptivas (recuentos, máximo, mínimo, mediana, gráficos, etc.) y descubra tantas cosas extrañas en los datos como sea posible. Cosas extrañas que no parecen correctas.
- Ahora trate de responder una pregunta por sí mismo en el conjunto de datos anterior. Haga esto al (A) resolver las cosas raras, (B) obtener los datos en un formato que funcione para (C) una de las técnicas comunes que estudió. Está bien si hackeas el código junto con un montón de google. (Sin embargo, verifique la salud mental de sus resultados;))
Permítanme elaborar un poco:
1. Estadística básica
Uno de los escollos más fáciles es simplemente eliminar implementaciones de algoritmos y lanzarlas contra su problema. Pero la mayoría de los algoritmos se basan en suposiciones y todos ellos tienen algunas limitaciones. Un buen conocimiento de las estadísticas básicas le ayudará a:
- Determine si las suposiciones se mantienen.
- Lo que significan para su elección de algoritmo
- Razón sobre las limitaciones que implican.
- El impacto si no están presentes (lo que no siempre es dramático)
Cualquier tiempo que pase aquí pagará dividendos cada vez que vea un nuevo algoritmo. Así que no te preocupes si esto te lleva casi todo el tiempo.
2. Técnicas comunes
Al principio, es mejor que profundices más que lo amplio, porque muchos conceptos / elementos regresan de cualquier forma en otros algoritmos.
- Cómo empezar a aprender sobre Quant Trading
- ¿Cuáles son las mejores herramientas gratuitas disponibles en línea para aprender a escribir caracteres chinos?
- ¿Cuáles son las mejores guías para aprender a simplificar las raíces cuadradas?
- ¿Puedes recordar cuándo aprendiste a leer por primera vez y quién te enseñó?
- ¿Cuáles son algunos sitios en línea que ofrecen cursos de ‘aprendizaje acelerado’ para los ‘habilitados mentalmente’?
Menciono dos tipos de regresiones porque en muchos casos obtendrás una respuesta decente con estas técnicas. Además, en cierto sentido, es asombroso cómo algo que es básicamente “dibujar una línea de tendencia” en Excel realmente es tan profundo. No es que todo esto se tome muy en cuenta en la práctica, pero aún así es bueno tenerlo en la parte posterior de la cabeza. Especialmente para aquellos momentos en los que obtienes resultados extraños.
3. Cosas extrañas de datos
Este es el tiempo más grande, siempre. Y es muy importante, de ahí el mantra ‘basura dentro, basura fuera’. Toma cualquier conjunto de datos del mundo real que no haya sido pre-limpiado y encontrarás cosas extrañas:
- Un valor enormemente sobrerrepresentado (las empresas a las que les gusta codificar faltan 999 …)
- Identificaciones duplicadas
- Una variable que en realidad es una identificación (asombrosa la cantidad de sueños de los estudiantes que se rompen al señalar esta opción si tienen un modelo casi perfecto;))
- Valores faltantes
- Casos mal etiquetados, faltas de ortografía …
- Todo está en el nivel estatal, excepto este estado para el que están reportando los condados.
- …
Necesitas experimentarlo para reconocerlo. Y casi cualquier conjunto de datos del mundo real + un ojo crítico te hará hacer eso. 😉
4. Inténtalo
Bueno, no aprendiste todo esto para no usarlo, ¿verdad? Además, es importante dar sentido a sus resultados. Y ser crítico para ellos también. Es tan fácil cometer un error lógico que no es un error de programación. Es decir, el software se ejecutará, pero el resultado será muy incorrecto.
Si quiere llegar hasta el final, lleve sus resultados a un amigo / familia e intente explicar a alto nivel lo que hizo, cuáles son los resultados y qué significan. Hablando nuevamente desde la experiencia docente, hay personas que son realmente buenas en el tema técnico, pero no pueden transferir las implicaciones relevantes de esto a una persona no técnica.
Los cursos
Una última palabra sobre los MOOC: como mencionaron otros: Andrew Ng tiene uno excelente. Pero todavía lo complementaría con estadísticas más básicas para tener una buena base a partir de la cual construir. Y aunque me gustó mucho el MOOC porque en realidad te permite implementar algoritmos, comprenderlos conceptualmente es mucho más importante que poder escribirlos. La mayoría de los algoritmos comunes tienen implementaciones estándar en varios idiomas.
Tenga mucho cuidado con los cursos que no discuten las técnicas y los conceptos con los que se basa.