Tengo un conocimiento básico de aprendizaje automático. ¿Debo seguir mejorando mi conocimiento o comenzar a explorar otras áreas como las estadísticas?

Ha implementado SVM, RF y modelos de regresión. ¿Cómo sabes que los has implementado correctamente ?

Para saber que tienen razón, debes entender lo que están haciendo. Y una base muy común para esto es a través de las estadísticas. No es la única manera. Ciertamente es lo más fácil para la regresión (y RF, en mi opinión, pero eso podría ser solo para mí). También se puede hacer con SVM, aunque es bastante teórico en algunos puntos.

Si se pregunta cómo pueden pensarse estadísticamente los árboles y los bosques, por ejemplo, el artículo original de Breiman sobre bosques aleatorios es bastante teórico, y la teoría subyacente es estadística (como corresponde a Breiman) cuando dijo que la cultura algorítmica era superior en De muchas maneras, en el artículo de dos culturas, nunca dijo nada sobre no tratar de entender la teoría detrás de los algoritmos.

Un problema importante que veo cuando me han llamado ocasionalmente para limpiar un análisis desordenado últimamente es, bueno, que los algoritmos de aprendizaje automático basados ​​en, por ejemplo, estadísticas, es que el autor del análisis no comprende o ni siquiera conoce el Supuestos implícitos en el algoritmo. Lo que puede ser un gran problema.

Para el autor de esta pregunta: no estoy tratando de molestarte y decirte que no sabes lo que estás haciendo. Yo aliento que no confíe realmente en un algoritmo hasta que al menos comprenda todos los supuestos básicos hechos por él y todas las restricciones explícitas o implícitas en la solución. De lo contrario, sus predicciones no pueden conducir a buenas decisiones.

Mi tendencia es hacia el aprendizaje de estadísticas porque ahí fue donde se fundó mi educación de posgrado. Sin embargo, creo que realmente depende de lo que quieras hacer con tus habilidades. ¿Desea trabajar en un área donde necesita confiar, al menos en parte, en modelos estadísticos paramétricos? ¿Dónde necesitará derivar soluciones y probar que tienen ciertas propiedades estadísticas? ¿Dónde debe poder vincular los modelos estadísticos con la teoría sustantiva (como la teoría psicológica o sociológica)? Si es así, aprende más estadísticas. Si, por el contrario, desea trabajar en un campo más centrado en la solución e impulsado por los datos, donde la teoría sustantiva no es tan importante, entonces creo que las técnicas de aprendizaje automático serán más útiles.

Por cierto, no pretendo derogar el aprendizaje automático, tanto las estadísticas como el NM son perfectamente válidos y ambos tienen sus fortalezas y debilidades. Además, hay muchas superposiciones entre estas áreas, por lo que una cosa a considerar es en qué medida está haciendo una elección “cualquiera de las dos”.

Recomendaría mejorar sus estadísticas con ML. Por ejemplo, mencionaste SVM, RF y regresión. Si bien entiendo que la fuerza de SVM se encuentra en sus núcleos y que RF es un conjunto, no puedo imaginar cómo se podría hacer un buen trabajo con la regresión sin una base estadística sólida. Por ejemplo, si ejecuta un modelo lineal simple, ¿sabe qué significa la estadística F y el valor p del modelo?

Desde mi perspectiva, una de las partes más importantes de ML es tener un buen conocimiento de la intuición de los algoritmos. La probabilidad y las estadísticas desempeñan un papel en esto, menos en los algoritmos de caja negra más cerrados, pero bastante extensos en los más interpretables.

El único curso y libro que me hizo una gran diferencia fue Introducción al aprendizaje estadístico y el curso de su StatLearning on Stanford Online. Es un curso de aprendizaje estadístico con suficiente matemática, estadísticas e intuición de modelo.

¡La mejor de las suertes!