¿Qué tan importante es aprender estadísticas para una carrera en aprendizaje automático?

En el caso más simple, suponga que está comparando el rendimiento de dos clasificadores A y B. A le da un 90% de precisión y B le da un 87% de precisión, ¿cuál es mejor? Puede ser que tanto A como B tengan el mismo resultado estadístico, pero nunca lo sabrá a menos que sepa las estadísticas. Esa es la cantidad de estadísticas que son importantes para comprender e interpretar los resultados obtenidos de los métodos de LD.

Editar (como se solicita en el comentario)

Supongamos que realiza una validación cruzada de 5 veces utilizando dos clasificadores A y B y en cada pliegue obtiene las siguientes precisiones

A = [95 93 85 87 90]; Precisión media de A = 90

B = [87 88 89 86 85]; precisión media de B = 87

En una mirada superficial, parece que el clasificador A supera al clasificador B en la precisión media. Sin embargo, la desviación estándar del clasificador A = 4.1231 y B = 1.5811. Esto significa que los resultados del clasificador A varían mucho en diferentes pliegues, mientras que los resultados del clasificador B son casi constantes pero en promedio son peores que A. ¿Qué significa eso? Vamos a trazar estos números; vea abajo

Las barras de error rojas son la desviación estándar y las casillas azules son las precisiones de los clasificadores A y B. Esto muestra (a simple vista) que, en promedio, ninguno de los clasificadores funciona mejor que otro. Por lo tanto, sus resultados son equivalentes y cualquiera de ellos puede utilizarse sin perder el rendimiento durante un período de tiempo.

Existe una gran literatura sobre la comparación del rendimiento del clasificador y esta respuesta se recomienda para lecturas adicionales: la respuesta de Shehroz Khan a ¿Cuál es la mejor manera de comparar la precisión de múltiples clasificadores y por qué?

Esta respuesta solo expone un aspecto básico de la utilidad de las estadísticas para las tareas de LD.