En el caso más simple, suponga que está comparando el rendimiento de dos clasificadores A y B. A le da un 90% de precisión y B le da un 87% de precisión, ¿cuál es mejor? Puede ser que tanto A como B tengan el mismo resultado estadístico, pero nunca lo sabrá a menos que sepa las estadísticas. Esa es la cantidad de estadísticas que son importantes para comprender e interpretar los resultados obtenidos de los métodos de LD.
Editar (como se solicita en el comentario)
Supongamos que realiza una validación cruzada de 5 veces utilizando dos clasificadores A y B y en cada pliegue obtiene las siguientes precisiones
A = [95 93 85 87 90]; Precisión media de A = 90
- ¿Mejorarías tu segundo y tercer idioma antes de aprender un nuevo idioma?
- ¿Qué puede aprender una persona de los exámenes fallidos?
- Como aprender objetivamente la historia.
- ¿Debo aprender a usar mi mano opuesta?
- ¿Cuál es la mejor manera de mejorar el juicio rápido?
B = [87 88 89 86 85]; precisión media de B = 87
En una mirada superficial, parece que el clasificador A supera al clasificador B en la precisión media. Sin embargo, la desviación estándar del clasificador A = 4.1231 y B = 1.5811. Esto significa que los resultados del clasificador A varían mucho en diferentes pliegues, mientras que los resultados del clasificador B son casi constantes pero en promedio son peores que A. ¿Qué significa eso? Vamos a trazar estos números; vea abajo
Las barras de error rojas son la desviación estándar y las casillas azules son las precisiones de los clasificadores A y B. Esto muestra (a simple vista) que, en promedio, ninguno de los clasificadores funciona mejor que otro. Por lo tanto, sus resultados son equivalentes y cualquiera de ellos puede utilizarse sin perder el rendimiento durante un período de tiempo.
Existe una gran literatura sobre la comparación del rendimiento del clasificador y esta respuesta se recomienda para lecturas adicionales: la respuesta de Shehroz Khan a ¿Cuál es la mejor manera de comparar la precisión de múltiples clasificadores y por qué?
Esta respuesta solo expone un aspecto básico de la utilidad de las estadísticas para las tareas de LD.