La selección de características se puede describir mejor como la eliminación de características. Es fácil y difícil al mismo tiempo.
Es fácil en el sentido de que no requiere ningún paso técnico difícil. Es difícil en el sentido de que no hay respuestas claras, y debe desarrollar una intuición para lo que se siente bien en cada nuevo escenario.
Creo que la consideración más importante es saber por qué lo estás haciendo. En términos generales, hay tres motivaciones principales para la selección de características:
- Evitar el exceso de ajuste. Reducir la cantidad de funciones significa menos complejidad y el modelo será menos propenso a adaptarse excesivamente.
- Simplifica el modelo. Un modelo con menos características puede ser más fácil de entender y explicar. Eso puede ser muy importante.
- Acelerar el tiempo de entrenamiento. Por lo general, no es tan importante, porque cuando llega a la selección de características, ya ha realizado el entrenamiento, pero si desea volver a entrenar el modelo en producción, esto podría ser útil.
Hay muchas formas de seleccionar características algorítmicamente, como la regresión Lasso.
- ¿Cuáles son los aprendizajes de un percentil CAT 100 del examen CAT?
- Como nación o sociedad, ¿es cierto que solo podemos aprender observando los errores que cometimos en nuestro pasado?
- ¿Cuál podría considerarse la lección más importante para que cualquier ser humano aprenda?
- ¿Cómo fue perder a un padre? ¿Qué aprendiste?
- ¿Es posible aprender idiomas en casa?
El enfoque que suelo utilizar es más manual. Estimo las importancias de las características utilizando un algoritmo de bosque aleatorio. Luego comienzo a dejar las funciones en orden ascendente de importancia y trato de entender cómo afecta a mi modelo. Como regla general, elimino tantas funciones como puedo sin dañar demasiado el rendimiento. ¿Qué es demasiado? Bueno, eso depende del problema del negocio, por supuesto. Aquí es donde la selección de características es más un acto de equilibrio y arte que una ciencia exacta.
Como nota final, es imperativo evitar el uso del conjunto de entrenamiento o prueba para la selección de características. Solo utilizando el conjunto de validación puede estar seguro de que no introduce un sesgo innecesario.
No estoy seguro de si todo esto responde a tu pregunta. El único método de aprendizaje que puedo recomendar es practicar y ganar experiencia.