Un concepto interesante que viene a la mente es el dilema de exploración / explotación , que surge en los problemas de aprendizaje de refuerzo .
La idea de alto nivel.
Cuando está explorando el espacio estatal para tomar una decisión, su agente tiene dos opciones: elegir una acción, entre las que ya ha visto en el entrenamiento, que maximizarán su recompensa esperada, o elegir una acción completamente nueva, que puede lleve a una recompensa más baja, pero puede ayudar al agente a descubrir partes más “lucrativas” del espacio de búsqueda.
Ejemplos de aplicaciones
- Cómo enseñar a los estudiantes lentos en quinto grado
- ¿Uno tiene el derecho moral de saber que ha ingerido y volver a sacarlo?
- Cómo gamificar el proceso alentando a mis desarrolladores a adquirir nuevas habilidades y colaborar
- ¿Hay un momento en el que aprendiste a defenderte? ¿Me lo puedes describir?
- ¿Cuáles son las mejores cosas que aprender de los alemanes?
La aplicación canónica de este dilema es el problema de bandidos con varios brazos. En este problema, el agente tiene acceso a una serie de máquinas tragamonedas, cada una de ellas con una distribución de probabilidad diferente sobre las recompensas. Por supuesto, el objetivo de su agente es maximizar sus recompensas totales, utilizando sus múltiples brazos para jugar en un subconjunto de máquinas en cada paso. Usted asume que hay muchas máquinas, por lo tanto, nunca se juegan lo suficiente como para conocer las probabilidades de ganancias (de lo contrario, el problema se “resolverá” rápidamente ”).
En este caso, en cada paso, su agente puede tomar decisiones de explotación (jugar en las máquinas que producen la mayor recompensa esperada) o opciones de exploración (probar nuevas máquinas, es decir, ser curioso ).
Otro ejemplo más aplicado son los motores de recomendación de música , como Pandora. Después de un poco de entrenamiento, ellos saben qué canciones te gustan, pero el servicio sería bastante malo si siguieran tocando esas canciones. Tienen que explorar el espacio de búsqueda ( ser curioso ) y presentarte nuevas canciones.
NB Se podría argumentar que esto es un poco diferente, ya que la llamada recompensa al usuario en este caso también puede ser una función de la variedad.
El algoritmo más simple de explotar / explorar: épsilon-greedy
La solución más simple a este dilema es el algoritmo épsilon-greedy. Su forma básica es, siempre que su agente tenga que elegir una acción:
- con probabilidad [math] \ epsilon [/ math], elige una nueva acción al azar
- con probabilidad [math] 1 – \ epsilon [/ math], elija la mejor acción posible
Esto le permite a su agente explorar el espacio de acción mientras mantiene las altas recompensas esperadas.
Se podría pensar que esto es equivalente a la curiosidad , ya que se podría considerar que las personas curiosas buscan nuevas formas de divertirse o hacer cosas significativas, es decir, maximizar su recompensa personal.