Desde una perspectiva informada por el aprendizaje automático, ¿qué tipo de proceso cognitivo es la curiosidad?

Un concepto interesante que viene a la mente es el dilema de exploración / explotación , que surge en los problemas de aprendizaje de refuerzo .

La idea de alto nivel.

Cuando está explorando el espacio estatal para tomar una decisión, su agente tiene dos opciones: elegir una acción, entre las que ya ha visto en el entrenamiento, que maximizarán su recompensa esperada, o elegir una acción completamente nueva, que puede lleve a una recompensa más baja, pero puede ayudar al agente a descubrir partes más “lucrativas” del espacio de búsqueda.

Ejemplos de aplicaciones

La aplicación canónica de este dilema es el problema de bandidos con varios brazos. En este problema, el agente tiene acceso a una serie de máquinas tragamonedas, cada una de ellas con una distribución de probabilidad diferente sobre las recompensas. Por supuesto, el objetivo de su agente es maximizar sus recompensas totales, utilizando sus múltiples brazos para jugar en un subconjunto de máquinas en cada paso. Usted asume que hay muchas máquinas, por lo tanto, nunca se juegan lo suficiente como para conocer las probabilidades de ganancias (de lo contrario, el problema se “resolverá” rápidamente ”).

En este caso, en cada paso, su agente puede tomar decisiones de explotación (jugar en las máquinas que producen la mayor recompensa esperada) o opciones de exploración (probar nuevas máquinas, es decir, ser curioso ).

Otro ejemplo más aplicado son los motores de recomendación de música , como Pandora. Después de un poco de entrenamiento, ellos saben qué canciones te gustan, pero el servicio sería bastante malo si siguieran tocando esas canciones. Tienen que explorar el espacio de búsqueda ( ser curioso ) y presentarte nuevas canciones.

NB Se podría argumentar que esto es un poco diferente, ya que la llamada recompensa al usuario en este caso también puede ser una función de la variedad.

El algoritmo más simple de explotar / explorar: épsilon-greedy

La solución más simple a este dilema es el algoritmo épsilon-greedy. Su forma básica es, siempre que su agente tenga que elegir una acción:

  • con probabilidad [math] \ epsilon [/ math], elige una nueva acción al azar
  • con probabilidad [math] 1 – \ epsilon [/ math], elija la mejor acción posible

Esto le permite a su agente explorar el espacio de acción mientras mantiene las altas recompensas esperadas.

Se podría pensar que esto es equivalente a la curiosidad , ya que se podría considerar que las personas curiosas buscan nuevas formas de divertirse o hacer cosas significativas, es decir, maximizar su recompensa personal.

Natanael dio una buena respuesta, desde la perspectiva clásica. Pero el método épsilon-greedy no es muy elegante (a pesar de ser razonablemente poderoso).

La curiosidad trabaja de la mano con el aburrimiento. La inteligencia se puede resumir como maximización de recompensa + minimización de sorpresa. Por un lado, intentas predecir la recompensa futura. Por otro lado, intenta predecir qué sucederá en el siguiente paso de tiempo, el error de predicción es la sorpresa. Luego, la recompensa es modulada por la sorpresa, por lo que una sorpresa alta significa una recompensa más alta, una sorpresa baja significa una recompensa más baja.

Una alta recompensa por una sorpresa alta significa que la IA está incentivada para estar en situaciones sorprendentes. Pero al estar en una situación sorprendente, el modelo de predicción IA recopilará datos y predecirá mejor, reduciendo la sorpresa y reduciendo la recompensa. Al final, las situaciones sorprendentes se volverán aburridas (sorpresa baja) y habrá una recompensa baja, por lo que no habrá incentivos para explorar esas situaciones nuevamente.

La diferencia con el problema de los bandidos con múltiples brazos es que, en el de los bandidos con múltiples brazos, usted quiere maximizar la recompensa y solo explorar para encontrar mejores recompensas si es posible. En el sistema que describí anteriormente, no intenta puramente optimizar la recompensa, el aburrimiento hace que incluso las recompensas más altas sean aburridas después de un tiempo. Para los humanos, el amor es una de las recompensas más altas, ¡pero no dura!

Esta es una muy buena pregunta. Sin embargo, también debemos pedir que la curiosidad de un gato sea lo mismo que la curiosidad humana. Los humanos pueden sentir curiosidad por las cosas que no encajan en su comprensión de cómo debería funcionar el mundo. También podemos sentir curiosidad por las cosas que están ocultas o son difíciles de investigar o ver.

El último tipo de curiosidad es que los gatos se ven como “gatos”, quieren ver lugares que están ocultos, quieren explorar áreas que son pequeñas y confinadas, quieren intentar atrapar cosas que se mueven incluso si no saben lo que son. persiguiendo.

Por lo tanto, se puede modelar un tipo simple de curiosidad haciendo que la información aumente de valor cuanto más difícil sea obtenerla. También tendría sentido hacer que la información sea más valiosa si es conocida por menos individuos o nuevos.