¿Es más eficiente que un aprendiz de refuerzo aprenda a través de la enseñanza o la auto-experimentación?

Este es un problema muy interesante y desafiante. ¿Por qué es difícil aprender cosas? En una perspectiva computacional, el aprendizaje de tareas complejas es difícil porque necesita entender qué hacer y cómo hacerlo. Un problema puede ser muy complejo de resolver con una sola habilidad y necesita descomponerlo en subobjetivos para manejar la complejidad. En un mundo perfecto, el aprendizaje a través de la enseñanza sería lo más eficiente, un maestro que sabe la respuesta simplemente le dice cómo descomponer la tarea en problemas más fáciles y así usted sabe qué pasos debe seguir para resolver la tarea. Ver los trabajos sobre enseñanza algorítmica.

Pero el problema también está en cómo hacerlo. Y esto depende del cuerpo del aprendiz. Este aprendizaje sobre cómo hacerlo necesita ser aprendido por auto experimentación. Ahora puede usar la información inicial del maestro sobre qué y cómo hacerlo, pero aún necesita ensayar en su propio cuerpo para asegurarse de que la solución se adapte a usted.

Puedo mostrarle a un robot cómo construir una caja al hacerlo yo mismo. A partir de esto, el robot comprende la secuencia de pasos a seguir en las partes de la caja y también qué hacer para hacer las conexiones. Pero los movimientos de mi cuerpo serán diferentes del robot. El robot todavía tendrá que hacer auto-experimentación para saber qué hacer para lograr cada uno de los pasos y, finalmente, utilizar los movimientos que vio como una solución inicial.