¿Cuáles son las similitudes y diferencias entre el aprendizaje por transferencia y el aprendizaje fuera de la política en el aprendizaje por refuerzo?

Aprendizaje de transferencia: es cuando un agente resuelve un problema, luego recuerda la información sobre ese problema (lo guarda en su memoria) y luego intenta resolver un problema nuevo, ligeramente diferente, utilizando su memoria sobre el primer problema.

Aprendizaje fuera de política: es cuando un agente resuelve un problema, utilizando un enfoque de comportamiento de Markov y una regla de estimación. Esto significa que el agente aprenderá acerca de la solución del problema (el valor de la política), independientemente de sus propias acciones pasadas y presentes.

Una buena manera de entender la diferencia entre los dos es esta.

En Transfer Learning , es más como que la agente quiere tener mucho cuidado cuando aborda un problema, y ​​si hay alguna esperanza de resolver un problema (obtener un valor óptimo), seguirá adelante e intentará resolverlo, consultando su memoria Es un tipo de método de “aprender haciendo y adaptando”.

En Off-Policy Learning , es más como si el agente quisiera obtener la solución o no obtenerla. El agente discriminará mucho más sus propias acciones y creencias, y solo considerará la información correcta-directa específica de su problema. Es un tipo de método de ‘aprender por estricto ensayo y error’.

En la transferencia de aprendizaje, es mucho más propenso a experimentar sesgos y una complejidad innecesaria, a menos que los problemas que su agente está tratando de resolver sean bastante simples y estén relacionados. En contraste, el aprendizaje fuera de la política le permite al agente probar todos los enfoques posibles para obtener una solución a un problema, por lo tanto, puede brindarle resultados más informados y universales.