En Deep Q Learning, ¿cuál es mejor? ¿Aprendiendo interactuando con su entorno, o aprendiendo de un conjunto de datos capturados?

La pregunta a responder aquí es:
– ¿El conjunto de datos que recibió le proporciona toda la información necesaria para aprender una política buena (o incluso óptima)?

Es probable que los datos recopilados sean solo una parte del espacio del estado que es malo. Por ejemplo, imagina que tienes un robot que está en la sala A y que tiene que ir a la sala B, pero que solo obtuviste datos de la sala A. Es evidente que no aprenderás que la meta está en la sala B. Puedes comparar esto con un aprendizaje supervisado situación en la que su conjunto de datos tiene un sesgo y posiblemente no pueda aprender algo bueno ya que su conjunto de datos difiere de los datos reales.

Interactuar con el entorno proporcionará conjuntos de datos imparciales (suponiendo que su equipo de medición esté correctamente configurado y sintonizado), pero puede ser costoso. Por ejemplo, un robot realmente requiere tiempo y energía para interactuar con el entorno, mientras que un modelo de computadora no cuesta casi nada (pero su modelo debe corresponder con la realidad …).

Nada te impide usar ambos.

En mi opinión, aprender de un conjunto de datos capturados puede tratarse como un caso especial de aprendizaje mediante la interacción con el entorno. Los datos capturados son un caso cerrado, en el sentido de que el número de registros Q posibles es fijo. El entorno puede ser un caso cerrado o un caso abierto, en el sentido de que el número de registros Q posibles puede ser fijo o creciente.

¿Cuál seleccionar? Dependerá en gran medida del problema a abordar.