¿Qué es una explicación simple del aprendizaje por refuerzo?

Digamos que estás caminando en un mundo completamente extraño, donde no entiendes las reglas. Miras a tu alrededor, y luego das un paso y no pasa nada. No sabes si eso fue algo útil o no. Entonces miras a tu alrededor y das otro paso. Nuevamente no pasa nada. ¿Cómo se puede esperar que aprendas a comportarte en este entorno?

Pero luego das otro paso y obtienes una recompensa, una barra de chocolate. Yum! Al ver lo que acabas de ver y tomar la acción particular que obtuviste, obtuviste esta recompensa. Dale a esa situación / par de acciones un valor positivo. Entonces, si alguna vez vuelves a estar exactamente en esa situación, aprendes a hacer la misma acción otra vez. Genial.

Sin embargo, el paso que tomó antes de eso lo llevó a esa situación que condujo a la recompensa, por lo que también merece algo de crédito. No tanto, pero mucho. Y el paso que dio en la situación antes de eso, también merece un poco de crédito, una vez más, no tanto.

Lo mismo ocurre con los castigos, como chocar contra una pared y sangrar por la nariz. La acción que tomó que condujo directamente al castigo debe ser valorada como altamente negativa. Y el paso que tomó justo antes de eso también debería ser desalentado mucho, pero no tanto.

Entonces, en efecto, si bien puede que esté tomando acciones al azar en una situación particular y que no se le diga inmediatamente si es bueno o malo, cuando finalmente se otorga un castigo o una recompensa, puede aplicar retroactivamente la recompensa en la cadena de recuerdos de las acciones tomadas dada la situación particular.

Gradualmente, aprendes que ciertas acciones son preferibles, incluso si no conducen directamente a una recompensa.

Como un amante del aprendizaje por refuerzo, creo que podría ser representado por un escenario vívido (al menos desde mi punto de vista ^ – ^).
queremos entrenar a un perro para que reconozca el dígito del 0-10 (o 1 simple), en circo, las cosas siempre le dan comida (recompensa) al perro cuando se toman las medidas correctas, de lo contrario no se otorga nada o se aplica una multa. repetimos este proceso varias veces (episodios), el perro puede ser calificado en esta tarea.
tienes el punto? ^ – ^