¿Qué es una explicación simple del aprendizaje por refuerzo?

Digamos que estás caminando en un mundo completamente extraño, donde no entiendes las reglas. Miras a tu alrededor, y luego das un paso y no pasa nada. No sabes si eso fue algo útil o no. Entonces miras a tu alrededor y das otro paso. Nuevamente no pasa nada. ¿Cómo se puede esperar que aprendas a comportarte en este entorno?

Pero luego das otro paso y obtienes una recompensa, una barra de chocolate. Yum! Al ver lo que acabas de ver y tomar la acción particular que obtuviste, obtuviste esta recompensa. Dale a esa situación / par de acciones un valor positivo. Entonces, si alguna vez vuelves a estar exactamente en esa situación, aprendes a hacer la misma acción otra vez. Genial.

Sin embargo, el paso que tomó antes de eso lo llevó a esa situación que condujo a la recompensa, por lo que también merece algo de crédito. No tanto, pero mucho. Y el paso que dio en la situación antes de eso, también merece un poco de crédito, una vez más, no tanto.

Lo mismo ocurre con los castigos, como chocar contra una pared y sangrar por la nariz. La acción que tomó que condujo directamente al castigo debe ser valorada como altamente negativa. Y el paso que tomó justo antes de eso también debería ser desalentado mucho, pero no tanto.

Entonces, en efecto, si bien puede que esté tomando acciones al azar en una situación particular y que no se le diga inmediatamente si es bueno o malo, cuando finalmente se otorga un castigo o una recompensa, puede aplicar retroactivamente la recompensa en la cadena de recuerdos de las acciones tomadas dada la situación particular.

Gradualmente, aprendes que ciertas acciones son preferibles, incluso si no conducen directamente a una recompensa.

¿Cuál es la mejor manera de aprender una nueva habilidad en la programación?

¿Cuáles son tus lecciones autodidactas más importantes aprendidas?

Política de los Estados Unidos de América: ¿A los estadounidenses les cuesta admitir que los Estados Unidos pueden aprender algo de otros países?

¿Cuánto tiempo debo pasar cada día para aprender un nuevo idioma?

¿Los humanos perciben el tiempo de manera diferente a medida que envejecen?

¿La ciencia ha tenido éxito en hacer un dispositivo que haría que el cuerpo humano sea completamente invisible?

Como un amante del aprendizaje por refuerzo, creo que podría ser representado por un escenario vívido (al menos desde mi punto de vista ^ – ^).
queremos entrenar a un perro para que reconozca el dígito del 0-10 (o 1 simple), en circo, las cosas siempre le dan comida (recompensa) al perro cuando se toman las medidas correctas, de lo contrario no se otorga nada o se aplica una multa. repetimos este proceso varias veces (episodios), el perro puede ser calificado en esta tarea.
tienes el punto? ^ – ^

Slack TANG

More Interesting

¿Por qué se requiere la repetición para cualquier habilidad?

¿Cómo cambia nuestro cerebro cuando aprendemos un nuevo idioma?

¿Has aprendido algo sorprendente, innovador o transformador de alguien que no esperabas?

¿Con qué idioma debo empezar si quiero empezar a aprender sobre programación? ¿Cuál es el siguiente paso? ¿Cuántas horas tengo que pasar por día en esto?

¿Cuáles son los principales elementos a considerar al aprender fotografía?

¿Qué es una habilidad genial para aprender en un mes?

¿Cómo lidiar con mi miedo a la mala educación por los libros sesgados?

¿Cuál es la relación entre el conocimiento del maestro y los logros del estudiante en el aprendizaje de una segunda lengua?

Como estudiante de ingeniería civil, ¿qué puedo aprender ahora mismo en solo 10 minutos que podría ser útil para el resto de mi vida?

¿Cuál es la única cosa que la gente de India necesita aprender de la gente de los Estados Unidos?