¿El aprendizaje por refuerzo es la combinación de aprendizaje no supervisado y aprendizaje supervisado?

Yo diría que no ! Me resulta gratificante comparar el aprendizaje por refuerzo con el aprendizaje supervisado y no supervisado, para comprender completamente el problema del aprendizaje por refuerzo. Sin embargo, no creo que el aprendizaje por refuerzo sea una combinación de aprendizaje supervisado y no supervisado.

El aprendizaje por refuerzo es diferente del aprendizaje no supervisado en términos de objetivos . El objetivo del aprendizaje no supervisado es encontrar similitudes y diferencias entre los puntos de datos. Sin embargo, en el problema del aprendizaje de refuerzo, el objetivo es encontrar un buen comportamiento, una acción o una etiqueta para cada situación particular, si así lo desea, para maximizar los beneficios a largo plazo que recibe el agente.

Para comparar el aprendizaje por refuerzo con el aprendizaje supervisado, pensemos en un agente que aprende a jugar ajedrez. En la configuración supervisada, el diseñador debe proporcionar la etiqueta correcta en un subconjunto de situaciones . Imagine lo que es un dolor en el cuello al “dar” la acción correcta al agente en muchas situaciones. De hecho, como jugador humano novato, no puedo proporcionar la mejor acción en muchas situaciones. Sin embargo, en el problema del aprendizaje por refuerzo, solo se espera que el diseñador proporcione una señal de recompensa . En el caso del ajedrez, es realmente trivial: +1 para ganar el juego, -1 para perder el juego y 0 en caso contrario. ¡Entonces sería tarea del agente asignar crédito a las acciones que llevaron al agente a ganar el juego o las acciones que lo arruinaron!

Para concluir, veo el aprendizaje no supervisado como una técnica que aborda un objetivo totalmente diferente y veo el aprendizaje por refuerzo como un problema más general que el aprendizaje supervisado. No hace falta decir que las tres formulaciones de problemas son impresionantes y han sido útiles.

No tengo una opinión firme sobre esta pregunta, y mi respuesta será un poco confusa. Pero de todos modos contribuiré felizmente a la discusión 🙂

En la clasificación (es decir, aprendizaje supervisado), el objetivo es aprender una asignación desde puntos en un espacio de características (es decir, datos de entrada) a etiquetas (es decir, datos de salida). De modo que para cualquier nuevo punto de datos de entrada, podemos predecir su etiqueta.

En agrupación (es decir, aprendizaje no supervisado), el conjunto de datos se compone solo de puntos en un espacio de características; , no hay etiquetas. El objetivo es aprender alguna estructura interna u organización en el propio espacio de características.

Puedes combinar estos dos enfoques de aprendizaje. Por ejemplo, dado que los datos de etiquetado suelen ser costosos, podría tener un gran conjunto de datos con un bajo porcentaje de puntos de datos etiquetados. Para etiquetar automáticamente el resto de puntos, puede aplicar un algoritmo de agrupamiento, bajo el supuesto de que es más probable que los puntos del mismo clúster compartan una etiqueta. Esto se llama aprendizaje semi-supervisado.

En el aprendizaje por refuerzo, hay una función de recompensa que el agente pretende maximizar. Durante el proceso de aprendizaje, un paso intermedio típico es aprender a predecir la recompensa obtenida para una política específica. Desde este punto de vista —predicción—, RL es de alguna manera similar a la regresión (que es otra forma de aprendizaje supervisado). En el proceso de predicción, el agente aprende cierta estructura del espacio de entrada, como las transiciones de estado riesgosas y beneficiosas. Yo diría que la distinción entre pares buenos y malos de estado-acción se podría ver como construir un clasificador, lo que reforzaría la similitud entre refuerzo y aprendizaje supervisado.

Por otro lado, existen métodos, como el aprendizaje con representaciones de estado predictivo, en las que el agente aprende la estructura de las transiciones de estado-acción a partir de los datos, lo que podría verse como una forma de aprendizaje no supervisado. Y luego, aprende cómo maximizar la recompensa para el modelo aprendido.

Tal vez, en este sentido, se podría decir que el aprendizaje de refuerzo se bebe de ambos pozos.