¿El aprendizaje por refuerzo es la combinación de aprendizaje no supervisado y aprendizaje supervisado?

Yo diría que no ! Me resulta gratificante comparar el aprendizaje por refuerzo con el aprendizaje supervisado y no supervisado, para comprender completamente el problema del aprendizaje por refuerzo. Sin embargo, no creo que el aprendizaje por refuerzo sea una combinación de aprendizaje supervisado y no supervisado.

El aprendizaje por refuerzo es diferente del aprendizaje no supervisado en términos de objetivos . El objetivo del aprendizaje no supervisado es encontrar similitudes y diferencias entre los puntos de datos. Sin embargo, en el problema del aprendizaje de refuerzo, el objetivo es encontrar un buen comportamiento, una acción o una etiqueta para cada situación particular, si así lo desea, para maximizar los beneficios a largo plazo que recibe el agente.

Para comparar el aprendizaje por refuerzo con el aprendizaje supervisado, pensemos en un agente que aprende a jugar ajedrez. En la configuración supervisada, el diseñador debe proporcionar la etiqueta correcta en un subconjunto de situaciones . Imagine lo que es un dolor en el cuello al “dar” la acción correcta al agente en muchas situaciones. De hecho, como jugador humano novato, no puedo proporcionar la mejor acción en muchas situaciones. Sin embargo, en el problema del aprendizaje por refuerzo, solo se espera que el diseñador proporcione una señal de recompensa . En el caso del ajedrez, es realmente trivial: +1 para ganar el juego, -1 para perder el juego y 0 en caso contrario. ¡Entonces sería tarea del agente asignar crédito a las acciones que llevaron al agente a ganar el juego o las acciones que lo arruinaron!

Para concluir, veo el aprendizaje no supervisado como una técnica que aborda un objetivo totalmente diferente y veo el aprendizaje por refuerzo como un problema más general que el aprendizaje supervisado. No hace falta decir que las tres formulaciones de problemas son impresionantes y han sido útiles.

¿Por qué es importante ‘Algunas cosas útiles que debe saber sobre el aprendizaje automático’?

¿Cuál es la mejor manera de aprender cómo obtener tráfico rápidamente a un nuevo sitio web?

¿Cuáles son las 3 mejores habilidades que no aprendes en la escuela?

¿Cuál es la mejor manera de aprender Objective-C?

¿Cómo puedo aprender más sobre el espíritu empresarial en la Universidad de Columbia?

Cómo tener más ganas de aprender.

No tengo una opinión firme sobre esta pregunta, y mi respuesta será un poco confusa. Pero de todos modos contribuiré felizmente a la discusión 🙂

En la clasificación (es decir, aprendizaje supervisado), el objetivo es aprender una asignación desde puntos en un espacio de características (es decir, datos de entrada) a etiquetas (es decir, datos de salida). De modo que para cualquier nuevo punto de datos de entrada, podemos predecir su etiqueta.

En agrupación (es decir, aprendizaje no supervisado), el conjunto de datos se compone solo de puntos en un espacio de características; , no hay etiquetas. El objetivo es aprender alguna estructura interna u organización en el propio espacio de características.

Puedes combinar estos dos enfoques de aprendizaje. Por ejemplo, dado que los datos de etiquetado suelen ser costosos, podría tener un gran conjunto de datos con un bajo porcentaje de puntos de datos etiquetados. Para etiquetar automáticamente el resto de puntos, puede aplicar un algoritmo de agrupamiento, bajo el supuesto de que es más probable que los puntos del mismo clúster compartan una etiqueta. Esto se llama aprendizaje semi-supervisado.

En el aprendizaje por refuerzo, hay una función de recompensa que el agente pretende maximizar. Durante el proceso de aprendizaje, un paso intermedio típico es aprender a predecir la recompensa obtenida para una política específica. Desde este punto de vista —predicción—, RL es de alguna manera similar a la regresión (que es otra forma de aprendizaje supervisado). En el proceso de predicción, el agente aprende cierta estructura del espacio de entrada, como las transiciones de estado riesgosas y beneficiosas. Yo diría que la distinción entre pares buenos y malos de estado-acción se podría ver como construir un clasificador, lo que reforzaría la similitud entre refuerzo y aprendizaje supervisado.

Por otro lado, existen métodos, como el aprendizaje con representaciones de estado predictivo, en las que el agente aprende la estructura de las transiciones de estado-acción a partir de los datos, lo que podría verse como una forma de aprendizaje no supervisado. Y luego, aprende cómo maximizar la recompensa para el modelo aprendido.

Tal vez, en este sentido, se podría decir que el aprendizaje de refuerzo se bebe de ambos pozos.

Kavosh Asadi

More Interesting

¿Cómo aprendiste a hacer lo que haces para vivir?

Cómo aprender y recordar cosas que leo diariamente.

¿Cuáles son las buenas maneras de aprender criptografía?

¿Qué hace cuando se siente totalmente abrumado cuando tiene acceso a tanta información pero tiene tan poco tiempo?

Para los viajeros y aventureros, ¿qué aprendieron sobre el mundo cuando viajaban? ¿Qué te dejó sin aliento? ¿Qué te decepcionó? ¿Qué te hizo feliz?

¿Cómo aprendo la edición de videos como novato?

¿Qué libros o cursos en línea recomendarías para aprender finanzas personales?

¿Cómo aprenden realmente las personas? Ciertamente, no parece que nuestro enfoque tradicional en el aula esté funcionando; sin embargo, como individuos / profesionales que estamos aprendiendo todo el tiempo, ¿cómo?

¿Por qué es tan difícil aprender de los fracasos?