Un amigo y yo armamos una lista de lectura internamente. Aquí tienes:
- Prerrequisitos: RL básico (tiempo estimado para completar: 1 día)
- El libro de Sutton y Barto, Sección I (El problema) y Sección II (Métodos de solución elemental)
- Aprendizaje de refuerzo: una introducción
- Curso de David Silver, conferencias 1-7.
- Temas avanzados: RL
- Algoritmos fundamentales
- Aprendizaje profundo de Q
- Aprendizaje profundo y continuo con aceleración basada en modelos: [1603.00748] Aprendizaje continuo y profundo con aceleración basada en modelos
- Gradiente de política
- Optimización de políticas de la región de confianza: [1502.05477] Optimización de políticas de la región de confianza
- Reducción de la varianza: Técnicas de reducción de la varianza para las estimaciones de gradiente en el aprendizaje por refuerzo
- Gradiente de política determinista: http://jmlr.org/proceedings/pape… [1509.02971] Control continuo con aprendizaje de refuerzo profundo
- Búsqueda guiada de políticas:
- Aprendizaje de políticas complejas de redes neuronales con optimización de la trayectoria: http://www.eecs.berkeley.edu/~sv…
- Entrenamiento de extremo a extremo sobre políticas visomotoras profundas: http://arxiv.org/pdf/1504.00702v…
- Aprendiendo a buscar: Daga / Aggrevate:
- https://www.cs.cmu.edu/~sross1/p…
- [1406.5979] Refuerzo y aprendizaje de imitación mediante aprendizaje interactivo sin arrepentimiento
- Aplicaciones impresionantes
- AlphaGo + MCTS
- http://www.nature.com/nature/jou…
- Una encuesta sobre los métodos de búsqueda de árboles de Monte Carlo: una encuesta sobre los métodos de búsqueda de árboles de Monte Carlo
- Aprendizaje de la coordinación ojo-mano para la sujeción robótica con aprendizaje profundo y recopilación de datos a gran escala: [1603.02199] Aprendizaje de la coordinación ojo-mano para la sujeción robótica con aprendizaje profundo y recopilación de datos a gran escala
- En el horizonte: motivación intrínseca, exploración (por ejemplo, http://arxiv.org/pdf/1602.04621)
- Juegos multijugador
- Aprendizaje de los equilibrios de Nash aproximados en juegos de información imperfecta [1603.01121] Aprendizaje de refuerzo profundo del juego propio en juegos de información imperfecta