¿Cuál es la mejor manera y cuáles son los mejores recursos para comenzar a aprender sobre el aprendizaje de refuerzo profundo?

Un amigo y yo armamos una lista de lectura internamente. Aquí tienes:

  • Prerrequisitos: RL básico (tiempo estimado para completar: 1 día)
    • El libro de Sutton y Barto, Sección I (El problema) y Sección II (Métodos de solución elemental)
      • Aprendizaje de refuerzo: una introducción
    • Curso de David Silver, conferencias 1-7.
      • Temas avanzados: RL
  • Algoritmos fundamentales
    • Aprendizaje profundo de Q
      • Aprendizaje profundo y continuo con aceleración basada en modelos: [1603.00748] Aprendizaje continuo y profundo con aceleración basada en modelos
    • Gradiente de política
      • Optimización de políticas de la región de confianza: [1502.05477] Optimización de políticas de la región de confianza
      • Reducción de la varianza: Técnicas de reducción de la varianza para las estimaciones de gradiente en el aprendizaje por refuerzo
      • Gradiente de política determinista: http://jmlr.org/proceedings/pape… [1509.02971] Control continuo con aprendizaje de refuerzo profundo
    • Búsqueda guiada de políticas:
      • Aprendizaje de políticas complejas de redes neuronales con optimización de la trayectoria: http://www.eecs.berkeley.edu/~sv…
      • Entrenamiento de extremo a extremo sobre políticas visomotoras profundas: http://arxiv.org/pdf/1504.00702v…
    • Aprendiendo a buscar: Daga / Aggrevate:
      • https://www.cs.cmu.edu/~sross1/p…
      • [1406.5979] Refuerzo y aprendizaje de imitación mediante aprendizaje interactivo sin arrepentimiento
  • Aplicaciones impresionantes
    • AlphaGo + MCTS
      • http://www.nature.com/nature/jou…
      • Una encuesta sobre los métodos de búsqueda de árboles de Monte Carlo: una encuesta sobre los métodos de búsqueda de árboles de Monte Carlo
    • Aprendizaje de la coordinación ojo-mano para la sujeción robótica con aprendizaje profundo y recopilación de datos a gran escala: [1603.02199] Aprendizaje de la coordinación ojo-mano para la sujeción robótica con aprendizaje profundo y recopilación de datos a gran escala
  • En el horizonte: motivación intrínseca, exploración (por ejemplo, http://arxiv.org/pdf/1602.04621)
  • Juegos multijugador
    • Aprendizaje de los equilibrios de Nash aproximados en juegos de información imperfecta [1603.01121] Aprendizaje de refuerzo profundo del juego propio en juegos de información imperfecta

Todas las respuestas aquí son super útiles. Sin embargo, debido a que ha preguntado específicamente sobre el aprendizaje de refuerzo profundo, aquí es donde debe buscar:

2da Conferencia Multidisciplinaria sobre Aprendizaje de Refuerzo y Toma de Decisiones (RLDM), Edmonton 2015

Básicamente, esta es la recopilación de videos sobre la conferencia más reciente sobre el aprendizaje por refuerzo que se realizó a principios de este año en la Universidad de Alberta, también conocida como la Universidad del Aprendizaje por Refuerzo. El tercer video es David Silver, que analiza específicamente el artículo de Nature sobre el aprendizaje de refuerzo profundo. También el primer video es un tutorial completo sobre el aprendizaje por refuerzo de Michael Littman.

Esta fue mi introducción a Q-Learning:

http://www.nervanasys.com/demyst

Finalmente, leo el documento de atari (prefiero entenderlo a grandes rasgos antes de profundizar en los documentos académicos formales).

Leer el código es un buen siguiente paso:

kuz / DeepMind-Atari-Deep-Q-Learner (implementación de Atari Lua)

muupan / dqn-in-the-caffe (puerto de Caffe)

Algunos recursos para cuando esté listo para comenzar a experimentar usted mismo:

mente profunda / xitari

El entorno de aprendizaje Arcade

Prueba de retraso DQN – JSFiddle

ConvNetJS Deep Q Learning Reinforcement Learning con la demostración de la red neuronal

Nota: He hecho todo lo posible por enlazar a fuentes autorizadas correctas / originales. Estoy dispuesto a hacer revisiones y pedir disculpas por adelantado si alguno de estos enlaces se desvía de la atribución.

Con respecto al aprendizaje por refuerzo, como primer recurso, también sugeriría la nueva versión del libro de Sutton y Barto (trabajo en progreso disponible en book2015oct.pdf).

Junto con las conferencias de David Silver, como lo sugiere Gary Want, puede seguir el curso de Aprendizaje de Refuerzos de Charles Isbell y Michael Litman en Udacity, disponible gratuitamente en: Aprendizaje de Refuerzos.

Berkeley CS 294 Deep Refforcement Learning, otoño de 2015 ofrece algunos consejos interesantes:

Los cursos

  • Curso de Dave Silver sobre aprendizaje por refuerzo / Videos de conferencias
  • Curso de Nando de Freitas sobre aprendizaje automático.
  • Curso de Andrej Karpathy sobre redes neuronales.

Libros de texto

  • Sutton & Barto, Aprendizaje de refuerzo: una introducción
  • Szepesvari, Algoritmos para el Aprendizaje de Refuerzos
  • Bertsekas, Programación Dinámica y Control Óptimo, Vols I y II
  • Puterman, Markov Proceso de decisión: programación dinámica estocástica discreta
  • Powell, Programación Dinámica Aproximada

Varios enlaces

  • Una colección de recursos de aprendizaje profundo

Si quieres saltar directamente a él, el sitio Atari de deepmind es el lugar para comenzar: https://www.google.ca/url?sa=t&s

Su código aquí: https://github.com/kuz/DeepMind-…

Otra buena fuente y demostración de Andrej, su código fuente tiene una gran explicación: http://cs.stanford.edu/people/ka

David Silver tiene grandes conferencias de YouTube en RL:

Que te diviertas.

Para una introducción excelente y accesible al aprendizaje por refuerzo, debe leer “Aprendizaje por refuerzo: una introducción” por Sutton y Barto.

Si desea leer más sobre el Aprendizaje de refuerzo profundo, le recomendaría esta extensa colección de documentos de RL profunda: Junhyukoh / ensayos de aprendizaje de refuerzo profundo.