Puse algunos enlaces relevantes en la parte superior de la publicación de mi blog en RL: Deep Reinforcement Learning: Pong de Pixels. El post es una introducción suave a la idea básica detrás de RL que hacemos hoy. Para obtener más información técnica, recomiendo comenzar con el libro de Sutton para obtener los cimientos, luego ver algunas charlas recientes de John Schulman o Pieter Abbeel (por ejemplo, la reciente de la escuela de verano de Aprendizaje Profundo en Montreal) y luego volver a implementar DQN / Policy Gradients tú mismo desde cero. Aprovecha el gimnasio de OpenAI para acceder a los entornos. A partir de ahí, se lee en papel y se lee código (varias implementaciones recientes han aparecido en repositorios en Github).
Desafortunadamente, en muchas áreas nuevas puede ser difícil entrar desde afuera. Entonces, si fuera más serio, creo que querría encontrar una manera de colaborar con alguien que tenga mucha más experiencia en el área. Este es especialmente el caso en RL porque hay bastantes consejos / trucos / trucos para aprovechar funciones, líneas de base, cómo configurar los experimentos, cómo depurar de manera efectiva, etc., y no todo esto se serializa correctamente en los papeles. . En su lugar, simplemente se distribuye a través de un conocimiento común entre los investigadores. Esto no significa que no pueda ingresar, es mucho más fácil si puede aprovechar el aprendizaje de aprendizaje 1–1.