¿Cuáles son los mejores recursos para aprender el aprendizaje automático probabilístico / bayesiano?

Comentaré la respuesta de Jonathon Strahl, donde se vinculó a la lista de libros de Jordan, Machine Learning Books Suggested by Michael I. Jordan de Berkeley

Así que primero, muchos de estos libros son los textos clásicos en su campo: álgebra lineal, teoría de la medida, análisis real, teoría de la información, análisis funcional, optimización, etc. Es necesario tener un buen comienzo en todas estas áreas, ya que son Los métodos matemáticos fundamentales utilizados en la teoría del aprendizaje automático. Pero en mi opinión, no es necesario conocerlos en detalle.

La mayoría de los libros serían un esfuerzo completo de 3 meses para estudiar, y algunos mucho más. Comprender todo esto sería un triple mayor de muy alta calidad en matemáticas de pregrado. Exagerar a menos que tu meta profesional sea ser un profesor titular en Berkeley para cuando tengas 35 años. Como Michael Jordan, tal vez.

La teoría de la medida, por ejemplo, está completamente vendida en términos de uso. No dudo de la importancia de la teoría, pero en la práctica solo necesita conocer los axiomas básicos de la medida y algunas propiedades básicas de cómo trabajar con ella. Obtuve la mayor parte de los antecedentes en integración multivariable y teoría de conjuntos en pregrado. El estudio de Durrett, en mi opinión, es una pérdida de tiempo para el aprendizaje automático bayesiano. Del mismo modo, los asintóticos son de uso mixto en el aprendizaje automático bayesiano. Al igual que con la teoría de la medida, debe conocer los resultados básicos, pero generalmente no necesita conocer el valor de todo el libro. Cosas mucho más importantes y útiles para llegar.

Los libros iniciales que sugeriría son:

  1. Casella, G. y Berger, RL (2001). Inferencia estadística, Duxbury Press.
  2. Gelman, A. et al. (2003). Análisis de Datos Bayesianos, Chapman & Hall / CRC.
  3. Robert, C. y Casella, G. (2005). Métodos estadísticos de Monte Carlo, Springer.

Este es un entrenamiento estándar de primer año de posgrado en estadísticas de orientación bayesiana, y usted necesita saber esto. Debe poder realizar pruebas estándar para comprender adecuadamente, por ejemplo, que Gibbs es una instancia de muestreo de Metrópolis y la vista de álgebra matricial de por qué funciona el muestreo de Gibbs.

Lo que me gustaría que supieras es el contenido de:

  1. Larry Wasserman. 2010. Todas las estadísticas: un curso conciso de inferencia estadística . Springer Publishing Company, Incorporated.

Pero realmente no aprendes de esto.

Pero esto es realmente solo el comienzo.

La inferencia variable, la versión KL, es algo muy simple pero no muy bien tratado en los libros de texto. Debe enseñarse en el caso de la familia exponencial general, y como una generalización del algoritmo EM. Lo sentimos, no puedo sugerir un libro / artículo. ¿Nadie?

Donde la inferencia bayesiana tiene su propio origen, con pocos paralelos, es una completa jerarquía jerárquica. Puede ver algo de esto en áreas como el procesamiento del lenguaje natural y la factorización matricial, que también utilizan métodos Bayesianos no paramétricos (BNP). En cierto modo, los objetivos y usos son similares al campo de las redes neuronales profundas. Creo que Gelman et al. Puede tocar en los anteriores jerárquicos básicos. Las notas de Peter Orbanz (tutorial no paramétrico de Bayes) parecen ser un tratamiento razonable y más accesible para el BNP, aunque se pierde mucho. BNP aún está saliendo de la comunidad teórica (por ejemplo, el trabajo reciente de Lancelot James) en ML, y en algunos casos está mal presentado.

Además, para obtener la flexibilidad total de los métodos bayesianos, creo que es bueno leer sobre sistemas como Stan (http://mc-stan.org) y los BUGS más antiguos. Pero estos no se reflejan bien en el aprendizaje automático moderno, que también tiene que ver con la escala y la complejidad. Pero son buenos, pero simples, ejemplos de la flexibilidad de los métodos bayesianos.

Gracias por la A2A.

Para lo básico, comenzaría con dos libros: “Reconocimiento de patrones y aprendizaje automático” [1] de Bishop, y “Aprendizaje automático: una perspectiva probabilística” de Murphy [2]. Ambos comienzan con cebadores para los requisitos matemáticos básicos y luego analizan los principios de probabilistic / Bayesian ML, que cubren la mayoría de los temas fundamentales (hasta moderadamente avanzados). Una vez que haya pasado por ellos, puede comenzar a ver temas más matizados y específicos. Otro gran libro, pero con una perspectiva ligeramente diferente (aunque super útil), es la “Teoría de la información, la inferencia y los algoritmos de aprendizaje” [3] de Mackay.

Si está interesado en los médicos de cabecera, los “Procesos gaussianos para el aprendizaje automático” de Rasmussen [4] tienen todo lo que necesita para cubrir el tema. Después de trabajar en ese libro, debería estar listo para profundizar en la literatura reciente en el campo de GP.

Para la inferencia variacional, los modelos gráficos, el libro de Wainwright y Jordan “Modelos gráficos, familias exponenciales e inferencia variable” [5] es una necesidad.

Hay muchos recursos excelentes para MCMC (de los cuales el muestreo de Gibbs es un ejemplo específico), demasiados para nombrarlos. Algunos de los que me parecieron particularmente útiles son los capítulos relevantes de Gelman et al. “Análisis de datos bayesianos” [6], y Spiegelhalter et al. “Markov Chain Monte Carlo en la práctica” [7].

Esto es mucho material, más de un año de lectura adecuada. Honestamente, para cuando llegue a [1], [2], ([3]?) Sus intereses pueden cambiar junto con una comprensión más amplia del campo. Por supuesto, el trabajo realmente interesante se encuentra en los documentos de la revista / conferencia, así que vaya a las tangentes y léalas en paralelo para trabajar con los libros de texto. La forma en que lo veo, la función de los libros de texto es prepararlos para tratar los temas de investigación, por lo que leer los artículos es una buena manera de ver dónde se encuentra y en qué debe centrarse.

[1] – Reconocimiento de patrones y aprendizaje automático (Ciencia de la información y estadísticas)

[2] – Aprendizaje automático

[3] – Teoría de la información, reconocimiento de patrones y redes neuronales: el libro

[4] – Procesos gaussianos para el aprendizaje automático.

[5] – https : //people.eecs.berkeley.edu…

[6] – Página de inicio del libro, “Análisis de datos bayesianos”

[7] – Markov Chain Monte Carlo en la práctica

Yo diría que leer el Análisis de Datos Bayesiano de Gelman et al es la mejor manera de comenzar a aprender, pero puede ser difícil. Compruebe este enlace avehtari (Aki Vehtari) para ver las demostraciones.

Si prefieres los videos, no hay nada mejor que seguir el Replanteamiento estadístico de Richard McElreath desde Universidad de California, Davis.

PM me si necesita las copias de los libros de texto.

Michael I. Jordan ha publicado una lista de lectura recomendada para cualquiera de sus posibles estudiantes de doctorado. Está dirigido más a los investigadores, pero el nivel es intermedio, por lo que los profesionales deberían poder acceder a los libros:

Libros de aprendizaje automático sugeridos por Michael I. Jordan de Berkeley