Comentaré la respuesta de Jonathon Strahl, donde se vinculó a la lista de libros de Jordan, Machine Learning Books Suggested by Michael I. Jordan de Berkeley
Así que primero, muchos de estos libros son los textos clásicos en su campo: álgebra lineal, teoría de la medida, análisis real, teoría de la información, análisis funcional, optimización, etc. Es necesario tener un buen comienzo en todas estas áreas, ya que son Los métodos matemáticos fundamentales utilizados en la teoría del aprendizaje automático. Pero en mi opinión, no es necesario conocerlos en detalle.
La mayoría de los libros serían un esfuerzo completo de 3 meses para estudiar, y algunos mucho más. Comprender todo esto sería un triple mayor de muy alta calidad en matemáticas de pregrado. Exagerar a menos que tu meta profesional sea ser un profesor titular en Berkeley para cuando tengas 35 años. Como Michael Jordan, tal vez.
La teoría de la medida, por ejemplo, está completamente vendida en términos de uso. No dudo de la importancia de la teoría, pero en la práctica solo necesita conocer los axiomas básicos de la medida y algunas propiedades básicas de cómo trabajar con ella. Obtuve la mayor parte de los antecedentes en integración multivariable y teoría de conjuntos en pregrado. El estudio de Durrett, en mi opinión, es una pérdida de tiempo para el aprendizaje automático bayesiano. Del mismo modo, los asintóticos son de uso mixto en el aprendizaje automático bayesiano. Al igual que con la teoría de la medida, debe conocer los resultados básicos, pero generalmente no necesita conocer el valor de todo el libro. Cosas mucho más importantes y útiles para llegar.
- Me gustaría educarme tanto como pueda antes de solicitar mi licencia PPL. ¿Cuáles son, en su opinión, las mejores fuentes para aprender de forma gratuita?
- ¿Cuáles son los mejores recursos para enseñarme relatividad general y especial?
- ¿Cuáles son los mejores recursos disponibles para aprender Python, tanto en cursos en línea como en libros?
- ¿Cuáles son los mejores recursos para aprender hindi en iOS?
- ¿Cuáles son algunos buenos recursos para aprender a sobresalir?
Los libros iniciales que sugeriría son:
- Casella, G. y Berger, RL (2001). Inferencia estadística, Duxbury Press.
- Gelman, A. et al. (2003). Análisis de Datos Bayesianos, Chapman & Hall / CRC.
- Robert, C. y Casella, G. (2005). Métodos estadísticos de Monte Carlo, Springer.
Este es un entrenamiento estándar de primer año de posgrado en estadísticas de orientación bayesiana, y usted necesita saber esto. Debe poder realizar pruebas estándar para comprender adecuadamente, por ejemplo, que Gibbs es una instancia de muestreo de Metrópolis y la vista de álgebra matricial de por qué funciona el muestreo de Gibbs.
Lo que me gustaría que supieras es el contenido de:
- Larry Wasserman. 2010. Todas las estadísticas: un curso conciso de inferencia estadística . Springer Publishing Company, Incorporated.
Pero realmente no aprendes de esto.
Pero esto es realmente solo el comienzo.
La inferencia variable, la versión KL, es algo muy simple pero no muy bien tratado en los libros de texto. Debe enseñarse en el caso de la familia exponencial general, y como una generalización del algoritmo EM. Lo sentimos, no puedo sugerir un libro / artículo. ¿Nadie?
Donde la inferencia bayesiana tiene su propio origen, con pocos paralelos, es una completa jerarquía jerárquica. Puede ver algo de esto en áreas como el procesamiento del lenguaje natural y la factorización matricial, que también utilizan métodos Bayesianos no paramétricos (BNP). En cierto modo, los objetivos y usos son similares al campo de las redes neuronales profundas. Creo que Gelman et al. Puede tocar en los anteriores jerárquicos básicos. Las notas de Peter Orbanz (tutorial no paramétrico de Bayes) parecen ser un tratamiento razonable y más accesible para el BNP, aunque se pierde mucho. BNP aún está saliendo de la comunidad teórica (por ejemplo, el trabajo reciente de Lancelot James) en ML, y en algunos casos está mal presentado.
Además, para obtener la flexibilidad total de los métodos bayesianos, creo que es bueno leer sobre sistemas como Stan (http://mc-stan.org) y los BUGS más antiguos. Pero estos no se reflejan bien en el aprendizaje automático moderno, que también tiene que ver con la escala y la complejidad. Pero son buenos, pero simples, ejemplos de la flexibilidad de los métodos bayesianos.