¿Cuáles son algunos buenos recursos para aprender sobre la reducción de la dimensionalidad? ¿Por qué?

Uno podría enumerar muchos artículos seminales dada la importancia fundamental y la amplitud de esta área.

Pero en el caso de que estés buscando algo que sea
1. holístico
2. Encuesta en una gran cantidad de literatura en el área (y por lo tanto, enumera los documentos importantes sobre KPCA, Eigenmaps, etc.
3. Dibuja conexiones entre estos métodos básicos. Esto podría ser útil si usted es nuevo en el área y carece de una visión amplia que podría tener más experiencia.

entonces recomendaría esta encuesta de Chris JC Burges, que se publicó como volumen de Fundamentos y Tendencias en Aprendizaje Automático :

Reducción de la dimensión: PDF de una visita guiada aquí: http://research.microsoft.com/pu…

Pero por supuesto hay muchas cosas que falta. Una de las muchas cosas: el uso de redes neuronales profundas para la reducción de la dimensionalidad no lineal. Un ejemplo es el artículo científico de Ruslan Salakhutdinov y Geoff Hinton:
http://www.cs.toronto.edu/~hinto… y los muchos otros métodos relacionados que utilizan autocodificadores, etc. Estos son, en mi humilde opinión, más útiles (al menos para la tarea de reducción de la dimensionalidad) que muchos de los más famosos. Métodos como Laplacian Eigenmaps, LLE, ISOMAP, etc., en los que no existe una extensión directa fuera de la muestra (el uso de Nystrom no funciona lo suficientemente bien en mi opinión).

Aquí hay algunos artículos que mejoraron en gran medida la comprensión matemática de la reducción de la dimensionalidad.

  • Una prueba elemental del lema de Johnson-Lindenstrauss por Dasgupta y Gupta [1]
  • Un marco geométrico global para la reducción de la dimensión no lineal (ISOMAP) por Tennenbaum, Silva y Langford [2]
  • Mapas propios laplacianos para reducción de dimensiones y representación de datos por Niyogi y Belkin [3]

[1] http://cseweb.ucsd.edu/~dasgupta
[2] http://web.mit.edu/cocosci/Paper
[3] http://www.mitpressjournals.org/…

Recomiendo encarecidamente leer la conferencia de David Donoho titulada “Análisis de datos de alta dimensión: sobre las maldiciones y bendiciones de la dimensionalidad”. La “bendición” de los datos en dimensiones altas es que la información de interés se encuentra efectivamente en una dimensión inferior que podemos aprovechar, por lo general, esto implica representaciones dispersas o variedades de dimensiones bajas.
http://www-stat.stanford.edu/~do

Modelos lineales:

  • Reconocimiento facial bayesiano por Moghaddam, Jebara y Pentland [1]
  • Indización de objetos utilizando una memoria distribuida icónica dispersa de Rao y Ballard [2]

Reducción de la dimensionalidad no lineal.

  • Autoencoders profundos: reduciendo la dimensionalidad de los datos con redes neuronales por Hinton y Salakhutdinov
  • Una introducción a la incrustación lineal local por Saul & Roweis [3]
  • Análisis de componentes no lineales como un problema de valor propio del kernel por Scholkopf, Smola & Muller [4]
  • Aprendizaje de una matriz de núcleo para la reducción de la dimensionalidad no lineal por Weinberger, Sha y Saul [5]
  • Volumen mínimo de incrustación de Shaw y Jebara [6]

[1] http://www.cs.columbia.edu/~jeba
[2] http://citeseerx.ist.psu.edu/vie
[3] http://citeseerx.ist.psu.edu/vie
[4] http://www.mitpressjournals.org/…
[5] http://portal.acm.org/citation.c
[6] http://www.cs.columbia.edu/~jeba

Referencia: materiales del curso de aprendizaje automático avanzado por Tony Jebara: http://www.cs.columbia.edu/~jeba…

Ver también

  • Spencer autoencoder: Página en stanford.edu
  • Hash semántico
  • Hash espectral
  • Hasheado semi-supervisado para búsquedas a gran escala.
  • Las conferencias de Sanjiv Kumar: http://www.sanjivk.com/EECS6898/