Los algoritmos de “aprendizaje profundo” se han inspirado tradicionalmente en la estructura de los sistemas de visión viva, que analizan los subsistemas biológicos identificados con capas de “neuronas” computacionales. Los sistemas computacionales luego intentan “aprender” características simples (por ejemplo, “bordes”) en las capas “neuronales” inferiores y características más complejas (por ejemplo, “caras”) en las capas superiores.
Especuleando entonces, veo varias áreas donde podría haber un impacto.
1) Una mejor comprensión de las capas de visión biológica “codificadas duras” más bajas que podrían informar mejor su emulación en los sistemas de aprendizaje profundo.
2) Una mejor comprensión de cómo las capas biológicas codificadas más altas se interconectan con el sistema de razonamiento del cerebro.
3) Mejor comprensión de qué tan aplicable es este modelo a otras modalidades de entrada sensorial, por ejemplo, audición, gusto, olfato y tacto. Tenga en cuenta que hay algunas teorías bastante antiguas al respecto. Algunos opinan que el sistema de procesamiento temporal auditivo (en algún nivel) comparte el mismo procesamiento que el sistema espacial de la visión. Los objetos visuales se entienden de la misma manera que los sonidos, con las características de audio “niveladas” a frases tonales en el caso de la música (consulte el Instituto McGovern para la Investigación del Cerebro en el MIT en salida (no entrada)) y oraciones en el caso del lenguaje. Vea la charla BAMMF de Richard Socher sobre una forma de combinar lenguaje y visión a través del aprendizaje profundo.