Con miles de millones e incluso billones de dispositivos informáticos, ¿por qué la tecnología de reconocimiento de voz sigue siendo tan deficiente?

Nuestro error común ya no es la falta de capacidad de procesamiento, se trata de una mala comprensión de los idiomas.

Creo firmemente que se invirtió demasiado en el análisis acústico, y comúnmente lo logramos tan bien como puede llegar, pero el verdadero avance se producirá solo cuando ampliemos nuestro análisis a otros niveles. Estoy pensando específicamente en un análisis de nivel sintáctico, pero sobre todo en el nivel semántico.

Como base, las computadoras se hicieron como calculadoras fuertes, y funcionan bien como tales. Por otro lado, hay un límite a lo que puede hacer una calculadora. Por ejemplo, las computadoras son extremadamente buenas en el reconocimiento de patrones (acústica), pero realizar un análisis semántico requiere más pensamiento de alto nivel que un análisis acústico directo. Este es un esfuerzo de programación / ingeniería que debe iniciarse y lograrse y requiere algunas personas clave que versen en muchos campos difíciles al mismo tiempo que vienen con este enfoque. Estas personas deben ser versos en lingüística, ingeniería de software de alta gama, filosofía y semántica, todo en el nivel experto de comprensión y ejecución. No encuentras muchas de estas personas alrededor, pero si llenas una habitación con 3-4 de ellas y un pequeño ejército de ejecutantes detrás, el resultado solo puede ser un éxito.