Tuvimos problemas para lograr que las máquinas se aproximaran al habla humana, pero con el tiempo, superamos eso, y pensamos que íbamos a lugares en los que podríamos hacer que una máquina dijera: “Es de sesenta y cinco grados”. Sin embargo, esa frase puede sonar a tres. maneras para decir:
“Está sesenta y cinco grados y cayendo”.
“¡Es sesenta y cinco grados, pero será ochenta grados en una hora y media!”
“Es de sesenta y cinco grados”.
- ¿Cuál será la nueva fiebre del oro de principios del siglo XXI?
- ¿Qué aspecto tendrán las armas de mano en uno o dos siglos a partir de ahora?
- Tengo una idea para una aplicación más grande que Uber y aprovecha un mercado que todos están pasando por alto. ¿Hay algún sitio web que me ayude a financiar la idea?
- ¿Es seguro asumir que el viaje en el tiempo nunca existirá porque nadie ha regresado del futuro para darnos la tecnología?
- ¿Cuánto tiempo es probable que tome, considerando la tasa de aceleración del progreso de la tecnología, que la tecnología humana parezca ser ‘mágica’?
Los tonos en la palabra “grados” suenan diferentes en cada uno de los tres ejemplos anteriores.
Para explicar el tema de hoy, tenemos un discurso artificial que dice cada una de las frases anteriores, pero es instantáneamente evidente que se produce artificialmente, sin importar la alta calidad de la síntesis de voz.
Para obtener un mejor sonido, uno tiene que diseñar un patrón para cada patrón de oración potencial. Esto es complejo, pero ciertamente manejable. Y una vez que conoce el algoritmo, puede colocar el mismo conjunto de patrones para cada palabra que agregue en una especie de talla única, y tendrá una síntesis de voz más amigable que suena bastante genuina. Ha habido un problema importante con el almacenamiento de memoria, pero ahora la memoria es más barata, por lo que se resolvieron los problemas de complejidad y capacidad para almacenar todos los muestreos.
Los avances son ahora un poco más pequeños y menos amplios de influencia, pero poco a poco, día tras día, continúan.
No nos aproximamos en absoluto al cerebro; simplemente nos esforzamos por construir una máquina que imite con éxito la interacción humana.
Para imitar el cerebro humano, aparte del hecho menor de que nadie sabe cómo funciona el cerebro, nosotros, para imitar la estructura, requeriríamos un sistema que ocupara el espacio de una ciudad, con todo tipo de interconexiones, duplicando la redundancia múltiple. que tipifica todas las funciones del cerebro. Heck, no queremos tratar de hacer eso. solo construiremos una máquina para actuar de tal manera que sea indistinguible del cerebro. Sospechamos firmemente que el cerebro tiene una forma compleja y no booleana bien desarrollada de analizar datos que funciona no porque sea rápido, sino porque años de experiencia repetida lo han hecho increíblemente brillante en la creación de accesos directos de los cuales solo podemos especular. Intentamos duplicar eso mediante nuestra mayor fortaleza: la capacidad de cálculo de velocidad cercana a la luz. Decir que todavía no hemos llegado a ese punto sería una subestimación, pero cada año nos acercamos.
Tomo mi teléfono y digo “OK, Google”, declaro una frase, y Google muestra mi frase (o lo que espera que sea mi frase) y luego hace una búsqueda. Me sorprende, porque puedo recordar cuándo se hizo la síntesis de voz. No está sucediendo todavía.
Creo que ahora estamos descubriendo, a medida que avanzamos, cómo definir el siguiente problema, y resolver ese problema a su vez nos revelará otros problemas. Estos son todos los pequeños avances.