¿Cuáles son todos los buenos recursos que sugeriría a alguien que querría aprender sobre el reconocimiento de voz?

Ya sea que sea nuevo en el reconocimiento de voz o un desarrollador de voz experimentado, los siguientes consejos de reconocimiento de voz le brindarán una variedad de formas para mejorar sus aplicaciones.

General

Esta sección contiene información sobre temas generales de reconocimiento de voz de interés.

¿Nuevo en el reconocimiento de voz?

Esta serie de artículos está dirigida a aquellos que son nuevos en el reconocimiento de voz. Proporciona una visión general de la tecnología y sus aplicaciones.

Desarrollo de aplicaciones de voz

Encuentre información sobre la creación de soluciones de reconocimiento de voz, incluida la forma de evitar las dificultades comunes.

Ajuste de la aplicación de voz

La industria del habla estima que entre el 40% y el 50% del tiempo total de desarrollo e implementación se debe invertir en el proceso de ajuste. ¿Querer aprender más?

Valor del ajuste de la aplicación de voz

ROI de la optimización de voz: al utilizar algunos números estándares de la industria como supuestos, mostramos cómo una modesta inversión de tiempo y recursos en la optimización se puede traducir en más de cien mil dólares de ahorro en menos de un año. El documento técnico proporciona una explicación completa de cómo realizamos estos cálculos para que pueda ejecutarlos utilizando sus propias aplicaciones.

Artículos técnicos

Todos nuestros recursos técnicos para desarrolladores se almacenan en la red de desarrolladores LumenVox, nuestro sitio web centrado en desarrolladores. Los recursos disponibles incluyen documentos técnicos, artículos técnicos, código de muestra y una biblioteca de videos de capacitación.

Nuestros artículos técnicos están destinados a profundizar en un tema específico. También son útiles como guías de referencia durante el desarrollo de una aplicación de voz. Si desea sugerir temas que podrían ser útiles como material de recursos, contáctenos.

– Vea más en: Recursos de reconocimiento de voz, artículos, libros blancos (originalmente compartidos en el software de reconocimiento de voz – LumenVox)

Primero que todo, quiero que quede claro que acabo de comenzar mi propia inmersión en Aprendizaje automático / IA y de ninguna manera soy un experto en esta área. En cualquier caso, esperamos que estos pocos consejos le ayuden a impulsar su proceso de aprendizaje y respondan algunas de sus preguntas:

1. El reconocimiento de voz, junto con todas las demás aplicaciones (traducción automática, análisis de sentimientos, respuestas a preguntas, etc.) pertenecen al campo más amplio de la PNL (procesamiento de lenguaje natural). Esto requiere que usted desarrolle conocimiento de dominio adicional específicamente en PNL además de su conocimiento básico de LD. Un excelente recurso completo que encontré es este Curso de Stanford sobre PNL (CS224d: Aprendizaje profundo para el procesamiento del lenguaje natural) impartido por Richard Socher. Comienza desde cero (casi) y procede a cubrir las últimas técnicas e investigaciones (ver punto 2)

2. En lo que respecta al reconocimiento de voz (y en general a la mayoría de las áreas de la PNL), la investigación y las aplicaciones recientes han involucrado una profunda red neuronal recurrente, específicamente en el sabor de la LSTM (memoria a corto plazo). LSTM aborda el problema infame de la desaparición del gradiente que plagaba las redes recurrentes originales de vainilla (causadas por las conexiones recurrentes). Al introducir un carrusel de error constante (CEC) y varias puertas, le da a la celda LSTM la capacidad de almacenar, borrar y enviar información, en pasos de largo tiempo.
Para obtener más información sobre LSTM, debe leer la tesis doctoral de Alex Grave, http://www.cs.toronto.edu/~grave… .

3. Punto final: para trabajos recientes en PNL que involucran aprendizaje profundo (LSTM y otros), la mejor manera que he encontrado es a través de Google Scholar. Si combina “LSTM” con cualquiera de las palabras clave de las aplicaciones de PNL mencionadas anteriormente, y limita el historial de búsqueda desde 2013/2014 hasta ahora, encontrará toneladas y toneladas de trabajos de investigación.

También le recomiendo que revise las publicaciones de Google Deepmind, ( http://deepmind.com/publications …) Ya que tienen una investigación realmente impresionante en todas las áreas del aprendizaje automático, desde las máquinas neuronales de Turing hasta mi favorita actual, Atari juego con aprendizaje por refuerzo (Neural Q-Learning).

¡Disfrutar!

Gary

reconocimiento de voz pdf – Búsqueda de Google