Me encontré con un proyecto de PNL propuesto llamado ‘Etiquetador POS para idiomas con pocos recursos’. ¿Qué se entiende por lenguaje con pocos recursos?

Estos son idiomas en los que Google, Facebook, etc. no funcionan (mucho). Hay más de 6000 idiomas en el mundo, muchos sin ningún tipo de escritura y la mayoría hablada por personas con muy poco dinero. No hay motivación comercial para trabajar en estos idiomas. Así que los académicos trabajan en ellos, en parte porque es demasiado difícil competir con Google, etc., en idiomas comercialmente viables como el inglés (las empresas tienen datos infinitos, dinero, computadoras y la mayoría de nuestros mejores graduados que trabajan allí).

La comunidad de investigación ha luchado con cómo nombrar este tipo de idiomas. La “minoría” no está bien porque a menudo son la mayoría donde viven, y hay más de ellos que los idiomas “ricos”. “Raro” tiene problemas similares. “Menos comúnmente enseñado” funciona bastante bien. Los “recursos insuficientes” o los “recursos bajos” funcionan bien porque abordan el meollo del asunto desde un punto de vista técnico: no se puede simplemente ir a la web y obtener algunos gigabytes de datos, y descargar los etiquetadores de puntos de referencia de línea de base analizadores Son bajos en recursos técnicos.

Estos otros idiomas son interesantes porque hay una gran variedad en cómo funcionan estos idiomas. Y los gobiernos a menudo están dispuestos a financiar el trabajo, ya sea por razones de seguridad o humanitarias.

No estoy seguro. Pero todavía no hay tal cosa como AI. Mirando desde el punto de vista de una pregunta, todo tiene que estar documentado. Por ejemplo, se están utilizando bases de datos léxicas. El inglés está bastante bien documentado, sin embargo, hay suficientes idiomas que se usan con menos frecuencia para los sistemas de control de calidad.

Los recursos pueden ser limitados para ciertos idiomas. Parece que eso es lo que significa “lenguaje con pocos recursos”.

Buena suerte 🙂