Tecnologías de la Información y Comunicación
BETO, el primer modelo de “autoatención neuronal” para procesar el idioma español
Problema: La eficacia de los sistemas de procesamiento de lenguaje natural (PLN) ha crecido radicalmente en los últimos años. Una de las técnicas cruciales en este crecimiento es la “autoatención neuronal”. Sin embargo, tanto para la investigación científica como para quienes trabajan en nuevos desarrollos basados en PLN, solo se contaba con modelos de autoatención hechos para textos en inglés, volviendo urgente desarrollar un modelo para texto en lengua hispana.
Solución: BETO es el primer modelo de autoatención exclusivamente para PLN en español, capaz de entrenarse a sí mismo utilizando grandes bases de datos de texto y resolver múltiples tareas de procesamiento de lenguaje natural. BETO fue puesto a disposición de la sociedad como código abierto, tanto para estudio como aplicación. Hasta ahora, ha sido utilizado por empresas de e-commerce y atención al cliente, en investigación en el área de educación y en detección de discurso del odio en varios países de habla hispana.
Investigadores: José Cañete, Gabriel Chaperon Rodrigo Fuentes, Jou Hui Ho y Hojin Kang.
Departamento de Ciencias de la Computación e Instituto Milenio Fundamentos de los Datos – IMFD