Universidad Politécnica de Madrid

La primera tabla de clasificación para grandes modelos de lenguaje en español

Investigadores y profesores de la ETSIT participan en el desarrollo de La Leaderboard, que evalúa también textos generados en catalán, euskera y gallego

26.09.24

Los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) se han convertido en actores principales en el ámbito de la inteligencia artificial (IA). Diseñados para comprender y generar texto imitando las respuestas que daría un ser humano, representan un enorme avance en el ámbito del procesamiento del lenguaje natural, además de facilitar la adopción de herramientas de IA en numerosas organizaciones. No en vano, la gran cantidad de datos que se emplean en su entrenamiento hace posible otros contenidos y funcionalidades.

Ante el auge de los LLM, los integrantes de SomosNLP, una comunidad internacional de hispanohablantes interesados en el procesamiento natural del lenguaje, detectó la necesidad de crear una tabla de clasificación para comparar los modelos en las lenguas de sus países y medir cuantitativamente los avances. Así ha nacido La Leaderboard de Variedades del Español y Lenguas Oficiales, primera tabla de clasificación para modelos generativos en castellano y otros idiomas de España y América Latina.

La versión inaugural de esta tabla incluye más de 50 tareas en cuatro lenguas: castellano, catalán, euskera y gallego. Evalúa las capacidades de extracción de información y resumen, cultura general, conocimiento en los dominios legal y clínico, razonamiento lógico y dominio del idioma. De este modo, ya pueden responderse preguntas como qué modelo de lenguaje genera texto de mayor calidad en español.

El desarrollo de La Leaderboard es fruto de la colaboración de diversos equipos de investigación, entre los que figura el Grupo de Internet de Nueva Generación de la Escuela Técnica Superior de Ingenieros de Telecomunicación (ETSIT) de la Universidad Politécnica de Madrid (UPM). En concreto, los miembros de la ETSIT implicados en el proyecto son los investigadores Miguel González, María Grandury y Nina Melero, junto a los profesores Javier Conde y Pedro Reviriego.

Más información sobre La Leaderboard