El Instituto de Investigación en Ingeniería de Aragón (I3A) de la Universidad de Zaragoza acoge el viernes 13 de marzo, de 15 a 19 horas, un encuentro científico para recopilar datos de evaluación en lengua aragonesa para mejorar la competencia en esta lengua de grandes modelos del lenguaje (LLMs, como ChatGPT o Gemini).
El objetivo de este 'Datathon' es aumentar la presencia digital del aragonés y facilitar su supervivencia en el ecosistema tecnológico actual. La iniciativa sigue el modelo aplicado con éxito a otras lenguas como el euskera, el catalán y el gallego.
Alrededor de una veintena de personas se han apuntado, de los que 13 estarán en esta primera cita que acoge el Edificio I+D del Campus Río Ebro (calle Mariano Esquillor, s/n.)
El 'Datathon' está organizado en el marco de la tesis doctoral de Miguel López Otal, dirigida por el profesor Jorge Gracia del Río, ambos miembros del grupo de investigación Sistemas de Información Distribuidos (SID), y cuenta con el asesoramiento de Juan Pablo Martínez, director del Instituto de l'Aragonés de la Academia Aragonesa de la Lengua y también miembro del I3A.

Los datos recabados en este evento servirán para probar las habilidades de estos modelos de inteligencia artificial en esta lengua romance y buscar su mejora. Aunque el aragonés está actualmente en serio peligro de extinción según la UNESCO, cuenta con una comunidad de hablantes fuertemente comprometida y altamente activa, cuyo papel será fundamental en esta jornada.
Los voluntarios que participan en el 'Datathon' tendrán que corregir un conjunto de más de 10.000 oraciones, traducidas automáticamente de español a aragonés con la herramienta Apertium, para que verifiquen si las traducciones son correctas. Esta herramienta, aunque muchas veces hace traducciones correctas, puede cometer fallos, por lo que los revisores en el evento tendrán que corregir posibles errores que siempre se van a encontrar. Trabajarán con traducción automática y corrección manual.
Los conjuntos de datos resultantes serán publicados abiertamente en Internet para facilitar la experimentación en esta lengua. Todo ello, forma parte de un intento activo de dar soporte al aragonés en el actual mundo de la IA, donde la escasez de textos de entrenamiento dificulta el uso competente de esta lengua por parte de los modelos de lenguaje, y anima a buscar estrategias alternativas. La recopilación de estos datos de evaluación servirá para dar un paso decisivo en esta dirección.





Guía de San Pedro Alcántara
Comentarios
Aviso





