La Universidad de Alicante (UA), a través del grupo de investigación Transducens del Departamento de Lenguajes y Sistemas Informáticos, será uno de los socios de la acción 2016-EU-IA-0114 "Provision of web-scale parallel corpora for official European languages", concedida en el marco de la convocatoria CEF-TC-2016-3 - Automated Translation. El proyecto, de 18 meses de duración, finalizará el 31 de diciembre de 2018. Está coordinado por la Universidad de Edimburgo.

Fuentes de la UA han indicado que el componente Automated Translation de la Connecting Europe Facility (CEF) proveerá a la Comisión Europea de colecciones de textos traducidos entre cualquiera de las 24 lenguas oficiales de la Unión Europea. En los primeros seis meses, se prevé tener disponibles recursos para 12 de estos 24 idiomas.

Los recursos más importantes para construir un servicio de traducción automática son los corpus paralelos, es decir, las colecciones de textos traducidos. Hasta el momento, recursos de este tipo solo están disponibles a gran escala para determinados sitios web como el Parlamento Europeo, las Naciones Unidas, o para algunas iniciativas voluntarias como las traducciones de las charlas TED o de Open Subtitles, y sólo para algunas lenguas de Europa. Sin embargo, la traducción automática comercial (ofrecida por diferentes servidores y plataformas online) se basa en corpus basados en los textos de millones de sitios web y que tratan con unos rangos más amplios de géneros, temáticos y estilos.

En este proyecto los investigadores van a aplicar las últimas tecnologías disponibles para la cadena de procesamiento completa, desde la identificación de los sitios web con texto traducido hasta la obtención de corpus paralelos limpios masivos para todas las lenguas de Europa. Estos textos, que cubrirán una amplia variedad de estilos, géneros y temáticas, estarán listos tanto para ser usados como datos de entrenamiento en el CEF Automated Translation, como para servir de memorias de traducción para la Direccción General de Traducción de la Comisión Europea.

El proyecto se entregará a la Comisión Europea y las herramientas serán publicadas mediante licencias de software libre o de código fuente abierto, el software que permitirá continuar con la cosecha en Internet de colecciones de textos traducidos, de forma que puedan ser usadas tanto por CEF Automated Translation como por toda persona o institución interesada.