Lo Campus diari

Premsa universitària i escolar de Catalunya, el País Valencià, les Illes Balears, Catalunya Nord, Andorra i l’Alguer

La Universitat Oberta de Catalunya coordina el Projecte TAN-IBE que aplicarà la TRADUCCIÓ AUTOMÀTICA NEURONAL al castellà, el portuguès, el català, el gallec, l’asturià, l’aragonès i l’aranès

Data publicació
Notícia anterior
Notícia posterior

S’està potenciant el Projecte Traducció automàtica neuronal per a les llengües romàniques de la península Ibèrica (TAN-IBE), coordinat per la Universitat Oberta de Catalunya (UOC) i amb la participació de les universitats d’Oviedo i Saragossa i també la Universitat de Lleida (UdL).

El Projecte explora les tècniques més efectives per entrenar sistemes de traducció automàtica basats en xarxes neuronals (un tipus d’IA) aplicades a set llengües romàniques de la península Ibèrica: castellà, portuguès, català, gallec, asturià, aragonès i aranès.

Una IA que transfereix coneixement entre llengües

Els sistemes de traducció basats en xarxes neuronals s’entrenen a partir de milions d’oracions en una llengua amb la traducció en una altra llengua. És el que es coneix com a corpus paral·lels, conjunts immensos de dades disponibles en dues llengües. Quan la xarxa neuronal està entrenada, és capaç de traduir amb eficàcia qualsevol text en aquestes llengües. El problema és que, amb idiomes com el castellà o el portuguès, és senzill trobar aquests corpus paral·lels, però amb les llengües que tenen menys material disponible —com l’aranès, l’aragonès o l’asturià— és complicat tenir prou dades per entrenar la intel·ligència artificial.

“L’aspecte positiu és que els sistemes neuronals poden aprendre coses d’una llengua a partir d’una altra que s’hi assembli”, explica Antoni Oliver, investigador del grup de recerca interuniversitari en Aplicacions Lingüístiques (GRIAL-UOC), coordinador del projecte TAN-IBE i professor dels Estudis d’Arts i Humanitats de la UOC. “Per això vam triar les llengües romàniques.

El procés haurà de ser capaç d’aprendre per transferència emprant un model entre dues llengües per construir el sistema de traducció entre dues de diferents. Així, per exemple, quan estigui acabada, l’eina de traducció espanyol-aranès haurà après en part gràcies al sistema espanyol-català o a l’espanyol-portuguès”, afegeix.

La construcció del model de traducció no és l’únic objectiu del projecte de recerca, que busca, a més:

-Compilar corpus paral·lels i monolingües per a les set llengües romàniques que s’inclouen en la proposta, dedicant més esforç a l’asturià, l’aragonès i l’aranès.

-Explorar noves tècniques per a l’entrenament de sistemes de traducció automàtica neuronal. A més de l’aprenentatge per transferència, s’estudiarà la traducció automàtica multilingüe, la traducció automàtica autosupervisada i la traducció automàtica no supervisada.

-Entrenar sistemes de traducció automàtica neuronal entre l’espanyol i la resta de llengües del projecte, en les dues direccions.

-Entrenar sistemes multilingües capaços de traduir des de totes les llengües del projecte i cap a totes les llengües del projecte.

-Crear guies i scripts que facilitin l’entrenament de sistemes de traducció automàtica neuronal en general i, més en concret, per a les llengües del projecte.

-Publicar els resultats del projecte amb llicències lliures. Això inclou els corpus compilats, els models i motors de traducció automàtica i les guies i scripts.

“A grans trets, el projecte consisteix, en primer lloc, a recopilar tots els corpus per a les llengües amb menys material (asturià, aragonès i aranès), i, en segon lloc, a entrenar els sistemes de traducció”, afegeix Antoni Oliver. “El resultat final del projecte serà tant la publicació lliure dels recursos, en la mesura que sigui possible, com la creació d’un sistema de traducció automàtica neuronal d’ús lliure”, explica.

Acords i estudis per impulsar les llengües minoritàries

La primera part del projecte es porta a terme fora dels laboratoris. Per disposar de les dades necessàries per entrenar els models d’intel·ligència artificial, cal recopilar tot el material que sigui possible de l’asturià, l’aragonès i l’aranès. “Per això, aquesta primera fase se centra a aconseguir acords amb governs autonòmics, universitats o editorials perquè ens facilitin el material per crear els corpus paral·lels mitjançant els quals puguem entrenar el sistema neuronal”, assenyala Oliver.

En aquest sentit, enguany es va arribar a un acord amb el govern del Principat d’Astúries per a la cessió de tot el corpus de textos traduïts del castellà a l’asturià que té la Dirección Xeneral de Política Llingüística. El conveni recull també que, si el Principat ho necessita, podrà disposar dels desenvolupaments tecnològics i lingüístics del projecte TAN-IBE per aprofitar-los en possibles projectes propis de traducció automàtica.

“En última instància, amb aquest projecte volem ajudar a fomentar l’ús de les llengües amb menys recursos i incrementar les publicacions en aquestes llengües”, afegeix l’investigador de la UOC. “Per exemple, totes les lleis es podrien publicar en dues llengües de manera ràpida i eficient, invertint-hi menys recursos, tot i que sempre caldria una revisió humana. A més, les persones que no s’atreveixen a fer servir aquestes llengües perquè no se senten segures poden emprar aquestes eines per millorar els seus textos. Finalment, les llengües com l’asturià, l’aragonès o l’aranès han de formar part de les tecnologies digitals. Si no, poden anar desapareixent i ser oblidades”, conclou Oliver.

Notícia anterior
Notícia posterior

Processing...
Thank you! Your subscription has been confirmed. You'll hear from us soon.
NEWSLETTER
Butlletí quinzenal gratuït dels Continguts Diaris
ErrorHere