Qualitat de la traducció automàtica del parell anglès -> català i plans per 2020 a Softcatalà
Considero que la traducció automàtica anglès -> català és la més important en una societat on molt del coneixement es genera en llengua anglesa. Durant els darrers dos anys ens hem plantejat a Softcatalà: per què no invertim en la millora de la traducció automàtica anglès -> català. La primera qüestió que es plantejà era: on som en termes de qualitat? i on volem arribar? I cap de les dues qüestions són fàcils de respondre: on som i on volem arribar respecte a quines expectatives? Per exemple, per quins tipus de textos, què vol dir una qualitat acceptable?
Llavors he fet una anàlisi de la qualitat dels traductors disponibles en anglès - català amb els següents objectius:
- Com es compara la traducció anglès -> català d’Apertium (el traductor que usem i col·laborem des de Softcatalà) respecte a opcions com Google Translator, Yandex, i altres. I en concret hem fet l'anàlisi sobre tres corpus: traducció informàtica (un manual del GNOME), textos informals (Global Voices) i textos de la Wikipedia.
- Trobar les mancances més importants del traductor d’Apertium i corregir-les.
- Intentar entendre que hauríem de fer durant 2020 per millorar el parell de llengües anglès -> català (independentment de la tecnologia, sigui Apertium o una altra).
A Softcatalà els esforços per construir un traductor lliure anglès -> català han anat bàsicament en dues direccions:
- Contribuir a Apertium en parell anglès -> català. Marc Riera porta des de fa dos anys treballant en millorar el parell. A finals de 2018 vam presentar una millora important en el parell anglès - català. L’Apertium és un sistema de traducció basant en regles i vocabulari i continuem millorant-lo però ens ha faltat tenir més feedback sobre la qualitat.
- Durant 2018 vam fer proves de concepte entrenant models de xarxes neuronals (Sofcatalà NMT) amb uns resultats molt bons en un context molt concret: traducció de programari informàtic. El resultat va ser la publicació de dos models lliures i els seus corpus. Vam deixar-ho aquí, ja que no disposem de prou corpus lliure per entrenar models per a contextos més genèrics.
Tant BLUE com NIST són mètriques que s’utilitzen per avaluar els sistemes de traducció automàtica. Com més alt és el nombre més s'assembla a una traducció de referència.
La conclusió d’aquests resultats és que Google sempre és el millor i que Apertium té els resultats més modestos, en comparació als altres traductors pel parell anglès -> català. Però també hi ha una conclusió molt important, el traductor en xarxes neuronals Softcatalà NMT quan l’usem contra un corpus ben entrenat s’apropa molt a la qualitat d’Apertium, per la qualcosa és una opció a continuar explorant.
Llavors per què continuar treballant amb Apertium o altres tecnologies lliures si Google ho fa tan bé? Nosaltres pensem que és absolutament imprescindible que una tecnologia d’aquesta importància tingui una implementació lliure: tant en el codi com en les dades. Això no només pot estar en mans d’empreses privades. Hem parlat àmpliament d’això en el passat.
Llavors, quin és el nostre pla a Softcatalà? Ara mateix:
- Continuar millorant Apertium. Utilitzar aquesta anàlisi i demanar més explícitament ajuda als usuaris perquè comparteixin les traduccions que pensen siguin millorables. Com mostra l'anàlisi, i com nosaltres mateixos sabem, es pot millorar significativament.
- Reentrenar el traductor de Softcatalà NMT (neuronal) amb corpus més genèrics, això inclou GlobalVoices, WikiMatrix, Open Food Network. i OpenSubtitles i començar a avaluar els resultats dels nous models.
- Serà impossible millorar els models neuronals si no disposem de corpus anglès -> català de qualitat lliures alineats. En aquest sentit el nostre punt de partida serà WikiMatrix i demanar ajuda als usuaris per validar-ne la qualitat (aproximadament un 36% del corpus conté errades, basant-nos en una anàlisi manual que hem fet).
És possible que en futur a Softcatalà usem per al parell anglès -> català models neuronals en comptes d’Apertium o que utilitzem un sistema híbrid amb avaluació en temps real. Al final la solució serà la que ens permeti oferir millor qualitat a la nostra comunitat.
Si us interessa la traducció automàtica, saber-ne més o donar un cop de mà, disposem d’un canal de Telegram per coordinar aquests esforços.