Publiquem un model wav2vec2 de reconeixement de la parla en català

Compartiu

Publiquem un model wav2vec2 de reconeixement de la parla en català

Aquesta setmana el company de Softcatalà Ciaran O’Reilly ha publicat el primer model de reconeixement de veu basat wav2vec2. En aquest enllaç podeu provar-lo, amb el micròfon o pujant un fitxer d’àudio: https://huggingface.co/ccoreilly/wav2vec2-large-xlsr-catala. El model té una taxa d’error WER de només 7,57%!

Us explicarem per què aquesta fita és important i que representa.

Hem usat el corpus de Common Voice en català per a entrenar-ho, que conté 750 hores de veu enregistrades en dos anys i mig per més de 5.300 col·laboradors de diferents edats, gèneres i accents. Aquest corpus és clau per a construir sistemes de reconeixement de parla que incloguin la diversitat. Avui mateix, #CommonVoiceCAT segueix creixent, ja tenim 856 hores enregistrades i 725 de validades. Hem deixat enrere el francès (743/675) i de mica en mica reduïm distància amb l’alemany (895/843). Us animem a participar-hi: https://commonvoice.mozilla.org/ca

Hem usat un segon corpus ParlamentParla creat per Collectivat.cat (@collectivat.cat) que inclou 90 hores de veu del Parlament de Catalunya.

També esperem veure aviat els primers fruits del projecte Aina en matèria de veu, que segur sumaran en positiu a aquests corpus ja existents. Cal agrair el paper de les diferents comunitats que creen corpus lliures i els comparteixen. Són els pilars de la feina que compartim avui.

L’altre fet important és els avanços tecnològics com els models d’aprenentatge automàtic wav2vec2 permeten a llengües minoritzades crear els seus propis models de reconeixement de la veu amb poques dades i poc esforç computacional. Estem segurs que aviat hi haurà una eclosió de models reconeixement de la parla disponibles en català (i altres llengües) de diferents qualitats i adaptats a diferents tasques (generals, atenció al client, videojocs, etc.).

Per últim, reconèixer iniciatives com Huggingface  (on s’han publicat els models), que permeten que milers de desenvolupadors puguin incloure de forma molt senzilla aquests models de reconeixement de la parla.

Aquest és una nova fita perquè les torradores entenguin català ho tinguem més a prop.


Comentaris