carmentano
commited on
Update informacio.md
Browse files- informacio.md +54 -28
informacio.md
CHANGED
@@ -1,11 +1,13 @@
|
|
1 |
## 📄 Informació
|
2 |
TTS natural i eficient en català: 🍵+🥑
|
3 |
|
4 |
-
Aquí trobareu tota la informació sobre els nostres models 🍵 Matxa i 🥑 alVoCat
|
|
|
|
|
5 |
|
6 |
## Taula de continguts
|
7 |
<details>
|
8 |
-
<summary>
|
9 |
|
10 |
- [Descripció general del model](#descripció-general-del-model)
|
11 |
- [Usos previstos i limitacions](#usos-previstos-i-limitacions)
|
@@ -20,27 +22,34 @@ Aquí trobareu tota la informació sobre els nostres models 🍵 Matxa i 🥑 al
|
|
20 |
|
21 |
## Descripció general del model
|
22 |
|
23 |
-
La importància de les tecnologies de
|
|
|
|
|
24 |
|
25 |
-
Us presentem 🍵 Matxa, el primer model TTS neuronal multiparlant i multidialectal.
|
|
|
|
|
26 |
|
27 |
* Balear
|
28 |
* Central
|
29 |
* Nord-occidental
|
30 |
* Valencià
|
31 |
|
32 |
-
|
|
|
|
|
|
|
33 |
|
34 |
## Usos previstos i limitacions
|
35 |
|
36 |
-
Aquest model
|
37 |
-
Ha estat ajustat mitjançant un fonemitzador catal
|
38 |
|
39 |
La qualitat de les mostres pot variar segons el locutor.
|
40 |
-
Això pot ser degut
|
41 |
|
42 |
-
##
|
43 |
-
*
|
44 |
|
45 |
<table style="font-size:16px">
|
46 |
<col width="205">
|
@@ -114,7 +123,7 @@ Això pot ser degut tan per la sensibilitat del model en aprendre freqüències
|
|
114 |
</tbody>
|
115 |
</table>
|
116 |
|
117 |
-
*
|
118 |
|
119 |
<table style="font-size:16px">
|
120 |
<col width="205">
|
@@ -194,37 +203,44 @@ Això pot ser degut tan per la sensibilitat del model en aprendre freqüències
|
|
194 |
|
195 |
## Components principals
|
196 |
|
197 |
-
El nostre model de
|
198 |
|
199 |
-
1- Inicialment, el model analitza el text d'entrada,
|
|
|
200 |
|
201 |
-
2- El model matcha-TTS converteix aquests fonemes en un espectrograma
|
202 |
|
203 |
-
3-
|
204 |
|
205 |
-
Emprant aquesta sèrie d'etapes, el model de TTS assegura una pronunciació precisa i un discurs en català de so natural adaptat als matisos de la llengua.
|
|
|
206 |
|
207 |
-
|
208 |
|
209 |
## El model en detall
|
210 |
|
211 |
-
**Matcha-TTS** és una arquitectura
|
212 |
-
D'una banda, la part
|
213 |
-
|
|
|
|
|
214 |
En aquest últim, substituint CNNs 2D per CNNs 1D, s'aconsegueix una gran reducció en el consum de memòria i una síntesi ràpida.
|
215 |
|
216 |
**Matcha-TTS** és un model no autoregressiu entrenat amb emparellament de flux condicional d'optimització de transport (OT-CFM).
|
217 |
-
Això produeix un decodificador basat en ODE capaç de generar una alta qualitat de sortida en menys passos de síntesi que els models entrenats
|
|
|
218 |
|
219 |
## Adaptació al català
|
220 |
|
221 |
-
El model original de Matcha-TTS excel·leix en anglès, però per
|
|
|
222 |
|
223 |
* [La nostra versió del conjunt de dades openslr-slr69.](https://huggingface.co/datasets/projecte-aina/openslr-slr69-ca-trimmed-denoised)
|
224 |
|
225 |
* [La nostra versió del conjunt de dades Festcat.](https://huggingface.co/datasets/projecte-aina/festcat_trimmed_denoised)
|
226 |
|
227 |
-
A continuació,
|
|
|
228 |
|
229 |
* Balear
|
230 |
|
@@ -236,17 +252,27 @@ A continuació, vam fer un altre fine-tuning de Matxa-base amb el conjunt de dad
|
|
236 |
|
237 |
Amb un locutor masculí i un femení per a cada dialecte.
|
238 |
|
239 |
-
Després, mitjançant l'ajustament per a aquests dialectes catalans específics, el model es va adaptar a les variacions
|
|
|
240 |
|
241 |
-
A més de l'entrenament del model Matcha-TTS per al català, la integració del fonemitzador d'eSpeak
|
|
|
|
|
|
|
|
|
|
|
242 |
|
243 |
-
Després de la fonemització, els fonemes es passen al component de síntesi, on es transformen en parla audible.
|
|
|
|
|
244 |
|
245 |
-
Finalment, el discurs sintetitzat passa per un post-processament, on s'apliquen característiques prosòdiques com el to, la durada i l'èmfasi per refinar encara més la sortida i fer-la sonar més natural i expressiva.
|
|
|
|
|
246 |
|
247 |
## Citació
|
248 |
|
249 |
-
Si feu servir el model per a la vostra recerca o projecte, us
|
250 |
|
251 |
```
|
252 |
@misc{LTU2024,
|
|
|
1 |
## 📄 Informació
|
2 |
TTS natural i eficient en català: 🍵+🥑
|
3 |
|
4 |
+
Aquí trobareu tota la informació sobre els nostres models 🍵 Matxa i 🥑 alVoCat, que han estat entrenats mitjançant aprenentatge profund (_deep learning_).
|
5 |
+
Si voleu informació específica sobre com entrenar aquests models, podeu trobar-la [aquí](https://huggingface.co/BSC-LT/matcha-tts-cat-multiaccent) i [aquí](https://huggingface.co/BSC-LT/vocos-mel-22khz-cat) respectivament.
|
6 |
+
El codi que hem utilitzat també es troba a Github [aquí](https://github.com/langtech-bsc/Matcha-TTS/tree/dev-cat).
|
7 |
|
8 |
## Taula de continguts
|
9 |
<details>
|
10 |
+
<summary>Feu clic per expandir</summary>
|
11 |
|
12 |
- [Descripció general del model](#descripció-general-del-model)
|
13 |
- [Usos previstos i limitacions](#usos-previstos-i-limitacions)
|
|
|
22 |
|
23 |
## Descripció general del model
|
24 |
|
25 |
+
La importància de les tecnologies de síntesi de parla (TTS, per les seves sigles en anglès) de codi obert per a les llengües minoritàries no pot ser negligida.
|
26 |
+
Aquestes tecnologies democratitzen l'accés a les solucions de TTS, proporcionant un marc perquè les comunitats desenvolupin i adaptin models segons les seves necessitats lingüístiques.
|
27 |
+
Per això, utilitzant un conjunt de tecnologies, hem desenvolupat diferents solucions de TTS de codi obert i en català.
|
28 |
|
29 |
+
Us presentem 🍵 Matxa, el primer model TTS neuronal multiparlant i multidialectal.
|
30 |
+
Es combina amb el model vocoder 🥑 alVoCat per generar unes veus expressives i d'alta qualitat.
|
31 |
+
A més, funciona de manera eficient en quatre dialectes:
|
32 |
|
33 |
* Balear
|
34 |
* Central
|
35 |
* Nord-occidental
|
36 |
* Valencià
|
37 |
|
38 |
+
Tant 🍵 Matxa com 🥑 alVoCat s'ha entrenat amb dades obertes.
|
39 |
+
|
40 |
+
Els models 🍵 Matxa són lliures per utilitzar-los amb finalitats no comercials, mentre que l'ús comercial necessita una llicència directament del locutor/a.
|
41 |
+
Trobareu més informació sobre aquesta qüestió a la secció [Llicència](#informació-adicional) i a la [pàgina del model](https://huggingface.co/BSC-LT/matcha-tts-cat-multiaccent/).
|
42 |
|
43 |
## Usos previstos i limitacions
|
44 |
|
45 |
+
Aquest model serveix com a generador de característiques acústiques per a sistemes de text-a-veu multi-parlant per a la llengua catalana.
|
46 |
+
Ha estat ajustat mitjançant un fonemitzador català; per tant, si el model s'utilitza amb altres llengües, pot ser que produeixi mostres inintel·ligibles.
|
47 |
|
48 |
La qualitat de les mostres pot variar segons el locutor.
|
49 |
+
Això pot ser degut tant a causa de la sensibilitat del model a l'hora d'aprendre certes freqüències específiques com de la qualitat de les mostres de cada locutor.
|
50 |
|
51 |
+
## Exemples
|
52 |
+
* Veus femenines:
|
53 |
|
54 |
<table style="font-size:16px">
|
55 |
<col width="205">
|
|
|
123 |
</tbody>
|
124 |
</table>
|
125 |
|
126 |
+
* Veus masculines:
|
127 |
|
128 |
<table style="font-size:16px">
|
129 |
<col width="205">
|
|
|
203 |
|
204 |
## Components principals
|
205 |
|
206 |
+
El nostre model de síntesi de parla adaptat al català utilitza un procés en diferents etapes per a convertir el text escrit en paraules ben pronunciades. Aquestes són les etapes:
|
207 |
|
208 |
+
1- Inicialment, el model analitza el text d'entrada, descomponent-lo en unitats lingüístiques més petites, com ara paraules i frases.
|
209 |
+
També identifica els caràcters especials. Tot seguit, utilitza la nostra versió d'eSpeak, un fonemitzador basat en les regles fonètiques de la llengua catalana, per a transcriure el text fonèticament. Per a cada accent català, s'apliquen certes regles d'eSpeak específicament adaptades.
|
210 |
|
211 |
+
2- El model matcha-TTS converteix aquests fonemes en un mel-espectrograma, una representació visual de l'espectre de freqüències d'un so al llarg del temps.
|
212 |
|
213 |
+
3- A continuació, aquest espectrograma s'afegeix com a input a [la nostra adaptació del vocoder Vocos](https://huggingface.co/BSC-LT/vocos-mel-22khz-cat), que sintetitza l'ona sonora.
|
214 |
|
215 |
+
Emprant aquesta sèrie d'etapes, el model de TTS assegura una pronunciació precisa i un discurs en català de so natural adaptat als matisos de la llengua.
|
216 |
+
El còmput d'aquestes etapes va ser realitzat pel Marenostrum 5 del Centre Nacional de Supercomputació de Barcelona, i pel Finisterrae III de CESGA.
|
217 |
|
218 |
+
Aquestes tecnologies formen, conjuntament, una solució TTS completa, adaptada a les necessitats dels parlants de català i que exemplifica el poder de les iniciatives de codi obert per avançar en la diversitat lingüística i la inclusió.
|
219 |
|
220 |
## El model en detall
|
221 |
|
222 |
+
**Matcha-TTS** és una arquitectura d'_encoder-decoder_ dissenyada per a una modelització acústica ràpida en TTS.
|
223 |
+
D'una banda, la part de l'_encoder_ es basa en un codificador de text i una predicció de duració fonètica.
|
224 |
+
Junts, prediuen una mitjana de les característiques acústiques.
|
225 |
+
D'altra banda, el _decoder_ té bàsicament un esquelet U-Net inspirat en [Grad-TTS](https://arxiv.org/pdf/2105.06337.pdf),
|
226 |
+
que es basa en l'arquitectura Transformer.
|
227 |
En aquest últim, substituint CNNs 2D per CNNs 1D, s'aconsegueix una gran reducció en el consum de memòria i una síntesi ràpida.
|
228 |
|
229 |
**Matcha-TTS** és un model no autoregressiu entrenat amb emparellament de flux condicional d'optimització de transport (OT-CFM).
|
230 |
+
Això produeix un decodificador basat en ODE capaç de generar una alta qualitat de sortida en menys passos de síntesi que els models entrenats
|
231 |
+
utilitzant score matching.
|
232 |
|
233 |
## Adaptació al català
|
234 |
|
235 |
+
El model original de Matcha-TTS excel·leix en anglès, però per adaptar-lo al català, hem dut a terme un procés multi-etapa.
|
236 |
+
En primer lloc, hem fet el _fine-tuning_ del model d'anglès al català central creant un Matxa-base, fent servir dos conjunts de dades:
|
237 |
|
238 |
* [La nostra versió del conjunt de dades openslr-slr69.](https://huggingface.co/datasets/projecte-aina/openslr-slr69-ca-trimmed-denoised)
|
239 |
|
240 |
* [La nostra versió del conjunt de dades Festcat.](https://huggingface.co/datasets/projecte-aina/festcat_trimmed_denoised)
|
241 |
|
242 |
+
A continuació, hem fet un altre _fine-tuning_ de Matxa-base amb el conjunt de dades LaFresCat per introduir les variants dialectals.
|
243 |
+
Aquest conjunt dades, que es publicarà aviat, té 8,5 hores d'enregistraments per a quatre variants dialectals:
|
244 |
|
245 |
* Balear
|
246 |
|
|
|
252 |
|
253 |
Amb un locutor masculí i un femení per a cada dialecte.
|
254 |
|
255 |
+
Després, mitjançant l'ajustament per a aquests dialectes catalans específics, el model es va adaptar a les variacions dialectals de pronúncia i prosòdia.
|
256 |
+
Aquest enfocament meticulós garanteix que el model reflecteixi la riquesa lingüística i la diversitat cultural dins de la comunitat de parla catalana, oferint una comunicació fluida entre dialectes que prèviament no comptaven amb aquestes tecnologies.
|
257 |
|
258 |
+
A més de l'entrenament del model Matcha-TTS per al català, la integració del fonemitzador d'eSpeak ha jugat un paper crucial en millorar la naturalitat i l'exactitud de la parla generada.
|
259 |
+
Un sistema TTS consta de diversos components, cadascun dels quals contribueix a la qualitat global de la parla sintetitzada.
|
260 |
+
El primer component implica el pre-processament de text, on el text d'entrada es normalitza i s'analitza lingüísticament per identificar paraules, puntuació i característiques lingüístiques.
|
261 |
+
A continuació, el text es converteix en fonemes, les unitats més petites de so en una llengua, a través d'un procés anomenat fonemització.
|
262 |
+
Aquest pas és on el fonemitzador d'eSpeak destaca, ja que converteix amb precisió el text català en representacions fonètiques, capturant els subtils matisos de pronunciació específics del català.
|
263 |
+
Podeu trobar la versió d'eSpeak que vam utilitzar [aquí](https://github.com/projecte-aina/espeak-ng/tree/dev-ca).
|
264 |
|
265 |
+
Després de la fonemització, els fonemes es passen al component de síntesi, on es transformen en parla audible.
|
266 |
+
Aquí, el model Matxa pren protagonisme, generant una parla fluida i natural a partir de les representacions fonètiques.
|
267 |
+
L'ús d'un model de TTS entrenat específicament per al català, juntament amb el fonemitzador d'eSpeak, assegura una pronunciació precisa i una parla coherent, capturant la riquesa i la diversitat del català en tots els seus dialectes i varietats.
|
268 |
|
269 |
+
Finalment, el discurs sintetitzat passa per un post-processament, on s'apliquen característiques prosòdiques com el to, la durada i l'èmfasi per refinar encara més la sortida i fer-la sonar més natural i expressiva.
|
270 |
+
Integrant el fonemitzador d'eSpeak en el flux de treball del TTS i adaptant-lo al català, juntament amb l'entrenament del model Matcha-TTS per al català, hem creat un sistema complet i efectiu per generar parla catalana de alta qualitat.
|
271 |
+
Aquesta combinació de tècniques avançades i atenció meticulosa als detalls lingüístics és imprescindible per superar les barreres lingüístiques i facilitar la comunicació per als parlants de català arreu del món.
|
272 |
|
273 |
## Citació
|
274 |
|
275 |
+
Si feu servir el model per a la vostra recerca o projecte, us agrairem que citeu el següent paper:
|
276 |
|
277 |
```
|
278 |
@misc{LTU2024,
|