carmentano commited on
Commit
c352639
·
verified ·
1 Parent(s): a831b27

Update informacio.md

Browse files
Files changed (1) hide show
  1. informacio.md +54 -28
informacio.md CHANGED
@@ -1,11 +1,13 @@
1
  ## 📄 Informació
2
  TTS natural i eficient en català: 🍵+🥑
3
 
4
- Aquí trobareu tota la informació sobre els nostres models 🍵 Matxa i 🥑 alVoCat ,els quals han estat entrenats amb l'ús de l'aprenentatge profund. Si desitges informació específica sobre com entrenar aquests models, pots trobar-la [aquí](https://huggingface.co/BSC-LT/matcha-tts-cat-multiaccent) i [aquí](https://huggingface.co/BSC-LT/vocos-mel-22khz-cat) respectivament. El codi que hem utilitzat també es troba a Github [aquí](https://github.com/langtech-bsc/Matcha-TTS/tree/dev-cat).
 
 
5
 
6
  ## Taula de continguts
7
  <details>
8
- <summary>Fes clic per expandir</summary>
9
 
10
  - [Descripció general del model](#descripció-general-del-model)
11
  - [Usos previstos i limitacions](#usos-previstos-i-limitacions)
@@ -20,27 +22,34 @@ Aquí trobareu tota la informació sobre els nostres models 🍵 Matxa i 🥑 al
20
 
21
  ## Descripció general del model
22
 
23
- La importància de les tecnologies de text-a-veu (TTS) de codi obert per a les llengües minoritàries mai és exagerada. Aquestes tecnologies democratitzen l'accés a les solucions de TTS, proporcionant un marc perquè les comunitats desenvolupin i adapten models segons les seves necessitats lingüístiques. Per això, utilitzant un conjunt de tecnologies, hem desenvolupat diferents solucions de TTS de codi obert i en català.
 
 
24
 
25
- Us presentem 🍵 Matxa, el primer model TTS neuronal multiparlant i multidialectal. Es combina amb el model vocoder 🥑 alVoCat, per generar unes veus expressives i d'alta qualitat, a més que funciona de una manera eficient en quatre dialectes:
 
 
26
 
27
  * Balear
28
  * Central
29
  * Nord-occidental
30
  * Valencià
31
 
32
- Tots dos models s'ha entrenat amb dades obertes;🍵 Els models Matxa són lliures per utilitzar-los amb finalitats no comercials, però per l'ús comercial necessita una llicència directament del locutor/de la locutora. Per obtenir més informació, consulteu la secció [Llicència](#informació-adicional) i la [pàgina del model](https://huggingface.co/BSC-LT/matcha-tts-cat-multiaccent/).
 
 
 
33
 
34
  ## Usos previstos i limitacions
35
 
36
- Aquest model està destinat a servir com a generador de característiques acústiques per a sistemes de text-a-veu multi-parlant per a la llengua catalana.
37
- Ha estat ajustat mitjançant un fonemitzador català, per tant, si el model s'utilitza amb altres llengües, pot ser que no produeixi mostres intel·ligibles després de traár la seva sortida en forma d'ona de veu.
38
 
39
  La qualitat de les mostres pot variar segons el locutor.
40
- Això pot ser degut tan per la sensibilitat del model en aprendre freqüències específiques com per a la qualitat de les mostres per a cada locutor.
41
 
42
- ## Mostres
43
- * Mostres femenines:
44
 
45
  <table style="font-size:16px">
46
  <col width="205">
@@ -114,7 +123,7 @@ Això pot ser degut tan per la sensibilitat del model en aprendre freqüències
114
  </tbody>
115
  </table>
116
 
117
- * Mostres masculines:
118
 
119
  <table style="font-size:16px">
120
  <col width="205">
@@ -194,37 +203,44 @@ Això pot ser degut tan per la sensibilitat del model en aprendre freqüències
194
 
195
  ## Components principals
196
 
197
- El nostre model de text-a-veu adaptat per al català utilitza un procés amb diferentes etapes per a convertir el text escrit en paraules parlades de pronunciació precisa. Aquestes són les etapes:
198
 
199
- 1- Inicialment, el model analitza el text d'entrada, descomposant-lo en unitats lingüístiques més petites com ara paraules i frases. També, identifica qualsevol caràcter especial. A continuació, utilitza la nostra versió d'eSpeak, un fonemitzador de parla, per generar fonemes basats en les regles fonètiques de la llengua catalana. Per a cada accent català, s'apliquen certes regles d'eSpeak específicament adaptades.
 
200
 
201
- 2- El model matcha-TTS converteix aquests fonemes en un espectrograma mel, una representació visual de l'espectre de freqüències d'un so al llarg del temps.
202
 
203
- 3- Després, aquest espectrograma s'afegeix com a input a [la nostra adaptació del vocoder Vocos,](https://huggingface.co/BSC-LT/vocos-mel-22khz-cat), que sintetitza l'ona sonora.
204
 
205
- Emprant aquesta sèrie d'etapes, el model de TTS assegura una pronunciació precisa i un discurs en català de so natural adaptat als matisos de la llengua. El còmput d'aquestes etapes va ser realitzat pel Marenostrum 5 del Centre Nacional de Supercomputació de Barcelona, i pel Finisterrae III de CESGA.
 
206
 
207
- Junts, aquestes tecnologies formen una solució TTS completa, adaptada a les necessitats dels parlants de català i exemplificant el poder de les iniciatives de codi obert per avançar en la diversitat lingüística i la inclusió.
208
 
209
  ## El model en detall
210
 
211
- **Matcha-TTS** és una arquitectura de codificador-decodificador dissenyada per a una modelització acústica ràpida en TTS.
212
- D'una banda, la part del codificador es basa en un codificador de text i una predicció de duració fonèmica. Junts, prediuen una mitja de les característiques acústiques.
213
- D'altra banda, el decodificador bàsicament un esquelet U-Net inspirat en [Grad-TTS](https://arxiv.org/pdf/2105.06337.pdf), que es basa en l'arquitectura Transformer.
 
 
214
  En aquest últim, substituint CNNs 2D per CNNs 1D, s'aconsegueix una gran reducció en el consum de memòria i una síntesi ràpida.
215
 
216
  **Matcha-TTS** és un model no autoregressiu entrenat amb emparellament de flux condicional d'optimització de transport (OT-CFM).
217
- Això produeix un decodificador basat en ODE capaç de generar una alta qualitat de sortida en menys passos de síntesi que els models entrenats utilitzant score matching.
 
218
 
219
  ## Adaptació al català
220
 
221
- El model original de Matcha-TTS excel·leix en anglès, però per portar les seves capacitats al català, es va dur a terme un procés multi-etapa. En primer lloc, vam fer el fine-tuning del model d'anglès al català central creant un Matxa-base, fent servir dos conjunts de dades:
 
222
 
223
  * [La nostra versió del conjunt de dades openslr-slr69.](https://huggingface.co/datasets/projecte-aina/openslr-slr69-ca-trimmed-denoised)
224
 
225
  * [La nostra versió del conjunt de dades Festcat.](https://huggingface.co/datasets/projecte-aina/festcat_trimmed_denoised)
226
 
227
- A continuació, vam fer un altre fine-tuning de Matxa-base amb el conjunt de dades LaFrescat per introduir les variants dialectals. Aquest conjunt dades es publicarà aviat, té 8,5 hores d'enregistraments per a quatre variants dialectals:
 
228
 
229
  * Balear
230
 
@@ -236,17 +252,27 @@ A continuació, vam fer un altre fine-tuning de Matxa-base amb el conjunt de dad
236
 
237
  Amb un locutor masculí i un femení per a cada dialecte.
238
 
239
- Després, mitjançant l'ajustament per a aquests dialectes catalans específics, el model es va adaptar a les variacions regionals de pronunciació i cadència. Aquest enfocament meticulós garanteix que el model reflecteixi la riquesa lingüística i la diversitat cultural dins de la comunitat de parla catalana, oferint una comunicació fluida entre dialectes que prèviament no comptaven amb aquestes tecnologies.
 
240
 
241
- A més de l'entrenament del model Matcha-TTS per al català, la integració del fonemitzador d'eSpeak va jugar un paper crucial en millorar la naturalitat i l'exactitud de la parla generada. Un sistema TTS consta de diversos components, cadascun dels quals contribueix a la qualitat global de la parla sintetitzada. El primer component implica el pre-processament de text, on el text d'entrada s'normalitza i s'analitza lingüísticament per identificar paraules, puntuació i característiques lingüístiques. A continuació, el text es converteix en fonemes, les unitats més petites de so en una llengua, a través d'un procés anomenat fonemització. Aquest pas és on el fonemitzador d'eSpeak destaca, ja que converteix amb precisió el text català en representacions fonètiques, capturant els subtils matisos de pronunciació específics del català. Podeu trobar la versió d'eSpeak que vam utilitzar [aquí](https://github.com/projecte-aina/espeak-ng/tree/dev-ca).
 
 
 
 
 
242
 
243
- Després de la fonemització, els fonemes es passen al component de síntesi, on es transformen en parla audible. Aquí, el model Matxa pren protagonisme, generant una parla fluida i natural a partir de les representacions fonèmiques. L'ús d'un model de TTS entrenat específicament per al català, juntament amb el fonemitzador d'eSpeak, assegura una pronunciació precisa i una parla coherent, capturant la riquesa i la diversitat del català en tots els seus dialectes i varietats.
 
 
244
 
245
- Finalment, el discurs sintetitzat passa per un post-processament, on s'apliquen característiques prosòdiques com el to, la durada i l'èmfasi per refinar encara més la sortida i fer-la sonar més natural i expressiva. Integrant el fonemitzador d'eSpeak en el flux de treball del TTS i adaptant-lo al català, juntament amb l'entrenament del model Matcha-TTS per al català, hem creat un sistema complet i efectiu per generar parla catalana de alta qualitat. Aquesta combinació de tècniques avançades i atenció meticulosa als detalls lingüístics és instrumental per superar les barreres lingüístiques i facilitar la comunicació per als parlants de català arreu del món.
 
 
246
 
247
  ## Citació
248
 
249
- Si feu servir el model per a la vostra recerca o projecte, us agrairíem que citessiu el següent paper:
250
 
251
  ```
252
  @misc{LTU2024,
 
1
  ## 📄 Informació
2
  TTS natural i eficient en català: 🍵+🥑
3
 
4
+ Aquí trobareu tota la informació sobre els nostres models 🍵 Matxa i 🥑 alVoCat, que han estat entrenats mitjançant aprenentatge profund (_deep learning_).
5
+ Si voleu informació específica sobre com entrenar aquests models, podeu trobar-la [aquí](https://huggingface.co/BSC-LT/matcha-tts-cat-multiaccent) i [aquí](https://huggingface.co/BSC-LT/vocos-mel-22khz-cat) respectivament.
6
+ El codi que hem utilitzat també es troba a Github [aquí](https://github.com/langtech-bsc/Matcha-TTS/tree/dev-cat).
7
 
8
  ## Taula de continguts
9
  <details>
10
+ <summary>Feu clic per expandir</summary>
11
 
12
  - [Descripció general del model](#descripció-general-del-model)
13
  - [Usos previstos i limitacions](#usos-previstos-i-limitacions)
 
22
 
23
  ## Descripció general del model
24
 
25
+ La importància de les tecnologies de síntesi de parla (TTS, per les seves sigles en anglès) de codi obert per a les llengües minoritàries no pot ser negligida.
26
+ Aquestes tecnologies democratitzen l'accés a les solucions de TTS, proporcionant un marc perquè les comunitats desenvolupin i adaptin models segons les seves necessitats lingüístiques.
27
+ Per això, utilitzant un conjunt de tecnologies, hem desenvolupat diferents solucions de TTS de codi obert i en català.
28
 
29
+ Us presentem 🍵 Matxa, el primer model TTS neuronal multiparlant i multidialectal.
30
+ Es combina amb el model vocoder 🥑 alVoCat per generar unes veus expressives i d'alta qualitat.
31
+ A més, funciona de manera eficient en quatre dialectes:
32
 
33
  * Balear
34
  * Central
35
  * Nord-occidental
36
  * Valencià
37
 
38
+ Tant 🍵 Matxa com 🥑 alVoCat s'ha entrenat amb dades obertes.
39
+
40
+ Els models 🍵 Matxa són lliures per utilitzar-los amb finalitats no comercials, mentre que l'ús comercial necessita una llicència directament del locutor/a.
41
+ Trobareu més informació sobre aquesta qüestió a la secció [Llicència](#informació-adicional) i a la [pàgina del model](https://huggingface.co/BSC-LT/matcha-tts-cat-multiaccent/).
42
 
43
  ## Usos previstos i limitacions
44
 
45
+ Aquest model serveix com a generador de característiques acústiques per a sistemes de text-a-veu multi-parlant per a la llengua catalana.
46
+ Ha estat ajustat mitjançant un fonemitzador català; per tant, si el model s'utilitza amb altres llengües, pot ser que produeixi mostres inintel·ligibles.
47
 
48
  La qualitat de les mostres pot variar segons el locutor.
49
+ Això pot ser degut tant a causa de la sensibilitat del model a l'hora d'aprendre certes freqüències específiques com de la qualitat de les mostres de cada locutor.
50
 
51
+ ## Exemples
52
+ * Veus femenines:
53
 
54
  <table style="font-size:16px">
55
  <col width="205">
 
123
  </tbody>
124
  </table>
125
 
126
+ * Veus masculines:
127
 
128
  <table style="font-size:16px">
129
  <col width="205">
 
203
 
204
  ## Components principals
205
 
206
+ El nostre model de síntesi de parla adaptat al català utilitza un procés en diferents etapes per a convertir el text escrit en paraules ben pronunciades. Aquestes són les etapes:
207
 
208
+ 1- Inicialment, el model analitza el text d'entrada, descomponent-lo en unitats lingüístiques més petites, com ara paraules i frases.
209
+ També identifica els caràcters especials. Tot seguit, utilitza la nostra versió d'eSpeak, un fonemitzador basat en les regles fonètiques de la llengua catalana, per a transcriure el text fonèticament. Per a cada accent català, s'apliquen certes regles d'eSpeak específicament adaptades.
210
 
211
+ 2- El model matcha-TTS converteix aquests fonemes en un mel-espectrograma, una representació visual de l'espectre de freqüències d'un so al llarg del temps.
212
 
213
+ 3- A continuació, aquest espectrograma s'afegeix com a input a [la nostra adaptació del vocoder Vocos](https://huggingface.co/BSC-LT/vocos-mel-22khz-cat), que sintetitza l'ona sonora.
214
 
215
+ Emprant aquesta sèrie d'etapes, el model de TTS assegura una pronunciació precisa i un discurs en català de so natural adaptat als matisos de la llengua.
216
+ El còmput d'aquestes etapes va ser realitzat pel Marenostrum 5 del Centre Nacional de Supercomputació de Barcelona, i pel Finisterrae III de CESGA.
217
 
218
+ Aquestes tecnologies formen, conjuntament, una solució TTS completa, adaptada a les necessitats dels parlants de català i que exemplifica el poder de les iniciatives de codi obert per avançar en la diversitat lingüística i la inclusió.
219
 
220
  ## El model en detall
221
 
222
+ **Matcha-TTS** és una arquitectura d'_encoder-decoder_ dissenyada per a una modelització acústica ràpida en TTS.
223
+ D'una banda, la part de l'_encoder_ es basa en un codificador de text i una predicció de duració fonètica.
224
+ Junts, prediuen una mitjana de les característiques acústiques.
225
+ D'altra banda, el _decoder_ té bàsicament un esquelet U-Net inspirat en [Grad-TTS](https://arxiv.org/pdf/2105.06337.pdf),
226
+ que es basa en l'arquitectura Transformer.
227
  En aquest últim, substituint CNNs 2D per CNNs 1D, s'aconsegueix una gran reducció en el consum de memòria i una síntesi ràpida.
228
 
229
  **Matcha-TTS** és un model no autoregressiu entrenat amb emparellament de flux condicional d'optimització de transport (OT-CFM).
230
+ Això produeix un decodificador basat en ODE capaç de generar una alta qualitat de sortida en menys passos de síntesi que els models entrenats
231
+ utilitzant score matching.
232
 
233
  ## Adaptació al català
234
 
235
+ El model original de Matcha-TTS excel·leix en anglès, però per adaptar-lo al català, hem dut a terme un procés multi-etapa.
236
+ En primer lloc, hem fet el _fine-tuning_ del model d'anglès al català central creant un Matxa-base, fent servir dos conjunts de dades:
237
 
238
  * [La nostra versió del conjunt de dades openslr-slr69.](https://huggingface.co/datasets/projecte-aina/openslr-slr69-ca-trimmed-denoised)
239
 
240
  * [La nostra versió del conjunt de dades Festcat.](https://huggingface.co/datasets/projecte-aina/festcat_trimmed_denoised)
241
 
242
+ A continuació, hem fet un altre _fine-tuning_ de Matxa-base amb el conjunt de dades LaFresCat per introduir les variants dialectals.
243
+ Aquest conjunt dades, que es publicarà aviat, té 8,5 hores d'enregistraments per a quatre variants dialectals:
244
 
245
  * Balear
246
 
 
252
 
253
  Amb un locutor masculí i un femení per a cada dialecte.
254
 
255
+ Després, mitjançant l'ajustament per a aquests dialectes catalans específics, el model es va adaptar a les variacions dialectals de pronúncia i prosòdia.
256
+ Aquest enfocament meticulós garanteix que el model reflecteixi la riquesa lingüística i la diversitat cultural dins de la comunitat de parla catalana, oferint una comunicació fluida entre dialectes que prèviament no comptaven amb aquestes tecnologies.
257
 
258
+ A més de l'entrenament del model Matcha-TTS per al català, la integració del fonemitzador d'eSpeak ha jugat un paper crucial en millorar la naturalitat i l'exactitud de la parla generada.
259
+ Un sistema TTS consta de diversos components, cadascun dels quals contribueix a la qualitat global de la parla sintetitzada.
260
+ El primer component implica el pre-processament de text, on el text d'entrada es normalitza i s'analitza lingüísticament per identificar paraules, puntuació i característiques lingüístiques.
261
+ A continuació, el text es converteix en fonemes, les unitats més petites de so en una llengua, a través d'un procés anomenat fonemització.
262
+ Aquest pas és on el fonemitzador d'eSpeak destaca, ja que converteix amb precisió el text català en representacions fonètiques, capturant els subtils matisos de pronunciació específics del català.
263
+ Podeu trobar la versió d'eSpeak que vam utilitzar [aquí](https://github.com/projecte-aina/espeak-ng/tree/dev-ca).
264
 
265
+ Després de la fonemització, els fonemes es passen al component de síntesi, on es transformen en parla audible.
266
+ Aquí, el model Matxa pren protagonisme, generant una parla fluida i natural a partir de les representacions fonètiques.
267
+ L'ús d'un model de TTS entrenat específicament per al català, juntament amb el fonemitzador d'eSpeak, assegura una pronunciació precisa i una parla coherent, capturant la riquesa i la diversitat del català en tots els seus dialectes i varietats.
268
 
269
+ Finalment, el discurs sintetitzat passa per un post-processament, on s'apliquen característiques prosòdiques com el to, la durada i l'èmfasi per refinar encara més la sortida i fer-la sonar més natural i expressiva.
270
+ Integrant el fonemitzador d'eSpeak en el flux de treball del TTS i adaptant-lo al català, juntament amb l'entrenament del model Matcha-TTS per al català, hem creat un sistema complet i efectiu per generar parla catalana de alta qualitat.
271
+ Aquesta combinació de tècniques avançades i atenció meticulosa als detalls lingüístics és imprescindible per superar les barreres lingüístiques i facilitar la comunicació per als parlants de català arreu del món.
272
 
273
  ## Citació
274
 
275
+ Si feu servir el model per a la vostra recerca o projecte, us agrairem que citeu el següent paper:
276
 
277
  ```
278
  @misc{LTU2024,