Respair commited on 30 days ago

Commit

9d7032c

verified ·

1 Parent(s): a168453

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +2 -0
StyleTTS_Accelerate/Configs/config.yml +80 -0
StyleTTS_Accelerate/Configs/config_44.1khz.yml +80 -0
StyleTTS_Accelerate/Data/ani_train.csv +0 -0
StyleTTS_Accelerate/Data/ani_train_only_longs.csv +0 -0
StyleTTS_Accelerate/Data/train_list.txt +0 -0
StyleTTS_Accelerate/Data/train_list_libritts.txt +3 -0
StyleTTS_Accelerate/Data/val_list.txt +100 -0
StyleTTS_Accelerate/Data/val_list_libritts.txt +195 -0
StyleTTS_Accelerate/Demo/Inference_LJSpeech.ipynb +417 -0
StyleTTS_Accelerate/Demo/Inference_LibriTTS.ipynb +529 -0
StyleTTS_Accelerate/Demo/hifi-gan/__pycache__/vocoder.cpython-310.pyc +0 -0
StyleTTS_Accelerate/Demo/hifi-gan/__pycache__/vocoder.cpython-39.pyc +0 -0
StyleTTS_Accelerate/Demo/hifi-gan/__pycache__/vocoder_utils.cpython-310.pyc +0 -0
StyleTTS_Accelerate/Demo/hifi-gan/__pycache__/vocoder_utils.cpython-39.pyc +0 -0
StyleTTS_Accelerate/Demo/hifi-gan/vocoder.py +283 -0
StyleTTS_Accelerate/Demo/hifi-gan/vocoder_utils.py +58 -0
StyleTTS_Accelerate/LICENSE +21 -0
StyleTTS_Accelerate/LICENSE copy +21 -0
StyleTTS_Accelerate/Models/Anispeech/config.yml +80 -0
StyleTTS_Accelerate/Models/Anispeech/epoch_1st_00020.pth +3 -0
StyleTTS_Accelerate/Models/Anispeech/epoch_2nd_00015.pth +3 -0
StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735697608.khodaya-basse-dige.344916.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735697814.khodaya-basse-dige.346056.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735698320.khodaya-basse-dige.347680.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735698764.khodaya-basse-dige.349633.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735698917.khodaya-basse-dige.350828.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735721417.khodaya-basse-dige.404215.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735721458.khodaya-basse-dige.404475.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735723135.khodaya-basse-dige.409798.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735736169.khodaya-basse-dige.8849.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735753783.khodaya-basse-dige.55757.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735753897.khodaya-basse-dige.56741.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735753979.khodaya-basse-dige.58472.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735754151.khodaya-basse-dige.59652.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735754204.khodaya-basse-dige.60572.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735755068.khodaya-basse-dige.62584.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735755116.khodaya-basse-dige.63449.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735755175.khodaya-basse-dige.64734.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735755213.khodaya-basse-dige.65681.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735755246.khodaya-basse-dige.66573.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735755299.khodaya-basse-dige.67690.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech/train.log +0 -0
StyleTTS_Accelerate/Models/Anispeech_with_DIFF/config.yml +80 -0
StyleTTS_Accelerate/Models/Anispeech_with_DIFF/epoch_1st_00040.pth +3 -0
StyleTTS_Accelerate/Models/Anispeech_with_DIFF/epoch_2nd_00014.pth +3 -0
StyleTTS_Accelerate/Models/Anispeech_with_DIFF/tensorboard/events.out.tfevents.1735755378.khodaya-basse-dige.68815.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech_with_DIFF/tensorboard/events.out.tfevents.1735758983.khodaya-basse-dige.79079.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech_with_DIFF/tensorboard/events.out.tfevents.1735759171.khodaya-basse-dige.80201.0 +3 -0
StyleTTS_Accelerate/Models/Anispeech_with_DIFF/tensorboard/events.out.tfevents.1735759231.khodaya-basse-dige.81123.0 +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+StyleTTS_Accelerate/Data/train_list_libritts.txt filter=lfs diff=lfs merge=lfs -text
+StyleTTS_Accelerate/Utils/JDC/bst.t7 filter=lfs diff=lfs merge=lfs -text

StyleTTS_Accelerate/Configs/config.yml ADDED Viewed

	@@ -0,0 +1,80 @@

+log_dir: "Models/Anispeech_with_DIFF"
+first_stage_path: "/home/ubuntu/StyleTTS_Accelerate_44khz/Models/Anispeech/epoch_1st_00020.pth"
+save_freq: 1
+log_interval: 10
+device: "cuda"
+multigpu: false
+epochs_1st: 200 # number of epochs for first stage training
+epochs_2nd: 100 # number of peochs for second stage training
+batch_size: 32
+pretrained_model: ""
+second_stage_load_pretrained: true # set to true if the pre-trained model is for 2nd stage
+load_only_params: false # set to true if do not want to load epoch numbers and optimizer parameters
+diff_epoch: 5
+train_data: "/home/ubuntu/StyleTTS_Accelerate_44khz/Data/ani_train_only_longs.csv"
+val_data: "/home/ubuntu/StyleTTS_Accelerate_44khz/Data/val_list_libritts.txt"
+F0_path: "Utils/JDC/bst.t7"
+ASR_config: "Utils/ASR/config.yml"
+ASR_path: "Utils/ASR/epoch_00080.pth"
+preprocess_params:
+  sr: 24000
+  spect_params:
+    n_fft: 2048
+    win_length: 1200
+    hop_length: 300
+model_params:
+  hidden_dim: 512
+  n_token: 178
+  style_dim: 128
+  n_layer: 3
+  dim_in: 64
+  max_conv_dim: 512
+  n_mels: 80
+  dropout: 0.2
+  diffusion:
+    embedding_mask_proba: 0.1
+    # transformer config
+    transformer:
+      num_layers: 3
+      num_heads: 8
+      head_features: 64
+      multiplier: 2
+    # diffusion distribution config
+    dist:
+      sigma_data: 0.2 # placeholder for estimate_sigma_data set to false
+      estimate_sigma_data: true # estimate sigma_data from the current batch if set to true
+      mean: -3.0
+      std: 1.0
+loss_params:
+    lambda_mel: 10. # mel reconstruction loss (1st & 2nd stage)
+    lambda_adv: 1. # adversarial loss (1st & 2nd stage)
+    lambda_reg: 1. # adversarial regularization loss (1st & 2nd stage)
+    lambda_fm: 0.1 # feature matching loss (1st & 2nd stage)
+    lambda_mono: 1. # monotonic alignment loss (1st stage, TMA)
+    lambda_s2s: 1. # sequence-to-sequence loss (1st stage, TMA)
+    TMA_epoch: 2 # TMA starting epoch (1st stage)
+    # https://github.com/yl4579/StyleTTS/issues/7
+    TMA_CEloss: false # whether to use cross-entropy (CE) loss for TMA
+    lambda_F0: 1. # F0 reconstruction loss (2nd stage)
+    lambda_norm: 1. # norm reconstruction loss (2nd stage)
+    lambda_dur: 1. # duration loss (2nd stage)
+    lambda_ce: 20. # duration predictor probability output CE loss (2nd stage)
+    lambda_sty: 1. # style reconstruction loss (2nd stage)
+    lambda_diff: 1. # score matching loss (2nd stage)
+optimizer_params:
+  lr: 0.0001

StyleTTS_Accelerate/Configs/config_44.1khz.yml ADDED Viewed

	@@ -0,0 +1,80 @@

+log_dir: "Models/LJSpeech"
+first_stage_path: "/home/ubuntu/StyleTTS_Accelerate/Models/LJSpeech/epoch_1st_00040.pth"
+save_freq: 1
+log_interval: 10
+device: "cuda"
+multigpu: false
+epochs_1st: 200 # number of epochs for first stage training
+epochs_2nd: 100 # number of peochs for second stage training
+batch_size: 32
+pretrained_model: "/home/ubuntu/StyleTTS_Accelerate/Models/LJSpeech/epoch_1st_00004.pth"
+second_stage_load_pretrained: false # set to true if the pre-trained model is for 2nd stage
+load_only_params: false # set to true if do not want to load epoch numbers and optimizer parameters
+diff_epoch: 5
+train_data: "Data/train_list.txt"
+val_data: "Data/val_list.txt"
+F0_path: "Utils/JDC/bst.t7"
+ASR_config: "Utils/ASR/config.yml"
+ASR_path: "Utils/ASR/epoch_00080.pth"
+preprocess_params:
+  sr: 44_100
+  spect_params:
+    n_fft: 2048
+    win_length: 2048
+    hop_length: 512
+model_params:
+  hidden_dim: 512
+  n_token: 178
+  style_dim: 128
+  n_layer: 3
+  dim_in: 64
+  max_conv_dim: 512
+  n_mels: 128
+  dropout: 0.2
+  diffusion:
+    embedding_mask_proba: 0.1
+    # transformer config
+    transformer:
+      num_layers: 3
+      num_heads: 8
+      head_features: 64
+      multiplier: 2
+    # diffusion distribution config
+    dist:
+      sigma_data: 0.2 # placeholder for estimate_sigma_data set to false
+      estimate_sigma_data: true # estimate sigma_data from the current batch if set to true
+      mean: -3.0
+      std: 1.0
+loss_params:
+    lambda_mel: 10. # mel reconstruction loss (1st & 2nd stage)
+    lambda_adv: 1. # adversarial loss (1st & 2nd stage)
+    lambda_reg: 1. # adversarial regularization loss (1st & 2nd stage)
+    lambda_fm: 0.1 # feature matching loss (1st & 2nd stage)
+    lambda_mono: 1. # monotonic alignment loss (1st stage, TMA)
+    lambda_s2s: 1. # sequence-to-sequence loss (1st stage, TMA)
+    TMA_epoch: 2 # TMA starting epoch (1st stage)
+    # https://github.com/yl4579/StyleTTS/issues/7
+    TMA_CEloss: false # whether to use cross-entropy (CE) loss for TMA
+    lambda_F0: 1. # F0 reconstruction loss (2nd stage)
+    lambda_norm: 1. # norm reconstruction loss (2nd stage)
+    lambda_dur: 1. # duration loss (2nd stage)
+    lambda_ce: 20. # duration predictor probability output CE loss (2nd stage)
+    lambda_sty: 1. # style reconstruction loss (2nd stage)
+    lambda_diff: 1. # score matching loss (2nd stage)
+optimizer_params:
+  lr: 0.0001

StyleTTS_Accelerate/Data/ani_train.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

StyleTTS_Accelerate/Data/ani_train_only_longs.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

StyleTTS_Accelerate/Data/train_list.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

StyleTTS_Accelerate/Data/train_list_libritts.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:07ced2d20dc0163f3a25d52c8544f63ffba4e9608664762325832f26376c402f
+size 31691428

StyleTTS_Accelerate/Data/val_list.txt ADDED Viewed

	@@ -0,0 +1,100 @@

+LJSpeech-1.1/wavs/LJ022-0023.wav|ðɪ ˌoʊvɚwˈɛlmɪŋ mədʒˈɔːɹᵻɾi ʌv pˈiːpəl ɪn ðɪs kˈʌntɹi nˈoʊ hˌaʊ tə sˈɪft ðə wˈiːt fɹʌmðə tʃˈæf ɪn wʌt ðeɪ hˈɪɹ ænd wʌt ðeɪ ɹˈiːd .|0
+LJSpeech-1.1/wavs/LJ043-0030.wav|ɪf sˈʌmbɑːdi dˈɪd ðˈæt tə mˌiː , ɐ lˈaʊsi tɹˈɪk lˈaɪk ðˈæt , tə tˈeɪk maɪ wˈaɪf ɐwˈeɪ , ænd ˈɔːl ðə fˈɜːnɪtʃɚ , aɪ wʊd biː mˈæd æz hˈɛl , tˈuː .|0
+LJSpeech-1.1/wavs/LJ005-0201.wav|ˌæzˌɪz ʃˈoʊn baɪ ðə ɹᵻpˈoːɹt ʌvðə kəmˈɪʃənɚz tʊ ɪŋkwˈaɪɚɹ ˌɪntʊ ðə stˈeɪt ʌvðə mjuːnˈɪsɪpəl kˌɔːɹpɚɹˈeɪʃənz ɪn ˈeɪtiːn θˈɜːɾi fˈaɪv .|0
+LJSpeech-1.1/wavs/LJ001-0110.wav|ˈiːvən ðə kˈæslɑːn tˈaɪp wɛn ɛnlˈɑːɹdʒd ʃˈoʊz ɡɹˈeɪt ʃˈɔːɹtkʌmɪŋz ɪn ðɪs ɹᵻspˈɛkt :|0
+LJSpeech-1.1/wavs/LJ003-0345.wav|ˈɔːl ðə kəmˈɪɾi kʊd dˈuː ɪn ðɪs ɹᵻspˈɛkt wʌz tə θɹˈoʊ ðə ɹᵻspˌɑːnsəbˈɪlɪɾi ˌɔn ˈʌðɚz .|0
+LJSpeech-1.1/wavs/LJ007-0154.wav|ðiːz pˈʌndʒənt ænd wˈɛl ɡɹˈaʊndᵻd stɹˈɪktʃɚz ɐplˈaɪd wɪð stˈɪl ɡɹˈeɪɾɚ fˈoːɹs tə ðɪ ʌŋkənvˈɪktᵻd pɹˈɪzənɚ , ðə mˈæn hˌuː kˈeɪm tə ðə pɹˈɪzən ˈɪnəsənt , ænd stˈɪl ʌŋkəntˈæmᵻnˌeɪɾᵻd ,|0
+LJSpeech-1.1/wavs/LJ018-0098.wav|ænd ɹˈɛkəɡnˌaɪzd æz wˈʌn ʌvðə fɹˈiːkwɛntɚz ʌvðə bˈoʊɡəs lˈɔː stˈeɪʃənɚz . hɪz ɚɹˈɛst lˈɛd tə ðæt ʌv ˈʌðɚz .|0
+LJSpeech-1.1/wavs/LJ047-0044.wav|ˈɑːswəld wʌz , haʊˈɛvɚ , wˈɪlɪŋ tə dɪskˈʌs hɪz kˈɑːntækts wɪð sˈoʊviət ɐθˈɔːɹɪɾiz . hiː dᵻnˈaɪd hˌævɪŋ ˌɛni ɪnvˈɑːlvmənt wɪð sˈoʊviət ɪntˈɛlɪdʒəns ˈeɪdʒənsiz|0
+LJSpeech-1.1/wavs/LJ031-0038.wav|ðə fˈɜːst fɪzˈɪʃən tə sˈiː ðə pɹˈɛzɪdənt æt pˈɑːɹklənd hˈɑːspɪɾəl wʌz dˈɑːktɚ . tʃˈɑːɹlz dʒˈeɪ . kˈæɹɪkˌoʊ , ɐ ɹˈɛzᵻdənt ɪn dʒˈɛnɚɹəl sˈɜːdʒɚɹi .|0
+LJSpeech-1.1/wavs/LJ048-0194.wav|dˈʊɹɹɪŋ ðə mˈɔːɹnɪŋ ʌv noʊvˈɛmbɚ twˈɛnti tˈuː pɹˈaɪɚ tə ðə mˈoʊɾɚkˌeɪd .|0
+LJSpeech-1.1/wavs/LJ049-0026.wav|ˌɔn əkˈeɪʒən ðə sˈiːkɹᵻt sˈɜːvɪs hɐzbɪn pɚmˈɪɾᵻd tə hæv ɐn ˈeɪdʒənt ɹˈaɪdɪŋ ɪnðə pˈæsɪndʒɚ kəmpˈɑːɹtmənt wɪððə pɹˈɛzɪdənt .|0
+LJSpeech-1.1/wavs/LJ004-0152.wav|ɔːlðˈoʊ æt mˈɪstɚ . bˈʌkstənz vˈɪzɪt ɐ nˈuː dʒˈeɪl wʌz ɪn pɹˈɑːsɛs ʌv ɪɹˈɛkʃən , ðə fˈɜːst stˈɛp təwˈɔːɹdz ɹᵻfˈɔːɹm sˈɪns hˈaʊɚdz vˌɪzɪtˈeɪʃən ɪn sˈɛvəntˌiːn sˈɛvənti fˈoːɹ .|0
+LJSpeech-1.1/wavs/LJ008-0278.wav|ɔːɹ ðˈɛɹz mˌaɪt biː wˈʌn ʌv mˈɛni , ænd ɪt mˌaɪt biː kənsˈɪdɚd nˈɛsᵻsɚɹi tə dˈɑːlɚ mˌeɪk ɐn ɛɡzˈæmpəl.dˈɑːlɚ|0
+LJSpeech-1.1/wavs/LJ043-0002.wav|ðə wˈɔːɹəŋ kəmˈɪʃən ɹᵻpˈoːɹt . baɪ ðə pɹˈɛzɪdənts kəmˈɪʃən ɔnðɪ ɐsˌæsᵻnˈeɪʃən ʌv pɹˈɛzɪdənt kˈɛnədi . tʃˈæptɚ sˈɛvən . lˈiː hˈɑːɹvi ˈɑːswəld :|0
+LJSpeech-1.1/wavs/LJ009-0114.wav|mˈɪstɚ . wˈeɪkfiːld wˈaɪndz ˈʌp hɪz ɡɹˈæfɪk bˌʌt sˈʌmwʌt sɛnsˈeɪʃənəl ɐkˈaʊnt baɪ dᵻskɹˈaɪbɪŋ ɐnˈʌðɚ ɹᵻlˈɪdʒəs sˈɜːvɪs , wˌɪtʃ mˈeɪ ɐpɹˈoʊpɹɪˌeɪtli biː ɪnsˈɜːɾᵻd hˈɪɹ .|0
+LJSpeech-1.1/wavs/LJ028-0506.wav|ɐ mˈɑːdɚn ˈɑːɹɾɪst wʊdhɐv dˈɪfɪkˌʌlti ɪn dˌuːɪŋ sˈʌtʃ ˈækjʊɹət wˈɜːk .|0
+LJSpeech-1.1/wavs/LJ050-0168.wav|wɪððə pɚtˈɪkjʊlɚ pˈɜːpəsᵻz ʌvðɪ ˈeɪdʒənsi ɪnvˈɑːlvd . ðə kəmˈɪʃən ɹˈɛkəɡnˌaɪzᵻz ðæt ðɪs ɪz ɐ kˌɑːntɹəvˈɜːʃəl ˈɛɹiə|0
+LJSpeech-1.1/wavs/LJ039-0223.wav|ˈɑːswəldz mɚɹˈiːn tɹˈeɪnɪŋ ɪn mˈɑːɹksmənʃˌɪp , hɪz ˈʌðɚ ɹˈaɪfəl ɛkspˈiəɹɪəns ænd hɪz ɪstˈæblɪʃt fəmˌɪliˈæɹɪɾi wɪð ðɪs pɚtˈɪkjʊlɚ wˈɛpən|0
+LJSpeech-1.1/wavs/LJ029-0032.wav|ɐkˈoːɹdɪŋ tʊ oʊdˈɑːnəl , kwˈoʊt , wiː hæd ɐ mˈoʊɾɚkˌeɪd wɛɹˈɛvɚ kplˈʌsplʌs wˌɪtʃ hɐdbɪn bˌɪn hˈeɪstili sˈʌmənd fɚðə ðə pˈɜːpəs wiː wˈɛnt , ˈɛnd kwˈoʊt .|0
+LJSpeech-1.1/wavs/LJ031-0070.wav|dˈɑːktɚ . klˈɑːɹk , hˌuː mˈoʊst klˈoʊsli əbzˈɜːvd ðə hˈɛd wˈuːnd ,|0
+LJSpeech-1.1/wavs/LJ034-0198.wav|jˈuːɪnz , hˌuː wʌz ɔnðə saʊθwˈɛst kˈɔːɹnɚɹ ʌv ˈɛlm ænd hjˈuːstən stɹˈiːts tˈɛstᵻfˌaɪd ðæt hiː kʊd nˌɑːt dᵻskɹˈaɪb ðə mˈæn hiː sˈɔː ɪnðə wˈɪndoʊ .|0
+LJSpeech-1.1/wavs/LJ026-0068.wav|ˈɛnɚdʒi ˈɛntɚz ðə plˈænt , tʊ ɐ smˈɔːl ɛkstˈɛnt ,|0
+LJSpeech-1.1/wavs/LJ039-0075.wav|wˈʌns juː nˈoʊ ðæt juː mˈʌst pˌʊt ðə kɹˈɔshɛɹz ɔnðə tˈɑːɹɡɪt ænd ðæt ɪz ˈɔːl ðæt ɪz nˈɛsᵻsɚɹi .|0
+LJSpeech-1.1/wavs/LJ004-0096.wav|ðə fˈeɪɾəl kˈɑːnsɪkwənsᵻz wˈɛɹɑːf mˌaɪt biː pɹɪvˈɛntᵻd ɪf ðə dʒˈʌstɪsᵻz ʌvðə pˈiːs wɜː djˈuːli ˈɔːθɚɹˌaɪzd|0
+LJSpeech-1.1/wavs/LJ005-0014.wav|spˈiːkɪŋ ˌɔn ɐ dᵻbˈeɪt ˌɔn pɹˈɪzən mˈæɾɚz , hiː dᵻklˈɛɹd ðˈæt|0
+LJSpeech-1.1/wavs/LJ012-0161.wav|hiː wʌz ɹᵻpˈoːɹɾᵻd tə hæv fˈɔːlən ɐwˈeɪ tʊ ɐ ʃˈædoʊ .|0
+LJSpeech-1.1/wavs/LJ018-0239.wav|hɪz dˌɪsɐpˈɪɹəns ɡˈeɪv kˈʌlɚ ænd sˈʌbstəns tʊ ˈiːvəl ɹᵻpˈoːɹts ɔːlɹˌɛdi ɪn sˌɜːkjʊlˈeɪʃən ðætðə wɪl ænd kənvˈeɪəns əbˌʌv ɹᵻfˈɜːd tuː|0
+LJSpeech-1.1/wavs/LJ019-0257.wav|hˈɪɹ ðə tɹˈɛd wˈiːl wʌz ɪn jˈuːs , ðɛɹ sˈɛljʊlɚ kɹˈæŋks , ɔːɹ hˈɑːɹd lˈeɪbɚ məʃˈiːnz .|0
+LJSpeech-1.1/wavs/LJ028-0008.wav|juː tˈæp dʒˈɛntli wɪð jʊɹ hˈiːl əpˌɑːn ðə ʃˈoʊldɚɹ ʌvðə dɹˈoʊmdɚɹi tʊ ˈɜːdʒ hɜːɹ ˈɔn .|0
+LJSpeech-1.1/wavs/LJ024-0083.wav|ðɪs plˈæn ʌv mˈaɪn ɪz nˈoʊ ɐtˈæk ɔnðə kˈoːɹt ;|0
+LJSpeech-1.1/wavs/LJ042-0129.wav|nˈoʊ nˈaɪt klˈʌbz ɔːɹ bˈoʊlɪŋ ˈælɪz , nˈoʊ plˈeɪsᵻz ʌv ɹˌɛkɹiːˈeɪʃən ɛksˈɛpt ðə tɹˈeɪd jˈuːniən dˈænsᵻz . aɪ hæv hæd ɪnˈʌf .|0
+LJSpeech-1.1/wavs/LJ036-0103.wav|ðə pəlˈiːs ˈæskt hˌɪm wˈɛðɚ hiː kʊd pˈɪk ˈaʊt hɪz pˈæsɪndʒɚ fɹʌmðə lˈaɪnʌp .|0
+LJSpeech-1.1/wavs/LJ046-0058.wav|dˈʊɹɹɪŋ hɪz pɹˈɛzɪdənsi , fɹˈæŋklɪn dˈiː . ɹˈoʊzəvˌɛlt mˌeɪd ˈɔːlmoʊst fˈoːɹ hˈʌndɹɪd dʒˈɜːniz ænd tɹˈævəld mˈoːɹ ðɐn θɹˈiː hˈʌndɹɪd fˈɪfti θˈaʊzənd mˈaɪlz .|0
+LJSpeech-1.1/wavs/LJ014-0076.wav|hiː wʌz sˈiːn ˈæftɚwɚdz smˈoʊkɪŋ ænd tˈɔːkɪŋ wɪð hɪz hˈoʊsts ɪn ðɛɹ bˈæk pˈɑːɹlɚ , ænd nˈɛvɚ sˈiːn ɐɡˈɛn ɐlˈaɪv .|0
+LJSpeech-1.1/wavs/LJ002-0043.wav|lˈɔŋ nˈæɹoʊ ɹˈuːmz wˈʌn θˈɜːɾi sˈɪks fˈiːt , sˈɪks twˈɛnti θɹˈiː fˈiːt , ænd ðɪ ˈeɪtθ ˈeɪtiːn ,|0
+LJSpeech-1.1/wavs/LJ009-0076.wav|wiː kˈʌm tə ðə sˈɜːmən .|0
+LJSpeech-1.1/wavs/LJ017-0131.wav|ˈiːvən wɛn ðə hˈaɪ ʃˈɛɹɪf hæd tˈoʊld hˌɪm ðɛɹwˌʌz nˈoʊ pˌɑːsəbˈɪlɪɾi əvɚ ɹᵻpɹˈiːv , ænd wɪðˌɪn ɐ fjˈuː ˈaʊɚz ʌv ˌɛksɪkjˈuːʃən .|0
+LJSpeech-1.1/wavs/LJ046-0184.wav|bˌʌt ðɛɹ ɪz ɐ sˈɪstəm fɚðɪ ɪmˈiːdɪət nˌoʊɾɪfɪkˈeɪʃən ʌvðə sˈiːkɹᵻt sˈɜːvɪs baɪ ðə kənfˈaɪnɪŋ ˌɪnstɪtˈuːʃən wɛn ɐ sˈʌbdʒɛkt ɪz ɹᵻlˈiːst ɔːɹ ɛskˈeɪps .|0
+LJSpeech-1.1/wavs/LJ014-0263.wav|wˌɛn ˈʌðɚ plˈɛʒɚz pˈɔːld hiː tˈʊk ɐ θˈiəɾɚ , ænd pˈoʊzd æz ɐ mjuːnˈɪfɪsənt pˈeɪtɹən ʌvðə dɹəmˈæɾɪk ˈɑːɹt .|0
+LJSpeech-1.1/wavs/LJ042-0096.wav|ˈoʊld ɛkstʃˈeɪndʒ ɹˈeɪt ɪn ɐdˈɪʃən tə hɪz fˈæktɚɹi sˈælɚɹi ʌv ɐpɹˈɑːksɪmətli ˈiːkwəl ɐmˈaʊnt|0
+LJSpeech-1.1/wavs/LJ049-0050.wav|hˈɪl hæd bˈoʊθ fˈiːt ɔnðə kˈɑːɹ ænd wʌz klˈaɪmɪŋ ɐbˈoːɹd tʊ ɐsˈɪst pɹˈɛzɪdənt ænd mˈɪsɪz . kˈɛnədi .|0
+LJSpeech-1.1/wavs/LJ019-0186.wav|sˈiːɪŋ ðæt sˈɪns ðɪ ɪstˈæblɪʃmənt ʌvðə sˈɛntɹəl kɹˈɪmɪnəl kˈoːɹt , nˈuːɡeɪt ɹᵻsˈiːvd pɹˈɪzənɚz fɔːɹ tɹˈaɪəl fɹʌm sˈɛvɹəl kˈaʊntiz ,|0
+LJSpeech-1.1/wavs/LJ028-0307.wav|ðˈɛn lˈɛt twˈɛnti dˈeɪz pˈæs , ænd æt ðɪ ˈɛnd ʌv ðæt tˈaɪm stˈeɪʃən nˌɪɹ ðə tʃˈældæsəŋ ɡˈeɪts ɐ bˈɑːdi ʌv fˈoːɹ θˈaʊzənd .|0
+LJSpeech-1.1/wavs/LJ012-0235.wav|wˌaɪl ðeɪ wɜːɹ ɪn ɐ stˈeɪt ʌv ɪnsˌɛnsəbˈɪlɪɾi ðə mˈɜːdɚ wʌz kəmˈɪɾᵻd .|0
+LJSpeech-1.1/wavs/LJ034-0053.wav|ɹˈiːtʃt ðə sˈeɪm kəŋklˈuːʒən æz lætˈoʊnə ðætðə pɹˈɪnts fˈaʊnd ɔnðə kˈɑːɹtənz wɜː ðoʊz ʌv lˈiː hˈɑːɹvi ˈɑːswəld .|0
+LJSpeech-1.1/wavs/LJ014-0030.wav|ðiːz wɜː dˈæmnətˌoːɹi fˈækts wˌɪtʃ wˈɛl səpˈoːɹɾᵻd ðə pɹˌɑːsɪkjˈuːʃən .|0
+LJSpeech-1.1/wavs/LJ015-0203.wav|bˌʌt wɜː ðə pɹɪkˈɔːʃənz tˈuː mˈɪnɪt , ðə vˈɪdʒɪləns tˈuː klˈoʊs təbi ᵻlˈuːdᵻd ɔːɹ ˌoʊvɚkˈʌm ?|0
+LJSpeech-1.1/wavs/LJ028-0093.wav|bˌʌt hɪz skɹˈaɪb ɹˈoʊt ɪɾ ɪnðə mˈænɚ kˈʌstəmˌɛɹi fɚðə skɹˈaɪbz ʌv ðoʊz dˈeɪz tə ɹˈaɪt ʌv ðɛɹ ɹˈɔɪəl mˈæstɚz .|0
+LJSpeech-1.1/wavs/LJ002-0018.wav|ðɪ ɪnˈædɪkwəsi ʌvðə dʒˈeɪl wʌz nˈoʊɾɪst ænd ɹᵻpˈoːɹɾᵻd əpˌɑːn ɐɡˈɛn ænd ɐɡˈɛn baɪ ðə ɡɹˈænd dʒˈʊɹɹiz ʌvðə sˈɪɾi ʌv lˈʌndən ,|0
+LJSpeech-1.1/wavs/LJ028-0275.wav|æt lˈæst , ɪnðə twˈɛntiəθ mˈʌnθ ,|0
+LJSpeech-1.1/wavs/LJ012-0042.wav|wˌɪtʃ hiː kˈɛpt kənsˈiːld ɪn ɐ hˈaɪdɪŋ plˈeɪs wɪð ɐ tɹˈæp dˈoːɹ dʒˈʌst ˌʌndɚ hɪz bˈɛd .|0
+LJSpeech-1.1/wavs/LJ011-0096.wav|hiː mˈæɹid ɐ lˈeɪdi ˈɔːlsoʊ bᵻlˈɔŋɪŋ tə ðə səsˈaɪəɾi ʌv fɹˈɛndz , hˌuː bɹˈɔːt hˌɪm ɐ lˈɑːɹdʒ fˈɔːɹtʃʊn , wˈɪtʃ , ænd hɪz ˈoʊn mˈʌni , hiː pˌʊt ˌɪntʊ ɐ sˈɪɾi fˈɜːm ,|0
+LJSpeech-1.1/wavs/LJ036-0077.wav|ɹˈɑːdʒɚ dˈiː . kɹˈeɪɡ , ɐ dˈɛpjuːɾi ʃˈɛɹɪf ʌv dˈæləs kˈaʊnti ,|0
+LJSpeech-1.1/wavs/LJ016-0318.wav|ˈʌðɚɹ əfˈɪʃəlz , ɡɹˈeɪt lˈɔɪɚz , ɡˈʌvɚnɚz ʌv pɹˈɪzənz , ænd tʃˈæplɪnz səpˈoːɹɾᵻd ðɪs vjˈuː .|0
+LJSpeech-1.1/wavs/LJ013-0164.wav|hˌuː kˈeɪm fɹʌm hɪz ɹˈuːm ɹˈɛdi dɹˈɛst , ɐ səspˈɪʃəs sˈɜːkəmstˌæns , æz hiː wʌz ˈɔːlweɪz lˈeɪt ɪnðə mˈɔːɹnɪŋ .|0
+LJSpeech-1.1/wavs/LJ027-0141.wav|ɪz klˈoʊsli ɹᵻpɹədˈuːst ɪnðə lˈaɪf hˈɪstɚɹi ʌv ɛɡzˈɪstɪŋ dˈɪɹ . ɔːɹ , ɪn ˈʌðɚ wˈɜːdz ,|0
+LJSpeech-1.1/wavs/LJ028-0335.wav|ɐkˈoːɹdɪŋli ðeɪ kəmˈɪɾᵻd tə hˌɪm ðə kəmˈænd ʌv ðɛɹ hˈoʊl ˈɑːɹmi , ænd pˌʊt ðə kˈiːz ʌv ðɛɹ sˈɪɾi ˌɪntʊ hɪz hˈændz .|0
+LJSpeech-1.1/wavs/LJ031-0202.wav|mˈɪsɪz . kˈɛnədi tʃˈoʊz ðə hˈɑːspɪɾəl ɪn bəθˈɛzdə fɚðɪ ˈɔːtɑːpsi bɪkˈʌz ðə pɹˈɛzɪdənt hæd sˈɜːvd ɪnðə nˈeɪvi .|0
+LJSpeech-1.1/wavs/LJ021-0145.wav|fɹʌm ðoʊz wˈɪlɪŋ tə dʒˈɔɪn ɪn ɪstˈæblɪʃɪŋ ðɪs hˈoʊpt fɔːɹ pˈiəɹɪəd ʌv pˈiːs ,|0
+LJSpeech-1.1/wavs/LJ016-0288.wav|dˈɑːlɚ mˈuːlɚ , mˈuːlɚ , hiːz ðə mˈæn , dˈɑːlɚ tˈɪl ɐ daɪvˈɜːʒən wʌz kɹiːˈeɪɾᵻd baɪ ðɪ ɐpˈɪɹəns ʌvðə ɡˈæloʊz , wˌɪtʃ wʌz ɹᵻsˈiːvd wɪð kəntˈɪnjuːəs jˈɛlz .|0
+LJSpeech-1.1/wavs/LJ028-0081.wav|jˈɪɹz lˈeɪɾɚ , wˌɛn ðɪ ˌɑːɹkiːˈɑːlədʒˌɪsts kʊd ɹˈɛdili dɪstˈɪŋɡwɪʃ ðə fˈɔls fɹʌmðə tɹˈuː ,|0
+LJSpeech-1.1/wavs/LJ018-0081.wav|hɪz dᵻfˈɛns bˌiːɪŋ ðæt hiː hæd ɪntˈɛndᵻd tə kəmˈɪt sˈuːɪsˌaɪd , bˌʌt ðˈæt , ɔnðɪ ɐpˈɪɹəns ʌv ðɪs ˈɑːfɪsɚ hˌuː hæd ɹˈɔŋd hˌɪm ,|0
+LJSpeech-1.1/wavs/LJ021-0066.wav|təɡˌɛðɚ wɪð ɐ ɡɹˈeɪt ˈɪŋkɹiːs ɪnðə pˈeɪɹoʊlz , ðɛɹ hɐz kˈʌm ɐ səbstˈænʃəl ɹˈaɪz ɪnðə tˈoʊɾəl ʌv ɪndˈʌstɹɪəl pɹˈɑːfɪts|0
+LJSpeech-1.1/wavs/LJ009-0238.wav|ˈæftɚ ðɪs ðə ʃˈɛɹɪfs sˈɛnt fɔːɹ ɐnˈʌðɚ ɹˈoʊp , bˌʌt ðə spɛktˈeɪɾɚz ˌɪntəfˈɪɹd , ænd ðə mˈæn wʌz kˈæɹid bˈæk tə dʒˈeɪl .|0
+LJSpeech-1.1/wavs/LJ005-0079.wav|ænd ɪmpɹˈuːv ðə mˈɔːɹəlz ʌvðə pɹˈɪzənɚz , ænd ʃˌæl ɪnʃˈʊɹ ðə pɹˈɑːpɚ mˈɛʒɚɹ ʌv pˈʌnɪʃmənt tə kənvˈɪktᵻd əfˈɛndɚz .|0
+LJSpeech-1.1/wavs/LJ035-0019.wav|dɹˈoʊv tə ðə nɔːɹθwˈɛst kˈɔːɹnɚɹ ʌv ˈɛlm ænd hjˈuːstən , ænd pˈɑːɹkt ɐpɹˈɑːksɪmətli tˈɛn fˈiːt fɹʌmðə tɹˈæfɪk sˈɪɡnəl .|0
+LJSpeech-1.1/wavs/LJ036-0174.wav|ðɪs ɪz ðɪ ɐpɹˈɑːksɪmət tˈaɪm hiː ˈɛntɚd ðə ɹˈuːmɪŋhˌaʊs , ɐkˈoːɹdɪŋ tʊ ˈɜːliːn ɹˈɑːbɚts , ðə hˈaʊskiːpɚ ðˈɛɹ .|0
+LJSpeech-1.1/wavs/LJ046-0146.wav|ðə kɹaɪtˈiəɹɪə ɪn ɪfˈɛkt pɹˈaɪɚ tə noʊvˈɛmbɚ twˈɛnti tˈuː , nˈaɪntiːn sˈɪksti θɹˈiː , fɔːɹ dɪtˈɜːmɪnɪŋ wˈɛðɚ tʊ ɐksˈɛpt mətˈɪɹiəl fɚðə pˌiːˌɑːɹɹˈɛs dʒˈɛnɚɹəl fˈaɪlz|0
+LJSpeech-1.1/wavs/LJ017-0044.wav|ænd ðə dˈiːpɪst æŋzˈaɪəɾi wʌz fˈɛlt ðætðə kɹˈaɪm , ɪf kɹˈaɪm ðˈɛɹ hɐdbɪn , ʃˌʊd biː bɹˈɔːt hˈoʊm tʊ ɪts pˈɜːpɪtɹˌeɪɾɚ .|0
+LJSpeech-1.1/wavs/LJ017-0070.wav|bˌʌt hɪz spˈoːɹɾɪŋ ˌɑːpɚɹˈeɪʃənz dɪdnˌɑːt pɹˈɑːspɚ , ænd hiː bɪkˌeɪm ɐ nˈiːdi mˈæn , ˈɔːlweɪz dɹˈɪvən tə dˈɛspɚɹət stɹˈeɪts fɔːɹ kˈæʃ .|0
+LJSpeech-1.1/wavs/LJ014-0020.wav|hiː wʌz sˈuːn ˈæftɚwɚdz ɚɹˈɛstᵻd ˌɔn səspˈɪʃən , ænd ɐ sˈɜːtʃ ʌv hɪz lˈɑːdʒɪŋz bɹˈɔːt tə lˈaɪt sˈɛvɹəl ɡˈɑːɹmənts sˈætʃɚɹˌeɪɾᵻd wɪð blˈʌd ;|0
+LJSpeech-1.1/wavs/LJ016-0020.wav|hiː nˈɛvɚ ɹˈiːtʃt ðə sˈɪstɚn , bˌʌt fˈɛl bˈæk ˌɪntʊ ðə jˈɑːɹd , ˈɪndʒɚɹɪŋ hɪz lˈɛɡz sᵻvˈɪɹli .|0
+LJSpeech-1.1/wavs/LJ045-0230.wav|wˌɛn hiː wʌz fˈaɪnəli ˌæpɹihˈɛndᵻd ɪnðə tˈɛksəs θˈiəɾɚ . ɔːlðˈoʊ ɪɾ ɪz nˌɑːt fˈʊli kɚɹˈɑːbɚɹˌeɪɾᵻd baɪ ˈʌðɚz hˌuː wɜː pɹˈɛzənt ,|0
+LJSpeech-1.1/wavs/LJ035-0129.wav|ænd ʃiː mˈʌstɐv ɹˈʌn dˌaʊn ðə stˈɛɹz ɐhˈɛd ʌv ˈɑːswəld ænd wʊd pɹˈɑːbəbli hæv sˈiːn ɔːɹ hˈɜːd hˌɪm .|0
+LJSpeech-1.1/wavs/LJ008-0307.wav|ˈæftɚwɚdz ɛkspɹˈɛs ɐ wˈɪʃ tə mˈɜːdɚ ðə ɹᵻkˈoːɹdɚ fɔːɹ hˌævɪŋ kˈɛpt ðˌɛm sˌoʊ lˈɔŋ ɪn səspˈɛns .|0
+LJSpeech-1.1/wavs/LJ008-0294.wav|nˌɪɹli ɪndˈɛfɪnətli dᵻfˈɜːd .|0
+LJSpeech-1.1/wavs/LJ047-0148.wav|ˌɔn ɑːktˈoʊbɚ twˈɛnti fˈaɪv ,|0
+LJSpeech-1.1/wavs/LJ008-0111.wav|ðeɪ ˈɛntɚd ɐ dˈɑːlɚ stˈoʊŋ kˈoʊld ɹˈuːm , dˈɑːlɚɹ ænd wɜː pɹˈɛzəntli dʒˈɔɪnd baɪ ðə pɹˈɪzənɚ .|0
+LJSpeech-1.1/wavs/LJ034-0042.wav|ðæt hiː kʊd ˈoʊnli tˈɛstᵻfˌaɪ wɪð sˈɜːtənti ðætðə pɹˈɪnt wʌz lˈɛs ðɐn θɹˈiː dˈeɪz ˈoʊld .|0
+LJSpeech-1.1/wavs/LJ037-0234.wav|mˈɪsɪz . mˈɛɹi bɹˈɑːk , ðə wˈaɪf əvə mɪkˈænɪk hˌuː wˈɜːkt æt ðə stˈeɪʃən , wʌz ðɛɹ æt ðə tˈaɪm ænd ʃiː sˈɔː ɐ wˈaɪt mˈeɪl ,|0
+LJSpeech-1.1/wavs/LJ040-0002.wav|tʃˈæptɚ sˈɛvən . lˈiː hˈɑːɹvi ˈɑːswəld : bˈækɡɹaʊnd ænd pˈɑːsᵻbəl mˈoʊɾɪvz , pˈɑːɹt wˌʌn .|0
+LJSpeech-1.1/wavs/LJ045-0140.wav|ðɪ ˈɑːɹɡjuːmənts hiː jˈuːzd tə dʒˈʌstᵻfˌaɪ hɪz jˈuːs ʌvðɪ ˈeɪliəs sədʒˈɛst ðæt ˈɑːswəld mˌeɪhɐv kˈʌm tə θˈɪŋk ðætðə hˈoʊl wˈɜːld wʌz bᵻkˈʌmɪŋ ɪnvˈɑːlvd|0
+LJSpeech-1.1/wavs/LJ012-0035.wav|ðə nˈʌmbɚ ænd nˈeɪmz ˌɔn wˈɑːtʃᵻz , wɜː kˈɛɹfəli ɹᵻmˈuːvd ɔːɹ əblˈɪɾɚɹˌeɪɾᵻd ˈæftɚ ðə ɡˈʊdz pˈæst ˌaʊɾəv hɪz hˈændz .|0
+LJSpeech-1.1/wavs/LJ012-0250.wav|ɔnðə sˈɛvənθ dʒuːlˈaɪ , ˈeɪtiːn θˈɜːɾi sˈɛvən ,|0
+LJSpeech-1.1/wavs/LJ016-0179.wav|kəntɹˈæktᵻd wɪð ʃˈɛɹɪfs ænd kənvˈiːnɚz tə wˈɜːk baɪ ðə dʒˈɑːb .|0
+LJSpeech-1.1/wavs/LJ016-0138.wav|æɾə dˈɪstəns fɹʌmðə pɹˈɪzən .|0
+LJSpeech-1.1/wavs/LJ027-0052.wav|ðiːz pɹˈɪnsɪpəlz ʌv həmˈɑːlədʒi ɑːɹ ᵻsˈɛnʃəl tʊ ɐ kɚɹˈɛkt ɪntˌɜːpɹɪtˈeɪʃən ʌvðə fˈækts ʌv mɔːɹfˈɑːlədʒi .|0
+LJSpeech-1.1/wavs/LJ031-0134.wav|ˌɔn wˈʌn əkˈeɪʒən mˈɪsɪz . dʒˈɑːnsən , ɐkˈʌmpənid baɪ tˈuː sˈiːkɹᵻt sˈɜːvɪs ˈeɪdʒənts , lˈɛft ðə ɹˈuːm tə sˈiː mˈɪsɪz . kˈɛnədi ænd mˈɪsɪz . kˈɑːnæli .|0
+LJSpeech-1.1/wavs/LJ019-0273.wav|wˌɪtʃ sˌɜː dʒˈɑːʃjuːə dʒˈɛb tˈoʊld ðə kəmˈɪɾi hiː kənsˈɪdɚd ðə pɹˈɑːpɚɹ ˈɛlɪmənts ʌv pˈiːnəl dˈɪsɪplˌɪn .|0
+LJSpeech-1.1/wavs/LJ014-0110.wav|æt ðə fˈɜːst ðə bˈɑːksᵻz wɜːɹ ɪmpˈaʊndᵻd , ˈoʊpənd , ænd fˈaʊnd tə kəntˈeɪn mˈɛnɪəv oʊkˈɑːnɚz ɪfˈɛkts .|0
+LJSpeech-1.1/wavs/LJ034-0160.wav|ˌɔn bɹˈɛnənz sˈʌbsᵻkwənt sˈɜːʔn̩ aɪdˈɛntɪfɪkˈeɪʃən ʌv lˈiː hˈɑːɹvi ˈɑːswəld æz ðə mˈæn hiː sˈɔː fˈaɪɚ ðə ɹˈaɪfəl .|0
+LJSpeech-1.1/wavs/LJ038-0199.wav|ᵻlˈɛvən . ɪf aɪɐm ɐlˈaɪv ænd tˈeɪkən pɹˈɪzənɚ ,|0
+LJSpeech-1.1/wavs/LJ014-0010.wav|jˈɛt hiː kʊd nˌɑːt ˌoʊvɚkˈʌm ðə stɹˈeɪndʒ fˌæsᵻnˈeɪʃən ɪt hˈæd fɔːɹ hˌɪm , ænd ɹᵻmˈeɪnd baɪ ðə sˈaɪd ʌvðə kˈɔːɹps tˈɪl ðə stɹˈɛtʃɚ kˈeɪm .|0
+LJSpeech-1.1/wavs/LJ033-0047.wav|aɪ nˈoʊɾɪst wɛn aɪ wɛnt ˈaʊt ðætðə lˈaɪt wʌz ˈɔn , ˈɛnd kwˈoʊt ,|0
+LJSpeech-1.1/wavs/LJ040-0027.wav|hiː wʌz nˈɛvɚ sˈæɾɪsfˌaɪd wɪð ˈɛnɪθˌɪŋ .|0
+LJSpeech-1.1/wavs/LJ048-0228.wav|ænd ˈʌðɚz hˌuː wɜː pɹˈɛzənt sˈeɪ ðæt nˈoʊ ˈeɪdʒənt wʌz ɪnˈiːbɹɪˌeɪɾᵻd ɔːɹ ˈæktᵻd ɪmpɹˈɑːpɚli .|0
+LJSpeech-1.1/wavs/LJ003-0111.wav|hiː wʌz ɪŋ kˈɑːnsɪkwəns pˌʊt ˌaʊɾəv ðə pɹətˈɛkʃən ʌv ðɛɹ ɪntˈɜːnəl lˈɔː , ˈɛnd kwˈoʊt . ðɛɹ kˈoʊd wʌzɐ sˈʌbdʒɛkt ʌv sˌʌm kjˌʊɹɹɪˈɔsɪɾi .|0
+LJSpeech-1.1/wavs/LJ008-0258.wav|lˈɛt mˌiː ɹᵻtɹˈeɪs maɪ stˈɛps , ænd spˈiːk mˈoːɹ ɪn diːtˈeɪl ʌvðə tɹˈiːtmənt ʌvðə kəndˈɛmd ɪn ðoʊz blˈʌdθɜːsti ænd bɹˈuːɾəli ɪndˈɪfɹənt dˈeɪz ,|0
+LJSpeech-1.1/wavs/LJ029-0022.wav|ðɪ ɚɹˈɪdʒɪnəl plˈæŋ kˈɔːld fɚðə pɹˈɛzɪdənt tə spˈɛnd ˈoʊnli wˈʌn dˈeɪ ɪnðə stˈeɪt , mˌeɪkɪŋ wˈɜːlwɪnd vˈɪzɪts tə dˈæləs , fˈɔːɹt wˈɜːθ , sˌæn æntˈoʊnɪˌoʊ , ænd hjˈuːstən .|0
+LJSpeech-1.1/wavs/LJ004-0045.wav|mˈɪstɚ . stˈɜːdʒᵻz bˈoːɹn , sˌɜː dʒˈeɪmz mˈækɪntˌɑːʃ , sˌɜː dʒˈeɪmz skˈɑːɹlɪt , ænd wˈɪljəm wˈɪlbɚfˌoːɹs .|0

StyleTTS_Accelerate/Data/val_list_libritts.txt ADDED Viewed

	@@ -0,0 +1,195 @@

+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_19794.wav|aɪ nˈuː aɪ wʌz ɡˌɛɾɪŋ ˌɪntʊ tɹˈʌbəl kˈʌmɪŋ hˈɪɹ , bˌʌt θˈæŋkfəli aɪv ɡˈɑːt juː , dˈɑːktɚ . aɪ wˌʊdəntəv fˈɪɡɚd ˈaʊt hˌaʊ tə ɹᵻzˈɑːlv sˈʌtʃ ɐ kˈɑːmplᵻkˌeɪɾᵻd kˈɑːnflɪkt baɪ maɪsˈɛlf . ˈɔːl ɹˈaɪt , tˈaɪm tə pˈæk ˌʌp maɪ ɡˈʌn . mˈɪʃən kəmplˈiːt , dˈɑːktɚ . wiː ɐtʃˈiːvd vˈɛɹi ...|56
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_12789.wav|stɹˈaɪk ðˌɛm ! pˈɪɹs ˈɛvɹɪθˌɪŋ . bᵻhˈoʊld ! jʊɹ dˈɛd ! jʊɹ dˈɛθ ! ɪts tˈaɪm , kˈɑːnsəntɹˌeɪɾᵻd . dˈaɪ ! ðæts ðə lˈæst tˈaɪm . juː θˈɪŋk ʌv mˌiː . kˈʌm ˈɔn ! ðæts dʒˈʌst ðə tˈaɪm .|240
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_1753.wav|nˈaɪs mˈuːv . kənsˈɪdɚɹɪŋ sˈʌmwʌnz fˈɪzɪkəl kəndˈɪʃən .|122
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_14206.wav|ˈoʊ , ðeɪɚ dɹˈeɪnɪŋ jʊɹ mˈɛntəl pˈaʊɚ !|247
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_12264.wav|tˈʌkɪn kjuːzˈuːzi ! ðæt sˈʌkt . dˈoʊnt wˈʌɹi , juː dˈoʊnt hæv təbi skˈɛɹd . dʒˈʌst klˈoʊz jʊɹ ˈaɪz ænd biː tˈeɪkən tə hˈɛvən . aɪl sˈɛnd juː tə hˈɛl ! aɪv wˈʌn ! nˈaʊ , lˈɛts dˈaɪ .|239
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_4661.wav|nˈaɪts mˈeɪ biː ˈeɪbəl tə klˈaɪm bˈæk ˌʌp ˈæftɚ ðeɪ fˈɔːl , bˌʌt ðɪ ɪnfˈɛktᵻd dˈoʊnt hæv sˈʌtʃ kˈaɪndhˈɑːɹɾᵻd ˈɑːpʃənz ɐvˈeɪləbəl tə ðˌɛm .|162
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_12369.wav|juː pɹˈɛs ðɪs swˈɪtʃ tuː ... nˈoʊ , nˈoʊ , nˈoʊ ! ðæts ðə sˈɛlfdᵻstɹˈʌkt bˈʌʔn̩ ! ˈɑː ! ɹˈʌn !|24
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_10319.wav|wɪɹ wˈɪnɪŋ ! ˈoʊ , nˈaɪs dʒˈɑːb ! ˈoʊ , ðeɪɚ ɡˈʊd !|235
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_10192.wav|mˈɪtsɚɹˌuː kæn biː tɹˈʌbəl tə fˈaɪt , bˌʌt aɪ nˈoʊ hɜː wˈɛl .|234
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_7133.wav|hˈeɪ dˈɑːktɚ , ˈɑːɹknaɪts .|195
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_3889.wav|aɪ wɪl ˈæsk mˈɪstɚ . ɹˈæbɪt tə pɹɪpˈɛɹ wˈʌn mˈoːɹ kˈeɪk .|154
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_10529.wav|juː kæn fˈɪnɪʃ ðˌɛm ˈɔf !|235
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_10588.wav|sˈʌmtaɪmz ɪts ɐbˌaʊt lˈʌk . nˈɛkst ɹˈaʊnd !|235
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_5410.wav|aɪ ɐɡɹˈiː təbi ɐ fˈaɪt kˌoːɹɪˈɑːɡɹəfɚ fɔːɹ nˈiːnz mˈuːvi .|172
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_14881.wav|kˈʌm ɐɡˈɛn tə mˌeɪk aʊɚsˈɛlvz nˈoʊn tə ðoʊz hˌuː dᵻfˈaɪ ˌʌs . wˈɛl dˈʌn . ðæt ˈɛndz ˈɛvɹɪθˌɪŋ .|251
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_18092.wav|tɹˈaɪ sˈʌmθɪŋ , fˈaɪɚ ! wˌɛɹ kʊd juː bˈiː ?|34
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_2474.wav|sˈʌmtaɪmz juː dʒˈʌst ɡˈɑːɾə tˈeɪk ˈɔf ðə mˈæsk ænd kˈætʃ ɐ bɹˈiːðɚ .|135
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_16172.wav|ɪf juː wˈɪn , aɪl ɡˈɪv juː fˈɛðɚ pˈɪŋks ˈɔːɾəɡɹˌæf !|256
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_7299.wav|ɪt sˈiːmz juː ɑːɹ ɹˈæðɚ lˈæks ɪn meɪntˈeɪnɪŋ jʊɹ ˈoʊn hˈɛlθ , dˈɑːktɚ .|198
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_17994.wav|dʒˈʌst bˌiːɪŋ ˈeɪbəl tə hˈoʊld ðə kˈɪɾɪz lˈaɪk ðˈɪs .|33
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_2538.wav|ɪts tˈaɪm fɔːɹ juː tə lˈiːv .|136
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_4663.wav|maɪ wˈɛpən sˈiːmz təbi ˈæktɪŋ ˈʌp . wˌɪtʃ wˈeɪ ɪz ðə wˈɜːkʃɑːp ? ðæt wˈeɪ ? θˈæŋk juː .|162
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_16288.wav|wɪɹ ˈoʊnli dˌaʊn baɪ ɐ lˈɪɾəl . lˈɛts kˈætʃ ˈʌp !|256
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_13598.wav|bˈɑːndɪŋ ˈækt ɔːlɹˈɛdi ? dˈoʊnt wˈʌɹi . aɪl kˈɪl ˈɛvɹɪwˌʌn ɐtwˈʌns . ðiːz bˈɑːndz juː bᵻlˈiːv ɪn ɑːɹ kwˈaɪt fɹˈeɪl . jʊɹ pˈaʊɚləs ʌnlˈɛs juː ˈækt æz ɐ ɡɹˈuːp , kɚɹˈɛkt ?|244
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_7444.wav|blˈiːdɪŋ mˈɔːɹɡən . ʃiː mˌaɪt sˈiːm lˈaɪk ɐ lˈeɪɐbˌaʊt mˈoʊstli , bˌʌt ʃiːz ˌaʊɚ tæktˈɪʃən wɛn pˈʊʃ kˈʌmz tə ʃˈʌv . ɡˈɛts ɐ dʒˈɑːb dˈʌn . ɡˈɛts ˌɔn maɪ nˈɜːvz ˈʌðɚwˌaɪz , ðˌoʊ . ænd ʃiː lˈʌvz ɪt .|2
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_8344.wav|aɪ dˈoʊnt wˈɔnt tə lˈuːz maɪ mˈaɪnd , ʌv kˈoːɹs .|210
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_21352.wav|nˈɛkst tˈaɪm . dˈɑːktɚ .|73
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_605.wav|hiː wʌz stˈɪl wˈɪlɪŋ tə flˈʌf ɪɾ ˌɪntʊ tˈaɪni lˈɪɾəl stˈoːɹiz , dʒˈʌst tə mˌeɪk mˌiː smˈaɪl .|107
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_16547.wav|ɑːɹ juː ʃˈʊɹ juː dˈoʊnt ɹˈiəli sˈiː ðˌɛm æz tˈuːlz ? ˈɛvɹi lˈæst wˈʌn ʌv juː ɪz ɪn maɪ wˈeɪ . aɪm fˈaɪn baɪ maɪsˈɛlf , sˌoʊ ɡɛt lˈɔst ! hˈɑː hˈɑː hˈɑː ! ænd ˈaɪdəl ? aɪ bˈɛt juː dʒˈʌst lˈʌv bˌiːɪŋ pˈæmpɚd . ɪt fˈiːlz ɡɹˈeɪt tə sˈiː juː .|256
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_3213.wav|ɪt mˌaɪt biː ɐ lˈɪɾəl tʃˈæləndʒˌɪŋ fɔːɹ ðɪs jˈuːnɪt ɹˈaɪt nˈaʊ .|146
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_20665.wav|jʊɹ hˈɪɹ tə pɹˈeɪ ? sˈɑːɹi , aɪm bˈɪzi ɹˈaɪt nˈaʊ .|66
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_17916.wav|ˈɔːl ɹˈaɪt , wˈʌns mˈoːɹ . ɡɛt ɐwˈeɪ fɹʌm mˌiː , plˈiːz !|31
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_10945.wav|ɑːhˈɑː ! ðə pˈɪtʃɚɹ ɪz kˈɜːɹəntli ɐfɹˈeɪd ʌvðə bˈæɾɚ !|236
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_1495.wav|ˈoʊ , woʊnt juː wˈɔnt mˌiː lˈiːdɪŋ dˈɑːktɚ ?|12
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_8645.wav|lˈɛts nˌɑːt fˈiːl dˈaʊn , dˈɑːktɚ . juː wɪl fˈaɪnd ɐ səlˈuːʃən tə bɹˈeɪk ðɪs dˈɛdlɑːk .|214
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_21677.wav|ˈɪntɹɛstɪŋ fˈeɪsᵻz ɑːɹ lˈaɪk stˈoːɹiz ɪn ðɛɹ ˈoʊn ɹˈaɪt .|76
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_7735.wav|jʊɹ nˌɑːt jˈuːzd tə mˌiː tˈɔːkɪŋ ðɪs wˈeɪ , bˌʌt aɪm ɐn ˈɑːnɪsttəɡˈʊdnəs nˈaɪt . ʃˈʊɹli aɪ kæn ˈɪmpɹəvˌaɪz ɐ spˈiːtʃ ɔːɹ tˈuː .|203
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_12417.wav|dˈoʊnt tˈeɪk ˌʌs lˈaɪtli . ðeɪɚ stˈɪl kˈʌmɪŋ . ðə bˈæɾəlz stˈɪl ɡˈoʊɪŋ .|240
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_4109.wav|fˈɜːst ˈeɪd hˈɪɹ , tˈeɪk ɪt . aɪl biː ɹˈaɪt ðˈɛɹ !|157
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_18232.wav|bˌʌt wʊd juː hˈæpən tə nˈoʊ wˌɛɹ pɹɑːvˈɑ̃s ænd ˈɛvɹɪwˌʌn ˈɛls wˈɛnt ?|37
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_20440.wav|ðiːz klˈoʊðz hæv jʊɹ ɐtˈɛnʃən , dˈɑːktɚ ? ðeɪ kənfjˈuːz mˌiː dʒˈʌst æz mˈʌtʃ wɛn aɪ fˈɜːst pˌʊt ðˌɛm ˈɔn . ðeɪ hæv ɐ stˈɑːɹɾəlɪŋ dᵻfˈɛnsɪv kəpˈæsᵻɾi , dᵻspˈaɪt ðɛɹ ˈɑːbviəs dɪzˈaɪn .|62
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_2160.wav|ˈɑː , sˈuːzən , dˈoʊnt tɹˈuː mˌiː , aɪl tˈoʊld mˌiː . aɪ dˈoʊnt tə θˈɪŋk tə ðə tˈaɪm .|130
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_9888.wav|biː ɛmbˈæɹəst ɐbˌaʊt hˌaʊ ɪt tˈɜːnd ˈaʊt . aɪ wˈʌn ðɪs fˈaɪt , bˌʌt ðɛɹz nˈoʊ nˈoʊɪŋ hˌaʊ ˌɪɾəl ɡˌoʊ nˈɛkst tˈaɪm .|234
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_15842.wav|dˈoʊnt wˈʌɹi , dʒˈʌst wˈɑːtʃ ðˌɛm !|255
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_17659.wav|ɪts fˈɪlθi . ˈʌɡ . wˌʌt ɑːɹ juː lˈʊkɪŋ æt mˌiː fɔːɹ ? juː wˈɔnt mˌiː tə tʃˈeɪs ðˌɛm ?|28
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_15844.wav|mˈeɪbiː aɪ kæn ɡɛt sˌʌm ˈænsɚz ɪf aɪ ɡˌoʊ ðˈɛɹ . sˈoʊ , ɪts ˈoʊnli nˈætʃɚɹəl ðæt ðɛɹˌɑːɹ fˈeɪks wˈɔndɚɹɪŋ ɚɹˈaʊnd ɪn hˈɪɹ tˈuː .|255
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_5427.wav|ɪɾ ɪz ɪmpˈɑːsᵻbəl tə sˈiː ˈɔːl ðiːz sˈaɪts .|172
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_21460.wav|jˈɛs , ðə ɹˈiːdz ðæt wʊd bˈɜːn ɐwˈeɪ .|75
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_5961.wav|ɪf juː wˈɪʃ mˌiː tʊ ɐtˈɛnd juː , ðæt hˈæpənz təbi maɪ spˈɛʃəlɾi .|18
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_21354.wav|wˌaɪ dˈoʊnt juː kˈʌm pɹˈæktɪs ðə blˈeɪd wɪð mˌiː ? dˈɑːktɚ , ɹᵻmˈɛmbɚ tə pɹˈæktɪs jʊɹ kˈʌŋ fˈuː .|73
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_12956.wav|ˈoʊ ɹˈaɪt ! nˈaʊ ! juː kæn bˈiːt ðˌɛm !|241
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_10951.wav|ðɪs sˈiːmz tə kˌɑːntɹədˈɪkt jʊɹ dɪzˈaɪɚ fɔːɹ sˈɑːlɪtˌuːd .|236
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_21021.wav|aɪ kˈænt ɹᵻmˈɛmbɚ hɜː fˈeɪs , bˌʌt ðeɪ klˈɪɹli ɹᵻkˈɔːld ðə ɹˈaɪm ʃiː sˈæŋ mˌiː .|70
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_18479.wav|ðə tˈaɪd stˈɪl kˈʌmz ˈɪn . wiː kˈænt lˈɛt ˌaʊɚ ɡˈɑːɹd dˌaʊn jˈɛt .|4
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_10072.wav|ðɪs hˈæpənz sˈʌmtaɪmz . dˈoʊnt wˈʌɹi ɐbˈaʊt ɪt .|234
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_16293.wav|nˈaɪs pˈeɪs , dˌuːɪŋ ɡˈʊd !|256
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_8232.wav|wˌaɪ dˈʌz ˈɛvɹɪwˌʌn pˈʊl ðiːz wˈɪɹd fˈeɪsᵻz wɛn ðeɪ fˈɪnɪʃ ?|209
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_6296.wav|ˈoʊ , sˈɑːɹi .|183
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_20989.wav|wɛnˌɛvɚ ðə tɹˈaɪb ɪz ɔnðə mˈuːv , ˈɛvɹɪwˌʌn wˈʌɹiz wˈɛðɚ wiːl fˈaɪnd ɐ ɡˈʊd plˈeɪs tə sˈɛɾəl dˈaʊn .|7
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_7065.wav|θˈæŋks . θˈɪŋz ɑːɹ ɔnðə ɹˈaɪt tɹˈæk nˈaʊ .|194
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_15376.wav|dˈɪd juː plˈæn ðˈæt ? aɪ wˈɪʃ ðɛɹd biː ɐn ˈʌpsɛt .|253
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_16663.wav|ðɪs wɪl fˈaɪnəli ˈɛnd θˈɪŋz . ɡˈʊd lˈʌk tə juː .|257
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_16019.wav|aɪ wʌz sˌoʊ klˈoʊs , aɪm sˈɑːɹi . vˈɪktɚɹi ɪz aʊɚz !|255
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_14790.wav|tə ɡˌoʊ wˈaɪld sˈʌmtaɪmz . aɪl ˌɪntɹədˈuːs juː tə ðˌɛm nˈɛkst tˈaɪm . ɹˈaʊnd ? wˈʌn , tˈuː , θɹˈiː , fˈoːɹ , fˈaɪv , sˈɪks , sˈɛvən , ˈeɪt , ˈeɪt , nˈaɪn , tˈɛn , tˈɛn .|250
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_12131.wav|huːˈɛvɚ blˈɪŋks fˈɜːst wɪl lˈuːz !|239
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_1143.wav|wiː ɡˈeɪn pəzˈɛʃənz , stˈæɾəs ænd ɐ dˈiːsənt lˈaɪf .|115
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_10829.wav|juː mˈʌst kˈaʊntɚɹɐtˌæk !|236
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_17786.wav|ˈɔːl juː nˈiːd tə nˈoʊ ɪz ðæt aɪm nˌɑːt ˈæftɚ jʊɹ lˈaɪf fɔːɹ nˈaʊ , dˈɑːktɚ . ɑːɹ juː ʃˈʊɹ aɪ nˈiːd tə wˈɑːtʃ ðˈiːz ? bˈæk ɪn kˈæsdɛl , juː jˈuːzd tə lˈiːd maɪ pˈiːpəl . hˈʌ , ɡɹˈeɪt .|3
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_11064.wav|aɪ sˈiː , nˈaʊ ðɪs ɪz kwˈaɪt ˈɪntɹɛstɪŋ . aɪm sˈɑːɹi , bˌʌt aɪm stˈɑːɹɾɪŋ tə bɪkˌʌm ɹˈæðɚ bˈoːɹd . ɪf aɪ kəntˈɪnjuː klˈaɪmɪŋ ðɪs tˈaʊɚ , wɪl ɐ hˈɑːɹtθɹˈɑːbɪŋ ɹˌiːjˈuːniən wɪð ðæt jˈʌŋ mˈæn fɹʌm ˈɜːlɪɚ biː ɐwˈeɪɾɪŋ mˌiː ? ˈoʊ mˈaɪ , aɪ hæd ɡˈɑːʔn̩ kəmplˈiːtli bˈoːɹd .|236
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_3913.wav|aɪm hˈʌŋɡɹi . ˈɛvɹɪwˌʌn wɪl lˈʌv ðə blˈuː bˈʌbəl ɡˈɑːɹdən .|154
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_18559.wav|aɪm nˌɑːt ðæt ɡˈʊd æt smˈɔːl tˈɔːk .|41
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_1869.wav|aɪl tɹˈaɪ sˈʌmhaʊ . aɪ wˈʊdənt mˌeɪk ɐ ɡˈʊd ɛksplˈoːɹɚ .|125
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_8106.wav|aɪ mˈʌst ɹᵻbˈɪld ɪt fɚðə tʃˈɪldɹən . æz lˈɔŋ æz ðeɪ kæn hæv ɐ ʃˈɛltɚ tə kˈɔːl hˈoʊm , ˌɛni plˈeɪs wɪl dˈuː .|208
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_5399.wav|aɪ dɪdnˌɑːt sˈiː juː æt ðɪs mˈɔːɹnɪŋz tɹˈeɪnɪŋ sˈɛʃən .|172
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_9998.wav|ʃiː dˈʌzənt sˈiːm jˈuːzd tə bˈæɾəl jˈɛt . fˈɪnɪʃ hɜː kwˈɪkli .|234
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_8594.wav|baɪ mˈaɪlz . bˈoʊθ ɹˈeɪθɪən ˈɑːɹ ænd dˈiː pɹˈɑːdʒɛkts ænd wˈɜːkɪŋ təɡˌɛðɚ wɪð juː hɐvbɪn dᵻlˈaɪtfəl ɛkspˈiəɹɪənsᵻz .|214
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_5889.wav|aɪ ɹˈiəli ɛndʒˈɔɪ plˈeɪɪŋ wɪð kˈɪdz . bˈæk ɪn maɪ hˈoʊmtaʊn , aɪ tˈʊk maɪ bɹˈʌðɚz ænd sˈɪstɚz slˈɛdɪŋ ˈɛvɹi jˈɪɹ .|178
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_12846.wav|ðɪs ɪz kwˈaɪt ɐ fˈaɪt kˈɑːɹd . kˌoʊdɐmˈɑːɾoʊ ɪz ɛksˈaɪɾᵻd , tˈuː .|240
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_10326.wav|ˈoʊ ! ˈoʊ ! ðæt wʌz kˈuːl !|235
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_8878.wav|lˈʊkɪŋ ɡˈʊd . wɪɹ ˌɔn ɐ ɹˈoʊl , hˈʌ ? ðæt ˈiːzi , hˈʌ ? aɪ kæn tˈɛl baɪ jʊɹ fˈeɪs . ˈɑː , ðæt wʌz fˈæst .|220
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_11613.wav|dˈæm , ˈiːvən aɪm bɹˈeɪkɪŋ ˈaʊt ɪnðə swˈɛt . dʒˈʌst ɡˌɛɾɪŋ wˈʌn mˈoːɹ hˈɪt ænd jʊɹ dˈʌn ! dˈuː ɪt !|238
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_23554.wav|həm . ɪf mˈɛmɚɹi s��ɜːvz .|99
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_9291.wav|wiː nˈiːd tə tˈeɪk ɐdvˈæntɪdʒ ʌv ˌaʊɚ stɹˈɛŋθs . ðeɪ fˈaʊnd ˌʌs . wiːv bˌɪn ɛkspˈoʊzd . wˈɑːtʃ ˈaʊt ! ðeɪ spˈɑːɾᵻd ˌʌs ? wiːv bˌɪn spˈɑːɾᵻd . ðeɪ fˈaʊnd ˌʌs .|229
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_3666.wav|aɪd lˈaɪk tə pˈɪtʃ ɪn sˌʌm ʌv maɪ ˈoʊn stɹˈɛŋθs nˈaʊ .|151
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_421.wav|aɪ dˈoʊnt nˈoʊ hˌaʊ aɪ ˈɛndᵻd ˌʌp ˌɔn ðɪs tˈiːm ˈiːðɚ . ˈɔːl aɪ wˈɔntᵻd wʌz ɐn ˈɔːɹdɪnˌɛɹi lˈaɪf . wˌaɪ dˈɪd aɪ ˈɛnd ˌʌp ɪn tʃˈɑːɹdʒ ʌv ðiːz pɹˈɑːbləm tʃˈɪldɹən ?|104
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_7705.wav|juː wˈɔnt mˌiː tə lˈiːd ?|202
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_16124.wav|ðeɪɚɹ ɐ pˈaʊɚfəl əpˈoʊnənt . lˈɛts stˈeɪ fˈoʊkəst .|255
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_3668.wav|juː θˈɪŋk ðæts wˈɪɹd ? juː lˈɜːn ɐ lˈɑːt wɛn jʊɹ ɪn ɹˈoʊdz ˈaɪləndz ˌɛndʒɪnˈɪɹɪŋ dᵻpˈɑːɹtmənt .|151
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_20155.wav|dʒˈʌst ˈɛvɹi wˈʌns ɪn ɐ wˈaɪl , aɪ fˈiːl ɹˈiəli hˈæpi wɛn aɪ ɡɛt kˈɑːmplɪmənts fɹʌm juː .|6
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_15030.wav|ɪf juː lˈuːz , juːl biː ɐ lˈæfɪŋ stˈɑːk . ðɪs ɹˈaʊnd wɪl biː ɐ sˈɪntʃ fɔːɹ juː , ɹˈaɪt ?|253
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_18378.wav|ɪz hɑːɹmˈoʊniə stˈɪl nˌɑːt ɡˌɛɾɪŋ ˌɛni bˈɛɾɚ ?|38
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_21171.wav|jˈɛs , dˈuː aɪ kənsˈɪdɚ hɜːɹ ɐn ˈɛnəmi ?|72
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_11005.wav|ˈɔːl ðɛɹ ɪz nˈaʊ ɪz tə pɹɪpˈɛɹ joːɹsˈɛlf .|236
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_7076.wav|həm , oʊkˈeɪ . maɪ bˈɑːdili flˈuːɪdz ˌɑːɹnt ðɪ ˈoʊnli θˈɪŋ ðæts tʃˈɪlɪŋ .|194
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_22119.wav|ænd ðeɪ wɪl nˈɛvɚ kəmplˈeɪn . hˈeɪ , aɪd sˈeɪ , lˈɛts plˈeɪ ðæt ɹˈɛkɚd , ðə wˈʌn wiː ˈɔːl lˈaɪk .|82
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_9677.wav|æm aɪ bˌiːɪŋ mˈæspɹədˈuːst ? ðæt kˈænt bˈiː ! jʊɹ əpˈoʊnənt ɪz dˈuːmd . ˈeɪ .|233
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_1674.wav|aɪ stˈɪl hˈævənt fˈɪɡɚd ˈaʊt wʌt dʒˈʌstɪs ɹˈiəli ɪz .|121
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_23608.wav|ɪts ɐ fˈʌni lˈɪɾəl θˈɪŋ ðæt aɪ ɡɛt tə fˈaɪt ɐlˈɔŋsaɪd ðɪs vˈɜːʒən ʌv juː .|99
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_18551.wav|hˈeɪ , lˈɛts ɡˌoʊ fɚɹə dɹˈɪŋk . ɪts ˈɔːlweɪz ˈæʃli hˌuː dɹˈɪŋks wɪð mˌiː ænd ðæts dʒˈʌst dˈʌl . dˈɑːktɚ ! kwˈɛstʃən ! kæn aɪ tˈeɪk ɐ lˈʊk æɾ ˈɑːpɚɹˌeɪɾɚ nˈɜːlz bˈæɾəl ɹˈɛkɚdz ?|41
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_10123.wav|aɪ wʌz hˈɛlpɪŋ tˈuː . dˈæm ɪt !|234
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_19422.wav|sˌoʊ aɪ mˈʌst ˈæsk .|51
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_9579.wav|həm , juː kʊd biː bˈædli ˈɪndʒɚd ɪf juː duːnˌɑːt tˈeɪk kˈɛɹ .|233
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_11443.wav|aɪ swˈɛɹ aɪ dʒˈʌst fˈɛlt ɐ hjˈuːdʒ tʃˈɪl dˌaʊn maɪ spˈaɪn . wˈeɪt ɐ sˈɛk hˈɪɹ . aɪ θˈɪŋk aɪ bɹˈɔːt ɐ bˈæt tʊ ɐn ˈæks fˈaɪt . jˈaɪks ! ðə fˈeɪks ˈɛvɹi bˈɪt æz ɪntˈɛns æz ðə ɹˈiːəl wˌʌn . ˈʌ , ɪts hˈɑːɹd tə tˈeɪk juː sˈɪɹiəsli lˈʊkɪŋ lˈaɪk ðˈæt . tˈɑːdˈɑː ! ɐ tˈoʊɾəl vˈɪktɚɹi fɔːɹ mˌiː !|238
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_2542.wav|wˌʌt ɪnðə wˈɜːld ɪz ɪt ðæt aɪ dˈuː ?|136
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_917.wav|ˈoʊ .|110
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_18636.wav|bɹˈɑːvoʊ , dˈɑːktɚ . aɪ wʌz ɹˈaɪt tə pˈɑːɹtnɚ wɪð juː .|42
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_5373.wav|ʌnstˈɛdi pˈɔstʃɚ , wˈeɪvɚɹɪŋ ɪntˈɛnt , mˈʌtʃ tə lˈɜːn jˈɛt .|172
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_3676.wav|pˈɪloʊ , lˈɛts dˈuː ˌaʊɚ bˈɛst .|151
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_23396.wav|juː ʃˌæl nˌɑːt pˈæs .|97
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_3717.wav|aɪd bˈɛɾɚ stˈænd wˈɑːtʃ kwˈaɪətli . nˈaɪs tə mˈiːt juː , dˈɑːktɚ . kˈɔːl mˌiː kˈɔːɹkiz . ɪts ðə fˈɜːst tˈaɪm wiːv mˈɛt , bˌʌt ðɪ ˈɪntɛl ˌɔn jʊɹ dˈɛsk ɐbˌaʊt nˈɔːɹðɚn vɪktˈoːɹiə ɪz stɹˈeɪt fɹʌm mˌiː .|152
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_13973.wav|ðɪ əpˈoʊnənt ɪz dˈɛspɚɹət tuː . bˈɛnd ðˌɛm ˈɔf .|247
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_15286.wav|tˈuː sˈoːɹdz ænd ɐ pɜːsˈoʊnə . biː pˈɪɾifəl ɪf hiː lˈɔst , hˈʌ ?|253
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_8931.wav|hˈɛlp mˌiː ! ᵻlˈɪmᵻnˌeɪɾɪŋ θɹˈɛts . tˈuː lˈeɪt fɔːɹ ɹᵻɡɹˈɛts . ðɪs ɪz nˈʌθɪŋ ! nˈaʊ juːv dˈʌn ɪt ! aɪ nˈiːd hˈiːlɪŋ ! ðə fˈaɪɚ ! aɪ kˈænt mˈuːv lˈaɪk ðˈɪs ! ᵻlˈɛktɹᵻfˌaɪd ! ɡˌɛɾɪŋ dˈɪzi . maɪ hˈɛd ! aɪ fˈiːl . nˈoʊ fˈɪɹ . maɪ pɜːsˈoʊnə hˈæzbiːn sˈiːld !|221
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_6952.wav|wˈɛl , tˈaɪni sˈɪlvɛstɚz nˈaɪtklʌb lˈiːdɚ , plˈeɪnteɪl naɪsˈoʊnə , kəntˈɪnjuːɪŋ ðə stɹˈaɪd .|192
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_9147.wav|ðæts nˌɑːt wˈaɪz . ɹᵻtɹˈiːɾɪŋ ! dˈoʊnt fˈɔːl bᵻhˈaɪnd ! nˈoʊ , nˌɑːt jˈɛt ! nˈoʊ ! aɪ woʊnt lˈɛt juː ! dʒˈoʊkɚ ! bˈæk ɪnðə fˈaɪt ! hˈæŋ ɪn ðˈɛɹ ! kˈʌm ˈɔn ! ðɪs mˌaɪt stˈɪŋ ! aɪ kæn ɡɛt ɐ hˈɪt ˈɪn ! nˈaɪs flˈoʊ ! lˈɛt mˌiː hˈɛlp ! oʊkˈeɪ ? aɪl θɹˈæʃ !|227
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_8550.wav|pˈeɪ fɔːɹ ðˌaɪ sˈɪnz wɪð ðˌaɪ blˈʌd . ðə lˈɔː ?|213
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_15957.wav|ɔːlɹˈaɪt , wiː ɡɑːt ðə fˈɜːst hˈɪt . ðɪs ɪz ɐ wˈʌnsˈaɪdᵻd fˈaɪt .|255
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_7865.wav|aɪ ʃˌʊd biː ˈeɪbəl tə dˈuː ɪt . slˈoʊli ænd kˈɛɹfəli .|204
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_11888.wav|wˈoʊ , ðeɪɚ sˈɪɹiəs nˈaʊ !|239
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_1897.wav|aɪ pɹˈɑːmɪst hɜːɹ aɪd pɹətˈɛkt juː . ɪz ðˈɪs ?|125
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_428.wav|ɪt wʊd biː bˈɛɾɚ tə hæv mˈoːɹ mˈɪʃənz .|105
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_4062.wav|ðeɪ ʃˌæl pˈeɪ fɔːɹ ðˈɪs .|156
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_21292.wav|bˌʌt ðə hˈɑːɹd pˈɑːɹt ɪz , juː mˈʌst fˈɜːst fˈeɪs ðæt wˌɪtʃ lˈaɪz ɪn jʊɹ hˈɑːɹt bᵻfˌoːɹ juː kæn ɹˈiəli lˈɛt ɪt ɡˈoʊ . aɪ hæv bˈoʊθ hˈeɪtɹɪd ænd ɡɹˈæɾɪtˌuːd təwˈɔːɹdz ðə ɡɹˈændmæstɚ .|73
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_16018.wav|ˈoʊ ! wˈaɪ ?|255
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_6380.wav|wˈɛl , wˌʌt ˈɛls mˌaɪt ðɪs dɪzˈiːz dˈuː tə mˌiː ?|185
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_22784.wav|ɑːɹ juː tɹˈaɪɪŋ tə ɡɛt jʊɹ hˈænd bˈɜːnt ? dˈɑːktɚ , kʊd juː ɛksplˈeɪn ðɪs θˈiəɹi tə mˌiː ? aɪl nˈiːd ... twˈɛlv mˈɪnɪts ʌv jʊɹ tˈaɪm . ðæts ˈɔːl .|89
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_17893.wav|juːv bˌɪn lˈʊkɪŋ ˈæftɚ maɪ ɛmplˈɔɪiːz fɔːɹ mˌiː . ðeɪ hˈævənt mˌeɪd tɹˈʌbəl fɔːɹ juː , hˈæv ðeɪ ?|31
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_3501.wav|ðeɪl biː mˈʌtʃ mˈoːɹ dˈʌn ɔnðə pɹˈɑːbləmz ðɪ ɪnfˈɛktᵻd fˈeɪs ɪnðə lˈʌŋmɛn slˈʌmz .|15
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_16077.wav|ɪts tˈaɪm tə ʃˈoʊ ˈɔf jʊɹ mˈænlinəs , kˈændʒi . kˈɑːndʒi , hˈɪt hˌɪm wɪð ᵻlɛktɹˈɪsᵻɾi tə ɡɛt ðɪ ɐdvˈæntɪdʒ .|255
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_18376.wav|ˈɑː , aɪ kæn stˈɪl smˈɛl ˈɜːbz ˌɔn maɪ klˈoʊðz .|38
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_9357.wav|fˈiːl lˈaɪk jʊɹ ɡˌənə fˈeɪnt .|23
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_3971.wav|maɪ fɹˈɛndz , æz lˈɔŋ æz wiː stˈænd təɡˈɛðɚ , ðɛɹ wɪl biː nˈoʊ ˈiːvəl wiː kˈænt ˌoʊvɚkˈʌm .|155
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_14197.wav|juː kˈænt sˈʌmən jʊɹ pɜːsˈoʊnə . hˈoʊld ˈaʊt fɔːɹ nˈaʊ !|247
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_14050.wav|ðæt kˈɔːzd ˌʌs . jʊɹ sˈɪɹiəsli hˈɜːt . juːv tˈeɪkən kəntɹˈoʊl ʌvðə bˈæɾəl .|247
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_20480.wav|kˈʌmfi ænd wˈɔːɹm , ɹˈaɪt ? aɪ tˈoʊld nˈɑːnə ˈɔːl ɐbˈaʊt juː , ænd ʃiː kˈɔːld juː ɐ ɡˈʊd ˈɛɡ .|63
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_14360.wav|ʃiː hɐz ðɪ ɐdvˈæntɪdʒ ʌv klˈoʊs . biː vˈɪdʒɪlənt .|247
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_10119.wav|ˈɑː , stˈɑːɹɾɪŋ təmˈɑːɹoʊ , aɪm t��ˈeɪnɪŋ juː tə ɡɛt ɹᵻvˈɛndʒ .|234
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_6517.wav|ðeɪ woʊnt biː ˈeɪbəl tə blˈɑːk ðˈɪswˌʌn . juːv ɡˈɑːt ðˌɛm .|187
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_20709.wav|mˈeɪ ðə hˈoʊli mˈaʊnt kˈɑːɹlɪn biː wɪð ˌʌs .|66
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_12099.wav|hˈeɪ , jʊɹ pɜːsˈoʊnə sˈiːld ! jʊɹ kənfjˈuːzd ! lˈɛft ænd ɹˈaɪt ɑːɹ ɹᵻvˈɜːst !|239
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_5076.wav|wˈiːpɪŋ ænd θɹˈoʊɪŋ ˈʌp . skˈɛɹd aɪ dˈɪdnt dˈuː wˈɛl ɪnˈʌf ðæt aɪ wʊd stˈɑːɹv tə dˈɛθ ɪn sˌʌm fɚɡˈɑːʔn̩ kˈɔːɹnɚɹ ʌnnˈoʊn tʊ ˈɛnɪwˌʌn .|168
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_9670.wav|nˈoʊ , lˈɛts fˈaɪt fˈɛɹ . ɡɛt klˈoʊs ænd bˈiːt ðˌɛm tʊ ɐ pˈoʊp , tʃˈaɪsˌæn . biː kˈɔːʃəs ʌv klˈoʊs kˈɑːmbæt wɪð hɜː . tɹˈaɪ θɹˈoʊɪŋ ðoʊz fˈænz wˈʌn ˈæftɚ ðɪ ˈʌðɚ . wiː mˈʌst ɛŋɡˈeɪdʒ ɪn klˈoʊs kˈɑːmbæt . ˌoʊvɚwˈɛlm jʊɹ ˈɛnəmi .|233
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_19940.wav|dˈaʊn , pˈɔːz .|58
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_9188.wav|mˈoʊst plˈeɪsᵻz ˌɑːɹnt bˈɪɡ ɪnˈʌf , ðˌoʊ . jʊɹ ʃˈoʊldɚz mˈʌst biː stˈɪf , bˌʌt ɪt fˈɪts juː wˈɛl .|228
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_14902.wav|bɹˈɪŋ ɪɾ ˈɔn ! aɪ woʊnt lˈɛt juː tˈeɪk ðə ɹˈoʊl ʌv ɐdˈoːɹəbəl mˈæskɑːt . ðɪs ˈeɪdʒ nˈiːdz ɐ bˈɛɹ lˈaɪk mˌiː , nˌɑːt dʒˈʌst ɐ plˈeɪn ˈoʊld dˈɑːɡi . juː hæv ɐ lˈɑːt tə lˈɜːn bᵻfˌoːɹ juː kæn wˈɪn ɐɡˈɛnst mˌiː . aɪ ɐksˈɛpt ɹᵻmˈætʃᵻz twˈɛnti fˈoːɹ ˈaʊɚz ɐ dˈeɪ . ɐ bɚɹˈɑːʒ .|251
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_9089.wav|aɪ ɛndʒˈɔɪ maɪ tˈaɪm ɪn ðɪs sˈuːt æz wˈɛl . wˌʌt ɪz mˌeɪkɪŋ ðoʊz lˈaɪnz ɡlˈoʊ ? jʊɹ ˌæbsəlˈuːtli ɹˈaɪt . aɪ θˈɪŋk wɪɹ dˈuː fɚɹə tˈiː bɹˈeɪk . ɹˈiəli ? aɪl biː ʃˈʊɹ tə tɹˈaɪ ðˈæt . sˈʌmθɪŋ stɹˈɔŋ .|225
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_17226.wav|ðæts ðə mˈaɪnd əvən ˈɑːɹɾɪst , hˈʌ ? ˈʌ , nˈoʊ ? wˌʌt kˈaɪnd ʌv mˈaɪnd juː ɡˈɑːt , mˈæn ? aɪ nˈoʊ , ɹˈaɪt ? aɪ dˈoʊnt nˈoʊ wˌaɪ pˈiːpəl wˈeɪst mˈʌni ˌɔn fˈænsi wˈɔːɾɚ . ˈɑː , sˈaɪklɪŋ , hˈʌ ? aɪm kˈaɪnd ʌv ˌɪntʊ ɪt , tˈuː , bˌʌt , ˈʌ ... ðæt ʃˈɪt ɡˈɛts ɛkspˈɛnsɪv .|260
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_6629.wav|ɐ nˈɑːk ɔnðə dˈoːɹ wɪl biː ɐpɹˈiːʃɪˌeɪɾᵻd . mˈɪs .|189
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_6906.wav|ˈoʊ , ɹˈoʊd ˈaɪləndz bˈeɪs ɪz ˈaʊtfɪɾᵻd sˈoʊ mˌʌtʃ bˈɛɾɚ ðɐn maɪ lˈɪɾəl ˈɑːfɪs .|191
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_15594.wav|juː . ɡˈʊd kˈɔːl . ˈɔːl ɹˈaɪt , juː dˈɑːdʒd ɐ bˈʊlɪt ðˈɛɹ . wˌʌt ðə hˈɛl ? dˈæm ɪt , ðæt ˈeɪnt fˈɛɹ . ðeɪ wˈɔːɹmd ðɛɹ wˈeɪ ˌaʊɾəv ɪt . dˈæm ɪt , juːl hæv tə tɹˈaɪ ðæt ɐɡˈɛn . nˈʌθɪŋ ˈɛls juː kˌʊdɐv dˈʌn ðˈɛɹ . hˈɑː ! skɹˈuː juː ! ˈoʊ kɹˈæp ! ˈɔːl ɹˈaɪt , nˈaʊz|254
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_852.wav|bˌʌt æt tˈaɪmz , tˈuː ɡɹˈeɪt ɐ fɪksˈeɪʃən kæn biː ˌaʊɚɹ ʌndˈuːɪŋ .|110
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_22220.wav|ɪz ðɛɹ ˈɛnɪθˌɪŋ juːd lˈaɪk tə dɪskˈʌs ?|84
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_2440.wav|stˈeɪ kˈɑːm .|134
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_14045.wav|ðæt wˈɜːkt nˈaɪsli .|247
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_4402.wav|fɚðə mˈɑːɹtʃɪŋ , ɐ wˈɔːɹ sˈɔŋ , fɚðə fˈɔːlən .|16
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_10269.wav|lˈɛts ɡɛt ðɪs sˈɛɾəld . hˈeɪ ! wˌʌts ɐ dˈiːl ? aɪl ʃˈoʊ juː ðə ɹɪzˈʌlts ʌv maɪ tɹˈeɪnɪŋ . aɪ kæn hˈoʊld maɪ ˈoʊn , juː nˈoʊ . lˈʊk ˈaʊt bɪkˈʌz aɪm nˌɑːt hˈoʊldɪŋ bˈæk . kˈʌm ænd ɡˈɛt mˌiː !|235
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_12288.wav|ʃˈoʊ ˌʌs ðə pˈaʊɚɹ ʌv mˈiːt , tʃˈaɪ sˈɛmpaɪ !|239
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_21080.wav|ˌʌndɚ ðɪs hˈɛdɪŋ , juː hæd ðə θˈɜːd ɹˈoʊ ɔnðə lˈɛft hˈɪɹ ɹˈɔŋ .|71
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_16944.wav|ðæt wʌzɐ klˈoʊs bˈæɾəl . vˈɪktɚɹi ˈɔːlweɪz fˈiːlz ɡɹˈeɪt !|257
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_18021.wav|ðɪs ɪz ɐ fˈeɪvɚɹ aɪl nˈɛvɚ fɚɡˈɛt . pɹəmˈoʊʃən ? ˈoʊ , aɪm nˌɑːt pɹɪpˈɛɹd fɔːɹ ðˈɪs .|33
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_8312.wav|aɪ wˈʌzn̩t ˈiːvən ɡˈɪvɪŋ maɪ ˈɔːl .|21
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_4736.wav|ɪt tˈoːɹ maɪ fˈæmɪli ɐpˈɑːɹt ænd ðiːz slˈʌmbɚfˌʊts ɑːɹ ðɪ ˈoʊnli wˈʌnz lˈɛft tə ɹˈoʊm wɪð mˌiː .|164
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_16142.wav|ˈoʊ , wiː lˈɔst , bˌʌt dˈoʊnt pˈænɪk . stˈeɪ kˈɑːm .|256
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_22670.wav|jʊɹ tʃˈiːk sˈuːðd baɪ ðə kɹˈeɪdlɪŋ wˈeɪvz .|88
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_19981.wav|sˈʌtʃ ɐz wiːv ɐɡɹˈiːd . ˈɛnɪθˌɪŋ ðæt sˈiːmz təbi ɡˈɪvən fɔːɹ fɹˈiː wɪl ᵻvˈɛntʃuːəli dᵻmˈænd sˌʌm pɹˈaɪs ʌv juː .|59
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_17764.wav|ðoʊz ɡɹˈeɪ ænd wˈaɪt tɹˈiːz wˈɪðɚɹ ɪnðə fɹˈɪdʒɪd wˈɪnd , mˈɛn stɹˈʌɡəl tə ɹᵻɡˈeɪn ðɛɹ vaɪtˈælᵻɾi ðə fˈɑːloʊɪŋ jˈɪɹ .|3
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_7475.wav|ɪf ðeɪɚ ɡˈɔn , wɪl aɪ stˈɪl biː ʌv ˌɛni jˈuːs ?|20
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_14092.wav|jʊɹ hˈoʊldɪŋ ðˌɛm bˈæk , bˌʌt nˌɑːt baɪ mˈʌtʃ . ðeɪɚɹ ɐhˈɛd ʌv juː . kˈiːp ˈʌp wɪð ðˌɛm .|247
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_6175.wav|aɪ sˈɪmpli wˈɪʃ tə lˈɪv æz ɐ ɹˈɛɡjʊlɚɹ ɪnfˈɛktᵻd .|182
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_18284.wav|nˈaʊ aɪm ʃˈʊɹ ðæt ˈɛvɹɪθˌɪŋ ðæt aɪv dˈʌn ɪz tɹˈuːli mˈiːnɪŋfəl .|37
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_8079.wav|hæv juː ɹˈɛstᵻd wˈɛl , dˈɑːktɚ ?|207
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_18629.wav|maɪ fˈæmɪli dˈʌzənt ɛɡzˈɪst ˌɛnɪmˈoːɹ . bˌʌt ðæt wʌzðə pɹˈaɪs wiː pˈeɪd tə bˈaɪ tʃˈeɪndʒ ɪn sˈɪɹɐkjˌuːsə .|42
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_4165.wav|ˈɪŋkʌmˌɪŋ , ɹˈɛdi ˈɔːl mˈɛmbɚz .|158
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_6452.wav|ˈɛnəmi spˈɑːɾᵻd . pɹɪpˈɛɹ tə fˈaɪt . ɹˈɛdi fɔːɹ ˈækʃən .|186
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_21644.wav|ðə nˈaɪt ɪz kwˈaɪət ænd pˈiːsfəl .|75
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_3584.wav|aɪl mˌeɪk hˌɪm dˌɪsɐpˈɪɹ .|150
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_11995.wav|dˈoʊnt ˈiːvən θˈɪŋk ʌv hˈoʊldɪŋ bˈæk nˈaʊ ! kˈiːp ðɪs ˌʌp ænd bˈiːt hˌɪm , oʊkˈeɪ ?|239
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_15084.wav|həm , lˈʊk ˌɔn ðɛɹ fˈeɪsᵻz tʃˈeɪndʒd .|253
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_19183.wav|ˈoʊ , ɪts hɜː . aɪ nˈuː ðæt ɡˈɜːl jˈɪɹz ɐɡˈoʊ .|49
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_20224.wav|plˈiːz sˈeɪv jʊɹ stɹˈɛŋθ . wiː wɪl ɡɛt juː ˈaʊt .|60
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_594.wav|aɪ dˈoʊnt hæv æz mˈʌtʃ mˈʌni ˌɔn hˈænd ðiːz dˈeɪz .|107
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_18179.wav|ɪf kˈɜːsʔn̩ dˈɪdnt hæv ðə tˈælənt ænd lˈiːdɚʃˌɪp , ɹˈaɪn lˈæb wʊdhɐv nˈɛvɚ bˌɪn fˈaʊndᵻd .|36
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_11662.wav|lˈɛts sˈɛnd ðə nˈɛkst wˈʌn dʒˈʌst lˈaɪk ðˈɪs ! aɪm kˈaʊntɪŋ ˈɔn juː !|238
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_15455.wav|dˈʌn . hˈɪɹ juː ɡˈoʊ . jʊɹ tˈuː slˈoʊ . jʊɹ ɡˈɑːɹd ɪz wˈiːk . jˈɛh , wʌtˈɛvɚ . hˈɪɹz ɐ lˈɪɾəl ˈɛkstɹə fɔːɹ juː . ðæts ɪnˈʌf ʌv ðˈæt . juː lˈɪɾəl . jʊɹ ɡˌoʊɪŋ dˈaʊn . juː woʊnt hˈɪt mˌiː . wˌʌt ɐ hˈæsəl . kˈʌm hˈɪɹ . aɪl tˈeɪk juː ˈɔn . aɪm nˌɑːt dˈʌn jˈɛt . ɡˈɛs aɪ kæn biː sˈɪɹiəs fɚɹə bˈɪt .|253
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_3719.wav|aɪ wˈɪʃ aɪd lˈɜːnd ˈɔːl ðɪs ɐ lˈɪɾəl ˈɜːlɪɚ .|152
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_17821.wav|dˈoʊnt θˈɪŋk tˈuː mʌtʃ ɐbˈaʊt ɪt . ˈɛnɪwˌeɪ , aɪm ɡɹˈævəl , ɐ nˈaɪt ʌv kˈæzɪmˌɪɹz .|30
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_12402.wav|ðɪs ɪz ɪt , ðə fˈaɪnəl ɹˈaʊnd . hˈæŋ ɪn ðˈɛɹ .|240
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_11695.wav|ɪt hˈɜːts , bˌʌt ɪts ɐ ɡˈʊd kˈaɪnd ʌv hˈɜːt , juː nˈoʊ ? juː pˈænɪkt æt ðɪ ˈɛnd . dˈoʊnt ɡɛt ˌoʊvɚkˈɑːnfɪdənt .|238
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_10622.wav|ˈoʊ , aɪ θˈɔːt wiː kʊd dˈuː ɪt !|235
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_13056.wav|ˈoʊ , aɪ hˈoʊp ɪɾ ˈɛndz lˈaɪk ðˈɪs !|241
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_3652.wav|wˈɛl , aɪ bˈɛɾɚ tˈɜːn ðɪs məʃˈiːn dˌaʊn ɐ bˈɪt .|151
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_14252.wav|həm , aɪm stˈɑːɹɾɪŋ tə sˈiː wʌts ɡˌoʊɪŋ ˈɔn .|247
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_2569.wav|wˌʌt aɪm ɐbˌaʊt tə ʃˈɛɹ wɪð juː ɪz nˌɑːt æz wˈʌndɚfəl æz juː mˈeɪ bᵻlˈiːv .|136
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_9314.wav|ænd ɪts ˈoʊnli ɐ mˈæɾɚɹ ʌv tˈaɪm ʌntˈɪl jʊɹ mˈeɪd .|23
+/home/ubuntu/StyleTTS_Accelerate_44khz/anispeech/anispeech_10435.wav|tə fˈaɪt ðə ɹˈiːəl fˈɛðɚ pˈɪŋk ! juː nˈoʊ maɪ mˈæstɚ !|235

StyleTTS_Accelerate/Demo/Inference_LJSpeech.ipynb ADDED Viewed

	@@ -0,0 +1,417 @@

+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "id": "9adb7bd1",
+   "metadata": {},
+   "source": [
+    "# StyleTTS Demo (LJSpeech)\n"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "6108384d",
+   "metadata": {},
+   "source": [
+    "### Utils"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "da84c60f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%cd .."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "5a3ddcc8",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# load packages\n",
+    "import random\n",
+    "import yaml\n",
+    "from munch import Munch\n",
+    "import numpy as np\n",
+    "import torch\n",
+    "from torch import nn\n",
+    "import torch.nn.functional as F\n",
+    "import torchaudio\n",
+    "import librosa\n",
+    "from nltk.tokenize import word_tokenize\n",
+    "\n",
+    "from models import *\n",
+    "from utils import *\n",
+    "\n",
+    "%matplotlib inline"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "bbdc04c0",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "device = 'cuda' if torch.cuda.is_available() else 'cpu'"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "0a173af4",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "_pad = \"$\"\n",
+    "_punctuation = ';:,.!?¡¿—…\"«»“” '\n",
+    "_letters = 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz'\n",
+    "_letters_ipa = \"ɑɐɒæɓʙβɔɕçɗɖðʤəɘɚɛɜɝɞɟʄɡɠɢʛɦɧħɥʜɨɪʝɭɬɫɮʟɱɯɰŋɳɲɴøɵɸθœɶʘɹɺɾɻʀʁɽʂʃʈʧʉʊʋⱱʌɣɤʍχʎʏʑʐʒʔʡʕʢǀǁǂǃˈˌːˑʼʴʰʱʲʷˠˤ˞↓↑→↗↘'̩'ᵻ\"\n",
+    "\n",
+    "\n",
+    "# Export all symbols:\n",
+    "symbols = [_pad] + list(_punctuation) + list(_letters) + list(_letters_ipa)\n",
+    "\n",
+    "dicts = {}\n",
+    "for i in range(len((symbols))):\n",
+    "    dicts[symbols[i]] = i\n",
+    "\n",
+    "class TextCleaner:\n",
+    "    def __init__(self, dummy=None):\n",
+    "        self.word_index_dictionary = dicts\n",
+    "    def __call__(self, text):\n",
+    "        indexes = []\n",
+    "        for char in text:\n",
+    "            try:\n",
+    "                indexes.append(self.word_index_dictionary[char])\n",
+    "            except KeyError:\n",
+    "                print(char)\n",
+    "        return indexes\n",
+    "\n",
+    "textclenaer = TextCleaner()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "00ee05e1",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "to_mel = torchaudio.transforms.MelSpectrogram(\n",
+    "    n_mels=80, n_fft=2048, win_length=1200, hop_length=300)\n",
+    "mean, std = -4, 4\n",
+    "\n",
+    "def length_to_mask(lengths):\n",
+    "    mask = torch.arange(lengths.max()).unsqueeze(0).expand(lengths.shape[0], -1).type_as(lengths)\n",
+    "    mask = torch.gt(mask+1, lengths.unsqueeze(1))\n",
+    "    return mask\n",
+    "\n",
+    "def preprocess(wave):\n",
+    "    wave_tensor = torch.from_numpy(wave).float()\n",
+    "    mel_tensor = to_mel(wave_tensor)\n",
+    "    mel_tensor = (torch.log(1e-5 + mel_tensor.unsqueeze(0)) - mean) / std\n",
+    "    return mel_tensor\n",
+    "\n",
+    "def compute_style(ref_dicts):\n",
+    "    reference_embeddings = {}\n",
+    "    for key, path in ref_dicts.items():\n",
+    "        wave, sr = librosa.load(path, sr=24000)\n",
+    "        audio, index = librosa.effects.trim(wave, top_db=30)\n",
+    "        if sr != 24000:\n",
+    "            audio = librosa.resample(audio, sr, 24000)\n",
+    "        mel_tensor = preprocess(audio).to(device)\n",
+    "\n",
+    "        with torch.no_grad():\n",
+    "            ref = model.style_encoder(mel_tensor.unsqueeze(1))\n",
+    "        reference_embeddings[key] = (ref.squeeze(1), audio)\n",
+    "    \n",
+    "    return reference_embeddings"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "7b9cecbe",
+   "metadata": {},
+   "source": [
+    "### Load models"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "64fc4c0f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# load phonemizer\n",
+    "import phonemizer\n",
+    "global_phonemizer = phonemizer.backend.EspeakBackend(language='en-us', preserve_punctuation=True,  with_stress=True)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "54cfbe48",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# load hifi-gan\n",
+    "\n",
+    "import sys\n",
+    "sys.path.insert(0, \"./Demo/hifi-gan\")\n",
+    "\n",
+    "import glob\n",
+    "import os\n",
+    "import argparse\n",
+    "import json\n",
+    "import torch\n",
+    "from scipy.io.wavfile import write\n",
+    "from attrdict import AttrDict\n",
+    "from vocoder import Generator\n",
+    "import librosa\n",
+    "import numpy as np\n",
+    "import torchaudio\n",
+    "\n",
+    "h = None\n",
+    "\n",
+    "def load_checkpoint(filepath, device):\n",
+    "    assert os.path.isfile(filepath)\n",
+    "    print(\"Loading '{}'\".format(filepath))\n",
+    "    checkpoint_dict = torch.load(filepath, map_location=device)\n",
+    "    print(\"Complete.\")\n",
+    "    return checkpoint_dict\n",
+    "\n",
+    "def scan_checkpoint(cp_dir, prefix):\n",
+    "    pattern = os.path.join(cp_dir, prefix + '*')\n",
+    "    cp_list = glob.glob(pattern)\n",
+    "    if len(cp_list) == 0:\n",
+    "        return ''\n",
+    "    return sorted(cp_list)[-1]\n",
+    "\n",
+    "cp_g = scan_checkpoint(\"Vocoder/\", 'g_')\n",
+    "\n",
+    "config_file = os.path.join(os.path.split(cp_g)[0], 'config.json')\n",
+    "with open(config_file) as f:\n",
+    "    data = f.read()\n",
+    "json_config = json.loads(data)\n",
+    "h = AttrDict(json_config)\n",
+    "\n",
+    "device = torch.device(device)\n",
+    "generator = Generator(h).to(device)\n",
+    "\n",
+    "state_dict_g = load_checkpoint(cp_g, device)\n",
+    "generator.load_state_dict(state_dict_g['generator'])\n",
+    "generator.eval()\n",
+    "generator.remove_weight_norm()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "02fb18a6",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# load StyleTTS\n",
+    "model_path = \"./Models/LJSpeech/epoch_2nd_00180.pth\"\n",
+    "model_config_path = \"./Models/LJSpeech/config.yml\"\n",
+    "\n",
+    "config = yaml.safe_load(open(model_config_path))\n",
+    "\n",
+    "# load pretrained ASR model\n",
+    "ASR_config = config.get('ASR_config', False)\n",
+    "ASR_path = config.get('ASR_path', False)\n",
+    "text_aligner = load_ASR_models(ASR_path, ASR_config)\n",
+    "\n",
+    "# load pretrained F0 model\n",
+    "F0_path = config.get('F0_path', False)\n",
+    "pitch_extractor = load_F0_models(F0_path)\n",
+    "\n",
+    "model = build_model(Munch(config['model_params']), text_aligner, pitch_extractor)\n",
+    "\n",
+    "params = torch.load(model_path, map_location='cpu')\n",
+    "params = params['net']\n",
+    "for key in model:\n",
+    "    if key in params:\n",
+    "        if not \"discriminator\" in key:\n",
+    "            print('%s loaded' % key)\n",
+    "            model[key].load_state_dict(params[key])\n",
+    "_ = [model[key].eval() for key in model]\n",
+    "_ = [model[key].to(device) for key in model]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "b803110e",
+   "metadata": {},
+   "source": [
+    "### Synthesize speech"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "30e8ff2c",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# get first 3 training sample as references\n",
+    "\n",
+    "train_path = config.get('train_data', None)\n",
+    "val_path = config.get('val_data', None)\n",
+    "train_list, val_list = get_data_path_list(train_path, val_path)\n",
+    "\n",
+    "ref_dicts = {}\n",
+    "for j in range(3):\n",
+    "    filename = train_list[j].split('|')[0]\n",
+    "    name = filename.split('/')[-1].replace('.wav', '')\n",
+    "    ref_dicts[name] = filename\n",
+    "    \n",
+    "reference_embeddings = compute_style(ref_dicts)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "24655f46",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# synthesize a text\n",
+    "text = ''' StyleTTS is a style-based generative model for parallel TTS that can synthesize diverse speech with natural prosody from a reference speech utterance. '''"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "43e9f635",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# tokenize\n",
+    "ps = global_phonemizer.phonemize([text])\n",
+    "ps = word_tokenize(ps[0])\n",
+    "ps = ' '.join(ps)\n",
+    "tokens = textclenaer(ps)\n",
+    "tokens.insert(0, 0)\n",
+    "tokens.append(0)\n",
+    "tokens = torch.LongTensor(tokens).to(device).unsqueeze(0)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "ca57469c",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "converted_samples = {}\n",
+    "\n",
+    "with torch.no_grad():\n",
+    "    input_lengths = torch.LongTensor([tokens.shape[-1]]).to(device)\n",
+    "    m = length_to_mask(input_lengths).to(device)\n",
+    "    t_en = model.text_encoder(tokens, input_lengths, m)\n",
+    "        \n",
+    "    for key, (ref, _) in reference_embeddings.items():\n",
+    "        \n",
+    "        s = ref.squeeze(1)\n",
+    "        style = s\n",
+    "        \n",
+    "        d = model.predictor.text_encoder(t_en, style, input_lengths, m)\n",
+    "\n",
+    "        x, _ = model.predictor.lstm(d)\n",
+    "        duration = model.predictor.duration_proj(x)\n",
+    "        pred_dur = torch.round(duration.squeeze()).clamp(min=1)\n",
+    "        \n",
+    "        pred_aln_trg = torch.zeros(input_lengths, int(pred_dur.sum().data))\n",
+    "        c_frame = 0\n",
+    "        for i in range(pred_aln_trg.size(0)):\n",
+    "            pred_aln_trg[i, c_frame:c_frame + int(pred_dur[i].data)] = 1\n",
+    "            c_frame += int(pred_dur[i].data)\n",
+    "\n",
+    "        # encode prosody\n",
+    "        en = (d.transpose(-1, -2) @ pred_aln_trg.unsqueeze(0).to(device))\n",
+    "        style = s.expand(en.shape[0], en.shape[1], -1)\n",
+    "\n",
+    "        F0_pred, N_pred = model.predictor.F0Ntrain(en, s)\n",
+    "\n",
+    "        out = model.decoder((t_en @ pred_aln_trg.unsqueeze(0).to(device)), \n",
+    "                                F0_pred, N_pred, ref.squeeze().unsqueeze(0))\n",
+    "\n",
+    "\n",
+    "        c = out.squeeze()\n",
+    "        y_g_hat = generator(c.unsqueeze(0))\n",
+    "        y_out = y_g_hat.squeeze().cpu().numpy()\n",
+    "\n",
+    "        c = out.squeeze()\n",
+    "        y_g_hat = generator(c.unsqueeze(0))\n",
+    "        y_out = y_g_hat.squeeze()\n",
+    "        \n",
+    "        converted_samples[key] = y_out.cpu().numpy()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "d3d7f7d5",
+   "metadata": {
+    "scrolled": true
+   },
+   "outputs": [],
+   "source": [
+    "import IPython.display as ipd\n",
+    "for key, wave in converted_samples.items():\n",
+    "    print('Synthesized: %s' % key)\n",
+    "    display(ipd.Audio(wave, rate=24000))\n",
+    "    try:\n",
+    "        print('Reference: %s' % key)\n",
+    "        display(ipd.Audio(reference_embeddings[key][-1], rate=24000))\n",
+    "    except:\n",
+    "        continue"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "74fe14d9",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "a97c5e82",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "python3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.9.7"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}

StyleTTS_Accelerate/Demo/Inference_LibriTTS.ipynb ADDED Viewed

	@@ -0,0 +1,529 @@

+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "id": "9adb7bd1",
+   "metadata": {},
+   "source": [
+    "# StyleTTS Demo (LibriTTS)\n"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "6108384d",
+   "metadata": {},
+   "source": [
+    "### Utils"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "da84c60f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%cd .."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "5a3ddcc8",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# load packages\n",
+    "import random\n",
+    "import yaml\n",
+    "from munch import Munch\n",
+    "import numpy as np\n",
+    "import torch\n",
+    "from torch import nn\n",
+    "import torch.nn.functional as F\n",
+    "import torchaudio\n",
+    "import librosa\n",
+    "\n",
+    "from models import *\n",
+    "from utils import *\n",
+    "\n",
+    "%matplotlib inline"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "bbdc04c0",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "device = 'cuda' if torch.cuda.is_available() else 'cpu'"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "0a173af4",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "_pad = \"$\"\n",
+    "_punctuation = ';:,.!?¡¿—…\"«»“” '\n",
+    "_letters = 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz'\n",
+    "_letters_ipa = \"ɑɐɒæɓʙβɔɕçɗɖðʤəɘɚɛɜɝɞɟʄɡɠɢʛɦɧħɥʜɨɪʝɭɬɫɮʟɱɯɰŋɳɲɴøɵɸθœɶʘɹɺɾɻʀʁɽʂʃʈʧʉʊʋⱱʌɣɤʍχʎʏʑʐʒʔʡʕʢǀǁǂǃˈˌːˑʼʴʰʱʲʷˠˤ˞↓↑→↗↘'̩'ᵻ\"\n",
+    "\n",
+    "\n",
+    "# Export all symbols:\n",
+    "symbols = [_pad] + list(_punctuation) + list(_letters) + list(_letters_ipa)\n",
+    "\n",
+    "dicts = {}\n",
+    "for i in range(len((symbols))):\n",
+    "    dicts[symbols[i]] = i\n",
+    "\n",
+    "class TextCleaner:\n",
+    "    def __init__(self, dummy=None):\n",
+    "        self.word_index_dictionary = dicts\n",
+    "    def __call__(self, text):\n",
+    "        indexes = []\n",
+    "        for char in text:\n",
+    "            try:\n",
+    "                indexes.append(self.word_index_dictionary[char])\n",
+    "            except KeyError:\n",
+    "                print(char)\n",
+    "        return indexes\n",
+    "\n",
+    "textclenaer = TextCleaner()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "00ee05e1",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "to_mel = torchaudio.transforms.MelSpectrogram(\n",
+    "    n_mels=80, n_fft=2048, win_length=1200, hop_length=300)\n",
+    "mean, std = -4, 4\n",
+    "\n",
+    "def length_to_mask(lengths):\n",
+    "    mask = torch.arange(lengths.max()).unsqueeze(0).expand(lengths.shape[0], -1).type_as(lengths)\n",
+    "    mask = torch.gt(mask+1, lengths.unsqueeze(1))\n",
+    "    return mask\n",
+    "\n",
+    "def preprocess(wave):\n",
+    "    wave_tensor = torch.from_numpy(wave).float()\n",
+    "    mel_tensor = to_mel(wave_tensor)\n",
+    "    mel_tensor = (torch.log(1e-5 + mel_tensor.unsqueeze(0)) - mean) / std\n",
+    "    return mel_tensor\n",
+    "\n",
+    "def compute_style(ref_dicts):\n",
+    "    reference_embeddings = {}\n",
+    "    for key, path in ref_dicts.items():\n",
+    "        wave, sr = librosa.load(path, sr=24000)\n",
+    "        audio, index = librosa.effects.trim(wave, top_db=30)\n",
+    "        if sr != 24000:\n",
+    "            audio = librosa.resample(audio, sr, 24000)\n",
+    "        mel_tensor = preprocess(audio).to(device)\n",
+    "        try:\n",
+    "            with torch.no_grad():\n",
+    "                ref = model.style_encoder(mel_tensor.unsqueeze(1))\n",
+    "            reference_embeddings[key] = (ref.squeeze(1), audio)\n",
+    "        except:\n",
+    "            continue\n",
+    "    \n",
+    "    return reference_embeddings"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "7b9cecbe",
+   "metadata": {},
+   "source": [
+    "### Load models"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "64fc4c0f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# load phonemizer\n",
+    "import phonemizer\n",
+    "global_phonemizer = phonemizer.backend.EspeakBackend(language='en-us', preserve_punctuation=True,  with_stress=True)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "54cfbe48",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# load hifi-gan\n",
+    "\n",
+    "import sys\n",
+    "sys.path.insert(0, \"./Demo/hifi-gan\")\n",
+    "\n",
+    "import glob\n",
+    "import os\n",
+    "import argparse\n",
+    "import json\n",
+    "import torch\n",
+    "from scipy.io.wavfile import write\n",
+    "from attrdict import AttrDict\n",
+    "from vocoder import Generator\n",
+    "import librosa\n",
+    "import numpy as np\n",
+    "import torchaudio\n",
+    "\n",
+    "h = None\n",
+    "\n",
+    "def load_checkpoint(filepath, device):\n",
+    "    assert os.path.isfile(filepath)\n",
+    "    print(\"Loading '{}'\".format(filepath))\n",
+    "    checkpoint_dict = torch.load(filepath, map_location=device)\n",
+    "    print(\"Complete.\")\n",
+    "    return checkpoint_dict\n",
+    "\n",
+    "def scan_checkpoint(cp_dir, prefix):\n",
+    "    pattern = os.path.join(cp_dir, prefix + '*')\n",
+    "    cp_list = glob.glob(pattern)\n",
+    "    if len(cp_list) == 0:\n",
+    "        return ''\n",
+    "    return sorted(cp_list)[-1]\n",
+    "\n",
+    "cp_g = scan_checkpoint(\"Vocoder/LibriTTS/\", 'g_')\n",
+    "\n",
+    "config_file = os.path.join(os.path.split(cp_g)[0], 'config.json')\n",
+    "with open(config_file) as f:\n",
+    "    data = f.read()\n",
+    "json_config = json.loads(data)\n",
+    "h = AttrDict(json_config)\n",
+    "\n",
+    "device = torch.device(device)\n",
+    "generator = Generator(h).to(device)\n",
+    "\n",
+    "state_dict_g = load_checkpoint(cp_g, device)\n",
+    "generator.load_state_dict(state_dict_g['generator'])\n",
+    "generator.eval()\n",
+    "generator.remove_weight_norm()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "02fb18a6",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# load StyleTTS\n",
+    "model_path = \"./Models/LibriTTS/epoch_2nd_00050.pth\"\n",
+    "model_config_path = \"./Models/LibriTTS/config.yml\"\n",
+    "\n",
+    "config = yaml.safe_load(open(model_config_path))\n",
+    "\n",
+    "# load pretrained ASR model\n",
+    "ASR_config = config.get('ASR_config', False)\n",
+    "ASR_path = config.get('ASR_path', False)\n",
+    "text_aligner = load_ASR_models(ASR_path, ASR_config)\n",
+    "\n",
+    "# load pretrained F0 model\n",
+    "F0_path = config.get('F0_path', False)\n",
+    "pitch_extractor = load_F0_models(F0_path)\n",
+    "\n",
+    "model = build_model(Munch(config['model_params']), text_aligner, pitch_extractor)\n",
+    "\n",
+    "params = torch.load(model_path, map_location='cpu')\n",
+    "params = params['net']\n",
+    "for key in model:\n",
+    "    if key in params:\n",
+    "        if not \"discriminator\" in key:\n",
+    "            print('%s loaded' % key)\n",
+    "            model[key].load_state_dict(params[key])\n",
+    "_ = [model[key].eval() for key in model]\n",
+    "_ = [model[key].to(device) for key in model]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "b803110e",
+   "metadata": {},
+   "source": [
+    "### Synthesize speech (seen speakers, LibriTTS train-clean-100)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "30e8ff2c",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# get first 3 training sample as references\n",
+    "\n",
+    "train_path = config.get('train_data', None)\n",
+    "val_path = config.get('val_data', None)\n",
+    "train_list, val_list = get_data_path_list(train_path, val_path)\n",
+    "\n",
+    "ref_dicts = {}\n",
+    "for j in range(3):\n",
+    "    filename = train_list[j].split('|')[0]\n",
+    "    name = filename.split('/')[-1].replace('.wav', '')\n",
+    "    ref_dicts[name] = filename\n",
+    "    \n",
+    "reference_embeddings = compute_style(ref_dicts)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "24655f46",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# synthesize a text\n",
+    "text = ''' StyleTTS is a style based generative model that can synthesize diverse speech with natural prosody from a reference speech utterance. '''"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "43e9f635",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# tokenize\n",
+    "ps = global_phonemizer.phonemize([text])\n",
+    "tokens = textclenaer(ps[0])\n",
+    "tokens.insert(0, 0)\n",
+    "tokens.append(0)\n",
+    "tokens = torch.LongTensor(tokens).to(device).unsqueeze(0)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "ca57469c",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "converted_samples = {}\n",
+    "\n",
+    "with torch.no_grad():\n",
+    "    input_lengths = torch.LongTensor([tokens.shape[-1]]).to(device)\n",
+    "    m = length_to_mask(input_lengths).to(device)\n",
+    "    t_en = model.text_encoder(tokens, input_lengths, m)\n",
+    "        \n",
+    "    for key, (ref, _) in reference_embeddings.items():\n",
+    "        \n",
+    "        s = ref.squeeze(1)\n",
+    "        style = s\n",
+    "        \n",
+    "        d = model.predictor.text_encoder(t_en, style, input_lengths, m)\n",
+    "\n",
+    "        x, _ = model.predictor.lstm(d)\n",
+    "        duration = model.predictor.duration_proj(x)\n",
+    "        pred_dur = torch.round(duration.squeeze()).clamp(min=1)\n",
+    "        \n",
+    "        pred_aln_trg = torch.zeros(input_lengths, int(pred_dur.sum().data))\n",
+    "        c_frame = 0\n",
+    "        for i in range(pred_aln_trg.size(0)):\n",
+    "            pred_aln_trg[i, c_frame:c_frame + int(pred_dur[i].data)] = 1\n",
+    "            c_frame += int(pred_dur[i].data)\n",
+    "\n",
+    "        # encode prosody\n",
+    "        en = (d.transpose(-1, -2) @ pred_aln_trg.unsqueeze(0).to(device))\n",
+    "        style = s.expand(en.shape[0], en.shape[1], -1)\n",
+    "\n",
+    "        F0_pred, N_pred = model.predictor.F0Ntrain(en, s)\n",
+    "\n",
+    "        out = model.decoder((t_en @ pred_aln_trg.unsqueeze(0).to(device)), \n",
+    "                                F0_pred, N_pred, ref.squeeze().unsqueeze(0))\n",
+    "\n",
+    "\n",
+    "        c = out.squeeze()\n",
+    "        y_g_hat = generator(c.unsqueeze(0))\n",
+    "        y_out = y_g_hat.squeeze().cpu().numpy()\n",
+    "\n",
+    "        c = out.squeeze()\n",
+    "        y_g_hat = generator(c.unsqueeze(0))\n",
+    "        y_out = y_g_hat.squeeze()\n",
+    "        \n",
+    "        converted_samples[key] = y_out.cpu().numpy()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "086c25a7",
+   "metadata": {
+    "scrolled": true
+   },
+   "outputs": [],
+   "source": [
+    "import IPython.display as ipd\n",
+    "for key, wave in converted_samples.items():\n",
+    "    print('Synthesized: %s' % key)\n",
+    "    display(ipd.Audio(wave, rate=24000))\n",
+    "    try:\n",
+    "        print('Reference: %s' % key)\n",
+    "        display(ipd.Audio(reference_embeddings[key][-1], rate=24000))\n",
+    "    except:\n",
+    "        continue"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "41d721cd",
+   "metadata": {},
+   "source": [
+    "### Zero-shot TTS (unseen speakers, LibriTTS test-clean)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "5b75a5dd",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "test_clean_path = '/share/naplab/users/yl4579/data/LibriTTS/test-clean/'\n",
+    "\n",
+    "ref_dicts = {}\n",
+    "# pick first 3 speakers from test-clean\n",
+    "spks = [ f.path for f in os.scandir(test_clean_path) if f.is_dir() ]\n",
+    "spks = spks[:3]\n",
+    "for spk in spks:\n",
+    "    spk_path = spk\n",
+    "    spk = spk.split('/')[-1]\n",
+    "    spk_path = spk_path + \"/\" + (np.random.choice(os.listdir(spk_path), size=1)[0])\n",
+    "    for f in os.listdir(spk_path):\n",
+    "        if f.endswith('.wav'):\n",
+    "            ref_dicts[spk] = spk_path + \"/\" + f\n",
+    "reference_embeddings = compute_style(ref_dicts)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "b8c204d0",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# synthesize a text\n",
+    "text = ''' StyleTTS is a style based generative model that can synthesize diverse speech with natural prosody from a reference speech utterance. '''"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "a0078aa4",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# tokenize\n",
+    "ps = global_phonemizer.phonemize([text])\n",
+    "tokens = textclenaer(ps[0])\n",
+    "tokens.insert(0, 0)\n",
+    "tokens.append(0)\n",
+    "tokens = torch.LongTensor(tokens).to(device).unsqueeze(0)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "f02958cc",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "converted_samples = {}\n",
+    "\n",
+    "with torch.no_grad():\n",
+    "    input_lengths = torch.LongTensor([tokens.shape[-1]]).to(device)\n",
+    "    m = length_to_mask(input_lengths).to(device)\n",
+    "    t_en = model.text_encoder(tokens, input_lengths, m)\n",
+    "        \n",
+    "    for key, (ref, _) in reference_embeddings.items():\n",
+    "        \n",
+    "        s = ref.squeeze(1)\n",
+    "        style = s\n",
+    "        \n",
+    "        d = model.predictor.text_encoder(t_en, style, input_lengths, m)\n",
+    "\n",
+    "        x, _ = model.predictor.lstm(d)\n",
+    "        duration = model.predictor.duration_proj(x)\n",
+    "        pred_dur = torch.round(duration.squeeze()).clamp(min=1)\n",
+    "        \n",
+    "        pred_aln_trg = torch.zeros(input_lengths, int(pred_dur.sum().data))\n",
+    "        c_frame = 0\n",
+    "        for i in range(pred_aln_trg.size(0)):\n",
+    "            pred_aln_trg[i, c_frame:c_frame + int(pred_dur[i].data)] = 1\n",
+    "            c_frame += int(pred_dur[i].data)\n",
+    "\n",
+    "        # encode prosody\n",
+    "        en = (d.transpose(-1, -2) @ pred_aln_trg.unsqueeze(0).to(device))\n",
+    "        style = s.expand(en.shape[0], en.shape[1], -1)\n",
+    "\n",
+    "        F0_pred, N_pred = model.predictor.F0Ntrain(en, s)\n",
+    "\n",
+    "        out = model.decoder((t_en @ pred_aln_trg.unsqueeze(0).to(device)), \n",
+    "                                F0_pred, N_pred, ref.squeeze().unsqueeze(0))\n",
+    "\n",
+    "\n",
+    "        c = out.squeeze()\n",
+    "        y_g_hat = generator(c.unsqueeze(0))\n",
+    "        y_out = y_g_hat.squeeze().cpu().numpy()\n",
+    "\n",
+    "        c = out.squeeze()\n",
+    "        y_g_hat = generator(c.unsqueeze(0))\n",
+    "        y_out = y_g_hat.squeeze()\n",
+    "        \n",
+    "        converted_samples[key] = y_out.cpu().numpy()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "b2e931ac",
+   "metadata": {
+    "scrolled": true
+   },
+   "outputs": [],
+   "source": [
+    "import IPython.display as ipd\n",
+    "for key, wave in converted_samples.items():\n",
+    "    print('Synthesized: %s' % key)\n",
+    "    display(ipd.Audio(wave, rate=24000))\n",
+    "    try:\n",
+    "        print('Reference: %s' % key)\n",
+    "        display(ipd.Audio(reference_embeddings[key][-1], rate=24000))\n",
+    "    except:\n",
+    "        continue"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "python3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.7.11"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}

StyleTTS_Accelerate/Demo/hifi-gan/__pycache__/vocoder.cpython-310.pyc ADDED Viewed

Binary file (8.71 kB). View file

StyleTTS_Accelerate/Demo/hifi-gan/__pycache__/vocoder.cpython-39.pyc ADDED Viewed

Binary file (8.76 kB). View file

StyleTTS_Accelerate/Demo/hifi-gan/__pycache__/vocoder_utils.cpython-310.pyc ADDED Viewed

Binary file (2.04 kB). View file

StyleTTS_Accelerate/Demo/hifi-gan/__pycache__/vocoder_utils.cpython-39.pyc ADDED Viewed

Binary file (2.02 kB). View file

StyleTTS_Accelerate/Demo/hifi-gan/vocoder.py ADDED Viewed

	@@ -0,0 +1,283 @@

+import torch
+import torch.nn.functional as F
+import torch.nn as nn
+from torch.nn import Conv1d, ConvTranspose1d, AvgPool1d, Conv2d
+from torch.nn.utils import weight_norm, remove_weight_norm, spectral_norm
+from vocoder_utils import init_weights, get_padding
+LRELU_SLOPE = 0.1
+class ResBlock1(torch.nn.Module):
+    def __init__(self, h, channels, kernel_size=3, dilation=(1, 3, 5)):
+        super(ResBlock1, self).__init__()
+        self.h = h
+        self.convs1 = nn.ModuleList([
+            weight_norm(Conv1d(channels, channels, kernel_size, 1, dilation=dilation[0],
+                               padding=get_padding(kernel_size, dilation[0]))),
+            weight_norm(Conv1d(channels, channels, kernel_size, 1, dilation=dilation[1],
+                               padding=get_padding(kernel_size, dilation[1]))),
+            weight_norm(Conv1d(channels, channels, kernel_size, 1, dilation=dilation[2],
+                               padding=get_padding(kernel_size, dilation[2])))
+        ])
+        self.convs1.apply(init_weights)
+        self.convs2 = nn.ModuleList([
+            weight_norm(Conv1d(channels, channels, kernel_size, 1, dilation=1,
+                               padding=get_padding(kernel_size, 1))),
+            weight_norm(Conv1d(channels, channels, kernel_size, 1, dilation=1,
+                               padding=get_padding(kernel_size, 1))),
+            weight_norm(Conv1d(channels, channels, kernel_size, 1, dilation=1,
+                               padding=get_padding(kernel_size, 1)))
+        ])
+        self.convs2.apply(init_weights)
+    def forward(self, x):
+        for c1, c2 in zip(self.convs1, self.convs2):
+            xt = F.leaky_relu(x, LRELU_SLOPE)
+            xt = c1(xt)
+            xt = F.leaky_relu(xt, LRELU_SLOPE)
+            xt = c2(xt)
+            x = xt + x
+        return x
+    def remove_weight_norm(self):
+        for l in self.convs1:
+            remove_weight_norm(l)
+        for l in self.convs2:
+            remove_weight_norm(l)
+class ResBlock2(torch.nn.Module):
+    def __init__(self, h, channels, kernel_size=3, dilation=(1, 3)):
+        super(ResBlock2, self).__init__()
+        self.h = h
+        self.convs = nn.ModuleList([
+            weight_norm(Conv1d(channels, channels, kernel_size, 1, dilation=dilation[0],
+                               padding=get_padding(kernel_size, dilation[0]))),
+            weight_norm(Conv1d(channels, channels, kernel_size, 1, dilation=dilation[1],
+                               padding=get_padding(kernel_size, dilation[1])))
+        ])
+        self.convs.apply(init_weights)
+    def forward(self, x):
+        for c in self.convs:
+            xt = F.leaky_relu(x, LRELU_SLOPE)
+            xt = c(xt)
+            x = xt + x
+        return x
+    def remove_weight_norm(self):
+        for l in self.convs:
+            remove_weight_norm(l)
+class Generator(torch.nn.Module):
+    def __init__(self, h):
+        super(Generator, self).__init__()
+        self.h = h
+        self.num_kernels = len(h.resblock_kernel_sizes)
+        self.num_upsamples = len(h.upsample_rates)
+        self.conv_pre = weight_norm(Conv1d(h.num_mels, h.upsample_initial_channel, 7, 1, padding=3))
+        resblock = ResBlock1 if h.resblock == '1' else ResBlock2
+        self.ups = nn.ModuleList()
+        for i, (u, k) in enumerate(zip(h.upsample_rates, h.upsample_kernel_sizes)):
+            self.ups.append(weight_norm(ConvTranspose1d(h.upsample_initial_channel//(2**i),
+                         h.upsample_initial_channel//(2**(i+1)),
+                         k, u, padding=(u//2 + u%2), output_padding=u%2)))
+        self.resblocks = nn.ModuleList()
+        for i in range(len(self.ups)):
+            ch = h.upsample_initial_channel//(2**(i+1))
+            for j, (k, d) in enumerate(zip(h.resblock_kernel_sizes, h.resblock_dilation_sizes)):
+                self.resblocks.append(resblock(h, ch, k, d))
+        self.conv_post = weight_norm(Conv1d(ch, 1, 7, 1, padding=3))
+        self.ups.apply(init_weights)
+        self.conv_post.apply(init_weights)
+    def forward(self, x):
+        x = self.conv_pre(x)
+        for i in range(self.num_upsamples):
+            x = F.leaky_relu(x, LRELU_SLOPE)
+            x = self.ups[i](x)
+            xs = None
+            for j in range(self.num_kernels):
+                if xs is None:
+                    xs = self.resblocks[i*self.num_kernels+j](x)
+                else:
+                    xs += self.resblocks[i*self.num_kernels+j](x)
+            x = xs / self.num_kernels
+        x = F.leaky_relu(x)
+        x = self.conv_post(x)
+        x = torch.tanh(x)
+        return x
+    def remove_weight_norm(self):
+        print('Removing weight norm...')
+        for l in self.ups:
+            remove_weight_norm(l)
+        for l in self.resblocks:
+            l.remove_weight_norm()
+        remove_weight_norm(self.conv_pre)
+        remove_weight_norm(self.conv_post)
+class DiscriminatorP(torch.nn.Module):
+    def __init__(self, period, kernel_size=5, stride=3, use_spectral_norm=False):
+        super(DiscriminatorP, self).__init__()
+        self.period = period
+        norm_f = weight_norm if use_spectral_norm == False else spectral_norm
+        self.convs = nn.ModuleList([
+            norm_f(Conv2d(1, 32, (kernel_size, 1), (stride, 1), padding=(get_padding(5, 1), 0))),
+            norm_f(Conv2d(32, 128, (kernel_size, 1), (stride, 1), padding=(get_padding(5, 1), 0))),
+            norm_f(Conv2d(128, 512, (kernel_size, 1), (stride, 1), padding=(get_padding(5, 1), 0))),
+            norm_f(Conv2d(512, 1024, (kernel_size, 1), (stride, 1), padding=(get_padding(5, 1), 0))),
+            norm_f(Conv2d(1024, 1024, (kernel_size, 1), 1, padding=(2, 0))),
+        ])
+        self.conv_post = norm_f(Conv2d(1024, 1, (3, 1), 1, padding=(1, 0)))
+    def forward(self, x):
+        fmap = []
+        # 1d to 2d
+        b, c, t = x.shape
+        if t % self.period != 0: # pad first
+            n_pad = self.period - (t % self.period)
+            x = F.pad(x, (0, n_pad), "reflect")
+            t = t + n_pad
+        x = x.view(b, c, t // self.period, self.period)
+        for l in self.convs:
+            x = l(x)
+            x = F.leaky_relu(x, LRELU_SLOPE)
+            fmap.append(x)
+        x = self.conv_post(x)
+        fmap.append(x)
+        x = torch.flatten(x, 1, -1)
+        return x, fmap
+class MultiPeriodDiscriminator(torch.nn.Module):
+    def __init__(self):
+        super(MultiPeriodDiscriminator, self).__init__()
+        self.discriminators = nn.ModuleList([
+            DiscriminatorP(2),
+            DiscriminatorP(3),
+            DiscriminatorP(5),
+            DiscriminatorP(7),
+            DiscriminatorP(11),
+        ])
+    def forward(self, y, y_hat):
+        y_d_rs = []
+        y_d_gs = []
+        fmap_rs = []
+        fmap_gs = []
+        for i, d in enumerate(self.discriminators):
+            y_d_r, fmap_r = d(y)
+            y_d_g, fmap_g = d(y_hat)
+            y_d_rs.append(y_d_r)
+            fmap_rs.append(fmap_r)
+            y_d_gs.append(y_d_g)
+            fmap_gs.append(fmap_g)
+        return y_d_rs, y_d_gs, fmap_rs, fmap_gs
+class DiscriminatorS(torch.nn.Module):
+    def __init__(self, use_spectral_norm=False):
+        super(DiscriminatorS, self).__init__()
+        norm_f = weight_norm if use_spectral_norm == False else spectral_norm
+        self.convs = nn.ModuleList([
+            norm_f(Conv1d(1, 128, 15, 1, padding=7)),
+            norm_f(Conv1d(128, 128, 41, 2, groups=4, padding=20)),
+            norm_f(Conv1d(128, 256, 41, 2, groups=16, padding=20)),
+            norm_f(Conv1d(256, 512, 41, 4, groups=16, padding=20)),
+            norm_f(Conv1d(512, 1024, 41, 4, groups=16, padding=20)),
+            norm_f(Conv1d(1024, 1024, 41, 1, groups=16, padding=20)),
+            norm_f(Conv1d(1024, 1024, 5, 1, padding=2)),
+        ])
+        self.conv_post = norm_f(Conv1d(1024, 1, 3, 1, padding=1))
+    def forward(self, x):
+        fmap = []
+        for l in self.convs:
+            x = l(x)
+            x = F.leaky_relu(x, LRELU_SLOPE)
+            fmap.append(x)
+        x = self.conv_post(x)
+        fmap.append(x)
+        x = torch.flatten(x, 1, -1)
+        return x, fmap
+class MultiScaleDiscriminator(torch.nn.Module):
+    def __init__(self):
+        super(MultiScaleDiscriminator, self).__init__()
+        self.discriminators = nn.ModuleList([
+            DiscriminatorS(use_spectral_norm=True),
+            DiscriminatorS(),
+            DiscriminatorS(),
+        ])
+        self.meanpools = nn.ModuleList([
+            AvgPool1d(4, 2, padding=2),
+            AvgPool1d(4, 2, padding=2)
+        ])
+    def forward(self, y, y_hat):
+        y_d_rs = []
+        y_d_gs = []
+        fmap_rs = []
+        fmap_gs = []
+        for i, d in enumerate(self.discriminators):
+            if i != 0:
+                y = self.meanpools[i-1](y)
+                y_hat = self.meanpools[i-1](y_hat)
+            y_d_r, fmap_r = d(y)
+            y_d_g, fmap_g = d(y_hat)
+            y_d_rs.append(y_d_r)
+            fmap_rs.append(fmap_r)
+            y_d_gs.append(y_d_g)
+            fmap_gs.append(fmap_g)
+        return y_d_rs, y_d_gs, fmap_rs, fmap_gs
+def feature_loss(fmap_r, fmap_g):
+    loss = 0
+    for dr, dg in zip(fmap_r, fmap_g):
+        for rl, gl in zip(dr, dg):
+            loss += torch.mean(torch.abs(rl - gl))
+    return loss*2
+def discriminator_loss(disc_real_outputs, disc_generated_outputs):
+    loss = 0
+    r_losses = []
+    g_losses = []
+    for dr, dg in zip(disc_real_outputs, disc_generated_outputs):
+        r_loss = torch.mean((1-dr)**2)
+        g_loss = torch.mean(dg**2)
+        loss += (r_loss + g_loss)
+        r_losses.append(r_loss.item())
+        g_losses.append(g_loss.item())
+    return loss, r_losses, g_losses
+def generator_loss(disc_outputs):
+    loss = 0
+    gen_losses = []
+    for dg in disc_outputs:
+        l = torch.mean((1-dg)**2)
+        gen_losses.append(l)
+        loss += l
+    return loss, gen_losses

StyleTTS_Accelerate/Demo/hifi-gan/vocoder_utils.py ADDED Viewed

	@@ -0,0 +1,58 @@

+import glob
+import os
+import matplotlib
+import torch
+from torch.nn.utils import weight_norm
+matplotlib.use("Agg")
+import matplotlib.pylab as plt
+def plot_spectrogram(spectrogram):
+    fig, ax = plt.subplots(figsize=(10, 2))
+    im = ax.imshow(spectrogram, aspect="auto", origin="lower",
+                   interpolation='none')
+    plt.colorbar(im, ax=ax)
+    fig.canvas.draw()
+    plt.close()
+    return fig
+def init_weights(m, mean=0.0, std=0.01):
+    classname = m.__class__.__name__
+    if classname.find("Conv") != -1:
+        m.weight.data.normal_(mean, std)
+def apply_weight_norm(m):
+    classname = m.__class__.__name__
+    if classname.find("Conv") != -1:
+        weight_norm(m)
+def get_padding(kernel_size, dilation=1):
+    return int((kernel_size*dilation - dilation)/2)
+def load_checkpoint(filepath, device):
+    assert os.path.isfile(filepath)
+    print("Loading '{}'".format(filepath))
+    checkpoint_dict = torch.load(filepath, map_location=device)
+    print("Complete.")
+    return checkpoint_dict
+def save_checkpoint(filepath, obj):
+    print("Saving checkpoint to {}".format(filepath))
+    torch.save(obj, filepath)
+    print("Complete.")
+def scan_checkpoint(cp_dir, prefix):
+    pattern = os.path.join(cp_dir, prefix + '????????')
+    cp_list = glob.glob(pattern)
+    if len(cp_list) == 0:
+        return None
+    return sorted(cp_list)[-1]

StyleTTS_Accelerate/LICENSE ADDED Viewed

	@@ -0,0 +1,21 @@

+MIT License
+Copyright (c) 2022 Aaron (Yinghao) Li
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+The above copyright notice and this permission notice shall be included in all
+copies or substantial portions of the Software.
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+SOFTWARE.

StyleTTS_Accelerate/LICENSE copy ADDED Viewed

	@@ -0,0 +1,21 @@

+MIT License
+Copyright (c) 2022 Aaron (Yinghao) Li
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+The above copyright notice and this permission notice shall be included in all
+copies or substantial portions of the Software.
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+SOFTWARE.

StyleTTS_Accelerate/Models/Anispeech/config.yml ADDED Viewed

	@@ -0,0 +1,80 @@

+log_dir: "Models/Anispeech"
+first_stage_path: "/home/ubuntu/StyleTTS_Accelerate_44khz/Models/Anispeech/epoch_1st_00020.pth"
+save_freq: 1
+log_interval: 10
+device: "cuda"
+multigpu: false
+epochs_1st: 200 # number of epochs for first stage training
+epochs_2nd: 100 # number of peochs for second stage training
+batch_size: 16
+pretrained_model: "/home/ubuntu/StyleTTS_Accelerate_44khz/Models/Anispeech/epoch_2nd_00015.pth"
+second_stage_load_pretrained: true # set to true if the pre-trained model is for 2nd stage
+load_only_params: false # set to true if do not want to load epoch numbers and optimizer parameters
+diff_epoch: 5
+train_data: "/home/ubuntu/StyleTTS_Accelerate_44khz/Data/ani_train_only_longs.csv"
+val_data: "/home/ubuntu/StyleTTS_Accelerate_44khz/Data/val_list_libritts.txt"
+F0_path: "Utils/JDC/bst.t7"
+ASR_config: "Utils/ASR/config.yml"
+ASR_path: "Utils/ASR/epoch_00080.pth"
+preprocess_params:
+  sr: 24000
+  spect_params:
+    n_fft: 2048
+    win_length: 1200
+    hop_length: 300
+model_params:
+  hidden_dim: 512
+  n_token: 178
+  style_dim: 128
+  n_layer: 3
+  dim_in: 64
+  max_conv_dim: 512
+  n_mels: 80
+  dropout: 0.2
+  diffusion:
+    embedding_mask_proba: 0.1
+    # transformer config
+    transformer:
+      num_layers: 3
+      num_heads: 8
+      head_features: 64
+      multiplier: 2
+    # diffusion distribution config
+    dist:
+      sigma_data: 0.2 # placeholder for estimate_sigma_data set to false
+      estimate_sigma_data: true # estimate sigma_data from the current batch if set to true
+      mean: -3.0
+      std: 1.0
+loss_params:
+    lambda_mel: 10. # mel reconstruction loss (1st & 2nd stage)
+    lambda_adv: 1. # adversarial loss (1st & 2nd stage)
+    lambda_reg: 1. # adversarial regularization loss (1st & 2nd stage)
+    lambda_fm: 0.1 # feature matching loss (1st & 2nd stage)
+    lambda_mono: 1. # monotonic alignment loss (1st stage, TMA)
+    lambda_s2s: 1. # sequence-to-sequence loss (1st stage, TMA)
+    TMA_epoch: 2 # TMA starting epoch (1st stage)
+    # https://github.com/yl4579/StyleTTS/issues/7
+    TMA_CEloss: false # whether to use cross-entropy (CE) loss for TMA
+    lambda_F0: 1. # F0 reconstruction loss (2nd stage)
+    lambda_norm: 1. # norm reconstruction loss (2nd stage)
+    lambda_dur: 1. # duration loss (2nd stage)
+    lambda_ce: 20. # duration predictor probability output CE loss (2nd stage)
+    lambda_sty: 1. # style reconstruction loss (2nd stage)
+    lambda_diff: 1. # score matching loss (2nd stage)
+optimizer_params:
+  lr: 0.0001

StyleTTS_Accelerate/Models/Anispeech/epoch_1st_00020.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:686beb07eebe47a05efbf8f522e35d3000e8eb56e3c3a64fe0c136cd7d8d784d
+size 1322367412

StyleTTS_Accelerate/Models/Anispeech/epoch_2nd_00015.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:96f0c34bacfecec841845b92287a553d4c4263d28a4f24111b6223f9cdcaba76
+size 1072227551

StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735697608.khodaya-basse-dige.344916.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:285145307d354169a4f365a200060e8835925dd5ec6b15e343d4f5904d8d6840
+size 88

StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735697814.khodaya-basse-dige.346056.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4c6d38ee3d2509a09e245e3e17b2d741863d352b9b93c0caf36aedf0870d9f05
+size 88

StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735698320.khodaya-basse-dige.347680.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61d9e5048dda9c655b4c5a226759c691efccc2557993df16a3751608005ef6ac
+size 7420

StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735698764.khodaya-basse-dige.349633.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:42a6ca2f240bb8e02ca5c416fb3b48e8f05d553fc96dce7067a5c9701e456538
+size 2678

StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735698917.khodaya-basse-dige.350828.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:245e41619fc9245442901624a4f56bdc692b5406bc693fec844efc58931fa314
+size 3006826

StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735721417.khodaya-basse-dige.404215.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:178e0cb87908e6a4822482aca1dfe1c289c137c67ffd3cf8115214cd5c12eff4
+size 88

StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735721458.khodaya-basse-dige.404475.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fb5701c1192707e8ce5502bcaa1e5c0b23493ca52179857e7e7ca07c005f93d
+size 19924

StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735723135.khodaya-basse-dige.409798.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eed71cd3253e86c83a89b290143491939736c50b13e9d4677d9b4aeb4da7bfad
+size 124082

StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735736169.khodaya-basse-dige.8849.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cccfbe4590399b86a822d6b053509d7a899d6e0ce4b9ee1df1110f5ba0e04474
+size 278128

StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735753783.khodaya-basse-dige.55757.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d76c1a47afb464e5f1abedc14512d3786027064a9384a5e7c26126ff57ec1eb
+size 88

StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735753897.khodaya-basse-dige.56741.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:31682364e9cd764c6e199af5c2f1ee87a131c4bed8e0bb37536c33e42813b115
+size 88

StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735753979.khodaya-basse-dige.58472.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eac6f91079a4c53ebf8b44888512b2af1202a9e4fff41e9c0404adef1c940bb4
+size 88

StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735754151.khodaya-basse-dige.59652.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ba702daecc82006aad5078b95a71d8c7ae497c15e0c599148f8163b1e845869
+size 88

StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735754204.khodaya-basse-dige.60572.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90c9ac4835b0122b4688e388cb8aad6881e5d35095c06ae40ee21a6855935eaf
+size 88

StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735755068.khodaya-basse-dige.62584.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f203dd3b75cb53fac9fe52bb0b5f87ffdd0515b75fa95667853772ff6b4b56b
+size 88

StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735755116.khodaya-basse-dige.63449.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:146856775335bf311b3131a67c83bd394947681454436b8f24ea5870c296b809
+size 88

StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735755175.khodaya-basse-dige.64734.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29031b8874f604abfc131ca92e7e9c3f35da1b065165010922ee872d5e349fff
+size 88

StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735755213.khodaya-basse-dige.65681.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:30bbc2f8786eeac413bd53068eda56aebcc6d639579dc4160c09e82fe0fbe542
+size 88

StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735755246.khodaya-basse-dige.66573.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5c99617590fc1ca468c5f653147d8b9178392e0c4ef662a5aa5593f6dba60e39
+size 88

StyleTTS_Accelerate/Models/Anispeech/tensorboard/events.out.tfevents.1735755299.khodaya-basse-dige.67690.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a5b293997ed32692a4e9c7741d758712ca26426229b5e9a4558f4d2c861a06a
+size 1038

StyleTTS_Accelerate/Models/Anispeech/train.log ADDED Viewed

The diff for this file is too large to render. See raw diff

StyleTTS_Accelerate/Models/Anispeech_with_DIFF/config.yml ADDED Viewed

	@@ -0,0 +1,80 @@

+log_dir: "Models/Anispeech_with_DIFF"
+first_stage_path: "/home/ubuntu/StyleTTS_Accelerate_44khz/Models/Anispeech/epoch_1st_00020.pth"
+save_freq: 1
+log_interval: 10
+device: "cuda"
+multigpu: false
+epochs_1st: 200 # number of epochs for first stage training
+epochs_2nd: 100 # number of peochs for second stage training
+batch_size: 32
+pretrained_model: ""
+second_stage_load_pretrained: true # set to true if the pre-trained model is for 2nd stage
+load_only_params: false # set to true if do not want to load epoch numbers and optimizer parameters
+diff_epoch: 5
+train_data: "/home/ubuntu/StyleTTS_Accelerate_44khz/Data/ani_train_only_longs.csv"
+val_data: "/home/ubuntu/StyleTTS_Accelerate_44khz/Data/val_list_libritts.txt"
+F0_path: "Utils/JDC/bst.t7"
+ASR_config: "Utils/ASR/config.yml"
+ASR_path: "Utils/ASR/epoch_00080.pth"
+preprocess_params:
+  sr: 24000
+  spect_params:
+    n_fft: 2048
+    win_length: 1200
+    hop_length: 300
+model_params:
+  hidden_dim: 512
+  n_token: 178
+  style_dim: 128
+  n_layer: 3
+  dim_in: 64
+  max_conv_dim: 512
+  n_mels: 80
+  dropout: 0.2
+  diffusion:
+    embedding_mask_proba: 0.1
+    # transformer config
+    transformer:
+      num_layers: 3
+      num_heads: 8
+      head_features: 64
+      multiplier: 2
+    # diffusion distribution config
+    dist:
+      sigma_data: 0.2 # placeholder for estimate_sigma_data set to false
+      estimate_sigma_data: true # estimate sigma_data from the current batch if set to true
+      mean: -3.0
+      std: 1.0
+loss_params:
+    lambda_mel: 10. # mel reconstruction loss (1st & 2nd stage)
+    lambda_adv: 1. # adversarial loss (1st & 2nd stage)
+    lambda_reg: 1. # adversarial regularization loss (1st & 2nd stage)
+    lambda_fm: 0.1 # feature matching loss (1st & 2nd stage)
+    lambda_mono: 1. # monotonic alignment loss (1st stage, TMA)
+    lambda_s2s: 1. # sequence-to-sequence loss (1st stage, TMA)
+    TMA_epoch: 2 # TMA starting epoch (1st stage)
+    # https://github.com/yl4579/StyleTTS/issues/7
+    TMA_CEloss: false # whether to use cross-entropy (CE) loss for TMA
+    lambda_F0: 1. # F0 reconstruction loss (2nd stage)
+    lambda_norm: 1. # norm reconstruction loss (2nd stage)
+    lambda_dur: 1. # duration loss (2nd stage)
+    lambda_ce: 20. # duration predictor probability output CE loss (2nd stage)
+    lambda_sty: 1. # style reconstruction loss (2nd stage)
+    lambda_diff: 1. # score matching loss (2nd stage)
+optimizer_params:
+  lr: 0.0001

StyleTTS_Accelerate/Models/Anispeech_with_DIFF/epoch_1st_00040.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e6ddda16cbcd18677f94582b0c60014429ec717ec6ba3ef3819ead0b626a054
+size 1292081189

StyleTTS_Accelerate/Models/Anispeech_with_DIFF/epoch_2nd_00014.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:590b105355609e73ad32a08c138d3d164981b5abaeb548ed0950c404715fca48
+size 1322367412

StyleTTS_Accelerate/Models/Anispeech_with_DIFF/tensorboard/events.out.tfevents.1735755378.khodaya-basse-dige.68815.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a24f333c91e20df18fb006bf9958430e27eca32efbbfd70194e464bbb217ef0
+size 80357

StyleTTS_Accelerate/Models/Anispeech_with_DIFF/tensorboard/events.out.tfevents.1735758983.khodaya-basse-dige.79079.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5567fe7eae9933eafa645b60506c564020381a3cf6ad1522c978715d5aa979be
+size 1486

StyleTTS_Accelerate/Models/Anispeech_with_DIFF/tensorboard/events.out.tfevents.1735759171.khodaya-basse-dige.80201.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:701829cea16b04487744c10ae1463b8559585ba84fbc9c49dc25cafe00ea1f48
+size 563

StyleTTS_Accelerate/Models/Anispeech_with_DIFF/tensorboard/events.out.tfevents.1735759231.khodaya-basse-dige.81123.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f9de06fe3125dc403d9cd0275c4a7878ca8d3a5fc18d2fdc653c38d366debd9
+size 429931