Macedonian-ASR
/

wav2vec2-aed-macedonian-asr

Automatic Speech Recognition

speechbrain

Macedonian

Eval Results

Model card Files Files and versions Community

Porjaz commited on Aug 13, 2024

Commit

e1faefa

verified ·

1 Parent(s): 1729620

Update hyperparams.yaml

Browse files

Files changed (1) hide show

hyperparams.yaml +11 -158

hyperparams.yaml CHANGED Viewed

@@ -1,60 +1,15 @@
-# Seed needs to be set at top of yaml, before objects with parameters
-# are instantiated
-seed: 1994
-__set_seed: !apply:torch.manual_seed [!ref <seed>]
-skip_training: True
-output_folder: !ref output_folder_seq2seq_cv_podcast_arhiv_augmentation_128_emb_5000_vocab
-output_wer_folder: !ref <output_folder>/
-save_folder: !ref <output_folder>/save
-train_log: !ref <output_folder>/train_log.txt
-lm_folder: LM/output_folder_lm
-# Data files
-data_folder: "../../data/combined_data/speechbrain_splits"
-wav2vec2_hub: facebook/wav2vec2-large-xlsr-53
-wav2vec2_folder: !ref <save_folder>/wav2vec2_checkpoint
 ####################### Training Parameters ####################################
-number_of_epochs: 50
-number_of_ctc_epochs: 15
-# batch_size: 16
-# batch_size: 6 # for cv+podcast
-batch_size: 6 # for cv+podcast+arhiv
-label_smoothing: 0.1
-lr: 0.0001
-ctc_weight: 0.5
-opt_class: !name:torch.optim.Adam
-      lr: !ref <lr>
-lr_annealing: !new:speechbrain.nnet.schedulers.NewBobScheduler
-   initial_value: !ref <lr>
-   improvement_threshold: 0.0025
-   annealing_factor: 0.8
-   patient: 0
-# Dataloader options
-num_workers: 4
-train_dataloader_opts:
-   num_workers: !ref <num_workers>
-   batch_size: !ref <batch_size>
-valid_dataloader_opts:
-   num_workers: !ref <num_workers>
-   batch_size: !ref <batch_size>
-test_dataloader_opts:
-   batch_size: 1
 ####################### Model Parameters #######################################
-dropout: 0.15
 wav2vec_output_dim: 1024
 emb_size: 128
 dec_neurons: 1024
@@ -83,8 +38,6 @@ ctc_weight_decode: 0.0
 coverage_penalty: 1.5
 lm_weight: 0.0
-epoch_counter: !new:speechbrain.utils.epoch_loop.EpochCounter
-   limit: !ref <number_of_epochs>
 # Wav2vec2 encoder
 encoder_w2v2: !new:speechbrain.lobes.models.huggingface_transformers.wav2vec2.Wav2Vec2
@@ -125,25 +78,6 @@ seq_lin: !new:speechbrain.nnet.linear.Linear
 log_softmax: !new:speechbrain.nnet.activations.Softmax
    apply_log: True
-ctc_cost: !name:speechbrain.nnet.losses.ctc_loss
-   blank_index: !ref <blank_index>
-nll_cost: !name:speechbrain.nnet.losses.nll_loss
-   label_smoothing: 0.1
-# This is the RNNLM that is used according to the Huggingface repository
-# NB: It has to match the pre-trained RNNLM!!
-#lm_model: !new:speechbrain.lobes.models.RNNLM.RNNLM
-#   output_neurons: !ref <output_neurons>
-#   embedding_dim: !ref <emb_size>
-#   activation: !name:torch.nn.LeakyReLU
-#   dropout: 0.0
-#   rnn_layers: 2
-#   rnn_neurons: 2048
-#   dnn_blocks: 1
-#   dnn_neurons: 512
-#   return_hidden: True  # For inference
 tokenizer: !new:sentencepiece.SentencePieceProcessor
   model_file: 1000_unigram.model
@@ -153,37 +87,11 @@ modules:
    decoder: !ref <decoder>
    ctc_lin: !ref <ctc_lin>
    seq_lin: !ref <seq_lin>
-     #lm_model: !ref <lm_model>
 model: !new:torch.nn.ModuleList
    - [!ref <encoder_w2v2>, !ref <embedding>, !ref <decoder>, !ref <ctc_lin>, !ref <seq_lin>]
 ############################## Decoding & optimiser ############################
-#coverage_scorer: !new:speechbrain.decoders.scorer.CoverageScorer
-#   vocab_size: !ref <output_neurons>
-#
-#rnnlm_scorer: !new:speechbrain.decoders.scorer.RNNLMScorer
-#   language_model: !ref <lm_model>
-#   temperature: !ref <temperature_lm>
-#
-#scorer: !new:speechbrain.decoders.scorer.ScorerBuilder
-#   full_scorers: [!ref <rnnlm_scorer>,
-#                  !ref <coverage_scorer>]
-#   weights:
-#      rnnlm: !ref <lm_weight>
-#      coverage: !ref <coverage_penalty>
-# Search
-greedy_search: !new:speechbrain.decoders.S2SRNNGreedySearcher
-    embedding: !ref <embedding>
-    decoder: !ref <decoder>
-    linear: !ref <seq_lin>
-    bos_index: !ref <bos_index>
-    eos_index: !ref <eos_index>
-    min_decode_ratio: !ref <min_decode_ratio>
-    max_decode_ratio: !ref <max_decode_ratio>
 test_search: !new:speechbrain.decoders.S2SRNNBeamSearcher
     embedding: !ref <embedding>
     decoder: !ref <decoder>
@@ -200,65 +108,10 @@ test_search: !new:speechbrain.decoders.S2SRNNBeamSearcher
       #scorer: !ref <scorer>
-############################## Augmentations ###################################
-# Speed perturbation
-speed_perturb: !new:speechbrain.augment.time_domain.SpeedPerturb
-   orig_freq: 16000
-   speeds: [95, 100, 105]
-# Frequency drop: randomly drops a number of frequency bands to zero.
-drop_freq: !new:speechbrain.augment.time_domain.DropFreq
-   drop_freq_low: 0
-   drop_freq_high: 1
-   drop_freq_count_low: 1
-   drop_freq_count_high: 3
-   drop_freq_width: 0.05
-# Time drop: randomly drops a number of temporal chunks.
-drop_chunk: !new:speechbrain.augment.time_domain.DropChunk
-   drop_length_low: 1000
-   drop_length_high: 2000
-   drop_count_low: 1
-   drop_count_high: 5
-# Augmenter: Combines previously defined augmentations to perform data augmentation
-wav_augment: !new:speechbrain.augment.augmenter.Augmenter
-   concat_original: False
-   min_augmentations: 1
-   max_augmentations: 3
-   augment_prob: 0.5
-   augmentations: [
-      !ref <speed_perturb>,
-      !ref <drop_freq>,
-      !ref <drop_chunk>]
 ############################## Logging and Pretrainer ##########################
-checkpointer: !new:speechbrain.utils.checkpoints.Checkpointer
-   checkpoints_dir: !ref <save_folder>
-   recoverables:
-      model: !ref <model>
-      scheduler: !ref <lr_annealing>
-      counter: !ref <epoch_counter>
-train_logger: !new:speechbrain.utils.train_logger.FileTrainLogger
-   save_file: !ref <train_log>
-error_rate_computer: !name:speechbrain.utils.metric_stats.ErrorRateStats
-cer_computer: !name:speechbrain.utils.metric_stats.ErrorRateStats
-   split_tokens: True
-# The pretrainer allows a mapping between pretrained files and instances that
-# are declared in the yaml. E.g here, we will download the file lm.ckpt
-# and it will be loaded into "lm" which is pointing to the <lm_model> defined
-# before.
-#pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer
-#   collect_in: !ref <lm_folder>
-#   loadables:
-#      lm: !ref <lm_model>
-#   paths:
-#      lm: !ref <lm_folder>/save/CKPT+2024-07-19+14-16-05+00/model.ckpt

+# Hparams NEEDED
+HPARAMS_NEEDED: ["wav2vec_output_dim", "emb_size", "dec_neurons", "dec_layers", "output_neurons", "log_softmax", "tokenizer"]
+# Modules Needed
+MODULES_NEEDED: ["encoder_w2v2", "embedding", "ctc_lin", "seq_lin"]
+# Pretrain folder (HuggingFace)
+pretrained_path: Porjaz/wav2vec2-aed-macedonian-asr
 ####################### Training Parameters ####################################
 ####################### Model Parameters #######################################
 wav2vec_output_dim: 1024
 emb_size: 128
 dec_neurons: 1024
 coverage_penalty: 1.5
 lm_weight: 0.0
 # Wav2vec2 encoder
 encoder_w2v2: !new:speechbrain.lobes.models.huggingface_transformers.wav2vec2.Wav2Vec2
 log_softmax: !new:speechbrain.nnet.activations.Softmax
    apply_log: True
 tokenizer: !new:sentencepiece.SentencePieceProcessor
   model_file: 1000_unigram.model
    decoder: !ref <decoder>
    ctc_lin: !ref <ctc_lin>
    seq_lin: !ref <seq_lin>
 model: !new:torch.nn.ModuleList
    - [!ref <encoder_w2v2>, !ref <embedding>, !ref <decoder>, !ref <ctc_lin>, !ref <seq_lin>]
 ############################## Decoding & optimiser ############################
 test_search: !new:speechbrain.decoders.S2SRNNBeamSearcher
     embedding: !ref <embedding>
     decoder: !ref <decoder>
       #scorer: !ref <scorer>
 ############################## Logging and Pretrainer ##########################
+pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer
+    loadables:
+        model: !ref <model>
+    paths:
+        model: !ref <pretrained_path>/model.ckpt