End of training

Browse files

Files changed (10) hide show

README.md +66 -0
all_results.json +9 -0
config.json +126 -0
model.safetensors +3 -0
preprocessor_config.json +9 -0
runs/Jun16_01-44-32_e0d75421cf0a/events.out.tfevents.1718502274.e0d75421cf0a.34.0 +3 -0
runs/Jun16_01-56-21_e0d75421cf0a/events.out.tfevents.1718502987.e0d75421cf0a.34.1 +3 -0
train_results.json +9 -0
trainer_state.json +315 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,66 @@

+---
+license: apache-2.0
+base_model: facebook/wav2vec2-large-960h
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: wev2vec-large960-agu-amharic
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# wev2vec-large960-agu-amharic
+This model is a fine-tuned version of [facebook/wav2vec2-large-960h](https://huggingface.co/facebook/wav2vec2-large-960h) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.4155
+- Accuracy: 0.9447
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-05
+- train_batch_size: 16
+- eval_batch_size: 8
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 5
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Accuracy |
+|:-------------:|:------:|:----:|:---------------:|:--------:|
+| 0.4808        | 0.6649 | 500  | 0.4616          | 0.8655   |
+| 0.2885        | 1.3298 | 1000 | 0.4095          | 0.9103   |
+| 0.1774        | 1.9947 | 1500 | 0.3286          | 0.9432   |
+| 0.1086        | 2.6596 | 2000 | 0.4424          | 0.9402   |
+| 0.0949        | 3.3245 | 2500 | 0.4138          | 0.9402   |
+| 0.0856        | 3.9894 | 3000 | 0.4155          | 0.9447   |
+### Framework versions
+- Transformers 4.41.2
+- Pytorch 2.1.2
+- Datasets 2.19.2
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.9893617021276597,
+    "total_flos": 6.236882326923493e+18,
+    "train_loss": 0.3066477144559224,
+    "train_runtime": 5458.1542,
+    "train_samples": 12018,
+    "train_samples_per_second": 11.009,
+    "train_steps_per_second": 0.689
+}

config.json ADDED Viewed

	@@ -0,0 +1,126 @@

+{
+  "_name_or_path": "facebook/wav2vec2-large-960h",
+  "activation_dropout": 0.1,
+  "adapter_attn_dim": null,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForSpeechClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 256,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.1,
+  "finetuning_task": "wev2vec_clf",
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "01Neutral",
+    "1": "02Fearful",
+    "2": "03Happy",
+    "3": "04Sad",
+    "4": "05Angry"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "01Neutral": 0,
+    "02Fearful": 1,
+    "03Happy": 2,
+    "04Sad": 3,
+    "05Angry": 4
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "wav2vec2",
+  "num_adapter_layers": 3,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "num_negatives": 100,
+  "output_hidden_size": 1024,
+  "pad_token_id": 0,
+  "pooling_mode": "mean",
+  "problem_type": "single_label_classification",
+  "proj_codevector_dim": 256,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.2",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32,
+  "xvector_output_dim": 512
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:055b12e161f87dfe5300d6a3d57fa4b1e98b7f277019517fd0b9bcdef5ee1b44
+size 1265985284

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": false,
+  "sampling_rate": 16000
+}

runs/Jun16_01-44-32_e0d75421cf0a/events.out.tfevents.1718502274.e0d75421cf0a.34.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:305404243424a466ca174c9d5414e233a11b8fb953e98e8dc5e8f8ae2ac76482
+size 6607

runs/Jun16_01-56-21_e0d75421cf0a/events.out.tfevents.1718502987.e0d75421cf0a.34.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95259c73605442aafb79bea17b2522332e0275cc53521b90d0914e298443a654
+size 15225

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.9893617021276597,
+    "total_flos": 6.236882326923493e+18,
+    "train_loss": 0.3066477144559224,
+    "train_runtime": 5458.1542,
+    "train_samples": 12018,
+    "train_samples_per_second": 11.009,
+    "train_steps_per_second": 0.689
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,315 @@

+{
+  "best_metric": 0.32863062620162964,
+  "best_model_checkpoint": "/kaggle/working/wev2vec-large960-agu-amharic/checkpoint-1500",
+  "epoch": 3.9893617021276597,
+  "eval_steps": 500,
+  "global_step": 3000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.13297872340425532,
+      "grad_norm": 14.737821578979492,
+      "learning_rate": 9.736702127659574e-06,
+      "loss": 1.5308,
+      "step": 100
+    },
+    {
+      "epoch": 0.26595744680851063,
+      "grad_norm": 14.251932144165039,
+      "learning_rate": 9.470744680851066e-06,
+      "loss": 1.314,
+      "step": 200
+    },
+    {
+      "epoch": 0.39893617021276595,
+      "grad_norm": 34.605953216552734,
+      "learning_rate": 9.204787234042554e-06,
+      "loss": 0.9622,
+      "step": 300
+    },
+    {
+      "epoch": 0.5319148936170213,
+      "grad_norm": 23.588228225708008,
+      "learning_rate": 8.938829787234043e-06,
+      "loss": 0.7054,
+      "step": 400
+    },
+    {
+      "epoch": 0.6648936170212766,
+      "grad_norm": 18.631229400634766,
+      "learning_rate": 8.672872340425533e-06,
+      "loss": 0.4808,
+      "step": 500
+    },
+    {
+      "epoch": 0.6648936170212766,
+      "eval_accuracy": 0.865470826625824,
+      "eval_loss": 0.4616002142429352,
+      "eval_runtime": 81.351,
+      "eval_samples_per_second": 16.447,
+      "eval_steps_per_second": 2.065,
+      "step": 500
+    },
+    {
+      "epoch": 0.7978723404255319,
+      "grad_norm": 19.866378784179688,
+      "learning_rate": 8.409574468085107e-06,
+      "loss": 0.4552,
+      "step": 600
+    },
+    {
+      "epoch": 0.9308510638297872,
+      "grad_norm": 15.608444213867188,
+      "learning_rate": 8.143617021276596e-06,
+      "loss": 0.3512,
+      "step": 700
+    },
+    {
+      "epoch": 1.0638297872340425,
+      "grad_norm": 16.031946182250977,
+      "learning_rate": 7.877659574468086e-06,
+      "loss": 0.2862,
+      "step": 800
+    },
+    {
+      "epoch": 1.196808510638298,
+      "grad_norm": 60.58535385131836,
+      "learning_rate": 7.6117021276595745e-06,
+      "loss": 0.2642,
+      "step": 900
+    },
+    {
+      "epoch": 1.3297872340425532,
+      "grad_norm": 0.7799405455589294,
+      "learning_rate": 7.345744680851065e-06,
+      "loss": 0.2885,
+      "step": 1000
+    },
+    {
+      "epoch": 1.3297872340425532,
+      "eval_accuracy": 0.9103139042854309,
+      "eval_loss": 0.4094645082950592,
+      "eval_runtime": 81.0216,
+      "eval_samples_per_second": 16.514,
+      "eval_steps_per_second": 2.074,
+      "step": 1000
+    },
+    {
+      "epoch": 1.4627659574468086,
+      "grad_norm": 27.568416595458984,
+      "learning_rate": 7.079787234042554e-06,
+      "loss": 0.2121,
+      "step": 1100
+    },
+    {
+      "epoch": 1.5957446808510638,
+      "grad_norm": 5.639551639556885,
+      "learning_rate": 6.813829787234043e-06,
+      "loss": 0.1682,
+      "step": 1200
+    },
+    {
+      "epoch": 1.728723404255319,
+      "grad_norm": 18.22026252746582,
+      "learning_rate": 6.547872340425533e-06,
+      "loss": 0.2316,
+      "step": 1300
+    },
+    {
+      "epoch": 1.8617021276595744,
+      "grad_norm": 0.07559215277433395,
+      "learning_rate": 6.281914893617022e-06,
+      "loss": 0.1718,
+      "step": 1400
+    },
+    {
+      "epoch": 1.9946808510638299,
+      "grad_norm": 44.52543640136719,
+      "learning_rate": 6.015957446808511e-06,
+      "loss": 0.1774,
+      "step": 1500
+    },
+    {
+      "epoch": 1.9946808510638299,
+      "eval_accuracy": 0.9431988000869751,
+      "eval_loss": 0.32863062620162964,
+      "eval_runtime": 81.7868,
+      "eval_samples_per_second": 16.36,
+      "eval_steps_per_second": 2.054,
+      "step": 1500
+    },
+    {
+      "epoch": 2.127659574468085,
+      "grad_norm": 42.418846130371094,
+      "learning_rate": 5.75e-06,
+      "loss": 0.1214,
+      "step": 1600
+    },
+    {
+      "epoch": 2.2606382978723403,
+      "grad_norm": 27.88055992126465,
+      "learning_rate": 5.48404255319149e-06,
+      "loss": 0.1253,
+      "step": 1700
+    },
+    {
+      "epoch": 2.393617021276596,
+      "grad_norm": 66.22528076171875,
+      "learning_rate": 5.218085106382979e-06,
+      "loss": 0.1408,
+      "step": 1800
+    },
+    {
+      "epoch": 2.526595744680851,
+      "grad_norm": 59.407527923583984,
+      "learning_rate": 4.952127659574468e-06,
+      "loss": 0.124,
+      "step": 1900
+    },
+    {
+      "epoch": 2.6595744680851063,
+      "grad_norm": 0.06157585233449936,
+      "learning_rate": 4.686170212765958e-06,
+      "loss": 0.1086,
+      "step": 2000
+    },
+    {
+      "epoch": 2.6595744680851063,
+      "eval_accuracy": 0.9402092695236206,
+      "eval_loss": 0.44243016839027405,
+      "eval_runtime": 81.4569,
+      "eval_samples_per_second": 16.426,
+      "eval_steps_per_second": 2.062,
+      "step": 2000
+    },
+    {
+      "epoch": 2.7925531914893615,
+      "grad_norm": 36.82463455200195,
+      "learning_rate": 4.420212765957447e-06,
+      "loss": 0.156,
+      "step": 2100
+    },
+    {
+      "epoch": 2.925531914893617,
+      "grad_norm": 15.869159698486328,
+      "learning_rate": 4.154255319148937e-06,
+      "loss": 0.0914,
+      "step": 2200
+    },
+    {
+      "epoch": 3.0585106382978724,
+      "grad_norm": 83.17898559570312,
+      "learning_rate": 3.8882978723404255e-06,
+      "loss": 0.1335,
+      "step": 2300
+    },
+    {
+      "epoch": 3.1914893617021276,
+      "grad_norm": 6.511538982391357,
+      "learning_rate": 3.622340425531915e-06,
+      "loss": 0.1073,
+      "step": 2400
+    },
+    {
+      "epoch": 3.324468085106383,
+      "grad_norm": 2.9230759143829346,
+      "learning_rate": 3.3563829787234047e-06,
+      "loss": 0.0949,
+      "step": 2500
+    },
+    {
+      "epoch": 3.324468085106383,
+      "eval_accuracy": 0.9402092695236206,
+      "eval_loss": 0.4137694537639618,
+      "eval_runtime": 81.4988,
+      "eval_samples_per_second": 16.417,
+      "eval_steps_per_second": 2.061,
+      "step": 2500
+    },
+    {
+      "epoch": 3.4574468085106385,
+      "grad_norm": 0.04569636657834053,
+      "learning_rate": 3.0930851063829792e-06,
+      "loss": 0.0781,
+      "step": 2600
+    },
+    {
+      "epoch": 3.5904255319148937,
+      "grad_norm": 0.057368163019418716,
+      "learning_rate": 2.8271276595744684e-06,
+      "loss": 0.0613,
+      "step": 2700
+    },
+    {
+      "epoch": 3.723404255319149,
+      "grad_norm": 0.0105384960770607,
+      "learning_rate": 2.563829787234043e-06,
+      "loss": 0.0774,
+      "step": 2800
+    },
+    {
+      "epoch": 3.8563829787234045,
+      "grad_norm": 0.411955326795578,
+      "learning_rate": 2.297872340425532e-06,
+      "loss": 0.0942,
+      "step": 2900
+    },
+    {
+      "epoch": 3.9893617021276597,
+      "grad_norm": 0.037852853536605835,
+      "learning_rate": 2.0319148936170213e-06,
+      "loss": 0.0856,
+      "step": 3000
+    },
+    {
+      "epoch": 3.9893617021276597,
+      "eval_accuracy": 0.9446935653686523,
+      "eval_loss": 0.41552355885505676,
+      "eval_runtime": 81.401,
+      "eval_samples_per_second": 16.437,
+      "eval_steps_per_second": 2.064,
+      "step": 3000
+    },
+    {
+      "epoch": 3.9893617021276597,
+      "step": 3000,
+      "total_flos": 6.236882326923493e+18,
+      "train_loss": 0.3066477144559224,
+      "train_runtime": 5458.1542,
+      "train_samples_per_second": 11.009,
+      "train_steps_per_second": 0.689
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 3760,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.236882326923493e+18,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cbc6823f1b8fc2cafb224615fb00a28d0ccaf5fb479b54dd4dc994321c5e771e
+size 5176