End of training

Browse files

Files changed (11) hide show

README.md +114 -0
all_results.json +12 -0
config.json +77 -0
eval_results.json +8 -0
model.safetensors +3 -0
preprocessor_config.json +28 -0
runs/Oct11_08-45-26_DESKTOP-SKBE9FB/events.out.tfevents.1728657927.DESKTOP-SKBE9FB.18060.0 +3 -0
runs/Oct11_08-45-26_DESKTOP-SKBE9FB/events.out.tfevents.1728658641.DESKTOP-SKBE9FB.18060.1 +3 -0
train_results.json +7 -0
trainer_state.json +483 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,114 @@

+---
+license: apache-2.0
+base_model: microsoft/beit-base-patch16-224
+tags:
+- generated_from_trainer
+datasets:
+- imagefolder
+metrics:
+- accuracy
+model-index:
+- name: beit-base-patch16-224-OT
+  results:
+  - task:
+      name: Image Classification
+      type: image-classification
+    dataset:
+      name: imagefolder
+      type: imagefolder
+      config: default
+      split: train
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.9516129032258065
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# beit-base-patch16-224-OT
+This model is a fine-tuned version of [microsoft/beit-base-patch16-224](https://huggingface.co/microsoft/beit-base-patch16-224) on the imagefolder dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.3612
+- Accuracy: 0.9516
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 40
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|
+| No log        | 0.91  | 5    | 1.3762          | 0.4677   |
+| 1.3741        | 2.0   | 11   | 1.3227          | 0.4516   |
+| 1.3741        | 2.91  | 16   | 1.2451          | 0.4516   |
+| 1.2883        | 4.0   | 22   | 1.1303          | 0.5484   |
+| 1.2883        | 4.91  | 27   | 1.0044          | 0.7419   |
+| 1.1053        | 6.0   | 33   | 0.8687          | 0.7581   |
+| 1.1053        | 6.91  | 38   | 0.7694          | 0.8387   |
+| 0.917         | 8.0   | 44   | 0.6563          | 0.8065   |
+| 0.917         | 8.91  | 49   | 0.5870          | 0.8710   |
+| 0.7172        | 10.0  | 55   | 0.5842          | 0.7903   |
+| 0.5924        | 10.91 | 60   | 0.4820          | 0.8710   |
+| 0.5924        | 12.0  | 66   | 0.5346          | 0.8065   |
+| 0.5272        | 12.91 | 71   | 0.3612          | 0.9516   |
+| 0.5272        | 14.0  | 77   | 0.3838          | 0.9194   |
+| 0.4901        | 14.91 | 82   | 0.4009          | 0.9032   |
+| 0.4901        | 16.0  | 88   | 0.3721          | 0.8548   |
+| 0.47          | 16.91 | 93   | 0.4358          | 0.8710   |
+| 0.47          | 18.0  | 99   | 0.3734          | 0.8710   |
+| 0.4714        | 18.91 | 104  | 0.4338          | 0.8548   |
+| 0.3805        | 20.0  | 110  | 0.4152          | 0.8548   |
+| 0.3805        | 20.91 | 115  | 0.3676          | 0.9194   |
+| 0.388         | 22.0  | 121  | 0.3727          | 0.8871   |
+| 0.388         | 22.91 | 126  | 0.3751          | 0.8871   |
+| 0.3868        | 24.0  | 132  | 0.4173          | 0.8548   |
+| 0.3868        | 24.91 | 137  | 0.3992          | 0.8710   |
+| 0.3399        | 26.0  | 143  | 0.3749          | 0.8871   |
+| 0.3399        | 26.91 | 148  | 0.4060          | 0.8548   |
+| 0.3271        | 28.0  | 154  | 0.3926          | 0.9032   |
+| 0.3271        | 28.91 | 159  | 0.3731          | 0.8710   |
+| 0.3299        | 30.0  | 165  | 0.3836          | 0.8710   |
+| 0.3114        | 30.91 | 170  | 0.4074          | 0.8871   |
+| 0.3114        | 32.0  | 176  | 0.4274          | 0.8548   |
+| 0.2738        | 32.91 | 181  | 0.3812          | 0.8710   |
+| 0.2738        | 34.0  | 187  | 0.3795          | 0.8710   |
+| 0.2906        | 34.91 | 192  | 0.3813          | 0.8710   |
+| 0.2906        | 36.0  | 198  | 0.3886          | 0.8710   |
+| 0.2623        | 36.36 | 200  | 0.3893          | 0.8710   |
+### Framework versions
+- Transformers 4.36.2
+- Pytorch 2.1.2+cu118
+- Datasets 2.16.1
+- Tokenizers 0.15.0

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 36.36,
+    "eval_accuracy": 0.9516129032258065,
+    "eval_loss": 0.3612264096736908,
+    "eval_runtime": 2.3956,
+    "eval_samples_per_second": 25.881,
+    "eval_steps_per_second": 1.67,
+    "train_loss": 0.5621715986728668,
+    "train_runtime": 710.3552,
+    "train_samples_per_second": 19.708,
+    "train_steps_per_second": 0.282
+}

config.json ADDED Viewed

	@@ -0,0 +1,77 @@

+{
+  "_name_or_path": "microsoft/beit-base-patch16-224",
+  "add_fpn": false,
+  "architectures": [
+    "BeitForImageClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "auxiliary_channels": 256,
+  "auxiliary_concat_input": false,
+  "auxiliary_loss_weight": 0.4,
+  "auxiliary_num_convs": 1,
+  "drop_path_rate": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "active",
+    "1": "active-inactive",
+    "2": "healthy",
+    "3": "inactive"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "active": 0,
+    "active-inactive": 1,
+    "healthy": 2,
+    "inactive": 3
+  },
+  "layer_norm_eps": 1e-12,
+  "layer_scale_init_value": 0.1,
+  "model_type": "beit",
+  "num_attention_heads": 12,
+  "num_channels": 3,
+  "num_hidden_layers": 12,
+  "out_features": [
+    "stage12"
+  ],
+  "out_indices": [
+    12
+  ],
+  "patch_size": 16,
+  "pool_scales": [
+    1,
+    2,
+    3,
+    6
+  ],
+  "problem_type": "single_label_classification",
+  "reshape_hidden_states": true,
+  "semantic_loss_ignore_index": 255,
+  "stage_names": [
+    "stem",
+    "stage1",
+    "stage2",
+    "stage3",
+    "stage4",
+    "stage5",
+    "stage6",
+    "stage7",
+    "stage8",
+    "stage9",
+    "stage10",
+    "stage11",
+    "stage12"
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.36.2",
+  "use_absolute_position_embeddings": false,
+  "use_auxiliary_head": true,
+  "use_mask_token": false,
+  "use_mean_pooling": true,
+  "use_relative_position_bias": true,
+  "use_shared_relative_position_bias": false,
+  "vocab_size": 8192
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 36.36,
+    "eval_accuracy": 0.9516129032258065,
+    "eval_loss": 0.3612264096736908,
+    "eval_runtime": 2.3956,
+    "eval_samples_per_second": 25.881,
+    "eval_steps_per_second": 1.67
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:23220a29cc3b4446a2dcd735efa89fcef1b29bc9e721cd6ddaf860cf1880ecd4
+size 343086480

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "crop_size": {
+    "height": 224,
+    "width": 224
+  },
+  "do_center_crop": false,
+  "do_normalize": true,
+  "do_reduce_labels": false,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "BeitImageProcessor",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 224,
+    "width": 224
+  }
+}

runs/Oct11_08-45-26_DESKTOP-SKBE9FB/events.out.tfevents.1728657927.DESKTOP-SKBE9FB.18060.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:50ced0b9ad16f51f3a464368c35590811a68c8887c686390cd0769047548cbd4
+size 20592

runs/Oct11_08-45-26_DESKTOP-SKBE9FB/events.out.tfevents.1728658641.DESKTOP-SKBE9FB.18060.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6eb8e2e89d3087995d9e245bf0f3c63049449a31430295bd0ea97c935399cda
+size 411

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 36.36,
+    "train_loss": 0.5621715986728668,
+    "train_runtime": 710.3552,
+    "train_samples_per_second": 19.708,
+    "train_steps_per_second": 0.282
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,483 @@

+{
+  "best_metric": 0.9516129032258065,
+  "best_model_checkpoint": "beit-base-patch16-224-OT\\checkpoint-71",
+  "epoch": 36.36363636363637,
+  "eval_steps": 500,
+  "global_step": 200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.91,
+      "eval_accuracy": 0.46774193548387094,
+      "eval_loss": 1.3762497901916504,
+      "eval_runtime": 2.8175,
+      "eval_samples_per_second": 22.005,
+      "eval_steps_per_second": 1.42,
+      "step": 5
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 2.5e-05,
+      "loss": 1.3741,
+      "step": 10
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 1.3226698637008667,
+      "eval_runtime": 2.2236,
+      "eval_samples_per_second": 27.883,
+      "eval_steps_per_second": 1.799,
+      "step": 11
+    },
+    {
+      "epoch": 2.91,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 1.24508798122406,
+      "eval_runtime": 2.225,
+      "eval_samples_per_second": 27.865,
+      "eval_steps_per_second": 1.798,
+      "step": 16
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 5e-05,
+      "loss": 1.2883,
+      "step": 20
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5483870967741935,
+      "eval_loss": 1.130311131477356,
+      "eval_runtime": 2.234,
+      "eval_samples_per_second": 27.753,
+      "eval_steps_per_second": 1.79,
+      "step": 22
+    },
+    {
+      "epoch": 4.91,
+      "eval_accuracy": 0.7419354838709677,
+      "eval_loss": 1.0044282674789429,
+      "eval_runtime": 2.195,
+      "eval_samples_per_second": 28.246,
+      "eval_steps_per_second": 1.822,
+      "step": 27
+    },
+    {
+      "epoch": 5.45,
+      "learning_rate": 4.722222222222222e-05,
+      "loss": 1.1053,
+      "step": 30
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.7580645161290323,
+      "eval_loss": 0.8687154054641724,
+      "eval_runtime": 2.2426,
+      "eval_samples_per_second": 27.647,
+      "eval_steps_per_second": 1.784,
+      "step": 33
+    },
+    {
+      "epoch": 6.91,
+      "eval_accuracy": 0.8387096774193549,
+      "eval_loss": 0.7693949937820435,
+      "eval_runtime": 2.2431,
+      "eval_samples_per_second": 27.641,
+      "eval_steps_per_second": 1.783,
+      "step": 38
+    },
+    {
+      "epoch": 7.27,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.917,
+      "step": 40
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8064516129032258,
+      "eval_loss": 0.6563238501548767,
+      "eval_runtime": 2.2236,
+      "eval_samples_per_second": 27.883,
+      "eval_steps_per_second": 1.799,
+      "step": 44
+    },
+    {
+      "epoch": 8.91,
+      "eval_accuracy": 0.8709677419354839,
+      "eval_loss": 0.5869693756103516,
+      "eval_runtime": 2.3196,
+      "eval_samples_per_second": 26.729,
+      "eval_steps_per_second": 1.724,
+      "step": 49
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.7172,
+      "step": 50
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.7903225806451613,
+      "eval_loss": 0.584214448928833,
+      "eval_runtime": 2.3149,
+      "eval_samples_per_second": 26.783,
+      "eval_steps_per_second": 1.728,
+      "step": 55
+    },
+    {
+      "epoch": 10.91,
+      "learning_rate": 3.888888888888889e-05,
+      "loss": 0.5924,
+      "step": 60
+    },
+    {
+      "epoch": 10.91,
+      "eval_accuracy": 0.8709677419354839,
+      "eval_loss": 0.48196569085121155,
+      "eval_runtime": 2.3395,
+      "eval_samples_per_second": 26.502,
+      "eval_steps_per_second": 1.71,
+      "step": 60
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.8064516129032258,
+      "eval_loss": 0.5345528721809387,
+      "eval_runtime": 2.3902,
+      "eval_samples_per_second": 25.939,
+      "eval_steps_per_second": 1.673,
+      "step": 66
+    },
+    {
+      "epoch": 12.73,
+      "learning_rate": 3.611111111111111e-05,
+      "loss": 0.5272,
+      "step": 70
+    },
+    {
+      "epoch": 12.91,
+      "eval_accuracy": 0.9516129032258065,
+      "eval_loss": 0.3612264096736908,
+      "eval_runtime": 2.3361,
+      "eval_samples_per_second": 26.54,
+      "eval_steps_per_second": 1.712,
+      "step": 71
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.9193548387096774,
+      "eval_loss": 0.3838379383087158,
+      "eval_runtime": 2.2534,
+      "eval_samples_per_second": 27.514,
+      "eval_steps_per_second": 1.775,
+      "step": 77
+    },
+    {
+      "epoch": 14.55,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.4901,
+      "step": 80
+    },
+    {
+      "epoch": 14.91,
+      "eval_accuracy": 0.9032258064516129,
+      "eval_loss": 0.4009224772453308,
+      "eval_runtime": 2.2625,
+      "eval_samples_per_second": 27.403,
+      "eval_steps_per_second": 1.768,
+      "step": 82
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.8548387096774194,
+      "eval_loss": 0.37214234471321106,
+      "eval_runtime": 2.4086,
+      "eval_samples_per_second": 25.741,
+      "eval_steps_per_second": 1.661,
+      "step": 88
+    },
+    {
+      "epoch": 16.36,
+      "learning_rate": 3.055555555555556e-05,
+      "loss": 0.47,
+      "step": 90
+    },
+    {
+      "epoch": 16.91,
+      "eval_accuracy": 0.8709677419354839,
+      "eval_loss": 0.4357836842536926,
+      "eval_runtime": 2.5957,
+      "eval_samples_per_second": 23.886,
+      "eval_steps_per_second": 1.541,
+      "step": 93
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.8709677419354839,
+      "eval_loss": 0.37337055802345276,
+      "eval_runtime": 2.4276,
+      "eval_samples_per_second": 25.54,
+      "eval_steps_per_second": 1.648,
+      "step": 99
+    },
+    {
+      "epoch": 18.18,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.4714,
+      "step": 100
+    },
+    {
+      "epoch": 18.91,
+      "eval_accuracy": 0.8548387096774194,
+      "eval_loss": 0.433827668428421,
+      "eval_runtime": 2.4386,
+      "eval_samples_per_second": 25.425,
+      "eval_steps_per_second": 1.64,
+      "step": 104
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 2.5e-05,
+      "loss": 0.3805,
+      "step": 110
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.8548387096774194,
+      "eval_loss": 0.4151618480682373,
+      "eval_runtime": 2.4116,
+      "eval_samples_per_second": 25.709,
+      "eval_steps_per_second": 1.659,
+      "step": 110
+    },
+    {
+      "epoch": 20.91,
+      "eval_accuracy": 0.9193548387096774,
+      "eval_loss": 0.3676328957080841,
+      "eval_runtime": 2.4661,
+      "eval_samples_per_second": 25.141,
+      "eval_steps_per_second": 1.622,
+      "step": 115
+    },
+    {
+      "epoch": 21.82,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.388,
+      "step": 120
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.8870967741935484,
+      "eval_loss": 0.37274670600891113,
+      "eval_runtime": 2.2672,
+      "eval_samples_per_second": 27.346,
+      "eval_steps_per_second": 1.764,
+      "step": 121
+    },
+    {
+      "epoch": 22.91,
+      "eval_accuracy": 0.8870967741935484,
+      "eval_loss": 0.3750571012496948,
+      "eval_runtime": 2.2295,
+      "eval_samples_per_second": 27.809,
+      "eval_steps_per_second": 1.794,
+      "step": 126
+    },
+    {
+      "epoch": 23.64,
+      "learning_rate": 1.9444444444444445e-05,
+      "loss": 0.3868,
+      "step": 130
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.8548387096774194,
+      "eval_loss": 0.41731569170951843,
+      "eval_runtime": 2.2686,
+      "eval_samples_per_second": 27.33,
+      "eval_steps_per_second": 1.763,
+      "step": 132
+    },
+    {
+      "epoch": 24.91,
+      "eval_accuracy": 0.8709677419354839,
+      "eval_loss": 0.39922547340393066,
+      "eval_runtime": 2.2725,
+      "eval_samples_per_second": 27.282,
+      "eval_steps_per_second": 1.76,
+      "step": 137
+    },
+    {
+      "epoch": 25.45,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.3399,
+      "step": 140
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.8870967741935484,
+      "eval_loss": 0.37487953901290894,
+      "eval_runtime": 2.3296,
+      "eval_samples_per_second": 26.614,
+      "eval_steps_per_second": 1.717,
+      "step": 143
+    },
+    {
+      "epoch": 26.91,
+      "eval_accuracy": 0.8548387096774194,
+      "eval_loss": 0.405973881483078,
+      "eval_runtime": 2.3056,
+      "eval_samples_per_second": 26.892,
+      "eval_steps_per_second": 1.735,
+      "step": 148
+    },
+    {
+      "epoch": 27.27,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.3271,
+      "step": 150
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.9032258064516129,
+      "eval_loss": 0.3926439583301544,
+      "eval_runtime": 2.2655,
+      "eval_samples_per_second": 27.367,
+      "eval_steps_per_second": 1.766,
+      "step": 154
+    },
+    {
+      "epoch": 28.91,
+      "eval_accuracy": 0.8709677419354839,
+      "eval_loss": 0.37314102053642273,
+      "eval_runtime": 2.3972,
+      "eval_samples_per_second": 25.864,
+      "eval_steps_per_second": 1.669,
+      "step": 159
+    },
+    {
+      "epoch": 29.09,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.3299,
+      "step": 160
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.8709677419354839,
+      "eval_loss": 0.3835797905921936,
+      "eval_runtime": 2.233,
+      "eval_samples_per_second": 27.765,
+      "eval_steps_per_second": 1.791,
+      "step": 165
+    },
+    {
+      "epoch": 30.91,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.3114,
+      "step": 170
+    },
+    {
+      "epoch": 30.91,
+      "eval_accuracy": 0.8870967741935484,
+      "eval_loss": 0.4074338376522064,
+      "eval_runtime": 2.241,
+      "eval_samples_per_second": 27.666,
+      "eval_steps_per_second": 1.785,
+      "step": 170
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.8548387096774194,
+      "eval_loss": 0.42735350131988525,
+      "eval_runtime": 2.228,
+      "eval_samples_per_second": 27.827,
+      "eval_steps_per_second": 1.795,
+      "step": 176
+    },
+    {
+      "epoch": 32.73,
+      "learning_rate": 5.555555555555556e-06,
+      "loss": 0.2738,
+      "step": 180
+    },
+    {
+      "epoch": 32.91,
+      "eval_accuracy": 0.8709677419354839,
+      "eval_loss": 0.38117459416389465,
+      "eval_runtime": 2.2701,
+      "eval_samples_per_second": 27.312,
+      "eval_steps_per_second": 1.762,
+      "step": 181
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.8709677419354839,
+      "eval_loss": 0.3795369863510132,
+      "eval_runtime": 2.4211,
+      "eval_samples_per_second": 25.608,
+      "eval_steps_per_second": 1.652,
+      "step": 187
+    },
+    {
+      "epoch": 34.55,
+      "learning_rate": 2.777777777777778e-06,
+      "loss": 0.2906,
+      "step": 190
+    },
+    {
+      "epoch": 34.91,
+      "eval_accuracy": 0.8709677419354839,
+      "eval_loss": 0.3813425898551941,
+      "eval_runtime": 2.193,
+      "eval_samples_per_second": 28.271,
+      "eval_steps_per_second": 1.824,
+      "step": 192
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.8709677419354839,
+      "eval_loss": 0.3886435031890869,
+      "eval_runtime": 2.16,
+      "eval_samples_per_second": 28.703,
+      "eval_steps_per_second": 1.852,
+      "step": 198
+    },
+    {
+      "epoch": 36.36,
+      "learning_rate": 0.0,
+      "loss": 0.2623,
+      "step": 200
+    },
+    {
+      "epoch": 36.36,
+      "eval_accuracy": 0.8709677419354839,
+      "eval_loss": 0.38933122158050537,
+      "eval_runtime": 2.292,
+      "eval_samples_per_second": 27.05,
+      "eval_steps_per_second": 1.745,
+      "step": 200
+    },
+    {
+      "epoch": 36.36,
+      "step": 200,
+      "total_flos": 9.859141601338982e+17,
+      "train_loss": 0.5621715986728668,
+      "train_runtime": 710.3552,
+      "train_samples_per_second": 19.708,
+      "train_steps_per_second": 0.282
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 200,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 40,
+  "save_steps": 500,
+  "total_flos": 9.859141601338982e+17,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eae6eb305d4a1fc3c2e6aed49550e5bc84aa5e9c875af70f1e0b8abb96e87781
+size 4728