lapp0 commited on Sep 12, 2024

Commit

9d9373e

verified ·

1 Parent(s): ebcf046

Training in progress, step 5000

Browse files

Files changed (20) hide show

config.json +30 -0
logs/attn_projector=mlp, per_device_train_batch_size=16, run_name=baseline/events.out.tfevents.1726125837.46d00238c241 +3 -0
logs/attn_projector=mlp, per_device_train_batch_size=16, run_name=baseline/events.out.tfevents.1726126116.46d00238c241 +3 -0
logs/attn_projector=mlp, per_device_train_batch_size=16, run_name=baseline/events.out.tfevents.1726126356.46d00238c241 +3 -0
logs/attn_projector=mlp, per_device_train_batch_size=16, run_name=baseline/events.out.tfevents.1726126751.46d00238c241 +3 -0
logs/attn_projector=mlp, per_device_train_batch_size=16, run_name=baseline/events.out.tfevents.1726127405.46d00238c241 +3 -0
logs/attn_projector=mlp, per_device_train_batch_size=2, run_name=bs2/events.out.tfevents.1726128095.46d00238c241 +3 -0
logs/attn_projector=mlp, per_device_train_batch_size=4, run_name=bs4/events.out.tfevents.1726127230.46d00238c241 +3 -0
logs/attn_projector=mlp, per_device_train_batch_size=4, run_name=bs4/events.out.tfevents.1726127685.46d00238c241 +3 -0
logs/attn_projector=mlp, per_device_train_batch_size=4, run_name=bs4/events.out.tfevents.1726127917.46d00238c241 +3 -0
logs/attn_projector=mlp, per_device_train_batch_size=8, run_name=bs8/events.out.tfevents.1726125924.46d00238c241 +3 -0
logs/attn_projector=mlp, per_device_train_batch_size=8, run_name=bs8/events.out.tfevents.1726126568.46d00238c241 +3 -0
logs/attn_projector=mlp, per_device_train_batch_size=8, run_name=bs8/events.out.tfevents.1726126928.46d00238c241 +3 -0
merges.txt +0 -0
model.safetensors +3 -0
special_tokens_map.json +43 -0
tokenizer.json +0 -0
tokenizer_config.json +168 -0
training_args.bin +3 -0
vocab.json +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "HuggingFaceTB/SmolLM-135M",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "eos_token_id": 0,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 576,
+  "initializer_range": 0.02,
+  "intermediate_size": 1536,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 9,
+  "num_hidden_layers": 15,
+  "num_key_value_heads": 3,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.45.0.dev0",
+  "use_cache": false,
+  "vocab_size": 49152
+}

logs/attn_projector=mlp, per_device_train_batch_size=16, run_name=baseline/events.out.tfevents.1726125837.46d00238c241 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b3eef802625209a9d13aae59c4deca16316e0cf3805ec6e484f12e3d6cd94eac
+size 5318

logs/attn_projector=mlp, per_device_train_batch_size=16, run_name=baseline/events.out.tfevents.1726126116.46d00238c241 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4988ef61ea507ed6c37208acd1351265d08320349a748d1fd2dff3b6716ef8b3
+size 5318

logs/attn_projector=mlp, per_device_train_batch_size=16, run_name=baseline/events.out.tfevents.1726126356.46d00238c241 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27161704e6be7c72b53306b959ca40cb00fd5984f691a751bb6df5336844b433
+size 5574

logs/attn_projector=mlp, per_device_train_batch_size=16, run_name=baseline/events.out.tfevents.1726126751.46d00238c241 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:88bbe25c95f3dcf87706e64bed775efb253dac6dd7df20c446571afa51dad325
+size 5574

logs/attn_projector=mlp, per_device_train_batch_size=16, run_name=baseline/events.out.tfevents.1726127405.46d00238c241 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6707ac7f04e2244efe61a959a6d2fb029277af7e08f2de938296be8f07bd07ce
+size 5121

logs/attn_projector=mlp, per_device_train_batch_size=2, run_name=bs2/events.out.tfevents.1726128095.46d00238c241 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f835f0a845f3f0383996d1e0781f1e4949386f1410ea125c34803027224f0fe
+size 140507

logs/attn_projector=mlp, per_device_train_batch_size=4, run_name=bs4/events.out.tfevents.1726127230.46d00238c241 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87c0448b21e230a8a9909857709d4409b0607538d775d2d1d89a7ba3775df7e0
+size 5562

logs/attn_projector=mlp, per_device_train_batch_size=4, run_name=bs4/events.out.tfevents.1726127685.46d00238c241 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d691d9571e62d50e6cf4317d087a0ac0e483e1e76ddee4d9cd9a55a46349905a
+size 5109

logs/attn_projector=mlp, per_device_train_batch_size=4, run_name=bs4/events.out.tfevents.1726127917.46d00238c241 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:43b7950157d533c1dc8af7a1a21e7171480117c5a66693f11261c5669d0e5fd9
+size 5562

logs/attn_projector=mlp, per_device_train_batch_size=8, run_name=bs8/events.out.tfevents.1726125924.46d00238c241 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a02920e2b572164b0f36d11459fe426382de8ae872d04b71318e2e619b52d7d0
+size 5306

logs/attn_projector=mlp, per_device_train_batch_size=8, run_name=bs8/events.out.tfevents.1726126568.46d00238c241 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:75347809240a44e70dc31a242b9446dcbf6af120e689f445611100154a74e418
+size 5109

logs/attn_projector=mlp, per_device_train_batch_size=8, run_name=bs8/events.out.tfevents.1726126928.46d00238c241 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f3be0bb692d9ca70fdb3efefd6b3a5d1ead5d6ac069a61150bf86261cde5f9f
+size 5562

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:758e8b0c126519e750321e94527c062b6eaa4950bfabaaa9eb81bf45d5dfa8e8
+size 162842416

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<|im_start|>",
+    "<|im_end|>",
+    "<repo_name>",
+    "<reponame>",
+    "<file_sep>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<jupyter_script>",
+    "<empty_output>"
+  ],
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|endoftext|>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,168 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<repo_name>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<reponame>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<file_sep>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "<filename>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<gh_stars>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "8": {
+      "content": "<issue_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "9": {
+      "content": "<issue_comment>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "10": {
+      "content": "<issue_closed>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "11": {
+      "content": "<jupyter_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "12": {
+      "content": "<jupyter_text>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "13": {
+      "content": "<jupyter_code>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "14": {
+      "content": "<jupyter_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "15": {
+      "content": "<jupyter_script>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "16": {
+      "content": "<empty_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<|im_start|>",
+    "<|im_end|>",
+    "<repo_name>",
+    "<reponame>",
+    "<file_sep>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<jupyter_script>",
+    "<empty_output>"
+  ],
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>",
+  "vocab_size": 49152
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:738e9326fbb30717baf30f64578731beac353bb8abd9108ce8783db4565fa56e
+size 5368

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff