Upload model

Browse files

Files changed (4) hide show

config.json +2 -3
model-00001-of-00002.safetensors +2 -2
model-00002-of-00002.safetensors +2 -2
model.safetensors.index.json +33 -33

config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "_name_or_path": "mistralai/Mixtral-8x7B-v0.1",
   "architectures": [
-    "MyModel"
   ],
   "attention_dropout": 0.0,
   "bos_token_id": 1,
@@ -21,11 +21,10 @@
   "rms_norm_eps": 1e-05,
   "rope_theta": 1000000.0,
   "router_aux_loss_coef": 0.02,
-  "router_jitter_noise": 0.0,
   "sliding_window": null,
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
-  "transformers_version": "4.40.2",
   "use_cache": true,
   "vocab_size": 32000
 }

 {
   "_name_or_path": "mistralai/Mixtral-8x7B-v0.1",
   "architectures": [
+    "MyModelForCausalLM"
   ],
   "attention_dropout": 0.0,
   "bos_token_id": 1,
   "rms_norm_eps": 1e-05,
   "rope_theta": 1000000.0,
   "router_aux_loss_coef": 0.02,
   "sliding_window": null,
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
+  "transformers_version": "4.39.3",
   "use_cache": true,
   "vocab_size": 32000
 }

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad28dc81f970598a6152b029a9834c4ddb73709f7a80766b75048104500a6aa7
-size 4920052576

 version https://git-lfs.github.com/spec/v1
+oid sha256:0befbb0f84e298c5eed4fc1ffebb19ce6855dd57431d2b4e6a0e917809b87656
+size 4920052720

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:098d3a70edc491f5a049e2ff8b053013d72dfae9eb74e0eead26623004964b9f
-size 1409336368

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b9f788219adf59dc4aab4f4b54f331f4a6481ffb17b96ae6c002e65b8469614
+size 1409336424

model.safetensors.index.json CHANGED Viewed

@@ -3,38 +3,38 @@
     "total_size": 6329384960
   },
   "weight_map": {
-    "embed_tokens.weight": "model-00001-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.0.w1.weight": "model-00001-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.0.w2.weight": "model-00001-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.0.w3.weight": "model-00001-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.1.w1.weight": "model-00001-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.1.w2.weight": "model-00001-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.1.w3.weight": "model-00001-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.2.w1.weight": "model-00001-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.2.w2.weight": "model-00001-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.2.w3.weight": "model-00001-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.3.w1.weight": "model-00001-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.3.w2.weight": "model-00001-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.3.w3.weight": "model-00001-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.4.w1.weight": "model-00001-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.4.w2.weight": "model-00001-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.4.w3.weight": "model-00001-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.5.w1.weight": "model-00001-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.5.w2.weight": "model-00001-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.5.w3.weight": "model-00001-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.6.w1.weight": "model-00002-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.6.w2.weight": "model-00002-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.6.w3.weight": "model-00002-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.7.w1.weight": "model-00002-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.7.w2.weight": "model-00002-of-00002.safetensors",
-    "layers.0.block_sparse_moe.experts.7.w3.weight": "model-00002-of-00002.safetensors",
-    "layers.0.block_sparse_moe.gate.weight": "model-00001-of-00002.safetensors",
-    "layers.0.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "layers.0.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "norm.weight": "model-00002-of-00002.safetensors"
   }
 }

     "total_size": 6329384960
   },
   "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.0.w1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.0.w2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.0.w3.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.1.w1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.1.w2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.1.w3.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.2.w1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.2.w2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.2.w3.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.3.w1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.3.w2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.3.w3.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.4.w1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.4.w2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.4.w3.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.5.w1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.5.w2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.5.w3.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.6.w1.weight": "model-00002-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.6.w2.weight": "model-00002-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.6.w3.weight": "model-00002-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.7.w1.weight": "model-00002-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.7.w2.weight": "model-00002-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.experts.7.w3.weight": "model-00002-of-00002.safetensors",
+    "model.layers.0.block_sparse_moe.gate.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
   }
 }