Initial Upload

Browse files

Files changed (15) hide show

LICENSE.md +11 -0
README.md +90 -3
added_tokens.json +5 -0
config.json +64 -0
configuration_italia.py +18 -0
generation_config.json +8 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +826 -0
modeling_italia.py +71 -0
quantize_config.json +25 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +68 -0

LICENSE.md ADDED Viewed

	@@ -0,0 +1,11 @@

+iGenius
+Copyright (c) 2024, iGenius S.p.A.
+MIT License
+È concessa l'autorizzazione, gratuitamente, a chiunque di ottenere una copia di Modello Italia e dei file di documentazione associati, di utilizzare Modello Italia senza restrizioni, inclusi senza limitazione i diritti di utilizzare, copiare, modificare, unire, pubblicare, distribuire, concedere in sublicenza e/o vendere copie di Modello Italia, e di consentire alle persone a cui Modello Italia è fornito di farlo, nelle condizioni seguenti:
+Il presente avviso di copyright e il presente avviso di autorizzazione saranno inclusi in tutte le copie o parti sostanziali di Modello Italia.
+IL MODELLO VIENE FORNITO "COSÌ COM'È", SENZA GARANZIE DI ALCUN TIPO, ESPRESSE O IMPLICITE, INCLUSO MA NON LIMITATO A GARANZIE DI COMMERCIABILITÀ, IDONEITÀ PER UN PARTICOLARE SCOPO E NON VIOLAZIONE. IN NESSUN CASO GLI AUTORI O I TITOLARI DEL COPYRIGHT SARANNO RESPONSABILI PER QUALSIASI RICHIESTA, DANNO O ALTRA RESPONSABILITÀ, IN CASO DI AZIONE DI CONTRATTO, TORTO O ALTRIMENTI, DERIVANTE DA, FUORI O IN CONNESSIONE CON IL SOFTWARE O L'USO O ALTRI AFFARI NEL SOFTWARE.

README.md CHANGED Viewed

@@ -1,3 +1,90 @@
----
-license: mit
----

+---
+language:
+- it
+tags:
+- pretrained
+- pytorch
+- causal-lm
+- autoround
+- intel-autoround
+- woq
+- gptq
+- autogptq
+- auto-gptq
+- intel
+- italia
+- italiano
+- italian
+license: mit
+license_link: https://huggingface.co/iGeniusAI/Italia-9B-Instruct-v0.1/blob/main/LICENSE
+model_name: Italia 9B Instruct v0.1
+base_model:
+- iGeniusAI/Italia-9B-Instruct-v0.1
+inference: false
+model_creator: iGeniusAI
+pipeline_tag: text-generation
+prompt_template: '{prompt}
+  '
+quantized_by: fbaldassarri
+---
+## Model Information
+Quantized version of [iGeniusAI/Italia-9B-Instruct-v0.1](https://huggingface.co/iGeniusAI/Italia-9B-Instruct-v0.1) using torch.float32 for quantization tuning.
+- 4 bits (INT4)
+- group size = 128
+- Symmetrical Quantization
+- Method AutoGPTQ
+Quantization framework: [Intel AutoRound](https://github.com/intel/auto-round) v0.4.3
+Note: this INT4 version of Italia-9B-Instruct-v0.1 has been quantized to run inference through CPU.
+## Replication Recipe
+### Step 1 Install Requirements
+I suggest to install requirements into a dedicated python-virtualenv or a conda enviroment.
+```
+wget https://github.com/intel/auto-round/archive/refs/tags/v0.4.3.tar.gz
+tar -xvzf v0.4.3.tar.gz
+cd auto-round-0.4.3
+pip install -r requirements-cpu.txt --upgrade
+```
+### Step 2 Build Intel AutoRound wheel from sources
+```
+pip install -vvv --no-build-isolation -e .[cpu]
+```
+### Step 3 Script for Quantization
+```
+  from transformers import AutoModelForCausalLM, AutoTokenizer, GPTNeoXModel
+  model_name = "iGeniusAI/Italia-9B-Instruct-v0.1"
+  model = GPTNeoXModel.from_pretrained(model_name, trust_remote_code=True)
+  tokenizer = AutoTokenizer.from_pretrained(model_name)
+  from auto_round import AutoRound
+  bits, group_size, sym, device, amp = 4, 128, True, 'cpu', False
+  autoround = AutoRound(model, tokenizer, nsamples=128, iters=200, seqlen=512, batch_size=4, bits=bits, group_size=group_size, sym=sym, device=device, amp=amp)
+  autoround.quantize()
+  output_dir = "./AutoRound/iGeniusAI_Italia-9B-Instruct-v0.1-autogptq-int4-gs128-sym"
+  autoround.save_quantized(output_dir, format='auto_gptq', inplace=True)
+```
+Note: the `GPTNeoXSdpaAttention` class is deprecated in favor of simply modifying the `config._attn_implementation`attribute of the `GPTNeoXAttention` class. So this require transformers<4.48.
+## License
+[MIT](https://huggingface.co/iGeniusAI/Italia-9B-Instruct-v0.1/blob/main/LICENSE)
+## Disclaimer
+This quantized model comes with no warranty. It has been developed only for research purposes.
+## Potential Error
+Error on Layer 138: auto-gptq format may not support loading this quantized model.

added_tokens.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "<|assistant|>": 50000,
+  "<|system|>": 50001,
+  "<|user|>": 50002
+}

config.json ADDED Viewed

	@@ -0,0 +1,64 @@

+{
+  "_name_or_path": "iGeniusAI/Italia-9B-Instruct-v0.1",
+  "architectures": [
+    "GPTNeoXModel"
+  ],
+  "attention_bias": true,
+  "attention_dropout": 0.0,
+  "attention_probs_dropout_prob": 0,
+  "auto_map": {
+    "AutoConfig": "iGeniusAI/Italia-9B-Instruct-v0.1--configuration_italia.ItaliaConfig",
+    "AutoModel": "iGeniusAI/Italia-9B-Instruct-v0.1--modeling_italia.GPTNeoXModel",
+    "AutoModelForCausalLM": "iGeniusAI/Italia-9B-Instruct-v0.1--modeling_italia.ItaliaForCausalLM"
+  },
+  "bos_token_id": 1,
+  "classifier_dropout": 0.1,
+  "eos_token_id": 2,
+  "hidden_act": "gelu_new",
+  "hidden_dropout": 0.0,
+  "hidden_size": 5120,
+  "initializer_range": 0.01,
+  "intermediate_size": 12800,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 4096,
+  "model_type": "gpt_neox",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 34,
+  "partial_rotary_factor": 0.4,
+  "quantization_config": {
+    "amp": false,
+    "autoround_version": "0.4.3",
+    "batch_size": 4,
+    "bits": 4,
+    "block_name_to_quantize": "layers",
+    "damp_percent": 0.01,
+    "data_type": "int",
+    "desc_act": false,
+    "enable_minmax_tuning": true,
+    "enable_norm_bias_tuning": false,
+    "enable_quanted_input": true,
+    "gradient_accumulate_steps": 1,
+    "group_size": 128,
+    "iters": 200,
+    "low_gpu_mem_usage": false,
+    "lr": 0.005,
+    "minmax_lr": 0.005,
+    "nsamples": 128,
+    "quant_method": "gptq",
+    "scale_dtype": "torch.float16",
+    "seqlen": 512,
+    "sym": true,
+    "true_sequential": false
+  },
+  "rope_scaling": null,
+  "rope_theta": 10000,
+  "rotary_emb_base": 10000,
+  "rotary_pct": 0.4,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.47.1",
+  "unk_token_id": 0,
+  "use_cache": false,
+  "use_parallel_residual": true,
+  "vocab_size": 50176
+}

configuration_italia.py ADDED Viewed

	@@ -0,0 +1,18 @@

+from transformers.models.gpt_neox.configuration_gpt_neox import GPTNeoXConfig
+class ItaliaConfig(GPTNeoXConfig):
+    model_type = "italia"
+    keys_to_ignore_at_inference = ["past_key_values"]
+    def __init__(
+        self,
+        hidden_act="gelu_new",
+        *args,
+        **kwargs,
+    ):
+        super().__init__(
+            hidden_act=hidden_act,
+            *args,
+            **kwargs,
+        )

generation_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 2,
+  "transformers_version": "4.41.2",
+  "use_cache": false
+}

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fbed4eb0c0c52c1b1dadfe89a2b1192f3194724110bd3b38c62481dfcdd5ede9
+size 4999693840

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:608fae313a60351fcc88d0f8b5d611b6daae71aca6e3f6743435cdf9516afaab
+size 204742896

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,826 @@

+{
+  "metadata": {
+    "total_size": 5204346880
+  },
+  "weight_map": {
+    "embed_in.weight": "model-00001-of-00002.safetensors",
+    "final_layer_norm.bias": "model-00002-of-00002.safetensors",
+    "final_layer_norm.weight": "model-00002-of-00002.safetensors",
+    "layers.0.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.0.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.0.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.0.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.0.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.0.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.0.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.0.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.0.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.0.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.0.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.0.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.0.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.0.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.0.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.0.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.0.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.0.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.0.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.0.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.0.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.0.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.1.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.1.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.1.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.1.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.1.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.1.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.1.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.1.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.1.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.1.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.1.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.1.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.1.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.1.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.1.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.1.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.1.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.1.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.1.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.1.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.1.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.1.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.10.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.10.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.10.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.10.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.10.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.10.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.10.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.10.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.10.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.10.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.10.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.10.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.10.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.10.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.10.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.10.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.10.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.10.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.10.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.10.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.10.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.10.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.11.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.11.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.11.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.11.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.11.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.11.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.11.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.11.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.11.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.11.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.11.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.11.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.11.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.11.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.11.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.11.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.11.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.11.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.11.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.11.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.11.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.11.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.12.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.12.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.12.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.12.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.12.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.12.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.12.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.12.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.12.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.12.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.12.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.12.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.12.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.12.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.12.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.12.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.12.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.12.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.12.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.12.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.12.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.12.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.13.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.13.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.13.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.13.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.13.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.13.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.13.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.13.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.13.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.13.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.13.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.13.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.13.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.13.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.13.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.13.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.13.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.13.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.13.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.13.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.13.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.13.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.14.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.14.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.14.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.14.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.14.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.14.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.14.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.14.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.14.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.14.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.14.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.14.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.14.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.14.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.14.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.14.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.14.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.14.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.14.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.14.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.14.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.14.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.15.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.15.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.15.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.15.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.15.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.15.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.15.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.15.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.15.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.15.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.15.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.15.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.15.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.15.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.15.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.15.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.15.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.15.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.15.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.15.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.15.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.15.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.16.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.16.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.16.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.16.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.16.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.16.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.16.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.16.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.16.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.16.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.16.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.16.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.16.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.16.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.16.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.16.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.16.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.16.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.16.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.16.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.16.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.16.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.17.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.17.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.17.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.17.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.17.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.17.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.17.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.17.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.17.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.17.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.17.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.17.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.17.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.17.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.17.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.17.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.17.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.17.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.17.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.17.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.17.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.17.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.18.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.18.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.18.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.18.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.18.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.18.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.18.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.18.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.18.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.18.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.18.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.18.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.18.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.18.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.18.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.18.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.18.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.18.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.18.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.18.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.18.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.18.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.19.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.19.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.19.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.19.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.19.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.19.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.19.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.19.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.19.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.19.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.19.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.19.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.19.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.19.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.19.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.19.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.19.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.19.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.19.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.19.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.19.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.19.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.2.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.2.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.2.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.2.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.2.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.2.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.2.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.2.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.2.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.2.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.2.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.2.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.2.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.2.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.2.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.2.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.2.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.2.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.2.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.2.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.2.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.2.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.20.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.20.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.20.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.20.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.20.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.20.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.20.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.20.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.20.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.20.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.20.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.20.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.20.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.20.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.20.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.20.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.20.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.20.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.20.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.20.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.20.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.20.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.21.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.21.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.21.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.21.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.21.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.21.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.21.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.21.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.21.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.21.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.21.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.21.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.21.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.21.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.21.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.21.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.21.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.21.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.21.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.21.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.21.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.21.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.21.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.21.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.22.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.22.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.22.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.22.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.22.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.22.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.22.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.22.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.22.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.22.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.22.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.22.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.22.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.22.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.22.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.22.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.22.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.22.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.22.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.22.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.22.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.22.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.22.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.22.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.23.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.23.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.23.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.23.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.23.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.23.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.23.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.23.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.23.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.23.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.23.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.23.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.23.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.23.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.23.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.23.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.23.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.23.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.23.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.23.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.23.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.23.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.23.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.23.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.24.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.24.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.24.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.24.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.24.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.24.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.24.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.24.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.24.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.24.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.24.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.24.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.24.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.24.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.24.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.24.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.24.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.24.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.24.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.24.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.24.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.24.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.24.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.24.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.25.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.25.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.25.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.25.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.25.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.25.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.25.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.25.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.25.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.25.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.25.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.25.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.25.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.25.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.25.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.25.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.25.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.25.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.25.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.25.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.25.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.25.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.25.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.25.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.26.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.26.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.26.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.26.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.26.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.26.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.26.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.26.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.26.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.26.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.26.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.26.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.26.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.26.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.26.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.26.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.26.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.26.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.26.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.26.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.26.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.26.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.26.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.26.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.27.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.27.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.27.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.27.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.27.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.27.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.27.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.27.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.27.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.27.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.27.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.27.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.27.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.27.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.27.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.27.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.27.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.27.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.27.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.27.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.27.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.27.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.27.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.27.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.28.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.28.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.28.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.28.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.28.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.28.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.28.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.28.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.28.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.28.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.28.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.28.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.28.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.28.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.28.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.28.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.28.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.28.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.28.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.28.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.28.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.28.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.28.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.28.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.29.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.29.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.29.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.29.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.29.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.29.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.29.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.29.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.29.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.29.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.29.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.29.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.29.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.29.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.29.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.29.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.29.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.29.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.29.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.29.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.29.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.29.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.29.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.29.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.3.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.3.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.3.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.3.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.3.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.3.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.3.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.3.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.3.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.3.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.3.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.3.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.3.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.3.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.3.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.3.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.3.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.3.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.3.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.3.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.3.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.3.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.30.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.30.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.30.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.30.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.30.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.30.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.30.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.30.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.30.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.30.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.30.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.30.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.30.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.30.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.30.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.30.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.30.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.30.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.30.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.30.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.30.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.30.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.30.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.30.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.31.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.31.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.31.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.31.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.31.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.31.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.31.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.31.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.31.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.31.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.31.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.31.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.31.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.31.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.31.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.31.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.31.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.31.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.31.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.31.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.31.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.31.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.31.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.31.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.32.attention.dense.bias": "model-00002-of-00002.safetensors",
+    "layers.32.attention.dense.g_idx": "model-00002-of-00002.safetensors",
+    "layers.32.attention.dense.qweight": "model-00002-of-00002.safetensors",
+    "layers.32.attention.dense.qzeros": "model-00002-of-00002.safetensors",
+    "layers.32.attention.dense.scales": "model-00002-of-00002.safetensors",
+    "layers.32.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.32.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.32.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.32.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.32.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.32.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.32.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.32.mlp.dense_4h_to_h.bias": "model-00002-of-00002.safetensors",
+    "layers.32.mlp.dense_4h_to_h.g_idx": "model-00002-of-00002.safetensors",
+    "layers.32.mlp.dense_4h_to_h.qweight": "model-00002-of-00002.safetensors",
+    "layers.32.mlp.dense_4h_to_h.qzeros": "model-00002-of-00002.safetensors",
+    "layers.32.mlp.dense_4h_to_h.scales": "model-00002-of-00002.safetensors",
+    "layers.32.mlp.dense_h_to_4h.bias": "model-00002-of-00002.safetensors",
+    "layers.32.mlp.dense_h_to_4h.g_idx": "model-00002-of-00002.safetensors",
+    "layers.32.mlp.dense_h_to_4h.qweight": "model-00002-of-00002.safetensors",
+    "layers.32.mlp.dense_h_to_4h.qzeros": "model-00002-of-00002.safetensors",
+    "layers.32.mlp.dense_h_to_4h.scales": "model-00002-of-00002.safetensors",
+    "layers.32.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.32.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.33.attention.dense.bias": "model-00002-of-00002.safetensors",
+    "layers.33.attention.dense.g_idx": "model-00002-of-00002.safetensors",
+    "layers.33.attention.dense.qweight": "model-00002-of-00002.safetensors",
+    "layers.33.attention.dense.qzeros": "model-00002-of-00002.safetensors",
+    "layers.33.attention.dense.scales": "model-00002-of-00002.safetensors",
+    "layers.33.attention.query_key_value.bias": "model-00002-of-00002.safetensors",
+    "layers.33.attention.query_key_value.g_idx": "model-00002-of-00002.safetensors",
+    "layers.33.attention.query_key_value.qweight": "model-00002-of-00002.safetensors",
+    "layers.33.attention.query_key_value.qzeros": "model-00002-of-00002.safetensors",
+    "layers.33.attention.query_key_value.scales": "model-00002-of-00002.safetensors",
+    "layers.33.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "layers.33.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "layers.33.mlp.dense_4h_to_h.bias": "model-00002-of-00002.safetensors",
+    "layers.33.mlp.dense_4h_to_h.g_idx": "model-00002-of-00002.safetensors",
+    "layers.33.mlp.dense_4h_to_h.qweight": "model-00002-of-00002.safetensors",
+    "layers.33.mlp.dense_4h_to_h.qzeros": "model-00002-of-00002.safetensors",
+    "layers.33.mlp.dense_4h_to_h.scales": "model-00002-of-00002.safetensors",
+    "layers.33.mlp.dense_h_to_4h.bias": "model-00002-of-00002.safetensors",
+    "layers.33.mlp.dense_h_to_4h.g_idx": "model-00002-of-00002.safetensors",
+    "layers.33.mlp.dense_h_to_4h.qweight": "model-00002-of-00002.safetensors",
+    "layers.33.mlp.dense_h_to_4h.qzeros": "model-00002-of-00002.safetensors",
+    "layers.33.mlp.dense_h_to_4h.scales": "model-00002-of-00002.safetensors",
+    "layers.33.post_attention_layernorm.bias": "model-00002-of-00002.safetensors",
+    "layers.33.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "layers.4.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.4.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.4.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.4.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.4.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.4.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.4.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.4.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.4.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.4.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.4.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.4.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.4.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.4.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.4.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.4.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.4.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.4.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.4.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.4.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.4.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.4.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.5.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.5.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.5.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.5.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.5.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.5.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.5.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.5.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.5.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.5.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.5.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.5.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.5.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.5.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.5.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.5.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.5.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.5.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.5.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.5.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.5.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.5.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.6.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.6.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.6.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.6.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.6.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.6.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.6.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.6.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.6.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.6.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.6.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.6.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.6.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.6.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.6.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.6.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.6.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.6.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.6.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.6.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.6.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.6.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.7.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.7.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.7.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.7.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.7.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.7.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.7.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.7.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.7.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.7.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.7.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.7.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.7.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.7.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.7.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.7.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.7.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.7.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.7.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.7.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.7.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.7.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.8.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.8.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.8.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.8.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.8.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.8.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.8.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.8.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.8.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.8.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.8.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.8.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.8.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.8.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.8.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.8.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.8.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.8.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.8.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.8.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.8.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.8.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.9.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "layers.9.attention.dense.g_idx": "model-00001-of-00002.safetensors",
+    "layers.9.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "layers.9.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "layers.9.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "layers.9.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "layers.9.attention.query_key_value.g_idx": "model-00001-of-00002.safetensors",
+    "layers.9.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "layers.9.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "layers.9.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "layers.9.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "layers.9.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "layers.9.mlp.dense_4h_to_h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.9.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "layers.9.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.9.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "layers.9.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "layers.9.mlp.dense_h_to_4h.g_idx": "model-00001-of-00002.safetensors",
+    "layers.9.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "layers.9.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "layers.9.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "layers.9.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors"
+  }
+}

modeling_italia.py ADDED Viewed

	@@ -0,0 +1,71 @@

+from typing import Optional, Tuple
+import torch
+from torch import nn
+from .configuration_italia import ItaliaConfig
+from transformers.models.gpt_neox import modeling_gpt_neox
+# inject a GPTNeoXLayer no post layer norm
+class GPTNeoXLayer(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.use_parallel_residual = config.use_parallel_residual
+        self.input_layernorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+        self.post_attention_dropout = nn.Dropout(config.hidden_dropout)
+        self.post_mlp_dropout = nn.Dropout(config.hidden_dropout)
+        self.attention = modeling_gpt_neox.GPT_NEOX_ATTENTION_CLASSES[config._attn_implementation](config)
+        self.mlp = modeling_gpt_neox.GPTNeoXMLP(config)
+    def forward(
+        self,
+        hidden_states: Optional[torch.FloatTensor],
+        attention_mask: Optional[torch.FloatTensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        head_mask: Optional[torch.FloatTensor] = None,
+        use_cache: Optional[bool] = False,
+        layer_past: Optional[Tuple[torch.Tensor]] = None,
+        output_attentions: Optional[bool] = False,
+    ):
+        attention_layer_outputs = self.attention(
+            self.input_layernorm(hidden_states),
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            layer_past=layer_past,
+            head_mask=head_mask,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+        )
+        attn_output = attention_layer_outputs[0]  # output_attn: attn_output, present, (attn_weights)
+        attn_output = self.post_attention_dropout(attn_output)
+        outputs = attention_layer_outputs[1:]
+        # self.use_parallel_residual: default true
+        # x = x + attn(ln1(x)) + mlp(ln1(x))
+        mlp_output = self.mlp(self.input_layernorm(hidden_states))
+        mlp_output = self.post_mlp_dropout(mlp_output)
+        hidden_states = mlp_output + attn_output + hidden_states
+        if use_cache:
+            outputs = (hidden_states,) + outputs  # hidden_states, present, (attn_weights)
+        else:
+            outputs = (hidden_states,) + outputs[1:]  # hidden_states, (attn_weights)
+        return outputs
+modeling_gpt_neox.GPTNeoXLayer = GPTNeoXLayer
+from transformers.models.gpt_neox.modeling_gpt_neox import  GPTNeoXForCausalLM, GPTNeoXModel
+class ItaliaForCausalLM(GPTNeoXForCausalLM):
+    config_class = ItaliaConfig
+    def __init__(self, config):
+        super().__init__(config)
+        self.gpt_neox = GPTNeoXModel(config)
+        self.embed_out = nn.Linear(config.hidden_size, config.vocab_size, bias=True)
+        # Initialize weights and apply final processing
+        self.post_init()

quantize_config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "bits": 4,
+  "group_size": 128,
+  "sym": true,
+  "data_type": "int",
+  "enable_quanted_input": true,
+  "enable_minmax_tuning": true,
+  "seqlen": 512,
+  "batch_size": 4,
+  "scale_dtype": "torch.float16",
+  "lr": 0.005,
+  "minmax_lr": 0.005,
+  "gradient_accumulate_steps": 1,
+  "iters": 200,
+  "amp": false,
+  "nsamples": 128,
+  "low_gpu_mem_usage": false,
+  "enable_norm_bias_tuning": false,
+  "autoround_version": "0.4.3",
+  "block_name_to_quantize": "layers",
+  "quant_method": "gptq",
+  "desc_act": false,
+  "true_sequential": false,
+  "damp_percent": 0.01
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd74bea2ba620d87e0a2127d9a21196b862a5cc7942ba4638eb2159bbab3340c
+size 1090536

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": true,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50000": {
+      "content": "<|assistant|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "50001": {
+      "content": "<|system|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "50002": {
+      "content": "<|user|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "chat_template": "{% for message in messages %}\n{% if message['role'] == 'user' %}\n{{ '<|user|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'system' %}\n{{ '<|system|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'assistant' %}\n{{ '<|assistant|>\n'  + message['content'] + eos_token }}\n{% endif %}\n{% if loop.last and add_generation_prompt %}\n{{ '<|assistant|>' }}\n{% endif %}\n{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": true,
+  "model_max_length": 4096,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}