End of training

Browse files

Files changed (8) hide show

README.md +161 -0
generation_config.json +4 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +332 -0
pytorch_model-00001-of-00002.bin +3 -0
pytorch_model-00002-of-00002.bin +3 -0
pytorch_model.bin.index.json +332 -0

README.md ADDED Viewed

	@@ -0,0 +1,161 @@

+---
+license: mit
+base_model: microsoft/phi-2
+tags:
+- axolotl
+- generated_from_trainer
+model-index:
+- name: Phasmid-2_v2
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+[<img src="https://raw.githubusercontent.com/OpenAccess-AI-Collective/axolotl/main/image/axolotl-badge-web.png" alt="Built with Axolotl" width="200" height="32"/>](https://github.com/OpenAccess-AI-Collective/axolotl)
+<details><summary>See axolotl config</summary>
+axolotl version: `0.3.0`
+```yaml
+base_model: microsoft/phi-2
+model_type: PhiForCausalLM
+tokenizer_type: AutoTokenizer
+is_llama_derived_model: false
+trust_remote_code: true
+load_in_8bit: false
+load_in_4bit: false
+strict: false
+datasets:
+  - path: SE6446/SE6446_phasmid_ds
+    type: completion
+hub_model_id: SE6446/Phasmid-2_v2
+hub_strategy: every_save
+use_auth_token: true
+dataset_prepared_path: /phasmid-2-ds-path
+val_set_size: 0.05
+output_dir: ./phasmid-sft-out
+sequence_len: 2048
+sample_packing: true
+pad_to_sequence_len:
+adapter:
+lora_model_dir:
+lora_r:
+lora_alpha:
+lora_dropout:
+lora_target_linear:
+lora_fan_in_fan_out:
+wandb_project:
+wandb_entity:
+wandb_watch:
+wandb_name:
+wandb_log_model:
+gradient_accumulation_steps: 1
+micro_batch_size: 1
+num_epochs: 4
+optimizer: adamw_torch
+adam_beta2: 0.95
+adam_epsilon: 0.00001
+max_grad_norm: 1.0
+lr_scheduler: cosine
+learning_rate: 0.0003
+train_on_inputs: false
+group_by_length: true
+bf16: true
+fp16: false
+tf32: true
+gradient_checkpointing:
+early_stopping_patience:
+resume_from_checkpoint:
+local_rank:
+logging_steps: 1
+xformers_attention:
+flash_attention:
+warmup_steps: 100
+evals_per_epoch: 4
+saves_per_epoch: 1
+debug:
+deepspeed:
+weight_decay: 0.1
+fsdp:
+fsdp_config:
+resize_token_embeddings_to_32x: true
+special_tokens:
+  bos_token: "<|endoftext|>"
+  eos_token: "<|endoftext|>"
+  unk_token: "<|endoftext|>"
+  pad_token: "<|endoftext|>"
+```
+</details><br>
+# Phasmid-2_v2
+This model is a fine-tuned version of [microsoft/phi-2](https://huggingface.co/microsoft/phi-2) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.2924
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0003
+- train_batch_size: 1
+- eval_batch_size: 1
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.95) and epsilon=1e-05
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 100
+- num_epochs: 4
+### Training results
+| Training Loss | Epoch | Step  | Validation Loss |
+|:-------------:|:-----:|:-----:|:---------------:|
+| 2.3313        | 0.0   | 1     | 2.1374          |
+| 2.5755        | 0.25  | 1319  | 2.5281          |
+| 2.4864        | 0.5   | 2638  | 2.5314          |
+| 2.0961        | 0.75  | 3957  | 2.4697          |
+| 2.6547        | 1.0   | 5276  | 2.4213          |
+| 2.1235        | 1.24  | 6595  | 2.3926          |
+| 1.8875        | 1.49  | 7914  | 2.3233          |
+| 0.9059        | 1.74  | 9233  | 2.2590          |
+| 2.2046        | 1.99  | 10552 | 2.1985          |
+| 1.1938        | 2.23  | 11871 | 2.2555          |
+| 1.1425        | 2.48  | 13190 | 2.2393          |
+| 0.6688        | 2.73  | 14509 | 2.2237          |
+| 1.1111        | 2.98  | 15828 | 2.2126          |
+| 0.651         | 3.21  | 17147 | 2.2859          |
+| 0.8669        | 3.46  | 18466 | 2.2914          |
+| 0.4149        | 3.71  | 19785 | 2.2924          |
+### Framework versions
+- Transformers 4.37.0.dev0
+- Pytorch 2.0.1+cu118
+- Datasets 2.16.1
+- Tokenizers 0.15.0

generation_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "_from_model_config": true,
+  "transformers_version": "4.37.0.dev0"
+}

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bae62f761edfac724cbd9d7059da01e7def40b378a79b681ed340c7a46042bde
+size 4982468168

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8868d803a2986618a47dea0aa822e2790df3db28c11b323fe5f9d7b346f6b283
+size 839190784

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,332 @@

+{
+  "metadata": {
+    "total_size": 5821624320
+  },
+  "weight_map": {
+    "lm_head.linear.bias": "model-00002-of-00002.safetensors",
+    "lm_head.linear.weight": "model-00002-of-00002.safetensors",
+    "lm_head.ln.bias": "model-00002-of-00002.safetensors",
+    "lm_head.ln.weight": "model-00002-of-00002.safetensors",
+    "transformer.embd.wte.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.mixer.Wqkv.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.30.mixer.Wqkv.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.30.mixer.out_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.30.mixer.out_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.30.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.30.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.30.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.30.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.31.ln.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.31.ln.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.31.mixer.Wqkv.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.31.mixer.Wqkv.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.31.mixer.out_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.31.mixer.out_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.31.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.31.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.31.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.31.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.4.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mixer.Wqkv.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mixer.Wqkv.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mixer.out_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.fc2.weight": "model-00001-of-00002.safetensors"
+  }
+}

pytorch_model-00001-of-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d95a0aaf63d6be3a6f21ad434cad49fcaf68c2d101c2e9dbf30de95200bbc41
+size 4982539832

pytorch_model-00002-of-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c91fbd2573bb843918cb92381d94990f9ee7efd98d7710926e380a227f958d6
+size 839195995

pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,332 @@

+{
+  "metadata": {
+    "total_size": 5821624320
+  },
+  "weight_map": {
+    "lm_head.linear.bias": "pytorch_model-00002-of-00002.bin",
+    "lm_head.linear.weight": "pytorch_model-00002-of-00002.bin",
+    "lm_head.ln.bias": "pytorch_model-00002-of-00002.bin",
+    "lm_head.ln.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.embd.wte.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.0.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.0.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.0.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.0.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.0.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.0.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.0.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.0.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.0.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.0.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.23.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.23.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.23.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.23.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.23.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.23.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.23.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.23.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.23.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.23.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.24.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.24.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.24.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.24.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.24.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.24.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.24.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.24.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.24.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.24.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.25.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.25.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.25.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.25.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.25.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.25.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.25.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.25.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.25.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.25.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.26.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.26.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.26.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.26.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.26.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.26.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.26.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.26.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.26.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.26.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.27.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.27.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.27.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.27.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.27.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.27.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.27.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.27.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.27.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.27.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.28.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.28.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.28.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.28.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.28.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.28.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.28.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.28.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.28.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.28.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.29.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.29.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.29.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.29.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.29.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.29.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.29.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.29.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.29.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.29.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.3.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.3.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.3.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.3.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.3.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.3.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.3.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.3.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.3.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.3.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.30.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.30.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.30.mixer.Wqkv.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.30.mixer.Wqkv.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.30.mixer.out_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.30.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.30.mlp.fc1.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.30.mlp.fc1.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.30.mlp.fc2.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.30.mlp.fc2.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.31.ln.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.31.ln.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.31.mixer.Wqkv.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.31.mixer.Wqkv.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.31.mixer.out_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.31.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.31.mlp.fc1.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.31.mlp.fc1.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.31.mlp.fc2.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.31.mlp.fc2.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.4.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.4.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.4.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.4.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.4.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.4.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.4.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.4.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.4.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.4.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.ln.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.ln.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.mixer.Wqkv.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.mixer.Wqkv.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.mixer.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.mlp.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.mlp.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.mlp.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.mlp.fc2.weight": "pytorch_model-00001-of-00002.bin"
+  }
+}