nanotron
/

llama3-8b-infini-attention

Model card Files Files and versions Community

neuralink HF staff commited on Aug 5

Commit

0610800

•

1 Parent(s): b636cc7

add ckp

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

checkpoint_metadata.json +9 -0
config.yaml +150 -0
lr_scheduler/lr_scheduler.pt +3 -0
model/model/decoder/0/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-0-of-4.safetensors +3 -0
model/model/decoder/0/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-1-of-4.safetensors +3 -0
model/model/decoder/0/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-2-of-4.safetensors +3 -0
model/model/decoder/0/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-3-of-4.safetensors +3 -0
model/model/decoder/0/pp_block/attn/o_proj/model_weight_pp-rank-0-of-1_tp-rank-0-of-4.safetensors +3 -0
model/model/decoder/0/pp_block/attn/o_proj/model_weight_pp-rank-0-of-1_tp-rank-1-of-4.safetensors +3 -0
model/model/decoder/0/pp_block/attn/o_proj/model_weight_pp-rank-0-of-1_tp-rank-2-of-4.safetensors +3 -0
model/model/decoder/0/pp_block/attn/o_proj/model_weight_pp-rank-0-of-1_tp-rank-3-of-4.safetensors +3 -0
model/model/decoder/0/pp_block/attn/qkv_proj/model_weight_pp-rank-0-of-1_tp-rank-0-of-4.safetensors +3 -0
model/model/decoder/0/pp_block/attn/qkv_proj/model_weight_pp-rank-0-of-1_tp-rank-1-of-4.safetensors +3 -0
model/model/decoder/0/pp_block/attn/qkv_proj/model_weight_pp-rank-0-of-1_tp-rank-2-of-4.safetensors +3 -0
model/model/decoder/0/pp_block/attn/qkv_proj/model_weight_pp-rank-0-of-1_tp-rank-3-of-4.safetensors +3 -0
model/model/decoder/0/pp_block/input_layernorm/model_weight.safetensors +3 -0
model/model/decoder/0/pp_block/mlp/down_proj/model_weight_pp-rank-0-of-1_tp-rank-0-of-4.safetensors +3 -0
model/model/decoder/0/pp_block/mlp/down_proj/model_weight_pp-rank-0-of-1_tp-rank-1-of-4.safetensors +3 -0
model/model/decoder/0/pp_block/mlp/down_proj/model_weight_pp-rank-0-of-1_tp-rank-2-of-4.safetensors +3 -0
model/model/decoder/0/pp_block/mlp/down_proj/model_weight_pp-rank-0-of-1_tp-rank-3-of-4.safetensors +3 -0
model/model/decoder/0/pp_block/mlp/gate_up_proj/model_weight_pp-rank-0-of-1_tp-rank-0-of-4.safetensors +3 -0
model/model/decoder/0/pp_block/mlp/gate_up_proj/model_weight_pp-rank-0-of-1_tp-rank-1-of-4.safetensors +3 -0
model/model/decoder/0/pp_block/mlp/gate_up_proj/model_weight_pp-rank-0-of-1_tp-rank-2-of-4.safetensors +3 -0
model/model/decoder/0/pp_block/mlp/gate_up_proj/model_weight_pp-rank-0-of-1_tp-rank-3-of-4.safetensors +3 -0
model/model/decoder/0/pp_block/post_attention_layernorm/model_weight.safetensors +3 -0
model/model/decoder/1/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-0-of-4.safetensors +3 -0
model/model/decoder/1/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-1-of-4.safetensors +3 -0
model/model/decoder/1/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-2-of-4.safetensors +3 -0
model/model/decoder/1/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-3-of-4.safetensors +3 -0
model/model/decoder/1/pp_block/attn/o_proj/model_weight_pp-rank-0-of-1_tp-rank-0-of-4.safetensors +3 -0
model/model/decoder/1/pp_block/attn/o_proj/model_weight_pp-rank-0-of-1_tp-rank-1-of-4.safetensors +3 -0
model/model/decoder/1/pp_block/attn/o_proj/model_weight_pp-rank-0-of-1_tp-rank-2-of-4.safetensors +3 -0
model/model/decoder/1/pp_block/attn/o_proj/model_weight_pp-rank-0-of-1_tp-rank-3-of-4.safetensors +3 -0
model/model/decoder/1/pp_block/attn/qkv_proj/model_weight_pp-rank-0-of-1_tp-rank-0-of-4.safetensors +3 -0
model/model/decoder/1/pp_block/attn/qkv_proj/model_weight_pp-rank-0-of-1_tp-rank-1-of-4.safetensors +3 -0
model/model/decoder/1/pp_block/attn/qkv_proj/model_weight_pp-rank-0-of-1_tp-rank-2-of-4.safetensors +3 -0
model/model/decoder/1/pp_block/attn/qkv_proj/model_weight_pp-rank-0-of-1_tp-rank-3-of-4.safetensors +3 -0
model/model/decoder/1/pp_block/input_layernorm/model_weight.safetensors +3 -0
model/model/decoder/1/pp_block/mlp/down_proj/model_weight_pp-rank-0-of-1_tp-rank-0-of-4.safetensors +3 -0
model/model/decoder/1/pp_block/mlp/down_proj/model_weight_pp-rank-0-of-1_tp-rank-1-of-4.safetensors +3 -0
model/model/decoder/1/pp_block/mlp/down_proj/model_weight_pp-rank-0-of-1_tp-rank-2-of-4.safetensors +3 -0
model/model/decoder/1/pp_block/mlp/down_proj/model_weight_pp-rank-0-of-1_tp-rank-3-of-4.safetensors +3 -0
model/model/decoder/1/pp_block/mlp/gate_up_proj/model_weight_pp-rank-0-of-1_tp-rank-0-of-4.safetensors +3 -0
model/model/decoder/1/pp_block/mlp/gate_up_proj/model_weight_pp-rank-0-of-1_tp-rank-1-of-4.safetensors +3 -0
model/model/decoder/1/pp_block/mlp/gate_up_proj/model_weight_pp-rank-0-of-1_tp-rank-2-of-4.safetensors +3 -0
model/model/decoder/1/pp_block/mlp/gate_up_proj/model_weight_pp-rank-0-of-1_tp-rank-3-of-4.safetensors +3 -0
model/model/decoder/1/pp_block/post_attention_layernorm/model_weight.safetensors +3 -0
model/model/decoder/10/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-0-of-4.safetensors +3 -0
model/model/decoder/10/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-1-of-4.safetensors +3 -0
model/model/decoder/10/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-2-of-4.safetensors +3 -0

checkpoint_metadata.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "dp": 6,
+  "metas": {
+    "consumed_train_samples": 1920000,
+    "last_train_step": 20000
+  },
+  "tp": 4,
+  "version": "1.2"
+}

config.yaml ADDED Viewed

	@@ -0,0 +1,150 @@

+checkpoints:
+  checkpoint_interval: 1000
+  checkpoints_path: /fsx/phuc/new_workspace/experiments/exp57_8b_llama_1024_ctx_length_and_64_segment_length_and_100k_bs_and_global_lr_1.0e-5_and_balance_factor_lr_0.01_and_balance_factor_0_weight_decay/checkpoints
+  checkpoints_path_is_shared_file_system: true
+  resume_checkpoint_path: /fsx/phuc/new_workspace/experiments/infini_attention_8b_llama/exp57_8b_llama_1024_ctx_length_and_64_segment_length_and_100k_bs_and_global_lr_1.0e-5_and_balance_factor_lr_0.01_and_balance_factor_0_weight_decay/checkpoints
+  save_initial_state: false
+data:
+  dataset:
+    dataloader_type: single
+    dataset_max_tokens: null
+    dataset_weights:
+    - 0.3
+    - 0.3
+    - 0.45
+    - 0.15
+    - 0.08
+    - 0.02
+    datasets:
+    - dtype: uint32
+      filename_pattern: .*.ds
+      folder: s3://huggingface-llm-datasets/stack_full_v21-8k/tokenized-llama3/long/
+      skip_tokens: 0
+    - dtype: uint32
+      filename_pattern: .*.ds
+      folder: s3://huggingface-llm-datasets/stack_full_v21-8k/tokenized-llama3/short/
+      skip_tokens: 0
+    - dtype: uint32
+      filename_pattern: .*.ds
+      folder: s3://huggingface-llm-datasets/fineweb-v1-8k/tokenized-llama3/long/CC-MAIN-2024-10
+      skip_tokens: 0
+    - dtype: uint32
+      filename_pattern: .*.ds
+      folder: s3://huggingface-llm-datasets/fineweb-v1-8k/tokenized-llama3/short/CC-MAIN-2024-10
+      skip_tokens: 0
+    - dtype: uint32
+      filename_pattern: .*.ds
+      folder: s3://huggingface-llm-datasets/project-gutenberg/tokenized-llama3/
+      skip_tokens: 0
+    - dtype: uint32
+      filename_pattern: .*.ds
+      folder: s3://huggingface-llm-datasets/OpenHermes-2-5/tokenized-llama3
+      skip_tokens: 0
+    pad_samples_to_global_batch_size: false
+    skip_in_stream: true
+  num_loading_workers: 0
+  seed: 42
+data_stages: null
+experiment_logger:
+  tensorboard_logger:
+    flush_secs: 30
+    tensorboard_dir: /fsx/phuc/project_data/infini_attention/tb_logs
+  wandb_logger:
+    wandb_entity: null
+    wandb_project: infini_attention_8b_llama
+general:
+  benchmark_csv_path: null
+  consumed_train_samples: 1920000
+  ignore_sanity_checks: true
+  project: infini_attention_8b_llama
+  run: exp57_8b_llama_1024_ctx_length_and_64_segment_length_and_100k_bs_and_global_lr_1.0e-5_and_balance_factor_lr_0.01_and_balance_factor_0_weight_decay
+  seed: 42
+  step: 20000
+infini_attention:
+  balance_act_type: orig_sigmoid
+  balance_factor_lr: 0.01
+  balance_factor_weight_decay: 0.0
+  balance_init_type: zeros
+  log_grad: false
+  log_segment_acts: false
+  logging: true
+  logging_interval: 250
+  segment_length: 64
+  turn_on_memory: true
+kill_switch_path: null
+lighteval: null
+logging:
+  iteration_step_info_interval: 1
+  log_level: info
+  log_level_replica: info
+model:
+  ddp_bucket_cap_mb: 25
+  dtype: bfloat16
+  init_method:
+    path: /fsx/phuc/projects/infini-attention/llama3-ckps/haojun-8b-llama-nanotron-ckp/NanotronLlama3-8B
+  make_vocab_size_divisible_by: 1
+  model_config:
+    bos_token_id: 128000
+    eos_token_id: 128001
+    hidden_act: silu
+    hidden_size: 4096
+    initializer_range: 0.02
+    intermediate_size: 14336
+    is_llama_config: true
+    max_position_embeddings: 8192
+    num_attention_heads: 32
+    num_hidden_layers: 32
+    num_key_value_heads: 8
+    pad_token_id: null
+    pretraining_tp: 1
+    rms_norm_eps: 1.0e-05
+    rope_interleaved: false
+    rope_scaling: null
+    rope_theta: 500000.0
+    tie_word_embeddings: false
+    use_cache: true
+    vocab_size: 128256
+optimizer:
+  accumulate_grad_in_fp32: false
+  adam_beta1: 0.9
+  adam_beta2: 0.95
+  adam_eps: 1.0e-08
+  clip_grad: 1.0
+  learning_rate_scheduler:
+    learning_rate: 1.0e-05
+    lr_decay_starting_step: null
+    lr_decay_steps: 23500
+    lr_decay_style: cosine
+    lr_warmup_steps: 1500
+    lr_warmup_style: linear
+    min_decay_lr: 1.0e-06
+  torch_adam_is_fused: true
+  weight_decay: 0.1
+  zero_stage: 0
+parallelism:
+  dp: 6
+  expert_parallel_size: 1
+  pp: 1
+  pp_engine: 1f1b
+  tp: 4
+  tp_linear_async_communication: false
+  tp_mode: ALL_REDUCE
+profiler: null
+s3_upload:
+  remove_after_upload: true
+  s5cmd_concurrency: 5
+  s5cmd_numworkers: 16
+  s5cmd_path: null
+  upload_s3_path: s3://phuc-experiments/infini-attention/8b-llama/exp57_8b_llama_1024_ctx_length_and_64_segment_length_and_100k_bs_and_global_lr_1.0e-5_and_balance_factor_lr_0.01_and_balance_factor_0_weight_decay
+tokenizer:
+  tokenizer_max_length: null
+  tokenizer_name_or_path: /fsx/haojun/lighteval_evaluation_model/NanotronLlama3-8B
+  tokenizer_revision: null
+tokens:
+  batch_accumulation_per_replica: 1
+  limit_test_batches: 0
+  limit_val_batches: 0
+  micro_batch_size: 16
+  sequence_length: 1024
+  train_steps: 25000
+  val_check_interval: -1

lr_scheduler/lr_scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:737facbe7635b84da684cbb0920e1e12cbfa59d865027e3d29946e1da7fcb6c9
+size 5812

model/model/decoder/0/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-0-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd3cd7ea1b37e9d8245500104946a1f9beda585b582c3c6c86417f2143e62c0a
+size 200

model/model/decoder/0/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-1-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5ecce917758b783cf75bcfba65bb98e2598b47fa369e79e97217dac514fe7cb
+size 200

model/model/decoder/0/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-2-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4eca6ff9837681e57b8b7359a0b1450a2a2faaa217f191343a224bcfa4bac2d
+size 200

model/model/decoder/0/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-3-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70e26e50995d04b476cef24f25fe3b123db242b79d2b26721e958a27a94e95c3
+size 200

model/model/decoder/0/pp_block/attn/o_proj/model_weight_pp-rank-0-of-1_tp-rank-0-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:afbb7fafb264594a507fe03060a966b91335e60401aea3f3531c9036a37bdc2b
+size 8388848

model/model/decoder/0/pp_block/attn/o_proj/model_weight_pp-rank-0-of-1_tp-rank-1-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd9505ee95b8f6e228216d63826f095d1d2bd704c090a9496b0cd204b5dc3cc7
+size 8388848

model/model/decoder/0/pp_block/attn/o_proj/model_weight_pp-rank-0-of-1_tp-rank-2-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f4f77e670759e11cca92e8eb1a4ca8cb1d997cbe1a3c7ec44097d91704dec79
+size 8388848

model/model/decoder/0/pp_block/attn/o_proj/model_weight_pp-rank-0-of-1_tp-rank-3-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:20f2977cc2ccc9df4828d9170c829143ac84e7bf1a10a17dbcff03b8e7d2b9c4
+size 8388848

model/model/decoder/0/pp_block/attn/qkv_proj/model_weight_pp-rank-0-of-1_tp-rank-0-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b85fff5b4969a14a90d3251beea89a4f58b3476951dc4d80842fbc42859551a6
+size 12583264

model/model/decoder/0/pp_block/attn/qkv_proj/model_weight_pp-rank-0-of-1_tp-rank-1-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c906c130138839577b399f263d2cd0377c684161cab8eb9db82cf4f30e178fa1
+size 12583272

model/model/decoder/0/pp_block/attn/qkv_proj/model_weight_pp-rank-0-of-1_tp-rank-2-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:691718e5119e0a7115a84454c6ed9eafd768b9b9783f747c698059db2233224e
+size 12583272

model/model/decoder/0/pp_block/attn/qkv_proj/model_weight_pp-rank-0-of-1_tp-rank-3-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b315f2fdabb2b6e6aaa65bcbc1e77d7c307f50b20de2b3f55501e3c9e355884
+size 12583272

model/model/decoder/0/pp_block/input_layernorm/model_weight.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:839be36eddaad9760a68863d4618402af1893620b281a05ff0ff9e7cfe0ed802
+size 8288

model/model/decoder/0/pp_block/mlp/down_proj/model_weight_pp-rank-0-of-1_tp-rank-0-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d638b1dbd9ab13fbfbeb47885a43ae81679b199c18c0cbaed3f202cf4c36942
+size 29360368

model/model/decoder/0/pp_block/mlp/down_proj/model_weight_pp-rank-0-of-1_tp-rank-1-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a030aaac659587f67dca0efc2b49aaa8b8736eed1906d2f5980529f6c7fe45c1
+size 29360368

model/model/decoder/0/pp_block/mlp/down_proj/model_weight_pp-rank-0-of-1_tp-rank-2-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f5c763bab5ae055a0f8d095329c60c4ad64f0d05a52db890ed860d003f0f14ee
+size 29360368

model/model/decoder/0/pp_block/mlp/down_proj/model_weight_pp-rank-0-of-1_tp-rank-3-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4001b487aa10205cc4b4a335c2df5dbcf2b6cf692a19b90e1e6346a6adb25df5
+size 29360368

model/model/decoder/0/pp_block/mlp/gate_up_proj/model_weight_pp-rank-0-of-1_tp-rank-0-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eafbd550659acf898eea0fab8867281ce636543eff7f13c40f32f9028bda67d2
+size 58720552

model/model/decoder/0/pp_block/mlp/gate_up_proj/model_weight_pp-rank-0-of-1_tp-rank-1-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3db63345724e44faf6ba407334ecc96348ba03e0192f9f60550518368e87b6ac
+size 58720560

model/model/decoder/0/pp_block/mlp/gate_up_proj/model_weight_pp-rank-0-of-1_tp-rank-2-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81385d8ec0ae77104655fbb1f5dbf799f70466a32f708c04cb47080b2d46d3e3
+size 58720560

model/model/decoder/0/pp_block/mlp/gate_up_proj/model_weight_pp-rank-0-of-1_tp-rank-3-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b9ba738a34d22e416b1db4bded73974c726edb399b284d23eceb2ef16da5dd06
+size 58720560

model/model/decoder/0/pp_block/post_attention_layernorm/model_weight.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:835706c82a03cc5e4a4c3879f76dde2c8873efd2e11c7e6d39789798af173773
+size 8288

model/model/decoder/1/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-0-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:10aec76847af0d3b72cbf894d8ef1629db51ddf0721f2e9a839d7294e94b25ba
+size 200

model/model/decoder/1/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-1-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44e7dc8301e6cac7b9cff6fa11dc95222e33c275101952f0fe8096d6e78927db
+size 200

model/model/decoder/1/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-2-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0ced99e5e02b4b2df6734a354a1bb1eee1ee32e0f7d71c00c15ba50349c520bc
+size 200

model/model/decoder/1/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-3-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62cc82e79b26a0311182c0a0bc0e565d89e7205950536ff511a4190dfe5b4cb2
+size 200

model/model/decoder/1/pp_block/attn/o_proj/model_weight_pp-rank-0-of-1_tp-rank-0-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c2fbb9870ae118de4d8225df2d0111916f337e87f6ffb171e6e99e942a6f5e84
+size 8388848

model/model/decoder/1/pp_block/attn/o_proj/model_weight_pp-rank-0-of-1_tp-rank-1-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:99382bce346eb0aa855de26305cc64d581c209306867ecfe665209e142724cd1
+size 8388848

model/model/decoder/1/pp_block/attn/o_proj/model_weight_pp-rank-0-of-1_tp-rank-2-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df614829f243bc8d2c4ba3deda49e8a9bab6ced8cd2e63c46b08fdae176ab6c6
+size 8388848

model/model/decoder/1/pp_block/attn/o_proj/model_weight_pp-rank-0-of-1_tp-rank-3-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a42aec6f5c07a392ebfc588f67c9b8713c3f1cbf1dad988c3bb7ae0ed72a4d47
+size 8388848

model/model/decoder/1/pp_block/attn/qkv_proj/model_weight_pp-rank-0-of-1_tp-rank-0-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8005058e37aa101f31327e80c1d3a2646a3303acab2e21f6e78c0f4f72f01495
+size 12583264

model/model/decoder/1/pp_block/attn/qkv_proj/model_weight_pp-rank-0-of-1_tp-rank-1-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef2b1fe9ec243434a30e0d2aef93794229ca86157146e79a8037b144494246b0
+size 12583272

model/model/decoder/1/pp_block/attn/qkv_proj/model_weight_pp-rank-0-of-1_tp-rank-2-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92f89cc57b8db928d5dd5b2baf9422acf4a6fcb5b13d7c57a63fb6891bd68bcf
+size 12583272

model/model/decoder/1/pp_block/attn/qkv_proj/model_weight_pp-rank-0-of-1_tp-rank-3-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3feca5b544559386a355f31d3658237169eb8c170523fdac2047c0aec838a8b6
+size 12583272

model/model/decoder/1/pp_block/input_layernorm/model_weight.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3e247f0ff9fef5db3801019d29cbab0e939f9811bc87948dbf2ffccf3c804c7
+size 8288

model/model/decoder/1/pp_block/mlp/down_proj/model_weight_pp-rank-0-of-1_tp-rank-0-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5de65ac6d4af028cfa691029645ba2cdbd80e8717789505e5850c5978807256b
+size 29360368

model/model/decoder/1/pp_block/mlp/down_proj/model_weight_pp-rank-0-of-1_tp-rank-1-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a9d8b4af82370734fa7f9c2a99958a732b8face2142d04ddd7d0b7321eb7af71
+size 29360368

model/model/decoder/1/pp_block/mlp/down_proj/model_weight_pp-rank-0-of-1_tp-rank-2-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c30074512f3a8e912c0f3efd0546d3049d42f2781625ee29184de6b8d2f2b55
+size 29360368

model/model/decoder/1/pp_block/mlp/down_proj/model_weight_pp-rank-0-of-1_tp-rank-3-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:111a16b5ed3e23b81976ccee35575e1cb2d7a17f675b9f448315cf813642b157
+size 29360368

model/model/decoder/1/pp_block/mlp/gate_up_proj/model_weight_pp-rank-0-of-1_tp-rank-0-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:374da23673af8dde22742199fb2c504849f54ff68978d13e856b3d66f7e1233b
+size 58720552

model/model/decoder/1/pp_block/mlp/gate_up_proj/model_weight_pp-rank-0-of-1_tp-rank-1-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:afd78bf516b96f51ead6a14a5821cec58857c46c98c6ed1bc99924ca4bf9c67b
+size 58720560

model/model/decoder/1/pp_block/mlp/gate_up_proj/model_weight_pp-rank-0-of-1_tp-rank-2-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:23e758214cc2fd7c534e5face960fe4123b37d76889d95eec0d548f3734a54ad
+size 58720560

model/model/decoder/1/pp_block/mlp/gate_up_proj/model_weight_pp-rank-0-of-1_tp-rank-3-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e5d9e4777df66e6bd1affbdb44ed554e66913b0077b83d8551c18979fd5089e
+size 58720560

model/model/decoder/1/pp_block/post_attention_layernorm/model_weight.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:915cdab464967593881825306bb37d3565c1463d54c596606f4756d8b4f3023b
+size 8288

model/model/decoder/10/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-0-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0800aeaafa9b470cde1e420ebf24a853846755269f90f9b0a54316e4c0666ef9
+size 200

model/model/decoder/10/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-1-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b37c0e48385b0aff19585ad996520319d194b68d8c5bef9a0255b35db6391f19
+size 200

model/model/decoder/10/pp_block/attn/model_balance_factors_pp-rank-0-of-1_tp-rank-2-of-4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f81fafc188236802bae75d2f0309ed3988f9d0c7f87a6d4689670be8b41cf8a0
+size 200