ironrock commited on Apr 20

Commit

4bb424c

•

1 Parent(s): b443144

Upload folder using huggingface_hub

Browse files

Files changed (49) hide show

README.md +62 -54
checkpoint-180/README.md +202 -0
checkpoint-180/adapter_config.json +29 -0
checkpoint-180/adapter_model.safetensors +3 -0
checkpoint-180/optimizer.pt +3 -0
checkpoint-180/rng_state.pth +3 -0
checkpoint-180/scheduler.pt +3 -0
checkpoint-180/special_tokens_map.json +24 -0
checkpoint-180/tokenizer.json +0 -0
checkpoint-180/tokenizer.model +3 -0
checkpoint-180/tokenizer_config.json +49 -0
checkpoint-180/trainer_state.json +387 -0
checkpoint-180/training_args.bin +3 -0
checkpoint-270/README.md +202 -0
checkpoint-270/adapter_config.json +29 -0
checkpoint-270/adapter_model.safetensors +3 -0
checkpoint-270/optimizer.pt +3 -0
checkpoint-270/rng_state.pth +3 -0
checkpoint-270/scheduler.pt +3 -0
checkpoint-270/special_tokens_map.json +24 -0
checkpoint-270/tokenizer.json +0 -0
checkpoint-270/tokenizer.model +3 -0
checkpoint-270/tokenizer_config.json +49 -0
checkpoint-270/trainer_state.json +570 -0
checkpoint-270/training_args.bin +3 -0
checkpoint-360/README.md +202 -0
checkpoint-360/adapter_config.json +29 -0
checkpoint-360/adapter_model.safetensors +3 -0
checkpoint-360/optimizer.pt +3 -0
checkpoint-360/rng_state.pth +3 -0
checkpoint-360/scheduler.pt +3 -0
checkpoint-360/special_tokens_map.json +24 -0
checkpoint-360/tokenizer.json +0 -0
checkpoint-360/tokenizer.model +3 -0
checkpoint-360/tokenizer_config.json +49 -0
checkpoint-360/trainer_state.json +753 -0
checkpoint-360/training_args.bin +3 -0
checkpoint-90/README.md +202 -0
checkpoint-90/adapter_config.json +29 -0
checkpoint-90/adapter_model.safetensors +3 -0
checkpoint-90/optimizer.pt +3 -0
checkpoint-90/rng_state.pth +3 -0
checkpoint-90/scheduler.pt +3 -0
checkpoint-90/special_tokens_map.json +24 -0
checkpoint-90/tokenizer.json +0 -0
checkpoint-90/tokenizer.model +3 -0
checkpoint-90/tokenizer_config.json +49 -0
checkpoint-90/trainer_state.json +204 -0
checkpoint-90/training_args.bin +3 -0

README.md CHANGED Viewed

@@ -1,83 +1,91 @@
 ---
-library_name: peft
 tags:
-- trl
-- dpo
-- generated_from_trainer
 base_model: Weni/WeniGPT-Agents-Mistral-1.0.6-SFT-merged
 model-index:
-- name: WeniGPT-Agents-Mistral-1.0.6-SFT-1.0.5-DPO
   results: []
 ---
-<!-- This model card has been generated automatically according to the information the Trainer had access to. You
-should probably proofread and complete it, then remove this comment. -->
-# WeniGPT-Agents-Mistral-1.0.6-SFT-1.0.5-DPO
-This model is a fine-tuned version of [Weni/WeniGPT-Agents-Mistral-1.0.6-SFT-merged](https://huggingface.co/Weni/WeniGPT-Agents-Mistral-1.0.6-SFT-merged) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4260
-- Rewards/chosen: 0.9172
-- Rewards/rejected: -0.6078
-- Rewards/accuracies: 0.4643
-- Rewards/margins: 1.5251
-- Logps/rejected: -103.4404
-- Logps/chosen: -46.9008
-- Logits/rejected: -1.8652
-- Logits/chosen: -1.8327
-## Model description
-More information needed
-## Intended uses & limitations
-More information needed
-## Training and evaluation data
-More information needed
-## Training procedure
 ### Training hyperparameters
 The following hyperparameters were used during training:
 - learning_rate: 5e-06
-- train_batch_size: 2
-- eval_batch_size: 2
-- seed: 42
 - gradient_accumulation_steps: 2
 - total_train_batch_size: 4
-- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
-- lr_scheduler_type: linear
-- lr_scheduler_warmup_ratio: 0.03
-- training_steps: 366
-- mixed_precision_training: Native AMP
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
-|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.6635        | 0.49  | 30   | 0.6524          | 0.0904         | 0.0036           | 0.4643             | 0.0867          | -97.3259       | -55.1696     | -1.8044         | -1.7832       |
-| 0.6026        | 0.98  | 60   | 0.5891          | 0.2506         | 0.0024           | 0.4643             | 0.2482          | -97.3380       | -53.5672     | -1.8099         | -1.7878       |
-| 0.5387        | 1.46  | 90   | 0.5295          | 0.4396         | -0.0275          | 0.4643             | 0.4671          | -97.6369       | -51.6775     | -1.8181         | -1.7943       |
-| 0.6033        | 1.95  | 120  | 0.4960          | 0.5751         | -0.0659          | 0.4643             | 0.6410          | -98.0210       | -50.3219     | -1.8261         | -1.8009       |
-| 0.5042        | 2.44  | 150  | 0.4709          | 0.6967         | -0.1479          | 0.4643             | 0.8446          | -98.8407       | -49.1060     | -1.8331         | -1.8059       |
-| 0.5087        | 2.93  | 180  | 0.4542          | 0.7878         | -0.2428          | 0.4643             | 1.0306          | -99.7900       | -48.1955     | -1.8425         | -1.8136       |
-| 0.4874        | 3.41  | 210  | 0.4428          | 0.8442         | -0.3560          | 0.4643             | 1.2002          | -100.9220      | -47.6315     | -1.8520         | -1.8219       |
-| 0.4229        | 3.9   | 240  | 0.4358          | 0.8750         | -0.4390          | 0.4643             | 1.3140          | -101.7521      | -47.3229     | -1.8575         | -1.8266       |
-| 0.5295        | 4.39  | 270  | 0.4313          | 0.9026         | -0.4960          | 0.4643             | 1.3986          | -102.3219      | -47.0471     | -1.8607         | -1.8289       |
-| 0.5466        | 4.88  | 300  | 0.4291          | 0.9119         | -0.5384          | 0.4643             | 1.4503          | -102.7461      | -46.9544     | -1.8629         | -1.8309       |
-| 0.4339        | 5.37  | 330  | 0.4268          | 0.9152         | -0.5900          | 0.4643             | 1.5052          | -103.2623      | -46.9216     | -1.8644         | -1.8320       |
-| 0.5438        | 5.85  | 360  | 0.4260          | 0.9172         | -0.6078          | 0.4643             | 1.5251          | -103.4404      | -46.9008     | -1.8652         | -1.8327       |
 ### Framework versions
-- PEFT 0.10.0
-- Transformers 4.38.2
-- Pytorch 2.1.0+cu118
-- Datasets 2.18.0
-- Tokenizers 0.15.2

 ---
+license: mit
+library_name: "trl"
 tags:
+- DPO
+- WeniGPT
 base_model: Weni/WeniGPT-Agents-Mistral-1.0.6-SFT-merged
 model-index:
+- name: Weni/WeniGPT-Agents-Mistral-1.0.6-SFT-1.0.5-DPO
   results: []
+language: ['pt']
 ---
+# Weni/WeniGPT-Agents-Mistral-1.0.6-SFT-1.0.5-DPO
+This model is a fine-tuned version of [Weni/WeniGPT-Agents-Mistral-1.0.6-SFT-merged] on the dataset Weni/wenigpt-agent-dpo-1.0.0 with the DPO trainer. It is part of the WeniGPT project for [Weni](https://weni.ai/).
+Description: Experiment on DPO with other hyperparameters and best SFT model of WeniGPT
 It achieves the following results on the evaluation set:
+{'eval_loss': 0.42603132128715515, 'eval_runtime': 8.1364, 'eval_samples_per_second': 3.441, 'eval_steps_per_second': 1.721, 'eval_rewards/chosen': 0.9172464609146118, 'eval_rewards/rejected': -0.6078222990036011, 'eval_rewards/accuracies': 0.4642857015132904, 'eval_rewards/margins': 1.5250685214996338, 'eval_logps/rejected': -103.44039154052734, 'eval_logps/chosen': -46.90084457397461, 'eval_logits/rejected': -1.8652076721191406, 'eval_logits/chosen': -1.832722544670105, 'epoch': 5.95}
+## Intended uses & limitations
+This model has not been trained to avoid specific intructions.
+## Training procedure
+Finetuning was done on the model Weni/WeniGPT-Agents-Mistral-1.0.6-SFT-merged with the following prompt:
+```
+---------------------
+System_prompt:
+Agora você se chama {name}, você é {occupation} e seu objetivo é {chatbot_goal}. O adjetivo que mais define a sua personalidade é {adjective} e você se comporta da seguinte forma:
+{instructions_formatted}
+{context_statement}
+Lista de requisitos:
+ - Responda de forma natural, mas nunca fale sobre um assunto fora do contexto.
+ - Nunca traga informações do seu próprio conhecimento.
+ - Repito é crucial que você responda usando apenas informações do contexto.
+ - Nunca mencione o contexto fornecido.
+ - Nunca mencione a pergunta fornecida.
+ - Gere a resposta mais útil possível para a pergunta usando informações do conexto acima.
+ - Nunca elabore sobre o porque e como você fez a tarefa, apenas responda.
+---------------------
+```
 ### Training hyperparameters
 The following hyperparameters were used during training:
 - learning_rate: 5e-06
+- per_device_train_batch_size: 2
+- per_device_eval_batch_size: 2
 - gradient_accumulation_steps: 2
+- num_gpus: 1
 - total_train_batch_size: 4
+- optimizer: AdamW
+- lr_scheduler_type: cosine
+- num_steps: 366
+- quantization_type: bitsandbytes
+- LoRA: ("\n  - bits: 4\n  - use_exllama: True\n  - device_map: auto\n  - use_cache: False\n  - lora_r: 8\n  - lora_alpha: 16\n  - lora_dropout: 0.05\n  - bias: none\n  - target_modules: ['v_proj', 'q_proj']\n  - task_type: CAUSAL_LM",)
 ### Training results
 ### Framework versions
+- transformers==4.38.2
+- datasets==2.18.0
+- peft==0.10.0
+- safetensors==0.4.2
+- evaluate==0.4.1
+- bitsandbytes==0.43
+- huggingface_hub==0.22.2
+- seqeval==1.2.2
+- optimum==1.18.1
+- auto-gptq==0.7.1
+- gpustat==1.1.1
+- deepspeed==0.14.0
+- wandb==0.16.6
+- trl==0.8.1
+- accelerate==0.29.2
+- coloredlogs==15.0.1
+- traitlets==5.14.2
+- autoawq@https://github.com/casper-hansen/AutoAWQ/releases/download/v0.2.4/autoawq-0.2.4+cu118-cp310-cp310-linux_x86_64.whl
+### Hardware
+- Cloud provided: runpod.io

checkpoint-180/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+library_name: peft
+base_model: Weni/WeniGPT-Agents-Mistral-1.0.6-SFT-merged
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.10.0

checkpoint-180/adapter_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "Weni/WeniGPT-Agents-Mistral-1.0.6-SFT-merged",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

checkpoint-180/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f0a1d782152f7cbe522064e8176b567d6386e5430121f5ed5c8d91fe866a0c1
+size 13648432

checkpoint-180/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca2233350e52278376f6ee073c87883c98fb2c90cbd76f0e35943aa63dd3ebee
+size 27370618

checkpoint-180/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:48ee9b73399c28d7e668360bf1d5a4d11095c4738bf96c13f7bb6fbff59f8ccb
+size 14244

checkpoint-180/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14732432661203392f17c828aeaa967e3fc0c59a7193aef58b74af5f304be609
+size 1064

checkpoint-180/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-180/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-180/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
+size 493443

checkpoint-180/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,49 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "chat_template": "{% for message in messages %}{% if message['role'] == 'user' %}{{ bos_token + '[INST] ' + message['content'] + ' [/INST]' }}{% elif message['role'] == 'system' %}{{ '<<SYS>>\\n' + message['content'] + '\\n<</SYS>>\\n\\n' }}{% elif message['role'] == 'assistant' %}{{ ' '  + message['content'] + ' ' + eos_token }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "max_lenght": 8192,
+  "max_length": 8192,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<unk>",
+  "padding": true,
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "stride": 0,
+  "tokenizer_class": "LlamaTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-180/trainer_state.json ADDED Viewed

	@@ -0,0 +1,387 @@

+{
+  "best_metric": 0.4541548192501068,
+  "best_model_checkpoint": "./mistral/20-04-24-Weni-WeniGPT-Agents-Mistral-1.0.6-SFT-1.0.5-DPO_Experiment on DPO with other hyperparameters and best SFT model of WeniGPT-2_max_steps-366_batch_4_2024-04-20_ppid_9/checkpoint-180",
+  "epoch": 2.926829268292683,
+  "eval_steps": 30,
+  "global_step": 180,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.16,
+      "grad_norm": 8.378021240234375,
+      "learning_rate": 4.0909090909090915e-06,
+      "logits/chosen": -1.830958604812622,
+      "logits/rejected": -1.8507845401763916,
+      "logps/chosen": -28.701984405517578,
+      "logps/rejected": -54.28569793701172,
+      "loss": 0.6924,
+      "rewards/accuracies": 0.20000000298023224,
+      "rewards/chosen": 0.0008967495523393154,
+      "rewards/margins": 0.0014666033675894141,
+      "rewards/rejected": -0.0005698538152500987,
+      "step": 10
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 5.193418502807617,
+      "learning_rate": 4.887323943661972e-06,
+      "logits/chosen": -1.7550897598266602,
+      "logits/rejected": -1.770708680152893,
+      "logps/chosen": -47.344207763671875,
+      "logps/rejected": -64.0368423461914,
+      "loss": 0.6852,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": 0.017231885343790054,
+      "rewards/margins": 0.01606021076440811,
+      "rewards/rejected": 0.0011716745793819427,
+      "step": 20
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 7.308932304382324,
+      "learning_rate": 4.746478873239437e-06,
+      "logits/chosen": -1.781267762184143,
+      "logits/rejected": -1.8114898204803467,
+      "logps/chosen": -54.274559020996094,
+      "logps/rejected": -95.20500183105469,
+      "loss": 0.6635,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.0641159638762474,
+      "rewards/margins": 0.061691801995038986,
+      "rewards/rejected": 0.0024241588544100523,
+      "step": 30
+    },
+    {
+      "epoch": 0.49,
+      "eval_logits/chosen": -1.7831767797470093,
+      "eval_logits/rejected": -1.8043663501739502,
+      "eval_logps/chosen": -55.16960906982422,
+      "eval_logps/rejected": -97.32585144042969,
+      "eval_loss": 0.6523757576942444,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.09036973863840103,
+      "eval_rewards/margins": 0.08673857897520065,
+      "eval_rewards/rejected": 0.0036311547737568617,
+      "eval_runtime": 8.141,
+      "eval_samples_per_second": 3.439,
+      "eval_steps_per_second": 1.72,
+      "step": 30
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 0.0,
+      "learning_rate": 4.6056338028169015e-06,
+      "logits/chosen": -1.889905333518982,
+      "logits/rejected": -1.9024461507797241,
+      "logps/chosen": -27.918941497802734,
+      "logps/rejected": -42.093284606933594,
+      "loss": 0.668,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": 0.054457180202007294,
+      "rewards/margins": 0.0539846234023571,
+      "rewards/rejected": 0.0004725646285805851,
+      "step": 40
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 8.53225326538086,
+      "learning_rate": 4.464788732394367e-06,
+      "logits/chosen": -1.8278567790985107,
+      "logits/rejected": -1.849957823753357,
+      "logps/chosen": -43.8238639831543,
+      "logps/rejected": -68.02179718017578,
+      "loss": 0.6358,
+      "rewards/accuracies": 0.3499999940395355,
+      "rewards/chosen": 0.13941256701946259,
+      "rewards/margins": 0.13133978843688965,
+      "rewards/rejected": 0.008072790689766407,
+      "step": 50
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 9.436968803405762,
+      "learning_rate": 4.3239436619718315e-06,
+      "logits/chosen": -1.805991768836975,
+      "logits/rejected": -1.8437427282333374,
+      "logps/chosen": -43.8873291015625,
+      "logps/rejected": -95.2943115234375,
+      "loss": 0.6026,
+      "rewards/accuracies": 0.44999998807907104,
+      "rewards/chosen": 0.18793432414531708,
+      "rewards/margins": 0.21308371424674988,
+      "rewards/rejected": -0.025149401277303696,
+      "step": 60
+    },
+    {
+      "epoch": 0.98,
+      "eval_logits/chosen": -1.7877694368362427,
+      "eval_logits/rejected": -1.8098936080932617,
+      "eval_logps/chosen": -53.567203521728516,
+      "eval_logps/rejected": -97.33795928955078,
+      "eval_loss": 0.5890871286392212,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.25061002373695374,
+      "eval_rewards/margins": 0.2481890469789505,
+      "eval_rewards/rejected": 0.002420984674245119,
+      "eval_runtime": 8.1404,
+      "eval_samples_per_second": 3.44,
+      "eval_steps_per_second": 1.72,
+      "step": 60
+    },
+    {
+      "epoch": 1.14,
+      "grad_norm": 0.0,
+      "learning_rate": 4.183098591549296e-06,
+      "logits/chosen": -1.8344879150390625,
+      "logits/rejected": -1.8489716053009033,
+      "logps/chosen": -40.38930892944336,
+      "logps/rejected": -60.9084358215332,
+      "loss": 0.6031,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.19739331305027008,
+      "rewards/margins": 0.22638121247291565,
+      "rewards/rejected": -0.028987903147935867,
+      "step": 70
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 5.49536657333374,
+      "learning_rate": 4.042253521126761e-06,
+      "logits/chosen": -1.7903095483779907,
+      "logits/rejected": -1.8362411260604858,
+      "logps/chosen": -44.288116455078125,
+      "logps/rejected": -90.21073913574219,
+      "loss": 0.5357,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": 0.34061312675476074,
+      "rewards/margins": 0.40679749846458435,
+      "rewards/rejected": -0.06618441641330719,
+      "step": 80
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 13.401692390441895,
+      "learning_rate": 3.901408450704225e-06,
+      "logits/chosen": -1.8004281520843506,
+      "logits/rejected": -1.8247934579849243,
+      "logps/chosen": -42.32465362548828,
+      "logps/rejected": -70.9749984741211,
+      "loss": 0.5387,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": 0.3678433299064636,
+      "rewards/margins": 0.4186524450778961,
+      "rewards/rejected": -0.05080908536911011,
+      "step": 90
+    },
+    {
+      "epoch": 1.46,
+      "eval_logits/chosen": -1.7943389415740967,
+      "eval_logits/rejected": -1.8181126117706299,
+      "eval_logps/chosen": -51.677486419677734,
+      "eval_logps/rejected": -97.63689422607422,
+      "eval_loss": 0.529485821723938,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.4395819306373596,
+      "eval_rewards/margins": 0.4670555889606476,
+      "eval_rewards/rejected": -0.027473628520965576,
+      "eval_runtime": 8.1412,
+      "eval_samples_per_second": 3.439,
+      "eval_steps_per_second": 1.72,
+      "step": 90
+    },
+    {
+      "epoch": 1.63,
+      "grad_norm": 5.040858745574951,
+      "learning_rate": 3.7605633802816903e-06,
+      "logits/chosen": -1.8601042032241821,
+      "logits/rejected": -1.8790462017059326,
+      "logps/chosen": -43.77570343017578,
+      "logps/rejected": -70.64997863769531,
+      "loss": 0.5466,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": 0.36673134565353394,
+      "rewards/margins": 0.42903366684913635,
+      "rewards/rejected": -0.06230226159095764,
+      "step": 100
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 11.182683944702148,
+      "learning_rate": 3.6197183098591553e-06,
+      "logits/chosen": -1.8602203130722046,
+      "logits/rejected": -1.8786903619766235,
+      "logps/chosen": -29.601736068725586,
+      "logps/rejected": -66.1338882446289,
+      "loss": 0.6003,
+      "rewards/accuracies": 0.2750000059604645,
+      "rewards/chosen": 0.3122637867927551,
+      "rewards/margins": 0.2756831645965576,
+      "rewards/rejected": 0.03658062964677811,
+      "step": 110
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 3.9169583320617676,
+      "learning_rate": 3.47887323943662e-06,
+      "logits/chosen": -1.8304624557495117,
+      "logits/rejected": -1.8451646566390991,
+      "logps/chosen": -31.413599014282227,
+      "logps/rejected": -56.841880798339844,
+      "loss": 0.6033,
+      "rewards/accuracies": 0.2750000059604645,
+      "rewards/chosen": 0.21899382770061493,
+      "rewards/margins": 0.2744571566581726,
+      "rewards/rejected": -0.05546332150697708,
+      "step": 120
+    },
+    {
+      "epoch": 1.95,
+      "eval_logits/chosen": -1.80086350440979,
+      "eval_logits/rejected": -1.8260576725006104,
+      "eval_logps/chosen": -50.32191848754883,
+      "eval_logps/rejected": -98.02101135253906,
+      "eval_loss": 0.49604225158691406,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.5751391053199768,
+      "eval_rewards/margins": 0.6410244107246399,
+      "eval_rewards/rejected": -0.0658852607011795,
+      "eval_runtime": 8.1445,
+      "eval_samples_per_second": 3.438,
+      "eval_steps_per_second": 1.719,
+      "step": 120
+    },
+    {
+      "epoch": 2.11,
+      "grad_norm": 1.4047716856002808,
+      "learning_rate": 3.338028169014085e-06,
+      "logits/chosen": -1.8776130676269531,
+      "logits/rejected": -1.8995519876480103,
+      "logps/chosen": -22.69371795654297,
+      "logps/rejected": -53.5282096862793,
+      "loss": 0.5611,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": 0.35938918590545654,
+      "rewards/margins": 0.5045264959335327,
+      "rewards/rejected": -0.14513733983039856,
+      "step": 130
+    },
+    {
+      "epoch": 2.28,
+      "grad_norm": 0.7528722882270813,
+      "learning_rate": 3.1971830985915496e-06,
+      "logits/chosen": -1.8126357793807983,
+      "logits/rejected": -1.832371711730957,
+      "logps/chosen": -38.33379364013672,
+      "logps/rejected": -67.96979522705078,
+      "loss": 0.5142,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.5568062663078308,
+      "rewards/margins": 0.6818712949752808,
+      "rewards/rejected": -0.12506499886512756,
+      "step": 140
+    },
+    {
+      "epoch": 2.44,
+      "grad_norm": 3.405579090118408,
+      "learning_rate": 3.056338028169014e-06,
+      "logits/chosen": -1.8196109533309937,
+      "logits/rejected": -1.8556429147720337,
+      "logps/chosen": -36.78864669799805,
+      "logps/rejected": -83.05890655517578,
+      "loss": 0.5042,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": 0.542107105255127,
+      "rewards/margins": 0.6411095857620239,
+      "rewards/rejected": -0.09900249540805817,
+      "step": 150
+    },
+    {
+      "epoch": 2.44,
+      "eval_logits/chosen": -1.805869698524475,
+      "eval_logits/rejected": -1.8330577611923218,
+      "eval_logps/chosen": -49.10601043701172,
+      "eval_logps/rejected": -98.84068298339844,
+      "eval_loss": 0.4709201455116272,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.6967297196388245,
+      "eval_rewards/margins": 0.8445812463760376,
+      "eval_rewards/rejected": -0.1478516012430191,
+      "eval_runtime": 8.1382,
+      "eval_samples_per_second": 3.441,
+      "eval_steps_per_second": 1.72,
+      "step": 150
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 7.778740882873535,
+      "learning_rate": 2.915492957746479e-06,
+      "logits/chosen": -1.848589301109314,
+      "logits/rejected": -1.8790754079818726,
+      "logps/chosen": -36.49171447753906,
+      "logps/rejected": -72.55968475341797,
+      "loss": 0.4927,
+      "rewards/accuracies": 0.44999998807907104,
+      "rewards/chosen": 0.49555450677871704,
+      "rewards/margins": 0.6891830563545227,
+      "rewards/rejected": -0.1936284601688385,
+      "step": 160
+    },
+    {
+      "epoch": 2.76,
+      "grad_norm": 4.058627605438232,
+      "learning_rate": 2.774647887323944e-06,
+      "logits/chosen": -1.812421441078186,
+      "logits/rejected": -1.8415311574935913,
+      "logps/chosen": -45.62999725341797,
+      "logps/rejected": -87.85527038574219,
+      "loss": 0.4541,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": 0.7084562182426453,
+      "rewards/margins": 0.9553689956665039,
+      "rewards/rejected": -0.24691279232501984,
+      "step": 170
+    },
+    {
+      "epoch": 2.93,
+      "grad_norm": 0.0,
+      "learning_rate": 2.6338028169014084e-06,
+      "logits/chosen": -1.8475942611694336,
+      "logits/rejected": -1.8678725957870483,
+      "logps/chosen": -40.53328323364258,
+      "logps/rejected": -64.86616516113281,
+      "loss": 0.5087,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.5022943019866943,
+      "rewards/margins": 0.7252141833305359,
+      "rewards/rejected": -0.22291991114616394,
+      "step": 180
+    },
+    {
+      "epoch": 2.93,
+      "eval_logits/chosen": -1.8136398792266846,
+      "eval_logits/rejected": -1.8424787521362305,
+      "eval_logps/chosen": -48.19547653198242,
+      "eval_logps/rejected": -99.7900161743164,
+      "eval_loss": 0.4541548192501068,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.7877826690673828,
+      "eval_rewards/margins": 1.0305674076080322,
+      "eval_rewards/rejected": -0.24278469383716583,
+      "eval_runtime": 8.1397,
+      "eval_samples_per_second": 3.44,
+      "eval_steps_per_second": 1.72,
+      "step": 180
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 366,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": 90,
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-180/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de569ad7b35da22832fd1fc395ab1c110ac622b038bdfcb0eee757cdc5b4b97b
+size 5304

checkpoint-270/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+library_name: peft
+base_model: Weni/WeniGPT-Agents-Mistral-1.0.6-SFT-merged
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.10.0

checkpoint-270/adapter_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "Weni/WeniGPT-Agents-Mistral-1.0.6-SFT-merged",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

checkpoint-270/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:918068effef33fcd83ee39a7b70c44461e0a5f72909fe72fbba0207e41da5527
+size 13648432

checkpoint-270/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44856c4420546cbc9f5a35b808e67c05528c23d760db27d4eb92ce6a79b5f895
+size 27370618

checkpoint-270/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d3b7102895eb0637b0cab516bd672f216b2bf79078a83eb301011a90444f44c
+size 14244

checkpoint-270/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:754fa30b685f93af9e6d375848220222347b5605c21cd93b54aaa798d6ea3598
+size 1064

checkpoint-270/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-270/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-270/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
+size 493443

checkpoint-270/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,49 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "chat_template": "{% for message in messages %}{% if message['role'] == 'user' %}{{ bos_token + '[INST] ' + message['content'] + ' [/INST]' }}{% elif message['role'] == 'system' %}{{ '<<SYS>>\\n' + message['content'] + '\\n<</SYS>>\\n\\n' }}{% elif message['role'] == 'assistant' %}{{ ' '  + message['content'] + ' ' + eos_token }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "max_lenght": 8192,
+  "max_length": 8192,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<unk>",
+  "padding": true,
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "stride": 0,
+  "tokenizer_class": "LlamaTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-270/trainer_state.json ADDED Viewed

	@@ -0,0 +1,570 @@

+{
+  "best_metric": 0.43130752444267273,
+  "best_model_checkpoint": "./mistral/20-04-24-Weni-WeniGPT-Agents-Mistral-1.0.6-SFT-1.0.5-DPO_Experiment on DPO with other hyperparameters and best SFT model of WeniGPT-2_max_steps-366_batch_4_2024-04-20_ppid_9/checkpoint-270",
+  "epoch": 4.390243902439025,
+  "eval_steps": 30,
+  "global_step": 270,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.16,
+      "grad_norm": 8.378021240234375,
+      "learning_rate": 4.0909090909090915e-06,
+      "logits/chosen": -1.830958604812622,
+      "logits/rejected": -1.8507845401763916,
+      "logps/chosen": -28.701984405517578,
+      "logps/rejected": -54.28569793701172,
+      "loss": 0.6924,
+      "rewards/accuracies": 0.20000000298023224,
+      "rewards/chosen": 0.0008967495523393154,
+      "rewards/margins": 0.0014666033675894141,
+      "rewards/rejected": -0.0005698538152500987,
+      "step": 10
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 5.193418502807617,
+      "learning_rate": 4.887323943661972e-06,
+      "logits/chosen": -1.7550897598266602,
+      "logits/rejected": -1.770708680152893,
+      "logps/chosen": -47.344207763671875,
+      "logps/rejected": -64.0368423461914,
+      "loss": 0.6852,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": 0.017231885343790054,
+      "rewards/margins": 0.01606021076440811,
+      "rewards/rejected": 0.0011716745793819427,
+      "step": 20
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 7.308932304382324,
+      "learning_rate": 4.746478873239437e-06,
+      "logits/chosen": -1.781267762184143,
+      "logits/rejected": -1.8114898204803467,
+      "logps/chosen": -54.274559020996094,
+      "logps/rejected": -95.20500183105469,
+      "loss": 0.6635,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.0641159638762474,
+      "rewards/margins": 0.061691801995038986,
+      "rewards/rejected": 0.0024241588544100523,
+      "step": 30
+    },
+    {
+      "epoch": 0.49,
+      "eval_logits/chosen": -1.7831767797470093,
+      "eval_logits/rejected": -1.8043663501739502,
+      "eval_logps/chosen": -55.16960906982422,
+      "eval_logps/rejected": -97.32585144042969,
+      "eval_loss": 0.6523757576942444,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.09036973863840103,
+      "eval_rewards/margins": 0.08673857897520065,
+      "eval_rewards/rejected": 0.0036311547737568617,
+      "eval_runtime": 8.141,
+      "eval_samples_per_second": 3.439,
+      "eval_steps_per_second": 1.72,
+      "step": 30
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 0.0,
+      "learning_rate": 4.6056338028169015e-06,
+      "logits/chosen": -1.889905333518982,
+      "logits/rejected": -1.9024461507797241,
+      "logps/chosen": -27.918941497802734,
+      "logps/rejected": -42.093284606933594,
+      "loss": 0.668,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": 0.054457180202007294,
+      "rewards/margins": 0.0539846234023571,
+      "rewards/rejected": 0.0004725646285805851,
+      "step": 40
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 8.53225326538086,
+      "learning_rate": 4.464788732394367e-06,
+      "logits/chosen": -1.8278567790985107,
+      "logits/rejected": -1.849957823753357,
+      "logps/chosen": -43.8238639831543,
+      "logps/rejected": -68.02179718017578,
+      "loss": 0.6358,
+      "rewards/accuracies": 0.3499999940395355,
+      "rewards/chosen": 0.13941256701946259,
+      "rewards/margins": 0.13133978843688965,
+      "rewards/rejected": 0.008072790689766407,
+      "step": 50
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 9.436968803405762,
+      "learning_rate": 4.3239436619718315e-06,
+      "logits/chosen": -1.805991768836975,
+      "logits/rejected": -1.8437427282333374,
+      "logps/chosen": -43.8873291015625,
+      "logps/rejected": -95.2943115234375,
+      "loss": 0.6026,
+      "rewards/accuracies": 0.44999998807907104,
+      "rewards/chosen": 0.18793432414531708,
+      "rewards/margins": 0.21308371424674988,
+      "rewards/rejected": -0.025149401277303696,
+      "step": 60
+    },
+    {
+      "epoch": 0.98,
+      "eval_logits/chosen": -1.7877694368362427,
+      "eval_logits/rejected": -1.8098936080932617,
+      "eval_logps/chosen": -53.567203521728516,
+      "eval_logps/rejected": -97.33795928955078,
+      "eval_loss": 0.5890871286392212,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.25061002373695374,
+      "eval_rewards/margins": 0.2481890469789505,
+      "eval_rewards/rejected": 0.002420984674245119,
+      "eval_runtime": 8.1404,
+      "eval_samples_per_second": 3.44,
+      "eval_steps_per_second": 1.72,
+      "step": 60
+    },
+    {
+      "epoch": 1.14,
+      "grad_norm": 0.0,
+      "learning_rate": 4.183098591549296e-06,
+      "logits/chosen": -1.8344879150390625,
+      "logits/rejected": -1.8489716053009033,
+      "logps/chosen": -40.38930892944336,
+      "logps/rejected": -60.9084358215332,
+      "loss": 0.6031,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.19739331305027008,
+      "rewards/margins": 0.22638121247291565,
+      "rewards/rejected": -0.028987903147935867,
+      "step": 70
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 5.49536657333374,
+      "learning_rate": 4.042253521126761e-06,
+      "logits/chosen": -1.7903095483779907,
+      "logits/rejected": -1.8362411260604858,
+      "logps/chosen": -44.288116455078125,
+      "logps/rejected": -90.21073913574219,
+      "loss": 0.5357,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": 0.34061312675476074,
+      "rewards/margins": 0.40679749846458435,
+      "rewards/rejected": -0.06618441641330719,
+      "step": 80
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 13.401692390441895,
+      "learning_rate": 3.901408450704225e-06,
+      "logits/chosen": -1.8004281520843506,
+      "logits/rejected": -1.8247934579849243,
+      "logps/chosen": -42.32465362548828,
+      "logps/rejected": -70.9749984741211,
+      "loss": 0.5387,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": 0.3678433299064636,
+      "rewards/margins": 0.4186524450778961,
+      "rewards/rejected": -0.05080908536911011,
+      "step": 90
+    },
+    {
+      "epoch": 1.46,
+      "eval_logits/chosen": -1.7943389415740967,
+      "eval_logits/rejected": -1.8181126117706299,
+      "eval_logps/chosen": -51.677486419677734,
+      "eval_logps/rejected": -97.63689422607422,
+      "eval_loss": 0.529485821723938,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.4395819306373596,
+      "eval_rewards/margins": 0.4670555889606476,
+      "eval_rewards/rejected": -0.027473628520965576,
+      "eval_runtime": 8.1412,
+      "eval_samples_per_second": 3.439,
+      "eval_steps_per_second": 1.72,
+      "step": 90
+    },
+    {
+      "epoch": 1.63,
+      "grad_norm": 5.040858745574951,
+      "learning_rate": 3.7605633802816903e-06,
+      "logits/chosen": -1.8601042032241821,
+      "logits/rejected": -1.8790462017059326,
+      "logps/chosen": -43.77570343017578,
+      "logps/rejected": -70.64997863769531,
+      "loss": 0.5466,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": 0.36673134565353394,
+      "rewards/margins": 0.42903366684913635,
+      "rewards/rejected": -0.06230226159095764,
+      "step": 100
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 11.182683944702148,
+      "learning_rate": 3.6197183098591553e-06,
+      "logits/chosen": -1.8602203130722046,
+      "logits/rejected": -1.8786903619766235,
+      "logps/chosen": -29.601736068725586,
+      "logps/rejected": -66.1338882446289,
+      "loss": 0.6003,
+      "rewards/accuracies": 0.2750000059604645,
+      "rewards/chosen": 0.3122637867927551,
+      "rewards/margins": 0.2756831645965576,
+      "rewards/rejected": 0.03658062964677811,
+      "step": 110
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 3.9169583320617676,
+      "learning_rate": 3.47887323943662e-06,
+      "logits/chosen": -1.8304624557495117,
+      "logits/rejected": -1.8451646566390991,
+      "logps/chosen": -31.413599014282227,
+      "logps/rejected": -56.841880798339844,
+      "loss": 0.6033,
+      "rewards/accuracies": 0.2750000059604645,
+      "rewards/chosen": 0.21899382770061493,
+      "rewards/margins": 0.2744571566581726,
+      "rewards/rejected": -0.05546332150697708,
+      "step": 120
+    },
+    {
+      "epoch": 1.95,
+      "eval_logits/chosen": -1.80086350440979,
+      "eval_logits/rejected": -1.8260576725006104,
+      "eval_logps/chosen": -50.32191848754883,
+      "eval_logps/rejected": -98.02101135253906,
+      "eval_loss": 0.49604225158691406,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.5751391053199768,
+      "eval_rewards/margins": 0.6410244107246399,
+      "eval_rewards/rejected": -0.0658852607011795,
+      "eval_runtime": 8.1445,
+      "eval_samples_per_second": 3.438,
+      "eval_steps_per_second": 1.719,
+      "step": 120
+    },
+    {
+      "epoch": 2.11,
+      "grad_norm": 1.4047716856002808,
+      "learning_rate": 3.338028169014085e-06,
+      "logits/chosen": -1.8776130676269531,
+      "logits/rejected": -1.8995519876480103,
+      "logps/chosen": -22.69371795654297,
+      "logps/rejected": -53.5282096862793,
+      "loss": 0.5611,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": 0.35938918590545654,
+      "rewards/margins": 0.5045264959335327,
+      "rewards/rejected": -0.14513733983039856,
+      "step": 130
+    },
+    {
+      "epoch": 2.28,
+      "grad_norm": 0.7528722882270813,
+      "learning_rate": 3.1971830985915496e-06,
+      "logits/chosen": -1.8126357793807983,
+      "logits/rejected": -1.832371711730957,
+      "logps/chosen": -38.33379364013672,
+      "logps/rejected": -67.96979522705078,
+      "loss": 0.5142,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.5568062663078308,
+      "rewards/margins": 0.6818712949752808,
+      "rewards/rejected": -0.12506499886512756,
+      "step": 140
+    },
+    {
+      "epoch": 2.44,
+      "grad_norm": 3.405579090118408,
+      "learning_rate": 3.056338028169014e-06,
+      "logits/chosen": -1.8196109533309937,
+      "logits/rejected": -1.8556429147720337,
+      "logps/chosen": -36.78864669799805,
+      "logps/rejected": -83.05890655517578,
+      "loss": 0.5042,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": 0.542107105255127,
+      "rewards/margins": 0.6411095857620239,
+      "rewards/rejected": -0.09900249540805817,
+      "step": 150
+    },
+    {
+      "epoch": 2.44,
+      "eval_logits/chosen": -1.805869698524475,
+      "eval_logits/rejected": -1.8330577611923218,
+      "eval_logps/chosen": -49.10601043701172,
+      "eval_logps/rejected": -98.84068298339844,
+      "eval_loss": 0.4709201455116272,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.6967297196388245,
+      "eval_rewards/margins": 0.8445812463760376,
+      "eval_rewards/rejected": -0.1478516012430191,
+      "eval_runtime": 8.1382,
+      "eval_samples_per_second": 3.441,
+      "eval_steps_per_second": 1.72,
+      "step": 150
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 7.778740882873535,
+      "learning_rate": 2.915492957746479e-06,
+      "logits/chosen": -1.848589301109314,
+      "logits/rejected": -1.8790754079818726,
+      "logps/chosen": -36.49171447753906,
+      "logps/rejected": -72.55968475341797,
+      "loss": 0.4927,
+      "rewards/accuracies": 0.44999998807907104,
+      "rewards/chosen": 0.49555450677871704,
+      "rewards/margins": 0.6891830563545227,
+      "rewards/rejected": -0.1936284601688385,
+      "step": 160
+    },
+    {
+      "epoch": 2.76,
+      "grad_norm": 4.058627605438232,
+      "learning_rate": 2.774647887323944e-06,
+      "logits/chosen": -1.812421441078186,
+      "logits/rejected": -1.8415311574935913,
+      "logps/chosen": -45.62999725341797,
+      "logps/rejected": -87.85527038574219,
+      "loss": 0.4541,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": 0.7084562182426453,
+      "rewards/margins": 0.9553689956665039,
+      "rewards/rejected": -0.24691279232501984,
+      "step": 170
+    },
+    {
+      "epoch": 2.93,
+      "grad_norm": 0.0,
+      "learning_rate": 2.6338028169014084e-06,
+      "logits/chosen": -1.8475942611694336,
+      "logits/rejected": -1.8678725957870483,
+      "logps/chosen": -40.53328323364258,
+      "logps/rejected": -64.86616516113281,
+      "loss": 0.5087,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.5022943019866943,
+      "rewards/margins": 0.7252141833305359,
+      "rewards/rejected": -0.22291991114616394,
+      "step": 180
+    },
+    {
+      "epoch": 2.93,
+      "eval_logits/chosen": -1.8136398792266846,
+      "eval_logits/rejected": -1.8424787521362305,
+      "eval_logps/chosen": -48.19547653198242,
+      "eval_logps/rejected": -99.7900161743164,
+      "eval_loss": 0.4541548192501068,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.7877826690673828,
+      "eval_rewards/margins": 1.0305674076080322,
+      "eval_rewards/rejected": -0.24278469383716583,
+      "eval_runtime": 8.1397,
+      "eval_samples_per_second": 3.44,
+      "eval_steps_per_second": 1.72,
+      "step": 180
+    },
+    {
+      "epoch": 3.09,
+      "grad_norm": 2.1618106365203857,
+      "learning_rate": 2.4929577464788734e-06,
+      "logits/chosen": -1.876151442527771,
+      "logits/rejected": -1.9132931232452393,
+      "logps/chosen": -38.02617645263672,
+      "logps/rejected": -84.4028549194336,
+      "loss": 0.4372,
+      "rewards/accuracies": 0.44999998807907104,
+      "rewards/chosen": 0.723468005657196,
+      "rewards/margins": 1.1590527296066284,
+      "rewards/rejected": -0.43558478355407715,
+      "step": 190
+    },
+    {
+      "epoch": 3.25,
+      "grad_norm": 0.0,
+      "learning_rate": 2.352112676056338e-06,
+      "logits/chosen": -1.8977773189544678,
+      "logits/rejected": -1.9120800495147705,
+      "logps/chosen": -38.097923278808594,
+      "logps/rejected": -55.17757034301758,
+      "loss": 0.4778,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.5927585959434509,
+      "rewards/margins": 0.8746024370193481,
+      "rewards/rejected": -0.2818438410758972,
+      "step": 200
+    },
+    {
+      "epoch": 3.41,
+      "grad_norm": 7.095726013183594,
+      "learning_rate": 2.211267605633803e-06,
+      "logits/chosen": -1.8508259057998657,
+      "logits/rejected": -1.8876402378082275,
+      "logps/chosen": -33.23273468017578,
+      "logps/rejected": -79.0272445678711,
+      "loss": 0.4874,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.5798195600509644,
+      "rewards/margins": 0.9200228452682495,
+      "rewards/rejected": -0.34020328521728516,
+      "step": 210
+    },
+    {
+      "epoch": 3.41,
+      "eval_logits/chosen": -1.821912407875061,
+      "eval_logits/rejected": -1.8520457744598389,
+      "eval_logps/chosen": -47.6314697265625,
+      "eval_logps/rejected": -100.92195129394531,
+      "eval_loss": 0.4427572786808014,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.8441829681396484,
+      "eval_rewards/margins": 1.2001608610153198,
+      "eval_rewards/rejected": -0.35597795248031616,
+      "eval_runtime": 8.1451,
+      "eval_samples_per_second": 3.438,
+      "eval_steps_per_second": 1.719,
+      "step": 210
+    },
+    {
+      "epoch": 3.58,
+      "grad_norm": 4.825575351715088,
+      "learning_rate": 2.0704225352112676e-06,
+      "logits/chosen": -1.889478325843811,
+      "logits/rejected": -1.9106714725494385,
+      "logps/chosen": -30.769512176513672,
+      "logps/rejected": -68.92756652832031,
+      "loss": 0.5277,
+      "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": 0.379320353269577,
+      "rewards/margins": 0.6602964401245117,
+      "rewards/rejected": -0.28097596764564514,
+      "step": 220
+    },
+    {
+      "epoch": 3.74,
+      "grad_norm": 5.236915588378906,
+      "learning_rate": 1.9295774647887326e-06,
+      "logits/chosen": -1.8926284313201904,
+      "logits/rejected": -1.9087079763412476,
+      "logps/chosen": -36.48774719238281,
+      "logps/rejected": -59.29833221435547,
+      "loss": 0.5176,
+      "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": 0.6325365304946899,
+      "rewards/margins": 0.867927074432373,
+      "rewards/rejected": -0.2353905737400055,
+      "step": 230
+    },
+    {
+      "epoch": 3.9,
+      "grad_norm": 1.3737443685531616,
+      "learning_rate": 1.7887323943661974e-06,
+      "logits/chosen": -1.7782018184661865,
+      "logits/rejected": -1.8105701208114624,
+      "logps/chosen": -41.42538833618164,
+      "logps/rejected": -93.73129272460938,
+      "loss": 0.4229,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": 0.8450711369514465,
+      "rewards/margins": 1.3813583850860596,
+      "rewards/rejected": -0.5362871885299683,
+      "step": 240
+    },
+    {
+      "epoch": 3.9,
+      "eval_logits/chosen": -1.826602816581726,
+      "eval_logits/rejected": -1.8575078248977661,
+      "eval_logps/chosen": -47.322914123535156,
+      "eval_logps/rejected": -101.7520980834961,
+      "eval_loss": 0.4358247220516205,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.8750395178794861,
+      "eval_rewards/margins": 1.3140336275100708,
+      "eval_rewards/rejected": -0.4389941692352295,
+      "eval_runtime": 8.1403,
+      "eval_samples_per_second": 3.44,
+      "eval_steps_per_second": 1.72,
+      "step": 240
+    },
+    {
+      "epoch": 4.07,
+      "grad_norm": 1.977386713027954,
+      "learning_rate": 1.647887323943662e-06,
+      "logits/chosen": -1.875792145729065,
+      "logits/rejected": -1.8937476873397827,
+      "logps/chosen": -25.06104278564453,
+      "logps/rejected": -46.700584411621094,
+      "loss": 0.5274,
+      "rewards/accuracies": 0.30000001192092896,
+      "rewards/chosen": 0.42553478479385376,
+      "rewards/margins": 0.7891250252723694,
+      "rewards/rejected": -0.3635903000831604,
+      "step": 250
+    },
+    {
+      "epoch": 4.23,
+      "grad_norm": 3.320791244506836,
+      "learning_rate": 1.5070422535211269e-06,
+      "logits/chosen": -1.7908179759979248,
+      "logits/rejected": -1.8309694528579712,
+      "logps/chosen": -54.056663513183594,
+      "logps/rejected": -108.03240966796875,
+      "loss": 0.3569,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 1.07839035987854,
+      "rewards/margins": 1.643531084060669,
+      "rewards/rejected": -0.5651407837867737,
+      "step": 260
+    },
+    {
+      "epoch": 4.39,
+      "grad_norm": 4.999856948852539,
+      "learning_rate": 1.3661971830985919e-06,
+      "logits/chosen": -1.9177863597869873,
+      "logits/rejected": -1.9476194381713867,
+      "logps/chosen": -22.58294105529785,
+      "logps/rejected": -61.99756622314453,
+      "loss": 0.5295,
+      "rewards/accuracies": 0.2750000059604645,
+      "rewards/chosen": 0.5058903694152832,
+      "rewards/margins": 0.8186748623847961,
+      "rewards/rejected": -0.31278449296951294,
+      "step": 270
+    },
+    {
+      "epoch": 4.39,
+      "eval_logits/chosen": -1.8289211988449097,
+      "eval_logits/rejected": -1.860676646232605,
+      "eval_logps/chosen": -47.04714584350586,
+      "eval_logps/rejected": -102.3218994140625,
+      "eval_loss": 0.43130752444267273,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.9026166200637817,
+      "eval_rewards/margins": 1.3985893726348877,
+      "eval_rewards/rejected": -0.4959728717803955,
+      "eval_runtime": 8.1397,
+      "eval_samples_per_second": 3.44,
+      "eval_steps_per_second": 1.72,
+      "step": 270
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 366,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": 90,
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-270/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de569ad7b35da22832fd1fc395ab1c110ac622b038bdfcb0eee757cdc5b4b97b
+size 5304

checkpoint-360/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+library_name: peft
+base_model: Weni/WeniGPT-Agents-Mistral-1.0.6-SFT-merged
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.10.0

checkpoint-360/adapter_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "Weni/WeniGPT-Agents-Mistral-1.0.6-SFT-merged",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

checkpoint-360/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a0c709e037401ede6602043ef6a5abb1f9b33746d7060acc95355c55c0660071
+size 13648432

checkpoint-360/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:30955b65c45b0993e250de74aafe58045cbb1b0ea1ca012a6e570504f8394557
+size 27370618

checkpoint-360/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:adbac4581908b419c3039e502a4aacf8ebe77d7c5097a659c9e661f2ab321b78
+size 14244

checkpoint-360/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c2a24ffbdf666fc29aa43a0bae8368ec77e666548541499714a3f8dfdd7c88b
+size 1064

checkpoint-360/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-360/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-360/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
+size 493443

checkpoint-360/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,49 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "chat_template": "{% for message in messages %}{% if message['role'] == 'user' %}{{ bos_token + '[INST] ' + message['content'] + ' [/INST]' }}{% elif message['role'] == 'system' %}{{ '<<SYS>>\\n' + message['content'] + '\\n<</SYS>>\\n\\n' }}{% elif message['role'] == 'assistant' %}{{ ' '  + message['content'] + ' ' + eos_token }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "max_lenght": 8192,
+  "max_length": 8192,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<unk>",
+  "padding": true,
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "stride": 0,
+  "tokenizer_class": "LlamaTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-360/trainer_state.json ADDED Viewed

	@@ -0,0 +1,753 @@

+{
+  "best_metric": 0.42603132128715515,
+  "best_model_checkpoint": "./mistral/20-04-24-Weni-WeniGPT-Agents-Mistral-1.0.6-SFT-1.0.5-DPO_Experiment on DPO with other hyperparameters and best SFT model of WeniGPT-2_max_steps-366_batch_4_2024-04-20_ppid_9/checkpoint-360",
+  "epoch": 5.853658536585366,
+  "eval_steps": 30,
+  "global_step": 360,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.16,
+      "grad_norm": 8.378021240234375,
+      "learning_rate": 4.0909090909090915e-06,
+      "logits/chosen": -1.830958604812622,
+      "logits/rejected": -1.8507845401763916,
+      "logps/chosen": -28.701984405517578,
+      "logps/rejected": -54.28569793701172,
+      "loss": 0.6924,
+      "rewards/accuracies": 0.20000000298023224,
+      "rewards/chosen": 0.0008967495523393154,
+      "rewards/margins": 0.0014666033675894141,
+      "rewards/rejected": -0.0005698538152500987,
+      "step": 10
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 5.193418502807617,
+      "learning_rate": 4.887323943661972e-06,
+      "logits/chosen": -1.7550897598266602,
+      "logits/rejected": -1.770708680152893,
+      "logps/chosen": -47.344207763671875,
+      "logps/rejected": -64.0368423461914,
+      "loss": 0.6852,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": 0.017231885343790054,
+      "rewards/margins": 0.01606021076440811,
+      "rewards/rejected": 0.0011716745793819427,
+      "step": 20
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 7.308932304382324,
+      "learning_rate": 4.746478873239437e-06,
+      "logits/chosen": -1.781267762184143,
+      "logits/rejected": -1.8114898204803467,
+      "logps/chosen": -54.274559020996094,
+      "logps/rejected": -95.20500183105469,
+      "loss": 0.6635,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.0641159638762474,
+      "rewards/margins": 0.061691801995038986,
+      "rewards/rejected": 0.0024241588544100523,
+      "step": 30
+    },
+    {
+      "epoch": 0.49,
+      "eval_logits/chosen": -1.7831767797470093,
+      "eval_logits/rejected": -1.8043663501739502,
+      "eval_logps/chosen": -55.16960906982422,
+      "eval_logps/rejected": -97.32585144042969,
+      "eval_loss": 0.6523757576942444,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.09036973863840103,
+      "eval_rewards/margins": 0.08673857897520065,
+      "eval_rewards/rejected": 0.0036311547737568617,
+      "eval_runtime": 8.141,
+      "eval_samples_per_second": 3.439,
+      "eval_steps_per_second": 1.72,
+      "step": 30
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 0.0,
+      "learning_rate": 4.6056338028169015e-06,
+      "logits/chosen": -1.889905333518982,
+      "logits/rejected": -1.9024461507797241,
+      "logps/chosen": -27.918941497802734,
+      "logps/rejected": -42.093284606933594,
+      "loss": 0.668,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": 0.054457180202007294,
+      "rewards/margins": 0.0539846234023571,
+      "rewards/rejected": 0.0004725646285805851,
+      "step": 40
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 8.53225326538086,
+      "learning_rate": 4.464788732394367e-06,
+      "logits/chosen": -1.8278567790985107,
+      "logits/rejected": -1.849957823753357,
+      "logps/chosen": -43.8238639831543,
+      "logps/rejected": -68.02179718017578,
+      "loss": 0.6358,
+      "rewards/accuracies": 0.3499999940395355,
+      "rewards/chosen": 0.13941256701946259,
+      "rewards/margins": 0.13133978843688965,
+      "rewards/rejected": 0.008072790689766407,
+      "step": 50
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 9.436968803405762,
+      "learning_rate": 4.3239436619718315e-06,
+      "logits/chosen": -1.805991768836975,
+      "logits/rejected": -1.8437427282333374,
+      "logps/chosen": -43.8873291015625,
+      "logps/rejected": -95.2943115234375,
+      "loss": 0.6026,
+      "rewards/accuracies": 0.44999998807907104,
+      "rewards/chosen": 0.18793432414531708,
+      "rewards/margins": 0.21308371424674988,
+      "rewards/rejected": -0.025149401277303696,
+      "step": 60
+    },
+    {
+      "epoch": 0.98,
+      "eval_logits/chosen": -1.7877694368362427,
+      "eval_logits/rejected": -1.8098936080932617,
+      "eval_logps/chosen": -53.567203521728516,
+      "eval_logps/rejected": -97.33795928955078,
+      "eval_loss": 0.5890871286392212,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.25061002373695374,
+      "eval_rewards/margins": 0.2481890469789505,
+      "eval_rewards/rejected": 0.002420984674245119,
+      "eval_runtime": 8.1404,
+      "eval_samples_per_second": 3.44,
+      "eval_steps_per_second": 1.72,
+      "step": 60
+    },
+    {
+      "epoch": 1.14,
+      "grad_norm": 0.0,
+      "learning_rate": 4.183098591549296e-06,
+      "logits/chosen": -1.8344879150390625,
+      "logits/rejected": -1.8489716053009033,
+      "logps/chosen": -40.38930892944336,
+      "logps/rejected": -60.9084358215332,
+      "loss": 0.6031,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.19739331305027008,
+      "rewards/margins": 0.22638121247291565,
+      "rewards/rejected": -0.028987903147935867,
+      "step": 70
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 5.49536657333374,
+      "learning_rate": 4.042253521126761e-06,
+      "logits/chosen": -1.7903095483779907,
+      "logits/rejected": -1.8362411260604858,
+      "logps/chosen": -44.288116455078125,
+      "logps/rejected": -90.21073913574219,
+      "loss": 0.5357,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": 0.34061312675476074,
+      "rewards/margins": 0.40679749846458435,
+      "rewards/rejected": -0.06618441641330719,
+      "step": 80
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 13.401692390441895,
+      "learning_rate": 3.901408450704225e-06,
+      "logits/chosen": -1.8004281520843506,
+      "logits/rejected": -1.8247934579849243,
+      "logps/chosen": -42.32465362548828,
+      "logps/rejected": -70.9749984741211,
+      "loss": 0.5387,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": 0.3678433299064636,
+      "rewards/margins": 0.4186524450778961,
+      "rewards/rejected": -0.05080908536911011,
+      "step": 90
+    },
+    {
+      "epoch": 1.46,
+      "eval_logits/chosen": -1.7943389415740967,
+      "eval_logits/rejected": -1.8181126117706299,
+      "eval_logps/chosen": -51.677486419677734,
+      "eval_logps/rejected": -97.63689422607422,
+      "eval_loss": 0.529485821723938,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.4395819306373596,
+      "eval_rewards/margins": 0.4670555889606476,
+      "eval_rewards/rejected": -0.027473628520965576,
+      "eval_runtime": 8.1412,
+      "eval_samples_per_second": 3.439,
+      "eval_steps_per_second": 1.72,
+      "step": 90
+    },
+    {
+      "epoch": 1.63,
+      "grad_norm": 5.040858745574951,
+      "learning_rate": 3.7605633802816903e-06,
+      "logits/chosen": -1.8601042032241821,
+      "logits/rejected": -1.8790462017059326,
+      "logps/chosen": -43.77570343017578,
+      "logps/rejected": -70.64997863769531,
+      "loss": 0.5466,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": 0.36673134565353394,
+      "rewards/margins": 0.42903366684913635,
+      "rewards/rejected": -0.06230226159095764,
+      "step": 100
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 11.182683944702148,
+      "learning_rate": 3.6197183098591553e-06,
+      "logits/chosen": -1.8602203130722046,
+      "logits/rejected": -1.8786903619766235,
+      "logps/chosen": -29.601736068725586,
+      "logps/rejected": -66.1338882446289,
+      "loss": 0.6003,
+      "rewards/accuracies": 0.2750000059604645,
+      "rewards/chosen": 0.3122637867927551,
+      "rewards/margins": 0.2756831645965576,
+      "rewards/rejected": 0.03658062964677811,
+      "step": 110
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 3.9169583320617676,
+      "learning_rate": 3.47887323943662e-06,
+      "logits/chosen": -1.8304624557495117,
+      "logits/rejected": -1.8451646566390991,
+      "logps/chosen": -31.413599014282227,
+      "logps/rejected": -56.841880798339844,
+      "loss": 0.6033,
+      "rewards/accuracies": 0.2750000059604645,
+      "rewards/chosen": 0.21899382770061493,
+      "rewards/margins": 0.2744571566581726,
+      "rewards/rejected": -0.05546332150697708,
+      "step": 120
+    },
+    {
+      "epoch": 1.95,
+      "eval_logits/chosen": -1.80086350440979,
+      "eval_logits/rejected": -1.8260576725006104,
+      "eval_logps/chosen": -50.32191848754883,
+      "eval_logps/rejected": -98.02101135253906,
+      "eval_loss": 0.49604225158691406,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.5751391053199768,
+      "eval_rewards/margins": 0.6410244107246399,
+      "eval_rewards/rejected": -0.0658852607011795,
+      "eval_runtime": 8.1445,
+      "eval_samples_per_second": 3.438,
+      "eval_steps_per_second": 1.719,
+      "step": 120
+    },
+    {
+      "epoch": 2.11,
+      "grad_norm": 1.4047716856002808,
+      "learning_rate": 3.338028169014085e-06,
+      "logits/chosen": -1.8776130676269531,
+      "logits/rejected": -1.8995519876480103,
+      "logps/chosen": -22.69371795654297,
+      "logps/rejected": -53.5282096862793,
+      "loss": 0.5611,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": 0.35938918590545654,
+      "rewards/margins": 0.5045264959335327,
+      "rewards/rejected": -0.14513733983039856,
+      "step": 130
+    },
+    {
+      "epoch": 2.28,
+      "grad_norm": 0.7528722882270813,
+      "learning_rate": 3.1971830985915496e-06,
+      "logits/chosen": -1.8126357793807983,
+      "logits/rejected": -1.832371711730957,
+      "logps/chosen": -38.33379364013672,
+      "logps/rejected": -67.96979522705078,
+      "loss": 0.5142,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.5568062663078308,
+      "rewards/margins": 0.6818712949752808,
+      "rewards/rejected": -0.12506499886512756,
+      "step": 140
+    },
+    {
+      "epoch": 2.44,
+      "grad_norm": 3.405579090118408,
+      "learning_rate": 3.056338028169014e-06,
+      "logits/chosen": -1.8196109533309937,
+      "logits/rejected": -1.8556429147720337,
+      "logps/chosen": -36.78864669799805,
+      "logps/rejected": -83.05890655517578,
+      "loss": 0.5042,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": 0.542107105255127,
+      "rewards/margins": 0.6411095857620239,
+      "rewards/rejected": -0.09900249540805817,
+      "step": 150
+    },
+    {
+      "epoch": 2.44,
+      "eval_logits/chosen": -1.805869698524475,
+      "eval_logits/rejected": -1.8330577611923218,
+      "eval_logps/chosen": -49.10601043701172,
+      "eval_logps/rejected": -98.84068298339844,
+      "eval_loss": 0.4709201455116272,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.6967297196388245,
+      "eval_rewards/margins": 0.8445812463760376,
+      "eval_rewards/rejected": -0.1478516012430191,
+      "eval_runtime": 8.1382,
+      "eval_samples_per_second": 3.441,
+      "eval_steps_per_second": 1.72,
+      "step": 150
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 7.778740882873535,
+      "learning_rate": 2.915492957746479e-06,
+      "logits/chosen": -1.848589301109314,
+      "logits/rejected": -1.8790754079818726,
+      "logps/chosen": -36.49171447753906,
+      "logps/rejected": -72.55968475341797,
+      "loss": 0.4927,
+      "rewards/accuracies": 0.44999998807907104,
+      "rewards/chosen": 0.49555450677871704,
+      "rewards/margins": 0.6891830563545227,
+      "rewards/rejected": -0.1936284601688385,
+      "step": 160
+    },
+    {
+      "epoch": 2.76,
+      "grad_norm": 4.058627605438232,
+      "learning_rate": 2.774647887323944e-06,
+      "logits/chosen": -1.812421441078186,
+      "logits/rejected": -1.8415311574935913,
+      "logps/chosen": -45.62999725341797,
+      "logps/rejected": -87.85527038574219,
+      "loss": 0.4541,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": 0.7084562182426453,
+      "rewards/margins": 0.9553689956665039,
+      "rewards/rejected": -0.24691279232501984,
+      "step": 170
+    },
+    {
+      "epoch": 2.93,
+      "grad_norm": 0.0,
+      "learning_rate": 2.6338028169014084e-06,
+      "logits/chosen": -1.8475942611694336,
+      "logits/rejected": -1.8678725957870483,
+      "logps/chosen": -40.53328323364258,
+      "logps/rejected": -64.86616516113281,
+      "loss": 0.5087,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.5022943019866943,
+      "rewards/margins": 0.7252141833305359,
+      "rewards/rejected": -0.22291991114616394,
+      "step": 180
+    },
+    {
+      "epoch": 2.93,
+      "eval_logits/chosen": -1.8136398792266846,
+      "eval_logits/rejected": -1.8424787521362305,
+      "eval_logps/chosen": -48.19547653198242,
+      "eval_logps/rejected": -99.7900161743164,
+      "eval_loss": 0.4541548192501068,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.7877826690673828,
+      "eval_rewards/margins": 1.0305674076080322,
+      "eval_rewards/rejected": -0.24278469383716583,
+      "eval_runtime": 8.1397,
+      "eval_samples_per_second": 3.44,
+      "eval_steps_per_second": 1.72,
+      "step": 180
+    },
+    {
+      "epoch": 3.09,
+      "grad_norm": 2.1618106365203857,
+      "learning_rate": 2.4929577464788734e-06,
+      "logits/chosen": -1.876151442527771,
+      "logits/rejected": -1.9132931232452393,
+      "logps/chosen": -38.02617645263672,
+      "logps/rejected": -84.4028549194336,
+      "loss": 0.4372,
+      "rewards/accuracies": 0.44999998807907104,
+      "rewards/chosen": 0.723468005657196,
+      "rewards/margins": 1.1590527296066284,
+      "rewards/rejected": -0.43558478355407715,
+      "step": 190
+    },
+    {
+      "epoch": 3.25,
+      "grad_norm": 0.0,
+      "learning_rate": 2.352112676056338e-06,
+      "logits/chosen": -1.8977773189544678,
+      "logits/rejected": -1.9120800495147705,
+      "logps/chosen": -38.097923278808594,
+      "logps/rejected": -55.17757034301758,
+      "loss": 0.4778,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.5927585959434509,
+      "rewards/margins": 0.8746024370193481,
+      "rewards/rejected": -0.2818438410758972,
+      "step": 200
+    },
+    {
+      "epoch": 3.41,
+      "grad_norm": 7.095726013183594,
+      "learning_rate": 2.211267605633803e-06,
+      "logits/chosen": -1.8508259057998657,
+      "logits/rejected": -1.8876402378082275,
+      "logps/chosen": -33.23273468017578,
+      "logps/rejected": -79.0272445678711,
+      "loss": 0.4874,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.5798195600509644,
+      "rewards/margins": 0.9200228452682495,
+      "rewards/rejected": -0.34020328521728516,
+      "step": 210
+    },
+    {
+      "epoch": 3.41,
+      "eval_logits/chosen": -1.821912407875061,
+      "eval_logits/rejected": -1.8520457744598389,
+      "eval_logps/chosen": -47.6314697265625,
+      "eval_logps/rejected": -100.92195129394531,
+      "eval_loss": 0.4427572786808014,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.8441829681396484,
+      "eval_rewards/margins": 1.2001608610153198,
+      "eval_rewards/rejected": -0.35597795248031616,
+      "eval_runtime": 8.1451,
+      "eval_samples_per_second": 3.438,
+      "eval_steps_per_second": 1.719,
+      "step": 210
+    },
+    {
+      "epoch": 3.58,
+      "grad_norm": 4.825575351715088,
+      "learning_rate": 2.0704225352112676e-06,
+      "logits/chosen": -1.889478325843811,
+      "logits/rejected": -1.9106714725494385,
+      "logps/chosen": -30.769512176513672,
+      "logps/rejected": -68.92756652832031,
+      "loss": 0.5277,
+      "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": 0.379320353269577,
+      "rewards/margins": 0.6602964401245117,
+      "rewards/rejected": -0.28097596764564514,
+      "step": 220
+    },
+    {
+      "epoch": 3.74,
+      "grad_norm": 5.236915588378906,
+      "learning_rate": 1.9295774647887326e-06,
+      "logits/chosen": -1.8926284313201904,
+      "logits/rejected": -1.9087079763412476,
+      "logps/chosen": -36.48774719238281,
+      "logps/rejected": -59.29833221435547,
+      "loss": 0.5176,
+      "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": 0.6325365304946899,
+      "rewards/margins": 0.867927074432373,
+      "rewards/rejected": -0.2353905737400055,
+      "step": 230
+    },
+    {
+      "epoch": 3.9,
+      "grad_norm": 1.3737443685531616,
+      "learning_rate": 1.7887323943661974e-06,
+      "logits/chosen": -1.7782018184661865,
+      "logits/rejected": -1.8105701208114624,
+      "logps/chosen": -41.42538833618164,
+      "logps/rejected": -93.73129272460938,
+      "loss": 0.4229,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": 0.8450711369514465,
+      "rewards/margins": 1.3813583850860596,
+      "rewards/rejected": -0.5362871885299683,
+      "step": 240
+    },
+    {
+      "epoch": 3.9,
+      "eval_logits/chosen": -1.826602816581726,
+      "eval_logits/rejected": -1.8575078248977661,
+      "eval_logps/chosen": -47.322914123535156,
+      "eval_logps/rejected": -101.7520980834961,
+      "eval_loss": 0.4358247220516205,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.8750395178794861,
+      "eval_rewards/margins": 1.3140336275100708,
+      "eval_rewards/rejected": -0.4389941692352295,
+      "eval_runtime": 8.1403,
+      "eval_samples_per_second": 3.44,
+      "eval_steps_per_second": 1.72,
+      "step": 240
+    },
+    {
+      "epoch": 4.07,
+      "grad_norm": 1.977386713027954,
+      "learning_rate": 1.647887323943662e-06,
+      "logits/chosen": -1.875792145729065,
+      "logits/rejected": -1.8937476873397827,
+      "logps/chosen": -25.06104278564453,
+      "logps/rejected": -46.700584411621094,
+      "loss": 0.5274,
+      "rewards/accuracies": 0.30000001192092896,
+      "rewards/chosen": 0.42553478479385376,
+      "rewards/margins": 0.7891250252723694,
+      "rewards/rejected": -0.3635903000831604,
+      "step": 250
+    },
+    {
+      "epoch": 4.23,
+      "grad_norm": 3.320791244506836,
+      "learning_rate": 1.5070422535211269e-06,
+      "logits/chosen": -1.7908179759979248,
+      "logits/rejected": -1.8309694528579712,
+      "logps/chosen": -54.056663513183594,
+      "logps/rejected": -108.03240966796875,
+      "loss": 0.3569,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 1.07839035987854,
+      "rewards/margins": 1.643531084060669,
+      "rewards/rejected": -0.5651407837867737,
+      "step": 260
+    },
+    {
+      "epoch": 4.39,
+      "grad_norm": 4.999856948852539,
+      "learning_rate": 1.3661971830985919e-06,
+      "logits/chosen": -1.9177863597869873,
+      "logits/rejected": -1.9476194381713867,
+      "logps/chosen": -22.58294105529785,
+      "logps/rejected": -61.99756622314453,
+      "loss": 0.5295,
+      "rewards/accuracies": 0.2750000059604645,
+      "rewards/chosen": 0.5058903694152832,
+      "rewards/margins": 0.8186748623847961,
+      "rewards/rejected": -0.31278449296951294,
+      "step": 270
+    },
+    {
+      "epoch": 4.39,
+      "eval_logits/chosen": -1.8289211988449097,
+      "eval_logits/rejected": -1.860676646232605,
+      "eval_logps/chosen": -47.04714584350586,
+      "eval_logps/rejected": -102.3218994140625,
+      "eval_loss": 0.43130752444267273,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.9026166200637817,
+      "eval_rewards/margins": 1.3985893726348877,
+      "eval_rewards/rejected": -0.4959728717803955,
+      "eval_runtime": 8.1397,
+      "eval_samples_per_second": 3.44,
+      "eval_steps_per_second": 1.72,
+      "step": 270
+    },
+    {
+      "epoch": 4.55,
+      "grad_norm": 0.36910170316696167,
+      "learning_rate": 1.2253521126760565e-06,
+      "logits/chosen": -1.881696105003357,
+      "logits/rejected": -1.9073266983032227,
+      "logps/chosen": -33.28648376464844,
+      "logps/rejected": -68.246337890625,
+      "loss": 0.4962,
+      "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": 0.5577932000160217,
+      "rewards/margins": 1.0508588552474976,
+      "rewards/rejected": -0.4930656850337982,
+      "step": 280
+    },
+    {
+      "epoch": 4.72,
+      "grad_norm": 11.332355499267578,
+      "learning_rate": 1.084507042253521e-06,
+      "logits/chosen": -1.8866857290267944,
+      "logits/rejected": -1.900857925415039,
+      "logps/chosen": -40.804874420166016,
+      "logps/rejected": -71.67508697509766,
+      "loss": 0.4851,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": 0.7005030512809753,
+      "rewards/margins": 1.2071340084075928,
+      "rewards/rejected": -0.5066308379173279,
+      "step": 290
+    },
+    {
+      "epoch": 4.88,
+      "grad_norm": 3.657494306564331,
+      "learning_rate": 9.43661971830986e-07,
+      "logits/chosen": -1.9023106098175049,
+      "logits/rejected": -1.9253908395767212,
+      "logps/chosen": -18.57657814025879,
+      "logps/rejected": -53.88740158081055,
+      "loss": 0.5466,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": 0.3226935565471649,
+      "rewards/margins": 0.6567031145095825,
+      "rewards/rejected": -0.33400958776474,
+      "step": 300
+    },
+    {
+      "epoch": 4.88,
+      "eval_logits/chosen": -1.8308794498443604,
+      "eval_logits/rejected": -1.8629435300827026,
+      "eval_logps/chosen": -46.95443344116211,
+      "eval_logps/rejected": -102.74605560302734,
+      "eval_loss": 0.4291366934776306,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.9118875861167908,
+      "eval_rewards/margins": 1.4502772092819214,
+      "eval_rewards/rejected": -0.5383896827697754,
+      "eval_runtime": 8.1441,
+      "eval_samples_per_second": 3.438,
+      "eval_steps_per_second": 1.719,
+      "step": 300
+    },
+    {
+      "epoch": 5.04,
+      "grad_norm": 4.444954872131348,
+      "learning_rate": 8.028169014084508e-07,
+      "logits/chosen": -1.835021734237671,
+      "logits/rejected": -1.858599066734314,
+      "logps/chosen": -42.14970016479492,
+      "logps/rejected": -86.938720703125,
+      "loss": 0.4128,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": 0.8941621780395508,
+      "rewards/margins": 1.572546362876892,
+      "rewards/rejected": -0.6783844232559204,
+      "step": 310
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 0.4182775616645813,
+      "learning_rate": 6.619718309859155e-07,
+      "logits/chosen": -1.8859401941299438,
+      "logits/rejected": -1.910548448562622,
+      "logps/chosen": -34.28424835205078,
+      "logps/rejected": -77.3191146850586,
+      "loss": 0.4465,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": 0.739007294178009,
+      "rewards/margins": 1.3678598403930664,
+      "rewards/rejected": -0.6288524866104126,
+      "step": 320
+    },
+    {
+      "epoch": 5.37,
+      "grad_norm": 2.8709957859973656e-06,
+      "learning_rate": 5.211267605633803e-07,
+      "logits/chosen": -1.7752397060394287,
+      "logits/rejected": -1.8195409774780273,
+      "logps/chosen": -42.48664855957031,
+      "logps/rejected": -97.59371185302734,
+      "loss": 0.4339,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.8835798501968384,
+      "rewards/margins": 1.3967663049697876,
+      "rewards/rejected": -0.513186514377594,
+      "step": 330
+    },
+    {
+      "epoch": 5.37,
+      "eval_logits/chosen": -1.8319826126098633,
+      "eval_logits/rejected": -1.864353895187378,
+      "eval_logps/chosen": -46.921607971191406,
+      "eval_logps/rejected": -103.26231384277344,
+      "eval_loss": 0.42683711647987366,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.9151698350906372,
+      "eval_rewards/margins": 1.505185842514038,
+      "eval_rewards/rejected": -0.5900159478187561,
+      "eval_runtime": 8.1406,
+      "eval_samples_per_second": 3.44,
+      "eval_steps_per_second": 1.72,
+      "step": 330
+    },
+    {
+      "epoch": 5.53,
+      "grad_norm": 0.23427560925483704,
+      "learning_rate": 3.8028169014084507e-07,
+      "logits/chosen": -1.8918192386627197,
+      "logits/rejected": -1.9169318675994873,
+      "logps/chosen": -35.16785430908203,
+      "logps/rejected": -71.60049438476562,
+      "loss": 0.4617,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.5324742197990417,
+      "rewards/margins": 1.1221383810043335,
+      "rewards/rejected": -0.5896641612052917,
+      "step": 340
+    },
+    {
+      "epoch": 5.69,
+      "grad_norm": 0.0,
+      "learning_rate": 2.394366197183099e-07,
+      "logits/chosen": -1.857642412185669,
+      "logits/rejected": -1.888279676437378,
+      "logps/chosen": -37.31398010253906,
+      "logps/rejected": -90.64387512207031,
+      "loss": 0.4569,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": 0.7042752504348755,
+      "rewards/margins": 1.4055907726287842,
+      "rewards/rejected": -0.7013154625892639,
+      "step": 350
+    },
+    {
+      "epoch": 5.85,
+      "grad_norm": 11.415884017944336,
+      "learning_rate": 9.859154929577466e-08,
+      "logits/chosen": -1.9216959476470947,
+      "logits/rejected": -1.9308369159698486,
+      "logps/chosen": -25.689884185791016,
+      "logps/rejected": -36.790706634521484,
+      "loss": 0.5438,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": 0.4890199303627014,
+      "rewards/margins": 0.789040207862854,
+      "rewards/rejected": -0.3000202775001526,
+      "step": 360
+    },
+    {
+      "epoch": 5.85,
+      "eval_logits/chosen": -1.832722544670105,
+      "eval_logits/rejected": -1.8652076721191406,
+      "eval_logps/chosen": -46.90084457397461,
+      "eval_logps/rejected": -103.44039154052734,
+      "eval_loss": 0.42603132128715515,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.9172464609146118,
+      "eval_rewards/margins": 1.5250685214996338,
+      "eval_rewards/rejected": -0.6078222990036011,
+      "eval_runtime": 8.1439,
+      "eval_samples_per_second": 3.438,
+      "eval_steps_per_second": 1.719,
+      "step": 360
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 366,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": 90,
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-360/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de569ad7b35da22832fd1fc395ab1c110ac622b038bdfcb0eee757cdc5b4b97b
+size 5304

checkpoint-90/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+library_name: peft
+base_model: Weni/WeniGPT-Agents-Mistral-1.0.6-SFT-merged
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.10.0

checkpoint-90/adapter_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "Weni/WeniGPT-Agents-Mistral-1.0.6-SFT-merged",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

checkpoint-90/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bc1fb6f11ff592b65215364276acd01c77abf99204619c630325cab8c9b35c14
+size 13648432

checkpoint-90/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b2425ba8d1c50c4c0d9e8e6feff1c707824fe534b70de713352a9d5a204adff
+size 27370618

checkpoint-90/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6b3ee827a7a00012c0a116546df467feee35e70376d81a7a85b1a70eb90414d3
+size 14244

checkpoint-90/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d85fbb3ecde61d79df3a528f5e5b18350d9bf186a9590415f6ca273953853e9d
+size 1064

checkpoint-90/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-90/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-90/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
+size 493443

checkpoint-90/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,49 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "chat_template": "{% for message in messages %}{% if message['role'] == 'user' %}{{ bos_token + '[INST] ' + message['content'] + ' [/INST]' }}{% elif message['role'] == 'system' %}{{ '<<SYS>>\\n' + message['content'] + '\\n<</SYS>>\\n\\n' }}{% elif message['role'] == 'assistant' %}{{ ' '  + message['content'] + ' ' + eos_token }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "max_lenght": 8192,
+  "max_length": 8192,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<unk>",
+  "padding": true,
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "stride": 0,
+  "tokenizer_class": "LlamaTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-90/trainer_state.json ADDED Viewed

	@@ -0,0 +1,204 @@

+{
+  "best_metric": 0.529485821723938,
+  "best_model_checkpoint": "./mistral/20-04-24-Weni-WeniGPT-Agents-Mistral-1.0.6-SFT-1.0.5-DPO_Experiment on DPO with other hyperparameters and best SFT model of WeniGPT-2_max_steps-366_batch_4_2024-04-20_ppid_9/checkpoint-90",
+  "epoch": 1.4634146341463414,
+  "eval_steps": 30,
+  "global_step": 90,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.16,
+      "grad_norm": 8.378021240234375,
+      "learning_rate": 4.0909090909090915e-06,
+      "logits/chosen": -1.830958604812622,
+      "logits/rejected": -1.8507845401763916,
+      "logps/chosen": -28.701984405517578,
+      "logps/rejected": -54.28569793701172,
+      "loss": 0.6924,
+      "rewards/accuracies": 0.20000000298023224,
+      "rewards/chosen": 0.0008967495523393154,
+      "rewards/margins": 0.0014666033675894141,
+      "rewards/rejected": -0.0005698538152500987,
+      "step": 10
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 5.193418502807617,
+      "learning_rate": 4.887323943661972e-06,
+      "logits/chosen": -1.7550897598266602,
+      "logits/rejected": -1.770708680152893,
+      "logps/chosen": -47.344207763671875,
+      "logps/rejected": -64.0368423461914,
+      "loss": 0.6852,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": 0.017231885343790054,
+      "rewards/margins": 0.01606021076440811,
+      "rewards/rejected": 0.0011716745793819427,
+      "step": 20
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 7.308932304382324,
+      "learning_rate": 4.746478873239437e-06,
+      "logits/chosen": -1.781267762184143,
+      "logits/rejected": -1.8114898204803467,
+      "logps/chosen": -54.274559020996094,
+      "logps/rejected": -95.20500183105469,
+      "loss": 0.6635,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.0641159638762474,
+      "rewards/margins": 0.061691801995038986,
+      "rewards/rejected": 0.0024241588544100523,
+      "step": 30
+    },
+    {
+      "epoch": 0.49,
+      "eval_logits/chosen": -1.7831767797470093,
+      "eval_logits/rejected": -1.8043663501739502,
+      "eval_logps/chosen": -55.16960906982422,
+      "eval_logps/rejected": -97.32585144042969,
+      "eval_loss": 0.6523757576942444,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.09036973863840103,
+      "eval_rewards/margins": 0.08673857897520065,
+      "eval_rewards/rejected": 0.0036311547737568617,
+      "eval_runtime": 8.141,
+      "eval_samples_per_second": 3.439,
+      "eval_steps_per_second": 1.72,
+      "step": 30
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 0.0,
+      "learning_rate": 4.6056338028169015e-06,
+      "logits/chosen": -1.889905333518982,
+      "logits/rejected": -1.9024461507797241,
+      "logps/chosen": -27.918941497802734,
+      "logps/rejected": -42.093284606933594,
+      "loss": 0.668,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": 0.054457180202007294,
+      "rewards/margins": 0.0539846234023571,
+      "rewards/rejected": 0.0004725646285805851,
+      "step": 40
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 8.53225326538086,
+      "learning_rate": 4.464788732394367e-06,
+      "logits/chosen": -1.8278567790985107,
+      "logits/rejected": -1.849957823753357,
+      "logps/chosen": -43.8238639831543,
+      "logps/rejected": -68.02179718017578,
+      "loss": 0.6358,
+      "rewards/accuracies": 0.3499999940395355,
+      "rewards/chosen": 0.13941256701946259,
+      "rewards/margins": 0.13133978843688965,
+      "rewards/rejected": 0.008072790689766407,
+      "step": 50
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 9.436968803405762,
+      "learning_rate": 4.3239436619718315e-06,
+      "logits/chosen": -1.805991768836975,
+      "logits/rejected": -1.8437427282333374,
+      "logps/chosen": -43.8873291015625,
+      "logps/rejected": -95.2943115234375,
+      "loss": 0.6026,
+      "rewards/accuracies": 0.44999998807907104,
+      "rewards/chosen": 0.18793432414531708,
+      "rewards/margins": 0.21308371424674988,
+      "rewards/rejected": -0.025149401277303696,
+      "step": 60
+    },
+    {
+      "epoch": 0.98,
+      "eval_logits/chosen": -1.7877694368362427,
+      "eval_logits/rejected": -1.8098936080932617,
+      "eval_logps/chosen": -53.567203521728516,
+      "eval_logps/rejected": -97.33795928955078,
+      "eval_loss": 0.5890871286392212,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.25061002373695374,
+      "eval_rewards/margins": 0.2481890469789505,
+      "eval_rewards/rejected": 0.002420984674245119,
+      "eval_runtime": 8.1404,
+      "eval_samples_per_second": 3.44,
+      "eval_steps_per_second": 1.72,
+      "step": 60
+    },
+    {
+      "epoch": 1.14,
+      "grad_norm": 0.0,
+      "learning_rate": 4.183098591549296e-06,
+      "logits/chosen": -1.8344879150390625,
+      "logits/rejected": -1.8489716053009033,
+      "logps/chosen": -40.38930892944336,
+      "logps/rejected": -60.9084358215332,
+      "loss": 0.6031,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.19739331305027008,
+      "rewards/margins": 0.22638121247291565,
+      "rewards/rejected": -0.028987903147935867,
+      "step": 70
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 5.49536657333374,
+      "learning_rate": 4.042253521126761e-06,
+      "logits/chosen": -1.7903095483779907,
+      "logits/rejected": -1.8362411260604858,
+      "logps/chosen": -44.288116455078125,
+      "logps/rejected": -90.21073913574219,
+      "loss": 0.5357,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": 0.34061312675476074,
+      "rewards/margins": 0.40679749846458435,
+      "rewards/rejected": -0.06618441641330719,
+      "step": 80
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 13.401692390441895,
+      "learning_rate": 3.901408450704225e-06,
+      "logits/chosen": -1.8004281520843506,
+      "logits/rejected": -1.8247934579849243,
+      "logps/chosen": -42.32465362548828,
+      "logps/rejected": -70.9749984741211,
+      "loss": 0.5387,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": 0.3678433299064636,
+      "rewards/margins": 0.4186524450778961,
+      "rewards/rejected": -0.05080908536911011,
+      "step": 90
+    },
+    {
+      "epoch": 1.46,
+      "eval_logits/chosen": -1.7943389415740967,
+      "eval_logits/rejected": -1.8181126117706299,
+      "eval_logps/chosen": -51.677486419677734,
+      "eval_logps/rejected": -97.63689422607422,
+      "eval_loss": 0.529485821723938,
+      "eval_rewards/accuracies": 0.4642857015132904,
+      "eval_rewards/chosen": 0.4395819306373596,
+      "eval_rewards/margins": 0.4670555889606476,
+      "eval_rewards/rejected": -0.027473628520965576,
+      "eval_runtime": 8.1412,
+      "eval_samples_per_second": 3.439,
+      "eval_steps_per_second": 1.72,
+      "step": 90
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 366,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": 90,
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-90/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de569ad7b35da22832fd1fc395ab1c110ac622b038bdfcb0eee757cdc5b4b97b
+size 5304