metadata

library_name: peft
tags:
  - trl
  - dpo
  - DPO
  - WeniGPT
  - generated_from_trainer
base_model: Weni/WeniGPT-Agents-Mistral-1.0.6-SFT-merged
model-index:
  - name: WeniGPT-Agents-Mistral-1.0.6-SFT-1.0.6-DPO
    results: []

WeniGPT-Agents-Mistral-1.0.6-SFT-1.0.6-DPO

This model is a fine-tuned version of Weni/WeniGPT-Agents-Mistral-1.0.6-SFT-merged on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 0.4369
Rewards/chosen: 1.0224
Rewards/rejected: -0.1812
Rewards/accuracies: 0.5
Rewards/margins: 1.2036
Logps/rejected: -55.7310
Logps/chosen: -34.8112
Logits/rejected: -1.8517
Logits/chosen: -1.8185

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 5e-06
train_batch_size: 2
eval_batch_size: 2
seed: 42
distributed_type: multi-GPU
num_devices: 4
gradient_accumulation_steps: 2
total_train_batch_size: 16
total_eval_batch_size: 8
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.03
training_steps: 90
mixed_precision_training: Native AMP

Training results

Training Loss	Epoch	Step	Validation Loss	Rewards/chosen	Rewards/rejected	Rewards/accuracies	Rewards/margins	Logps/rejected	Logps/chosen	Logits/rejected	Logits/chosen
0.5772	1.94	30	0.5171	0.5191	-0.0654	0.5	0.5845	-55.3450	-36.4889	-1.8456	-1.8132
0.5125	3.87	60	0.4517	0.8981	-0.1507	0.5	1.0487	-55.6293	-35.2258	-1.8501	-1.8170
0.491	5.81	90	0.4369	1.0224	-0.1812	0.5	1.2036	-55.7310	-34.8112	-1.8517	-1.8185

Framework versions

PEFT 0.10.0
Transformers 4.38.2
Pytorch 2.1.0+cu118
Datasets 2.18.0
Tokenizers 0.15.2