ZhiguangHan
/

mt5-small-task3-dataset1

@@ -4,7 +4,7 @@ base_model: google/mt5-small
 tags:
 - generated_from_trainer
 metrics:
-- rouge
 model-index:
 - name: mt5-small-task3-dataset1
   results: []
@@ -17,11 +17,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/mt5-small](https://huggingface.co/google/mt5-small) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0525
-- Rouge1: 0.0
-- Rouge2: 0.0
-- Rougel: 0.0
-- Rougelsum: 0.0
 ## Model description
@@ -41,24 +38,29 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5.6e-05
-- train_batch_size: 8
-- eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 7
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum |
-|:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:------:|:---------:|
-| 0.0029        | 1.0   | 500  | 0.1278          | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0307        | 2.0   | 1000 | 0.1040          | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0642        | 3.0   | 1500 | 0.0609          | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0551        | 4.0   | 2000 | 0.0546          | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0543        | 5.0   | 2500 | 0.0536          | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0526        | 6.0   | 3000 | 0.0539          | 0.0    | 0.0    | 0.0    | 0.0       |
-| 0.0557        | 7.0   | 3500 | 0.0525          | 0.0    | 0.0    | 0.0    | 0.0       |
 ### Framework versions

 tags:
 - generated_from_trainer
 metrics:
+- f1
 model-index:
 - name: mt5-small-task3-dataset1
   results: []
 This model is a fine-tuned version of [google/mt5-small](https://huggingface.co/google/mt5-small) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.3598
+- F1: 0.14
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 5.6e-05
+- train_batch_size: 16
+- eval_batch_size: 16
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 12
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | F1    |
+|:-------------:|:-----:|:----:|:---------------:|:-----:|
+| 1.4992        | 1.0   | 250  | 1.4459          | 0.118 |
+| 1.5898        | 2.0   | 500  | 1.4330          | 0.106 |
+| 1.5839        | 3.0   | 750  | 1.3671          | 0.13  |
+| 1.5286        | 4.0   | 1000 | 1.3848          | 0.126 |
+| 1.4995        | 5.0   | 1250 | 1.3687          | 0.124 |
+| 1.4655        | 6.0   | 1500 | 1.3782          | 0.124 |
+| 1.4635        | 7.0   | 1750 | 1.3919          | 0.132 |
+| 1.4354        | 8.0   | 2000 | 1.3583          | 0.132 |
+| 1.4306        | 9.0   | 2250 | 1.3626          | 0.142 |
+| 1.4104        | 10.0  | 2500 | 1.3575          | 0.14  |
+| 1.3979        | 11.0  | 2750 | 1.3575          | 0.144 |
+| 1.3996        | 12.0  | 3000 | 1.3598          | 0.14  |
 ### Framework versions

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3784bdfe1cccb0d87f06f20c97af51331be20f2ebacc58e1069ff21bdb6ab2c8
 size 1200729512

 version https://git-lfs.github.com/spec/v1
+oid sha256:718858e4ab742f3ba6d52f303b4d7448fb4867312a2347864eb4564dc8714221
 size 1200729512