End of training

Browse files

Files changed (7) hide show

README.md +23 -15
config.json +1 -1
generation_config.json +1 -1
model.safetensors +1 -1
tokenizer.json +0 -1
tokenizer_config.json +1 -1
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -17,12 +17,12 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [facebook/bart-large-cnn](https://huggingface.co/facebook/bart-large-cnn) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.8504
-- Rouge1: 0.4106
-- Rouge2: 0.1827
-- Rougel: 0.2604
-- Rougelsum: 0.2624
-- Gen Len: 130.9261
 ## Model description
@@ -42,22 +42,30 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 2e-05
-- train_batch_size: 4
-- eval_batch_size: 4
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 4
 - mixed_precision_training: Native AMP
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len  |
-|:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:--------:|
-| No log        | 1.0   | 203  | 1.9295          | 0.4004 | 0.1792 | 0.2546 | 0.2562    | 123.1576 |
-| No log        | 2.0   | 406  | 1.8438          | 0.4163 | 0.1886 | 0.2607 | 0.2625    | 125.9655 |
-| 1.8737        | 3.0   | 609  | 1.8503          | 0.4044 | 0.1721 | 0.2498 | 0.2512    | 132.9951 |
-| 1.8737        | 4.0   | 812  | 1.8504          | 0.4106 | 0.1827 | 0.2604 | 0.2624    | 130.9261 |
 ### Framework versions

 This model is a fine-tuned version of [facebook/bart-large-cnn](https://huggingface.co/facebook/bart-large-cnn) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.7796
+- Rouge1: 0.3102
+- Rouge2: 0.1753
+- Rougel: 0.2022
+- Rougelsum: 0.2037
+- Gen Len: 142.0
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 2e-05
+- train_batch_size: 6
+- eval_batch_size: 6
 - seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 24
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 10
 - mixed_precision_training: Native AMP
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len |
+|:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:-------:|
+| No log        | 1.0   | 34   | 1.7714          | 0.3079 | 0.1651 | 0.1946 | 0.1965    | 142.0   |
+| No log        | 2.0   | 68   | 1.7531          | 0.3151 | 0.1752 | 0.207  | 0.2081    | 142.0   |
+| No log        | 3.0   | 102  | 1.7471          | 0.3041 | 0.1665 | 0.1963 | 0.198     | 142.0   |
+| No log        | 4.0   | 136  | 1.7520          | 0.3104 | 0.1727 | 0.2039 | 0.2053    | 142.0   |
+| No log        | 5.0   | 170  | 1.7547          | 0.3123 | 0.1747 | 0.2018 | 0.203     | 142.0   |
+| No log        | 6.0   | 204  | 1.7636          | 0.3079 | 0.169  | 0.1969 | 0.1984    | 142.0   |
+| No log        | 7.0   | 238  | 1.7691          | 0.3134 | 0.1783 | 0.2067 | 0.208     | 142.0   |
+| No log        | 8.0   | 272  | 1.7703          | 0.3082 | 0.1727 | 0.2023 | 0.204     | 142.0   |
+| No log        | 9.0   | 306  | 1.7746          | 0.3091 | 0.1753 | 0.2016 | 0.2034    | 142.0   |
+| No log        | 10.0  | 340  | 1.7796          | 0.3102 | 0.1753 | 0.2022 | 0.2037    | 142.0   |
 ### Framework versions

config.json CHANGED Viewed

@@ -64,7 +64,7 @@
     }
   },
   "torch_dtype": "float32",
-  "transformers_version": "4.40.0",
   "use_cache": true,
   "vocab_size": 50264
 }

     }
   },
   "torch_dtype": "float32",
+  "transformers_version": "4.39.3",
   "use_cache": true,
   "vocab_size": 50264
 }

generation_config.json CHANGED Viewed

@@ -6,7 +6,7 @@
   "forced_bos_token_id": 0,
   "forced_eos_token_id": 2,
   "length_penalty": 2.0,
-  "max_length": 256,
   "min_length": 56,
   "no_repeat_ngram_size": 3,
   "num_beams": 4,

   "forced_bos_token_id": 0,
   "forced_eos_token_id": 2,
   "length_penalty": 2.0,
+  "max_length": 142,
   "min_length": 56,
   "no_repeat_ngram_size": 3,
   "num_beams": 4,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6efe469456f121e35bf517d54c2f770bf28be3bbf101d3fea454f7f03a65f21d
 size 1625422896

 version https://git-lfs.github.com/spec/v1
+oid sha256:daeb581314160e6e7f9b66be07cebaa9fbefee27bbc6a8fa36d105fedf069c80
 size 1625422896

tokenizer.json CHANGED Viewed

@@ -88,7 +88,6 @@
     "end_of_word_suffix": "",
     "fuse_unk": false,
     "byte_fallback": false,
-    "ignore_merges": false,
     "vocab": {
       "<s>": 0,
       "<pad>": 1,

     "end_of_word_suffix": "",
     "fuse_unk": false,
     "byte_fallback": false,
     "vocab": {
       "<s>": 0,
       "<pad>": 1,

tokenizer_config.json CHANGED Viewed

@@ -48,7 +48,7 @@
   "eos_token": "</s>",
   "errors": "replace",
   "mask_token": "<mask>",
-  "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
   "sep_token": "</s>",
   "tokenizer_class": "BartTokenizer",

   "eos_token": "</s>",
   "errors": "replace",
   "mask_token": "<mask>",
+  "model_max_length": 1024,
   "pad_token": "<pad>",
   "sep_token": "</s>",
   "tokenizer_class": "BartTokenizer",

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e7c1c8645106b2acf78c031fdee3b81e02daf2cc7f78446e932329d5e3c8171
-size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:21b062107724c0e0a3ff3d2659ac2dc1f1b224c4494575ea772523fce11cb52c
+size 5048