End of training

Browse files

Files changed (5) hide show

README.md +14 -2
all_results.json +18 -0
eval_results.json +13 -0
train_results.json +8 -0
trainer_state.json +960 -0

README.md CHANGED Viewed

@@ -3,11 +3,23 @@ license: apache-2.0
 base_model: google/long-t5-tglobal-xl
 tags:
 - generated_from_trainer
 metrics:
 - rouge
 model-index:
 - name: longt5_xl_sfd_bp_15
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -15,7 +27,7 @@ should probably proofread and complete it, then remove this comment. -->
 # longt5_xl_sfd_bp_15
-This model is a fine-tuned version of [google/long-t5-tglobal-xl](https://huggingface.co/google/long-t5-tglobal-xl) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 2.5840
 - Rouge1: 29.7482

 base_model: google/long-t5-tglobal-xl
 tags:
 - generated_from_trainer
+datasets:
+- learn3r/summ_screen_fd_bp
 metrics:
 - rouge
 model-index:
 - name: longt5_xl_sfd_bp_15
+  results:
+  - task:
+      name: Summarization
+      type: summarization
+    dataset:
+      name: learn3r/summ_screen_fd_bp
+      type: learn3r/summ_screen_fd_bp
+    metrics:
+    - name: Rouge1
+      type: rouge
+      value: 29.7482
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # longt5_xl_sfd_bp_15
+This model is a fine-tuned version of [google/long-t5-tglobal-xl](https://huggingface.co/google/long-t5-tglobal-xl) on the learn3r/summ_screen_fd_bp dataset.
 It achieves the following results on the evaluation set:
 - Loss: 2.5840
 - Rouge1: 29.7482

all_results.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "epoch": 14.61,
+    "eval_gen_len": 503.5769230769231,
+    "eval_loss": 2.5840089321136475,
+    "eval_rouge1": 29.7482,
+    "eval_rouge2": 12.0072,
+    "eval_rougeL": 21.348,
+    "eval_rougeLsum": 28.5849,
+    "eval_runtime": 1799.7554,
+    "eval_samples": 338,
+    "eval_samples_per_second": 0.188,
+    "eval_steps_per_second": 0.024,
+    "train_loss": 0.9784720075981957,
+    "train_runtime": 78497.3694,
+    "train_samples": 3673,
+    "train_samples_per_second": 0.702,
+    "train_steps_per_second": 0.003
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 14.61,
+    "eval_gen_len": 503.5769230769231,
+    "eval_loss": 2.5840089321136475,
+    "eval_rouge1": 29.7482,
+    "eval_rouge2": 12.0072,
+    "eval_rougeL": 21.348,
+    "eval_rougeLsum": 28.5849,
+    "eval_runtime": 1799.7554,
+    "eval_samples": 338,
+    "eval_samples_per_second": 0.188,
+    "eval_steps_per_second": 0.024
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 14.61,
+    "train_loss": 0.9784720075981957,
+    "train_runtime": 78497.3694,
+    "train_samples": 3673,
+    "train_samples_per_second": 0.702,
+    "train_steps_per_second": 0.003
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,960 @@

+{
+  "best_metric": 25.2438,
+  "best_model_checkpoint": "/exports/eddie/scratch/s1970716/models/longt5_xl_sfd_bp_15/checkpoint-201",
+  "epoch": 14.608695652173914,
+  "eval_steps": 500,
+  "global_step": 210,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.14,
+      "grad_norm": 4.218067169189453,
+      "learning_rate": 0.001,
+      "loss": 2.9668,
+      "step": 2
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 200.38365173339844,
+      "learning_rate": 0.001,
+      "loss": 3.3198,
+      "step": 4
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 74.55081176757812,
+      "learning_rate": 0.001,
+      "loss": 2.6874,
+      "step": 6
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 19.85554313659668,
+      "learning_rate": 0.001,
+      "loss": 2.3138,
+      "step": 8
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 41.041751861572266,
+      "learning_rate": 0.001,
+      "loss": 2.0222,
+      "step": 10
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 3.789278507232666,
+      "learning_rate": 0.001,
+      "loss": 1.8363,
+      "step": 12
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 5.874878883361816,
+      "learning_rate": 0.001,
+      "loss": 2.5763,
+      "step": 14
+    },
+    {
+      "epoch": 0.97,
+      "eval_gen_len": 509.64792899408286,
+      "eval_loss": 2.541541814804077,
+      "eval_rouge1": 10.6052,
+      "eval_rouge2": 1.4494,
+      "eval_rougeL": 10.4593,
+      "eval_rougeLsum": 10.4801,
+      "eval_runtime": 1798.047,
+      "eval_samples_per_second": 0.188,
+      "eval_steps_per_second": 0.024,
+      "step": 14
+    },
+    {
+      "epoch": 1.11,
+      "grad_norm": 1.338165521621704,
+      "learning_rate": 0.001,
+      "loss": 2.4441,
+      "step": 16
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 3.755629777908325,
+      "learning_rate": 0.001,
+      "loss": 2.258,
+      "step": 18
+    },
+    {
+      "epoch": 1.39,
+      "grad_norm": 6.490938663482666,
+      "learning_rate": 0.001,
+      "loss": 3.0147,
+      "step": 20
+    },
+    {
+      "epoch": 1.53,
+      "grad_norm": 5.593593597412109,
+      "learning_rate": 0.001,
+      "loss": 2.4724,
+      "step": 22
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 1.0521235466003418,
+      "learning_rate": 0.001,
+      "loss": 2.023,
+      "step": 24
+    },
+    {
+      "epoch": 1.81,
+      "grad_norm": 12.585270881652832,
+      "learning_rate": 0.001,
+      "loss": 2.223,
+      "step": 26
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 78.1630630493164,
+      "learning_rate": 0.001,
+      "loss": 1.8998,
+      "step": 28
+    },
+    {
+      "epoch": 1.95,
+      "eval_gen_len": 511.0,
+      "eval_loss": 1.739753246307373,
+      "eval_rouge1": 16.7989,
+      "eval_rouge2": 4.1457,
+      "eval_rougeL": 16.4049,
+      "eval_rougeLsum": 15.1803,
+      "eval_runtime": 1798.9905,
+      "eval_samples_per_second": 0.188,
+      "eval_steps_per_second": 0.024,
+      "step": 28
+    },
+    {
+      "epoch": 2.09,
+      "grad_norm": 0.7915446758270264,
+      "learning_rate": 0.001,
+      "loss": 1.8375,
+      "step": 30
+    },
+    {
+      "epoch": 2.23,
+      "grad_norm": 1.5996413230895996,
+      "learning_rate": 0.001,
+      "loss": 2.0326,
+      "step": 32
+    },
+    {
+      "epoch": 2.37,
+      "grad_norm": 1.0431970357894897,
+      "learning_rate": 0.001,
+      "loss": 2.1242,
+      "step": 34
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 0.5979584455490112,
+      "learning_rate": 0.001,
+      "loss": 2.0047,
+      "step": 36
+    },
+    {
+      "epoch": 2.64,
+      "grad_norm": 0.28407618403434753,
+      "learning_rate": 0.001,
+      "loss": 1.7317,
+      "step": 38
+    },
+    {
+      "epoch": 2.78,
+      "grad_norm": 0.3217169940471649,
+      "learning_rate": 0.001,
+      "loss": 1.694,
+      "step": 40
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 0.33735284209251404,
+      "learning_rate": 0.001,
+      "loss": 1.6403,
+      "step": 42
+    },
+    {
+      "epoch": 2.99,
+      "eval_gen_len": 511.0,
+      "eval_loss": 1.5456656217575073,
+      "eval_rouge1": 18.4716,
+      "eval_rouge2": 5.4633,
+      "eval_rougeL": 17.1393,
+      "eval_rougeLsum": 16.9242,
+      "eval_runtime": 1798.0277,
+      "eval_samples_per_second": 0.188,
+      "eval_steps_per_second": 0.024,
+      "step": 43
+    },
+    {
+      "epoch": 3.06,
+      "grad_norm": 0.20745837688446045,
+      "learning_rate": 0.001,
+      "loss": 1.5256,
+      "step": 44
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 0.24278272688388824,
+      "learning_rate": 0.001,
+      "loss": 1.4077,
+      "step": 46
+    },
+    {
+      "epoch": 3.34,
+      "grad_norm": 3.5210845470428467,
+      "learning_rate": 0.001,
+      "loss": 1.4244,
+      "step": 48
+    },
+    {
+      "epoch": 3.48,
+      "grad_norm": 0.31759026646614075,
+      "learning_rate": 0.001,
+      "loss": 1.3542,
+      "step": 50
+    },
+    {
+      "epoch": 3.62,
+      "grad_norm": 0.2855791449546814,
+      "learning_rate": 0.001,
+      "loss": 1.3873,
+      "step": 52
+    },
+    {
+      "epoch": 3.76,
+      "grad_norm": 0.30171895027160645,
+      "learning_rate": 0.001,
+      "loss": 1.4693,
+      "step": 54
+    },
+    {
+      "epoch": 3.9,
+      "grad_norm": 0.28778406977653503,
+      "learning_rate": 0.001,
+      "loss": 1.5012,
+      "step": 56
+    },
+    {
+      "epoch": 3.97,
+      "eval_gen_len": 511.0,
+      "eval_loss": 1.5736442804336548,
+      "eval_rouge1": 18.2259,
+      "eval_rouge2": 5.3524,
+      "eval_rougeL": 17.0162,
+      "eval_rougeLsum": 16.7948,
+      "eval_runtime": 1799.9735,
+      "eval_samples_per_second": 0.188,
+      "eval_steps_per_second": 0.024,
+      "step": 57
+    },
+    {
+      "epoch": 4.03,
+      "grad_norm": 0.27410924434661865,
+      "learning_rate": 0.001,
+      "loss": 1.3865,
+      "step": 58
+    },
+    {
+      "epoch": 4.17,
+      "grad_norm": 0.2398337870836258,
+      "learning_rate": 0.001,
+      "loss": 1.198,
+      "step": 60
+    },
+    {
+      "epoch": 4.31,
+      "grad_norm": 0.24380528926849365,
+      "learning_rate": 0.001,
+      "loss": 1.1965,
+      "step": 62
+    },
+    {
+      "epoch": 4.45,
+      "grad_norm": 0.28130125999450684,
+      "learning_rate": 0.001,
+      "loss": 1.2576,
+      "step": 64
+    },
+    {
+      "epoch": 4.59,
+      "grad_norm": 0.22549273073673248,
+      "learning_rate": 0.001,
+      "loss": 1.2108,
+      "step": 66
+    },
+    {
+      "epoch": 4.73,
+      "grad_norm": 0.3336837589740753,
+      "learning_rate": 0.001,
+      "loss": 1.23,
+      "step": 68
+    },
+    {
+      "epoch": 4.87,
+      "grad_norm": 0.39294493198394775,
+      "learning_rate": 0.001,
+      "loss": 1.248,
+      "step": 70
+    },
+    {
+      "epoch": 4.94,
+      "eval_gen_len": 511.0,
+      "eval_loss": 1.5482468605041504,
+      "eval_rouge1": 20.8275,
+      "eval_rouge2": 6.7412,
+      "eval_rougeL": 18.0859,
+      "eval_rougeLsum": 19.3113,
+      "eval_runtime": 1798.5715,
+      "eval_samples_per_second": 0.188,
+      "eval_steps_per_second": 0.024,
+      "step": 71
+    },
+    {
+      "epoch": 5.01,
+      "grad_norm": 0.3731052577495575,
+      "learning_rate": 0.001,
+      "loss": 1.2523,
+      "step": 72
+    },
+    {
+      "epoch": 5.15,
+      "grad_norm": 0.33552882075309753,
+      "learning_rate": 0.001,
+      "loss": 1.0577,
+      "step": 74
+    },
+    {
+      "epoch": 5.29,
+      "grad_norm": 0.3163793087005615,
+      "learning_rate": 0.001,
+      "loss": 1.0478,
+      "step": 76
+    },
+    {
+      "epoch": 5.43,
+      "grad_norm": 0.21926109492778778,
+      "learning_rate": 0.001,
+      "loss": 1.0127,
+      "step": 78
+    },
+    {
+      "epoch": 5.57,
+      "grad_norm": 0.24710944294929504,
+      "learning_rate": 0.001,
+      "loss": 1.0042,
+      "step": 80
+    },
+    {
+      "epoch": 5.7,
+      "grad_norm": 0.2397957742214203,
+      "learning_rate": 0.001,
+      "loss": 1.0332,
+      "step": 82
+    },
+    {
+      "epoch": 5.84,
+      "grad_norm": 0.21428123116493225,
+      "learning_rate": 0.001,
+      "loss": 1.022,
+      "step": 84
+    },
+    {
+      "epoch": 5.98,
+      "grad_norm": 0.2227003127336502,
+      "learning_rate": 0.001,
+      "loss": 1.0176,
+      "step": 86
+    },
+    {
+      "epoch": 5.98,
+      "eval_gen_len": 510.6775147928994,
+      "eval_loss": 1.625435709953308,
+      "eval_rouge1": 21.1937,
+      "eval_rouge2": 6.8813,
+      "eval_rougeL": 18.411,
+      "eval_rougeLsum": 19.8577,
+      "eval_runtime": 1798.5872,
+      "eval_samples_per_second": 0.188,
+      "eval_steps_per_second": 0.024,
+      "step": 86
+    },
+    {
+      "epoch": 6.12,
+      "grad_norm": 0.2959192991256714,
+      "learning_rate": 0.001,
+      "loss": 0.879,
+      "step": 88
+    },
+    {
+      "epoch": 6.26,
+      "grad_norm": 0.33006206154823303,
+      "learning_rate": 0.001,
+      "loss": 0.8812,
+      "step": 90
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 0.34284549951553345,
+      "learning_rate": 0.001,
+      "loss": 0.8742,
+      "step": 92
+    },
+    {
+      "epoch": 6.54,
+      "grad_norm": 0.4311819076538086,
+      "learning_rate": 0.001,
+      "loss": 0.8357,
+      "step": 94
+    },
+    {
+      "epoch": 6.68,
+      "grad_norm": 0.5699031352996826,
+      "learning_rate": 0.001,
+      "loss": 0.8721,
+      "step": 96
+    },
+    {
+      "epoch": 6.82,
+      "grad_norm": 0.39324450492858887,
+      "learning_rate": 0.001,
+      "loss": 0.8739,
+      "step": 98
+    },
+    {
+      "epoch": 6.96,
+      "grad_norm": 0.3442493677139282,
+      "learning_rate": 0.001,
+      "loss": 0.8472,
+      "step": 100
+    },
+    {
+      "epoch": 6.96,
+      "eval_gen_len": 479.9704142011834,
+      "eval_loss": 1.6212307214736938,
+      "eval_rouge1": 26.1873,
+      "eval_rouge2": 9.1581,
+      "eval_rougeL": 20.393,
+      "eval_rougeLsum": 24.1393,
+      "eval_runtime": 1802.4729,
+      "eval_samples_per_second": 0.188,
+      "eval_steps_per_second": 0.024,
+      "step": 100
+    },
+    {
+      "epoch": 7.1,
+      "grad_norm": 0.2600483298301697,
+      "learning_rate": 0.001,
+      "loss": 0.7568,
+      "step": 102
+    },
+    {
+      "epoch": 7.23,
+      "grad_norm": 0.28727108240127563,
+      "learning_rate": 0.001,
+      "loss": 0.6971,
+      "step": 104
+    },
+    {
+      "epoch": 7.37,
+      "grad_norm": 0.3065392076969147,
+      "learning_rate": 0.001,
+      "loss": 0.6918,
+      "step": 106
+    },
+    {
+      "epoch": 7.51,
+      "grad_norm": 0.427791029214859,
+      "learning_rate": 0.001,
+      "loss": 0.6902,
+      "step": 108
+    },
+    {
+      "epoch": 7.65,
+      "grad_norm": 0.48664093017578125,
+      "learning_rate": 0.001,
+      "loss": 0.7415,
+      "step": 110
+    },
+    {
+      "epoch": 7.79,
+      "grad_norm": 0.2857199013233185,
+      "learning_rate": 0.001,
+      "loss": 0.7442,
+      "step": 112
+    },
+    {
+      "epoch": 7.93,
+      "grad_norm": 0.24586661159992218,
+      "learning_rate": 0.001,
+      "loss": 0.7242,
+      "step": 114
+    },
+    {
+      "epoch": 8.0,
+      "eval_gen_len": 506.9112426035503,
+      "eval_loss": 1.723126769065857,
+      "eval_rouge1": 23.5881,
+      "eval_rouge2": 7.8961,
+      "eval_rougeL": 18.7014,
+      "eval_rougeLsum": 22.2999,
+      "eval_runtime": 1807.8192,
+      "eval_samples_per_second": 0.187,
+      "eval_steps_per_second": 0.024,
+      "step": 115
+    },
+    {
+      "epoch": 8.07,
+      "grad_norm": 0.21033655107021332,
+      "learning_rate": 0.001,
+      "loss": 0.6797,
+      "step": 116
+    },
+    {
+      "epoch": 8.21,
+      "grad_norm": 0.22591687738895416,
+      "learning_rate": 0.001,
+      "loss": 0.5446,
+      "step": 118
+    },
+    {
+      "epoch": 8.35,
+      "grad_norm": 0.20658165216445923,
+      "learning_rate": 0.001,
+      "loss": 0.5545,
+      "step": 120
+    },
+    {
+      "epoch": 8.49,
+      "grad_norm": 0.29855239391326904,
+      "learning_rate": 0.001,
+      "loss": 0.6124,
+      "step": 122
+    },
+    {
+      "epoch": 8.63,
+      "grad_norm": 0.3976292312145233,
+      "learning_rate": 0.001,
+      "loss": 0.6052,
+      "step": 124
+    },
+    {
+      "epoch": 8.77,
+      "grad_norm": 0.27770739793777466,
+      "learning_rate": 0.001,
+      "loss": 0.5755,
+      "step": 126
+    },
+    {
+      "epoch": 8.9,
+      "grad_norm": 0.2741471529006958,
+      "learning_rate": 0.001,
+      "loss": 0.5876,
+      "step": 128
+    },
+    {
+      "epoch": 8.97,
+      "eval_gen_len": 451.698224852071,
+      "eval_loss": 1.9400925636291504,
+      "eval_rouge1": 32.1851,
+      "eval_rouge2": 12.6426,
+      "eval_rougeL": 22.8358,
+      "eval_rougeLsum": 30.6718,
+      "eval_runtime": 1805.3092,
+      "eval_samples_per_second": 0.187,
+      "eval_steps_per_second": 0.024,
+      "step": 129
+    },
+    {
+      "epoch": 9.04,
+      "grad_norm": 0.25768765807151794,
+      "learning_rate": 0.001,
+      "loss": 0.5517,
+      "step": 130
+    },
+    {
+      "epoch": 9.18,
+      "grad_norm": 0.203142449259758,
+      "learning_rate": 0.001,
+      "loss": 0.4295,
+      "step": 132
+    },
+    {
+      "epoch": 9.32,
+      "grad_norm": 0.29351434111595154,
+      "learning_rate": 0.001,
+      "loss": 0.493,
+      "step": 134
+    },
+    {
+      "epoch": 9.46,
+      "grad_norm": 0.23967808485031128,
+      "learning_rate": 0.001,
+      "loss": 0.4877,
+      "step": 136
+    },
+    {
+      "epoch": 9.6,
+      "grad_norm": 0.21488718688488007,
+      "learning_rate": 0.001,
+      "loss": 0.4943,
+      "step": 138
+    },
+    {
+      "epoch": 9.74,
+      "grad_norm": 0.20587602257728577,
+      "learning_rate": 0.001,
+      "loss": 0.4729,
+      "step": 140
+    },
+    {
+      "epoch": 9.88,
+      "grad_norm": 0.2094978392124176,
+      "learning_rate": 0.001,
+      "loss": 0.4756,
+      "step": 142
+    },
+    {
+      "epoch": 9.95,
+      "eval_gen_len": 455.594674556213,
+      "eval_loss": 1.9001177549362183,
+      "eval_rouge1": 31.353,
+      "eval_rouge2": 12.994,
+      "eval_rougeL": 23.1542,
+      "eval_rougeLsum": 29.8375,
+      "eval_runtime": 1806.0454,
+      "eval_samples_per_second": 0.187,
+      "eval_steps_per_second": 0.024,
+      "step": 143
+    },
+    {
+      "epoch": 10.02,
+      "grad_norm": 0.2443789541721344,
+      "learning_rate": 0.001,
+      "loss": 0.4707,
+      "step": 144
+    },
+    {
+      "epoch": 10.16,
+      "grad_norm": 0.21666786074638367,
+      "learning_rate": 0.001,
+      "loss": 0.3612,
+      "step": 146
+    },
+    {
+      "epoch": 10.3,
+      "grad_norm": 0.20268017053604126,
+      "learning_rate": 0.001,
+      "loss": 0.3739,
+      "step": 148
+    },
+    {
+      "epoch": 10.43,
+      "grad_norm": 0.22428925335407257,
+      "learning_rate": 0.001,
+      "loss": 0.382,
+      "step": 150
+    },
+    {
+      "epoch": 10.57,
+      "grad_norm": 0.21844923496246338,
+      "learning_rate": 0.001,
+      "loss": 0.3623,
+      "step": 152
+    },
+    {
+      "epoch": 10.71,
+      "grad_norm": 0.2675388753414154,
+      "learning_rate": 0.001,
+      "loss": 0.3674,
+      "step": 154
+    },
+    {
+      "epoch": 10.85,
+      "grad_norm": 0.2905120849609375,
+      "learning_rate": 0.001,
+      "loss": 0.39,
+      "step": 156
+    },
+    {
+      "epoch": 10.99,
+      "grad_norm": 0.27420204877853394,
+      "learning_rate": 0.001,
+      "loss": 0.4042,
+      "step": 158
+    },
+    {
+      "epoch": 10.99,
+      "eval_gen_len": 497.53550295857985,
+      "eval_loss": 2.1294684410095215,
+      "eval_rouge1": 28.6425,
+      "eval_rouge2": 11.8399,
+      "eval_rougeL": 21.3847,
+      "eval_rougeLsum": 27.0508,
+      "eval_runtime": 1807.4153,
+      "eval_samples_per_second": 0.187,
+      "eval_steps_per_second": 0.024,
+      "step": 158
+    },
+    {
+      "epoch": 11.13,
+      "grad_norm": 0.26691916584968567,
+      "learning_rate": 0.001,
+      "loss": 0.3127,
+      "step": 160
+    },
+    {
+      "epoch": 11.27,
+      "grad_norm": 0.3042663335800171,
+      "learning_rate": 0.001,
+      "loss": 0.305,
+      "step": 162
+    },
+    {
+      "epoch": 11.41,
+      "grad_norm": 0.26255106925964355,
+      "learning_rate": 0.001,
+      "loss": 0.3133,
+      "step": 164
+    },
+    {
+      "epoch": 11.55,
+      "grad_norm": 0.23816817998886108,
+      "learning_rate": 0.001,
+      "loss": 0.3118,
+      "step": 166
+    },
+    {
+      "epoch": 11.69,
+      "grad_norm": 0.22553777694702148,
+      "learning_rate": 0.001,
+      "loss": 0.3073,
+      "step": 168
+    },
+    {
+      "epoch": 11.83,
+      "grad_norm": 0.2234884351491928,
+      "learning_rate": 0.001,
+      "loss": 0.3346,
+      "step": 170
+    },
+    {
+      "epoch": 11.97,
+      "grad_norm": 0.18143154680728912,
+      "learning_rate": 0.001,
+      "loss": 0.3292,
+      "step": 172
+    },
+    {
+      "epoch": 11.97,
+      "eval_gen_len": 478.81065088757396,
+      "eval_loss": 2.244086503982544,
+      "eval_rouge1": 31.8393,
+      "eval_rouge2": 13.1308,
+      "eval_rougeL": 22.135,
+      "eval_rougeLsum": 30.5866,
+      "eval_runtime": 1798.3958,
+      "eval_samples_per_second": 0.188,
+      "eval_steps_per_second": 0.024,
+      "step": 172
+    },
+    {
+      "epoch": 12.1,
+      "grad_norm": 0.24745677411556244,
+      "learning_rate": 0.001,
+      "loss": 0.2539,
+      "step": 174
+    },
+    {
+      "epoch": 12.24,
+      "grad_norm": 0.26513755321502686,
+      "learning_rate": 0.001,
+      "loss": 0.2588,
+      "step": 176
+    },
+    {
+      "epoch": 12.38,
+      "grad_norm": 0.20156317949295044,
+      "learning_rate": 0.001,
+      "loss": 0.2537,
+      "step": 178
+    },
+    {
+      "epoch": 12.52,
+      "grad_norm": 0.21362556517124176,
+      "learning_rate": 0.001,
+      "loss": 0.2812,
+      "step": 180
+    },
+    {
+      "epoch": 12.66,
+      "grad_norm": 0.5383086800575256,
+      "learning_rate": 0.001,
+      "loss": 0.2594,
+      "step": 182
+    },
+    {
+      "epoch": 12.8,
+      "grad_norm": 0.2891131639480591,
+      "learning_rate": 0.001,
+      "loss": 0.2629,
+      "step": 184
+    },
+    {
+      "epoch": 12.94,
+      "grad_norm": 0.265836238861084,
+      "learning_rate": 0.001,
+      "loss": 0.2812,
+      "step": 186
+    },
+    {
+      "epoch": 12.94,
+      "eval_gen_len": 429.99112426035504,
+      "eval_loss": 2.3464245796203613,
+      "eval_rouge1": 34.4102,
+      "eval_rouge2": 14.3607,
+      "eval_rougeL": 23.8634,
+      "eval_rougeLsum": 32.9732,
+      "eval_runtime": 1798.2194,
+      "eval_samples_per_second": 0.188,
+      "eval_steps_per_second": 0.024,
+      "step": 186
+    },
+    {
+      "epoch": 13.08,
+      "grad_norm": 0.2541401982307434,
+      "learning_rate": 0.001,
+      "loss": 0.2283,
+      "step": 188
+    },
+    {
+      "epoch": 13.22,
+      "grad_norm": 9.848714828491211,
+      "learning_rate": 0.001,
+      "loss": 0.206,
+      "step": 190
+    },
+    {
+      "epoch": 13.36,
+      "grad_norm": 0.4088878333568573,
+      "learning_rate": 0.001,
+      "loss": 0.2014,
+      "step": 192
+    },
+    {
+      "epoch": 13.5,
+      "grad_norm": 0.4533099830150604,
+      "learning_rate": 0.001,
+      "loss": 0.2292,
+      "step": 194
+    },
+    {
+      "epoch": 13.63,
+      "grad_norm": 0.28066885471343994,
+      "learning_rate": 0.001,
+      "loss": 0.2202,
+      "step": 196
+    },
+    {
+      "epoch": 13.77,
+      "grad_norm": 0.38810494542121887,
+      "learning_rate": 0.001,
+      "loss": 0.2278,
+      "step": 198
+    },
+    {
+      "epoch": 13.91,
+      "grad_norm": 0.2568497657775879,
+      "learning_rate": 0.001,
+      "loss": 0.2443,
+      "step": 200
+    },
+    {
+      "epoch": 13.98,
+      "eval_gen_len": 392.53846153846155,
+      "eval_loss": 2.2002713680267334,
+      "eval_rouge1": 34.8239,
+      "eval_rouge2": 14.8042,
+      "eval_rougeL": 25.2438,
+      "eval_rougeLsum": 33.0469,
+      "eval_runtime": 1797.5392,
+      "eval_samples_per_second": 0.188,
+      "eval_steps_per_second": 0.024,
+      "step": 201
+    },
+    {
+      "epoch": 14.05,
+      "grad_norm": 0.279291570186615,
+      "learning_rate": 0.001,
+      "loss": 0.2362,
+      "step": 202
+    },
+    {
+      "epoch": 14.19,
+      "grad_norm": 0.18151430785655975,
+      "learning_rate": 0.001,
+      "loss": 0.1807,
+      "step": 204
+    },
+    {
+      "epoch": 14.33,
+      "grad_norm": 0.2227843850851059,
+      "learning_rate": 0.001,
+      "loss": 0.1708,
+      "step": 206
+    },
+    {
+      "epoch": 14.47,
+      "grad_norm": 0.2937067151069641,
+      "learning_rate": 0.001,
+      "loss": 0.1818,
+      "step": 208
+    },
+    {
+      "epoch": 14.61,
+      "grad_norm": 0.3238927125930786,
+      "learning_rate": 0.001,
+      "loss": 0.1958,
+      "step": 210
+    },
+    {
+      "epoch": 14.61,
+      "eval_gen_len": 503.5769230769231,
+      "eval_loss": 2.5840089321136475,
+      "eval_rouge1": 29.7482,
+      "eval_rouge2": 12.0072,
+      "eval_rougeL": 21.348,
+      "eval_rougeLsum": 28.5849,
+      "eval_runtime": 1799.2535,
+      "eval_samples_per_second": 0.188,
+      "eval_steps_per_second": 0.024,
+      "step": 210
+    },
+    {
+      "epoch": 14.61,
+      "step": 210,
+      "total_flos": 3.6715210940733604e+18,
+      "train_loss": 0.9784720075981957,
+      "train_runtime": 78497.3694,
+      "train_samples_per_second": 0.702,
+      "train_steps_per_second": 0.003
+    }
+  ],
+  "logging_steps": 2,
+  "max_steps": 210,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 15,
+  "save_steps": 500,
+  "total_flos": 3.6715210940733604e+18,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}