Training in progress, step 1850000

Browse files

Files changed (9) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +383 -3
last-checkpoint/training_args.bin +1 -1
pytorch_model.bin +1 -1
training_args.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:84eeca699785d889add4fce9e83fcf219cc03b8c3e8612092092ba4f022e339b
 size 893439185

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfb68686d566f5019ee82a8c96b0a5544a86168b18ae5533f028d07705e256d7
 size 893439185

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a47c42cd40edaf177247b0f81cc113941e45da543bcd8075122f86f8a439a53
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:64dd9bb8ac07ad494b77a3974d9a13d4d5d6c9061220ee2632308b55b6ccca8c
 size 449471589

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c22e615daa20a7523bf096df9dcc68366ed60a8151bafc863df6c6b53275a84a
-size 21643

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8093364ac983f02083f889c77722892d297eae3bcec837969f1e20972859470
+size 21579

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c4c724e259a52a66e7ae3019ca30f1baaafdcfcaf6dbe949cbda0206af52d55
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:04b4f57439a544d0a66cc7c8aa509e6d07139998cf7951a6fd1fc7884297b3c7
 size 559

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a24dd415d95b2d83e758fabab0d2c6d80262a248eda13bb423bd8c9ef9f0d1d
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:203a36bdaa16f61697b76694bf2a74dc1a746df9c496ed1bca73de3ffd507a20
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.15,
-  "global_step": 1800000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -13686,11 +13686,391 @@
       "eval_samples_per_second": 83.142,
       "eval_steps_per_second": 0.65,
       "step": 1800000
     }
   ],
   "max_steps": 2000000,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 1.5772558930477056e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.025,
+  "global_step": 1850000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 83.142,
       "eval_steps_per_second": 0.65,
       "step": 1800000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.4208113677502687e-05,
+      "loss": 0.4365,
+      "step": 1801000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.4166492588365344e-05,
+      "loss": 0.4384,
+      "step": 1802000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.4125072039508715e-05,
+      "loss": 0.4379,
+      "step": 1803000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.4083852157106983e-05,
+      "loss": 0.4377,
+      "step": 1804000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.4042833066723076e-05,
+      "loss": 0.4385,
+      "step": 1805000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 0.42015281319618225,
+      "eval_runtime": 78.5938,
+      "eval_samples_per_second": 81.431,
+      "eval_steps_per_second": 0.636,
+      "step": 1805000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.4002055611082185e-05,
+      "loss": 0.4387,
+      "step": 1806000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.396143827787245e-05,
+      "loss": 0.4379,
+      "step": 1807000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.3921022109574423e-05,
+      "loss": 0.4373,
+      "step": 1808000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.3880847343598854e-05,
+      "loss": 0.4382,
+      "step": 1809000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.384087358540966e-05,
+      "loss": 0.438,
+      "step": 1810000
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 0.4181618392467499,
+      "eval_runtime": 77.0873,
+      "eval_samples_per_second": 83.023,
+      "eval_steps_per_second": 0.649,
+      "step": 1810000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.3801061244895656e-05,
+      "loss": 0.4382,
+      "step": 1811000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.3761450557829634e-05,
+      "loss": 0.4392,
+      "step": 1812000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.372204164487259e-05,
+      "loss": 0.4387,
+      "step": 1813000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.368283462607094e-05,
+      "loss": 0.4388,
+      "step": 1814000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.3643868524915881e-05,
+      "loss": 0.4392,
+      "step": 1815000
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 0.42043235898017883,
+      "eval_runtime": 79.2626,
+      "eval_samples_per_second": 80.744,
+      "eval_steps_per_second": 0.631,
+      "step": 1815000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.3605065449912204e-05,
+      "loss": 0.4395,
+      "step": 1816000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.3566464625393676e-05,
+      "loss": 0.4391,
+      "step": 1817000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.352810446627972e-05,
+      "loss": 0.4379,
+      "step": 1818000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.3489908292326226e-05,
+      "loss": 0.4377,
+      "step": 1819000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.3451952611981318e-05,
+      "loss": 0.4389,
+      "step": 1820000
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 0.41748473048210144,
+      "eval_runtime": 77.7669,
+      "eval_samples_per_second": 82.297,
+      "eval_steps_per_second": 0.643,
+      "step": 1820000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.3414161553535873e-05,
+      "loss": 0.4386,
+      "step": 1821000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.3376573327101957e-05,
+      "loss": 0.4383,
+      "step": 1822000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.333918804717982e-05,
+      "loss": 0.4371,
+      "step": 1823000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.3302079989360922e-05,
+      "loss": 0.4369,
+      "step": 1824000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.3265100537030001e-05,
+      "loss": 0.4378,
+      "step": 1825000
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 0.4193136692047119,
+      "eval_runtime": 79.079,
+      "eval_samples_per_second": 80.932,
+      "eval_steps_per_second": 0.632,
+      "step": 1825000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.3228324370776315e-05,
+      "loss": 0.4385,
+      "step": 1826000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.319175160262646e-05,
+      "loss": 0.4363,
+      "step": 1827000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.3155418611556128e-05,
+      "loss": 0.438,
+      "step": 1828000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.3119252769539538e-05,
+      "loss": 0.4378,
+      "step": 1829000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.3083326518189592e-05,
+      "loss": 0.4377,
+      "step": 1830000
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 0.4179893732070923,
+      "eval_runtime": 78.6845,
+      "eval_samples_per_second": 81.337,
+      "eval_steps_per_second": 0.635,
+      "step": 1830000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.3047568042535075e-05,
+      "loss": 0.4388,
+      "step": 1831000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.3012013515599501e-05,
+      "loss": 0.439,
+      "step": 1832000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.2976698294195656e-05,
+      "loss": 0.4392,
+      "step": 1833000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.2941586829267356e-05,
+      "loss": 0.4378,
+      "step": 1834000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.2906644387183456e-05,
+      "loss": 0.4372,
+      "step": 1835000
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 0.4213528037071228,
+      "eval_runtime": 77.6423,
+      "eval_samples_per_second": 82.429,
+      "eval_steps_per_second": 0.644,
+      "step": 1835000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.287194095903841e-05,
+      "loss": 0.4367,
+      "step": 1836000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.2837407174229876e-05,
+      "loss": 0.437,
+      "step": 1837000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.2803077978326747e-05,
+      "loss": 0.4377,
+      "step": 1838000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.2768953475901701e-05,
+      "loss": 0.4383,
+      "step": 1839000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.2735101405857255e-05,
+      "loss": 0.4379,
+      "step": 1840000
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 0.41641688346862793,
+      "eval_runtime": 79.1386,
+      "eval_samples_per_second": 80.871,
+      "eval_steps_per_second": 0.632,
+      "step": 1840000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.2701386191707756e-05,
+      "loss": 0.4379,
+      "step": 1841000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.2667875980807157e-05,
+      "loss": 0.4384,
+      "step": 1842000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.2634570875233356e-05,
+      "loss": 0.4379,
+      "step": 1843000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.2601470976439498e-05,
+      "loss": 0.4368,
+      "step": 1844000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.2568576385253613e-05,
+      "loss": 0.4379,
+      "step": 1845000
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 0.41581401228904724,
+      "eval_runtime": 81.6085,
+      "eval_samples_per_second": 78.423,
+      "eval_steps_per_second": 0.613,
+      "step": 1845000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.2535919788427315e-05,
+      "loss": 0.4365,
+      "step": 1846000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.2503435906882624e-05,
+      "loss": 0.4374,
+      "step": 1847000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.247115763157773e-05,
+      "loss": 0.4381,
+      "step": 1848000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.2439117030626584e-05,
+      "loss": 0.4368,
+      "step": 1849000
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.2407250056299487e-05,
+      "loss": 0.4383,
+      "step": 1850000
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 0.4171139597892761,
+      "eval_runtime": 78.6968,
+      "eval_samples_per_second": 81.325,
+      "eval_steps_per_second": 0.635,
+      "step": 1850000
     }
   ],
   "max_steps": 2000000,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 1.6210685567434752e+22,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c28844cf989cd101405725df159cedff2187e54e737139f666fe6aff1d4bf03
 size 5551

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ffbace6af33e15cfb1f1ee5cd7d43fec11995860b2c004e4c591e320c40cf9b
 size 5551

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a47c42cd40edaf177247b0f81cc113941e45da543bcd8075122f86f8a439a53
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:64dd9bb8ac07ad494b77a3974d9a13d4d5d6c9061220ee2632308b55b6ccca8c
 size 449471589

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c28844cf989cd101405725df159cedff2187e54e737139f666fe6aff1d4bf03
 size 5551

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ffbace6af33e15cfb1f1ee5cd7d43fec11995860b2c004e4c591e320c40cf9b
 size 5551