Training in progress, step 1950000

Browse files

Files changed (7) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +383 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:013d806030dbfcf7439287a4abebaead32865f32b1a6bb9b00de4deffabc4438
 size 893439185

 version https://git-lfs.github.com/spec/v1
+oid sha256:24480137122a3ca1298b2aa2acbf1d8e05d75ba9f182abd41ff9618c60e00071
 size 893439185

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:768b581a3df87951d3b920a69301f7e3d38ff0a3a3da9d558409072ba37b7784
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:4158aaedff079b2378ceb72199c920ad399c00fbc03838dbc3a2204ee0d64219
 size 449471589

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:341c3cc479ea146255e0f1fc73d571d276563929c345e49fa3a47d0d9e217d91
 size 21579

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a16c585a386790723cc51bc4a838a254dc71110b475f7ebf887ed7011d90a8f
 size 21579

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9efc4ae6f5bc3f2c21d5f173e4d0bb957724e4a8c6f3a076056d590a496511a8
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:abaeb1638369c701afb9b3b4e706b5c028681adb6ebf26ba2bfe37402d287efd
 size 559

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52048f50586841c25e23348acd1399bc0fa9f856ed80d753e4cd61c4863473be
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2c8322c0057a49117b93f76b6d690bf483c56843cf994e2b3614611effcb47d
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.05,
-  "global_step": 1900000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -14446,11 +14446,391 @@
       "eval_samples_per_second": 79.467,
       "eval_steps_per_second": 0.621,
       "step": 1900000
     }
   ],
   "max_steps": 2000000,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 1.6648812204392448e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.075,
+  "global_step": 1950000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 79.467,
       "eval_steps_per_second": 0.621,
       "step": 1900000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.105744066188684e-05,
+      "loss": 0.4371,
+      "step": 1901000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.1036390191576373e-05,
+      "loss": 0.4379,
+      "step": 1902000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.1015549796381372e-05,
+      "loss": 0.4373,
+      "step": 1903000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.0994960590538279e-05,
+      "loss": 0.4375,
+      "step": 1904000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.0974540114919287e-05,
+      "loss": 0.4363,
+      "step": 1905000
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 0.4150693416595459,
+      "eval_runtime": 80.8571,
+      "eval_samples_per_second": 79.152,
+      "eval_steps_per_second": 0.618,
+      "step": 1905000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.0954329902821809e-05,
+      "loss": 0.4375,
+      "step": 1906000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.0934330015809674e-05,
+      "loss": 0.437,
+      "step": 1907000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.0914560199199067e-05,
+      "loss": 0.4379,
+      "step": 1908000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.0894980934009906e-05,
+      "loss": 0.4372,
+      "step": 1909000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0875612174693328e-05,
+      "loss": 0.437,
+      "step": 1910000
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 0.4164562225341797,
+      "eval_runtime": 79.4864,
+      "eval_samples_per_second": 80.517,
+      "eval_steps_per_second": 0.629,
+      "step": 1910000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0856473033247752e-05,
+      "loss": 0.4369,
+      "step": 1911000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0837525251384567e-05,
+      "loss": 0.4367,
+      "step": 1912000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0818806782260748e-05,
+      "loss": 0.4367,
+      "step": 1913000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0800280208492865e-05,
+      "loss": 0.4379,
+      "step": 1914000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0781982639541429e-05,
+      "loss": 0.4373,
+      "step": 1915000
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 0.4175663888454437,
+      "eval_runtime": 80.7249,
+      "eval_samples_per_second": 79.282,
+      "eval_steps_per_second": 0.619,
+      "step": 1915000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0763895499185767e-05,
+      "loss": 0.4362,
+      "step": 1916000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0746001053331784e-05,
+      "loss": 0.4367,
+      "step": 1917000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0728317567168942e-05,
+      "loss": 0.4373,
+      "step": 1918000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0710845094564199e-05,
+      "loss": 0.4377,
+      "step": 1919000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0693583688741745e-05,
+      "loss": 0.4364,
+      "step": 1920000
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 0.4133068919181824,
+      "eval_runtime": 78.4611,
+      "eval_samples_per_second": 81.569,
+      "eval_steps_per_second": 0.637,
+      "step": 1920000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0676550347097805e-05,
+      "loss": 0.4376,
+      "step": 1921000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.06597110207435e-05,
+      "loss": 0.437,
+      "step": 1922000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0643082916934733e-05,
+      "loss": 0.4378,
+      "step": 1923000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0626682397606544e-05,
+      "loss": 0.4365,
+      "step": 1924000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0610492778999931e-05,
+      "loss": 0.4366,
+      "step": 1925000
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 0.41611722111701965,
+      "eval_runtime": 81.6547,
+      "eval_samples_per_second": 78.379,
+      "eval_steps_per_second": 0.612,
+      "step": 1925000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.059449822137189e-05,
+      "loss": 0.4372,
+      "step": 1926000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0578715084938887e-05,
+      "loss": 0.4374,
+      "step": 1927000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0563143417779096e-05,
+      "loss": 0.4366,
+      "step": 1928000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0547798521808734e-05,
+      "loss": 0.437,
+      "step": 1929000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.0532649723266384e-05,
+      "loss": 0.4365,
+      "step": 1930000
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 0.4162156581878662,
+      "eval_runtime": 80.1168,
+      "eval_samples_per_second": 79.883,
+      "eval_steps_per_second": 0.624,
+      "step": 1930000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.0517727365795085e-05,
+      "loss": 0.4369,
+      "step": 1931000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.0503001620268975e-05,
+      "loss": 0.4373,
+      "step": 1932000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.0488487574652423e-05,
+      "loss": 0.4374,
+      "step": 1933000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.0474199469678468e-05,
+      "loss": 0.437,
+      "step": 1934000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.0460108744063674e-05,
+      "loss": 0.4369,
+      "step": 1935000
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 0.4142652451992035,
+      "eval_runtime": 77.8865,
+      "eval_samples_per_second": 82.171,
+      "eval_steps_per_second": 0.642,
+      "step": 1935000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.0446243622089129e-05,
+      "loss": 0.4389,
+      "step": 1936000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.0432576387995491e-05,
+      "loss": 0.4371,
+      "step": 1937000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.0419121068338878e-05,
+      "loss": 0.4372,
+      "step": 1938000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.0405877704106532e-05,
+      "loss": 0.4366,
+      "step": 1939000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.0392859261103349e-05,
+      "loss": 0.4355,
+      "step": 1940000
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 0.4190742075443268,
+      "eval_runtime": 80.8959,
+      "eval_samples_per_second": 79.114,
+      "eval_steps_per_second": 0.618,
+      "step": 1940000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.0380039716043426e-05,
+      "loss": 0.4357,
+      "step": 1941000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.0367432245456347e-05,
+      "loss": 0.4362,
+      "step": 1942000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.0355049177141353e-05,
+      "loss": 0.4362,
+      "step": 1943000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.0342865757898152e-05,
+      "loss": 0.437,
+      "step": 1944000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.0330906391597708e-05,
+      "loss": 0.4357,
+      "step": 1945000
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 0.4155297577381134,
+      "eval_runtime": 77.8064,
+      "eval_samples_per_second": 82.255,
+      "eval_steps_per_second": 0.643,
+      "step": 1945000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.0319147172001108e-05,
+      "loss": 0.4367,
+      "step": 1946000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.0307600212366596e-05,
+      "loss": 0.4355,
+      "step": 1947000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.029627677647975e-05,
+      "loss": 0.4367,
+      "step": 1948000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.0285154229298157e-05,
+      "loss": 0.4369,
+      "step": 1949000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.0274244045627054e-05,
+      "loss": 0.4373,
+      "step": 1950000
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 0.41703131794929504,
+      "eval_runtime": 77.2751,
+      "eval_samples_per_second": 82.821,
+      "eval_steps_per_second": 0.647,
+      "step": 1950000
     }
   ],
   "max_steps": 2000000,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 1.7086938841350144e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:768b581a3df87951d3b920a69301f7e3d38ff0a3a3da9d558409072ba37b7784
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:4158aaedff079b2378ceb72199c920ad399c00fbc03838dbc3a2204ee0d64219
 size 449471589