diff --git "a/train_job_output.txt" "b/train_job_output.txt"
--- "a/train_job_output.txt"
+++ "b/train_job_output.txt"
@@ -1,4 +1,4 @@
-slurm submission log: 2024-05-29 11:13:53.873023
+slurm submission log: 2024-05-30 23:53:12.890916
 created following sbatch script: 
 
 ###############################
@@ -7,24 +7,23 @@ created following sbatch script:
 
 #SBATCH --account=nlp
 #SBATCH --cpus-per-task=16
-#SBATCH --dependency=afterok:7667689
 #SBATCH --gres=gpu:2
-#SBATCH --job-name=tthrush-job-3223007
+#SBATCH --job-name=tthrush-job-4396652
 #SBATCH --mem=100G
 #SBATCH --nodelist=sphinx2
 #SBATCH --open-mode=append
-#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/llms/pythia-70m_xnli_es_1/train_job_output.txt
+#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_ph_proj/llms/pythia-70m_xnli_es_1/train_job_output.txt
 #SBATCH --partition=sphinx
 #SBATCH --time=14-0
 
 # activate your desired anaconda environment
-. /nlp/scr/tthrush/miniconda3/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection
+. /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection
 
 # cd to working directory
 cd .
 
 # launch commands
-srun --unbuffered run_as_child_processes 'torchrun --master_port 29526 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/data/xnli_es --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/llms/pythia-70m_xnli_es_1 --output_hub_id pythia-70m_xnli_es --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 14'
+srun --unbuffered run_as_child_processes 'torchrun --master_port 29508 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_ph_proj/data/xnli_es --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_ph_proj/llms/pythia-70m_xnli_es_1 --output_hub_id pythia-70m_xnli_es --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1'
 
 ###############################
 
@@ -34,507 +33,485 @@ submission to slurm complete!
 ###############################
 slurm submission output
 
-Submitted batch job 7667690
+Submitted batch job 7673212
 
 
 
 ###############################
 
-slurm submission log: 2024-05-30 08:40:47.591270
-created following sbatch script: 
-
-###############################
-
-#!/bin/bash
-
-#SBATCH --account=nlp
-#SBATCH --cpus-per-task=16
-#SBATCH --gres=gpu:2
-#SBATCH --job-name=tthrush-job-2184404
-#SBATCH --mem=100G
-#SBATCH --nodelist=sphinx2
-#SBATCH --open-mode=append
-#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/llms/pythia-70m_xnli_es_1/train_job_output.txt
-#SBATCH --partition=sphinx
-#SBATCH --time=14-0
+/var/lib/slurm/slurmd/job7673212/slurm_script: line 15: /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh: No such file or directory
 
-# activate your desired anaconda environment
-. /nlp/scr/tthrush/miniconda3/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection
-
-# cd to working directory
-cd .
-
-# launch commands
-srun --unbuffered run_as_child_processes 'torchrun --master_port 29508 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/data/xnli_es --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/llms/pythia-70m_xnli_es_1 --output_hub_id pythia-70m_xnli_es --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1'
-
-###############################
+CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'.
+To initialize your shell, run
 
-submission to slurm complete!
+    $ conda init <SHELL_NAME>
 
+Currently supported shells are:
+  - bash
+  - fish
+  - tcsh
+  - xonsh
+  - zsh
+  - powershell
 
-###############################
-slurm submission output
+See 'conda init --help' for more information and options.
 
-Submitted batch job 7670601
+IMPORTANT: You may need to close and restart your shell after running 'conda init'.
 
 
-
-###############################
-
 ###############################
-start time: 2024-05-30 16:57:11.163102
+start time: 2024-05-31 02:56:42.451619
 machine: sphinx2
 conda env: pretraining-coreset-selection
 ###############################
 running following processes
 
-	torchrun --master_port 29508 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/data/xnli_es --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/llms/pythia-70m_xnli_es_1 --output_hub_id pythia-70m_xnli_es --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1
+	torchrun --master_port 29508 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_ph_proj/data/xnli_es --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_ph_proj/llms/pythia-70m_xnli_es_1 --output_hub_id pythia-70m_xnli_es --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1
 
 
 ###############################
 command outputs: 
 
 
-[2024-05-30 16:57:29,546] torch.distributed.run: [WARNING] 
-[2024-05-30 16:57:29,546] torch.distributed.run: [WARNING] *****************************************
-[2024-05-30 16:57:29,546] torch.distributed.run: [WARNING] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
-[2024-05-30 16:57:29,546] torch.distributed.run: [WARNING] *****************************************
-05/30/2024 16:58:08 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/data/xnli_es', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/llms/pythia-70m_xnli_es_1', output_hub_id='pythia-70m_xnli_es', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
-05/30/2024 16:58:10 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/data/xnli_es', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/llms/pythia-70m_xnli_es_1', output_hub_id='pythia-70m_xnli_es', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
+[2024-05-31 02:56:44,158] torch.distributed.run: [WARNING] 
+[2024-05-31 02:56:44,158] torch.distributed.run: [WARNING] *****************************************
+[2024-05-31 02:56:44,158] torch.distributed.run: [WARNING] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
+[2024-05-31 02:56:44,158] torch.distributed.run: [WARNING] *****************************************
+05/31/2024 02:56:52 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_ph_proj/data/xnli_es', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_ph_proj/llms/pythia-70m_xnli_es_1', output_hub_id='pythia-70m_xnli_es', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
+05/31/2024 02:56:53 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_ph_proj/data/xnli_es', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_ph_proj/llms/pythia-70m_xnli_es_1', output_hub_id='pythia-70m_xnli_es', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
 /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/huggingface_hub/file_download.py:1132: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.
   warnings.warn(
 /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/huggingface_hub/file_download.py:1132: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.
   warnings.warn(
-  0%|          | 0/10714 [00:00<?, ?it/s][rank0]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+  0%|          | 0/10691 [00:00<?, ?it/s][rank0]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
 [rank1]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
-  0%|          | 1/10714 [01:08<204:57:17, 68.87s/it]  0%|          | 2/10714 [01:56<167:22:00, 56.25s/it]  0%|          | 3/10714 [03:16<199:56:16, 67.20s/it]  0%|          | 4/10714 [03:58<170:35:15, 57.34s/it]  0%|          | 5/10714 [04:34<147:42:12, 49.65s/it]  0%|          | 6/10714 [05:09<132:17:26, 44.48s/it]  0%|          | 7/10714 [05:36<115:08:12, 38.71s/it]  0%|          | 8/10714 [06:07<108:23:25, 36.45s/it]  0%|          | 9/10714 [06:40<104:52:52, 35.27s/it]  0%|          | 10/10714 [07:09<99:42:10, 33.53s/it]  0%|          | 11/10714 [07:39<96:18:36, 32.39s/it]  0%|          | 12/10714 [08:08<92:43:11, 31.19s/it]  0%|          | 13/10714 [08:35<88:56:35, 29.92s/it]  0%|          | 14/10714 [09:02<86:56:49, 29.25s/it]  0%|          | 15/10714 [09:29<84:36:09, 28.47s/it]  0%|          | 16/10714 [09:53<80:42:35, 27.16s/it]  0%|          | 17/10714 [10:15<75:47:05, 25.50s/it]  0%|          | 18/10714 [10:35<70:47:57, 23.83s/it]  0%|          | 19/10714 [10:53<65:46:56, 22.14s/it]  0%|          | 20/10714 [11:11<61:57:45, 20.86s/it]  0%|          | 21/10714 [11:28<58:52:15, 19.82s/it]  0%|          | 22/10714 [11:43<54:34:07, 18.37s/it]  0%|          | 23/10714 [11:59<52:39:24, 17.73s/it]  0%|          | 24/10714 [12:13<49:08:29, 16.55s/it]  0%|          | 25/10714 [12:26<46:06:08, 15.53s/it]                                                     {'loss': 10.6904, 'grad_norm': 1.228097915649414, 'learning_rate': 2.332089552238806e-05, 'epoch': 0.0}
-  0%|          | 25/10714 [12:26<46:06:08, 15.53s/it]  0%|          | 26/10714 [12:41<45:15:04, 15.24s/it]  0%|          | 27/10714 [12:52<41:11:08, 13.87s/it]  0%|          | 28/10714 [13:05<40:40:52, 13.71s/it]  0%|          | 29/10714 [13:17<38:45:18, 13.06s/it]  0%|          | 30/10714 [13:28<37:10:08, 12.52s/it]  0%|          | 31/10714 [13:38<35:29:24, 11.96s/it]  0%|          | 32/10714 [13:49<33:59:43, 11.46s/it]  0%|          | 33/10714 [14:00<33:23:43, 11.26s/it]  0%|          | 34/10714 [14:08<31:12:44, 10.52s/it]  0%|          | 35/10714 [14:17<29:37:42,  9.99s/it]  0%|          | 36/10714 [14:25<28:07:59,  9.48s/it]  0%|          | 37/10714 [14:34<27:31:14,  9.28s/it]  0%|          | 38/10714 [14:42<25:56:27,  8.75s/it]  0%|          | 39/10714 [14:50<25:38:16,  8.65s/it]  0%|          | 40/10714 [14:58<25:20:13,  8.55s/it]  0%|          | 41/10714 [15:06<24:36:11,  8.30s/it]  0%|          | 42/10714 [15:13<23:26:45,  7.91s/it]  0%|          | 43/10714 [15:20<22:44:31,  7.67s/it]  0%|          | 44/10714 [15:27<22:07:01,  7.46s/it]  0%|          | 45/10714 [15:33<20:30:39,  6.92s/it]  0%|          | 46/10714 [15:38<19:11:31,  6.48s/it]  0%|          | 47/10714 [15:45<19:04:27,  6.44s/it]  0%|          | 48/10714 [15:51<18:56:16,  6.39s/it]  0%|          | 49/10714 [15:57<18:35:20,  6.27s/it]  0%|          | 50/10714 [16:03<18:05:03,  6.11s/it]                                                     {'loss': 9.9875, 'grad_norm': 1.1130703687667847, 'learning_rate': 4.664179104477612e-05, 'epoch': 0.0}
-  0%|          | 50/10714 [16:03<18:05:03,  6.11s/it]  0%|          | 51/10714 [16:08<17:33:26,  5.93s/it]  0%|          | 52/10714 [16:14<17:50:49,  6.03s/it]  0%|          | 53/10714 [16:21<18:14:03,  6.16s/it]  1%|          | 54/10714 [16:27<18:19:38,  6.19s/it]  1%|          | 55/10714 [16:33<17:38:08,  5.96s/it]  1%|          | 56/10714 [16:38<17:31:08,  5.92s/it]  1%|          | 57/10714 [16:45<17:48:00,  6.01s/it]  1%|          | 58/10714 [16:50<17:10:33,  5.80s/it]  1%|          | 59/10714 [16:56<16:59:47,  5.74s/it]  1%|          | 60/10714 [17:01<16:32:22,  5.59s/it]  1%|          | 61/10714 [17:06<16:26:33,  5.56s/it]  1%|          | 62/10714 [17:11<16:05:31,  5.44s/it]  1%|          | 63/10714 [17:16<15:35:37,  5.27s/it]  1%|          | 64/10714 [17:21<15:28:41,  5.23s/it]  1%|          | 65/10714 [17:27<15:28:20,  5.23s/it]  1%|          | 66/10714 [17:31<15:05:38,  5.10s/it]  1%|          | 67/10714 [17:36<14:53:56,  5.04s/it]  1%|          | 68/10714 [17:41<14:15:21,  4.82s/it]  1%|          | 69/10714 [17:45<13:34:17,  4.59s/it]  1%|          | 70/10714 [17:49<12:55:06,  4.37s/it]  1%|          | 71/10714 [17:52<12:24:58,  4.20s/it]  1%|          | 72/10714 [18:13<26:50:28,  9.08s/it]  1%|          | 73/10714 [18:41<43:24:14, 14.68s/it]  1%|          | 74/10714 [18:44<33:39:59, 11.39s/it]  1%|          | 75/10714 [19:08<44:58:06, 15.22s/it]                                                     {'loss': 9.2318, 'grad_norm': 0.9479644894599915, 'learning_rate': 6.996268656716417e-05, 'epoch': 0.01}
-  1%|          | 75/10714 [19:08<44:58:06, 15.22s/it]  1%|          | 76/10714 [19:31<51:38:19, 17.48s/it]  1%|          | 77/10714 [19:35<39:18:42, 13.30s/it]  1%|          | 78/10714 [19:58<47:56:07, 16.22s/it]  1%|          | 79/10714 [20:22<54:35:57, 18.48s/it]  1%|          | 80/10714 [20:35<49:51:39, 16.88s/it]  1%|          | 81/10714 [20:39<38:32:48, 13.05s/it]  1%|          | 82/10714 [20:43<30:58:51, 10.49s/it]  1%|          | 83/10714 [20:48<25:55:25,  8.78s/it]  1%|          | 84/10714 [20:53<22:01:15,  7.46s/it]  1%|          | 85/10714 [20:57<19:38:21,  6.65s/it]  1%|          | 86/10714 [21:01<17:09:56,  5.81s/it]  1%|          | 87/10714 [21:05<15:19:44,  5.19s/it]  1%|          | 88/10714 [21:09<14:31:13,  4.92s/it]  1%|          | 89/10714 [21:13<13:41:34,  4.64s/it]  1%|          | 90/10714 [21:17<12:57:03,  4.39s/it]  1%|          | 91/10714 [21:20<11:37:15,  3.94s/it]  1%|          | 92/10714 [21:23<11:20:11,  3.84s/it]  1%|          | 93/10714 [21:27<11:00:55,  3.73s/it]  1%|          | 94/10714 [21:30<10:13:14,  3.46s/it]  1%|          | 95/10714 [21:33<9:57:34,  3.38s/it]   1%|          | 96/10714 [21:36<9:26:30,  3.20s/it]  1%|          | 97/10714 [21:39<9:35:44,  3.25s/it]  1%|          | 98/10714 [21:42<9:37:45,  3.27s/it]  1%|          | 99/10714 [21:45<9:22:44,  3.18s/it]  1%|          | 100/10714 [21:49<9:25:45,  3.20s/it]                                                     {'loss': 8.4156, 'grad_norm': 0.6625348925590515, 'learning_rate': 9.328358208955224e-05, 'epoch': 0.01}
-  1%|          | 100/10714 [21:49<9:25:45,  3.20s/it]  1%|          | 101/10714 [21:52<9:12:47,  3.13s/it]  1%|          | 102/10714 [21:55<9:04:08,  3.08s/it]  1%|          | 103/10714 [21:58<9:24:13,  3.19s/it]  1%|          | 104/10714 [22:01<9:19:07,  3.16s/it]  1%|          | 105/10714 [22:10<14:45:05,  5.01s/it]  1%|          | 106/10714 [22:22<20:15:58,  6.88s/it]  1%|          | 107/10714 [22:24<16:31:37,  5.61s/it]  1%|          | 108/10714 [22:27<14:06:58,  4.79s/it]  1%|          | 109/10714 [22:30<12:14:52,  4.16s/it]  1%|          | 110/10714 [22:33<11:13:55,  3.81s/it]  1%|          | 111/10714 [22:35<10:02:48,  3.41s/it]  1%|          | 112/10714 [22:38<9:34:55,  3.25s/it]   1%|          | 113/10714 [22:41<9:20:59,  3.18s/it]  1%|          | 114/10714 [22:44<8:55:49,  3.03s/it]  1%|          | 115/10714 [22:46<8:27:20,  2.87s/it]  1%|          | 116/10714 [22:49<8:07:19,  2.76s/it]  1%|          | 117/10714 [22:52<7:59:05,  2.71s/it]  1%|          | 118/10714 [22:54<7:59:39,  2.72s/it]  1%|          | 119/10714 [22:57<7:53:05,  2.68s/it]  1%|          | 120/10714 [22:59<7:39:11,  2.60s/it]  1%|          | 121/10714 [23:02<7:38:24,  2.60s/it]  1%|          | 122/10714 [23:04<7:17:16,  2.48s/it]  1%|          | 123/10714 [23:07<7:29:55,  2.55s/it]  1%|          | 124/10714 [23:09<7:14:43,  2.46s/it]  1%|          | 125/10714 [23:12<7:24:51,  2.52s/it]{'loss': 7.7532, 'grad_norm': 0.42590054869651794, 'learning_rate': 0.00011660447761194031, 'epoch': 0.01}                                                     
-  1%|          | 125/10714 [23:12<7:24:51,  2.52s/it]  1%|          | 126/10714 [23:14<7:11:38,  2.45s/it]  1%|          | 127/10714 [23:16<7:00:39,  2.38s/it]  1%|          | 128/10714 [23:18<6:49:47,  2.32s/it]  1%|          | 129/10714 [23:20<6:25:54,  2.19s/it]  1%|          | 130/10714 [23:22<6:29:30,  2.21s/it]  1%|          | 131/10714 [23:24<6:06:47,  2.08s/it]  1%|          | 132/10714 [23:26<5:55:50,  2.02s/it]  1%|          | 133/10714 [23:28<6:09:46,  2.10s/it]  1%|▏         | 134/10714 [23:30<6:05:15,  2.07s/it]  1%|▏         | 135/10714 [23:33<6:23:32,  2.18s/it]  1%|▏         | 136/10714 [23:35<6:07:49,  2.09s/it]  1%|▏         | 137/10714 [23:37<6:14:07,  2.12s/it]  1%|▏         | 138/10714 [23:39<6:05:57,  2.08s/it]  1%|▏         | 139/10714 [23:41<6:05:10,  2.07s/it]  1%|▏         | 140/10714 [23:43<5:49:01,  1.98s/it]  1%|▏         | 141/10714 [23:45<5:41:25,  1.94s/it]  1%|▏         | 142/10714 [23:47<5:57:13,  2.03s/it]  1%|▏         | 143/10714 [23:49<5:54:48,  2.01s/it]  1%|▏         | 144/10714 [23:51<6:02:03,  2.06s/it]  1%|▏         | 145/10714 [23:53<5:48:05,  1.98s/it]  1%|▏         | 146/10714 [23:55<5:49:58,  1.99s/it]  1%|▏         | 147/10714 [23:57<6:00:36,  2.05s/it]  1%|▏         | 148/10714 [23:59<5:44:56,  1.96s/it]  1%|▏         | 149/10714 [24:01<5:45:54,  1.96s/it]  1%|▏         | 150/10714 [24:03<5:38:51,  1.92s/it]                                                     {'loss': 7.2197, 'grad_norm': 0.3695347309112549, 'learning_rate': 0.00013992537313432834, 'epoch': 0.01}
-  1%|▏         | 150/10714 [24:03<5:38:51,  1.92s/it]  1%|▏         | 151/10714 [24:05<5:45:00,  1.96s/it]  1%|▏         | 152/10714 [24:07<5:49:54,  1.99s/it]  1%|▏         | 153/10714 [24:08<5:44:22,  1.96s/it]  1%|▏         | 154/10714 [24:10<5:31:59,  1.89s/it]  1%|▏         | 155/10714 [24:12<5:19:42,  1.82s/it]  1%|▏         | 156/10714 [24:13<4:47:16,  1.63s/it]  1%|▏         | 157/10714 [24:15<4:39:12,  1.59s/it]  1%|▏         | 158/10714 [24:16<4:39:07,  1.59s/it]  1%|▏         | 159/10714 [24:18<4:37:58,  1.58s/it]  1%|▏         | 160/10714 [24:19<4:33:11,  1.55s/it]  2%|▏         | 161/10714 [24:21<4:37:18,  1.58s/it]  2%|▏         | 162/10714 [24:23<4:43:21,  1.61s/it]  2%|▏         | 163/10714 [24:24<4:36:13,  1.57s/it]  2%|▏         | 164/10714 [24:25<4:28:44,  1.53s/it]  2%|▏         | 165/10714 [24:27<4:29:34,  1.53s/it]  2%|▏         | 166/10714 [24:29<4:34:54,  1.56s/it]  2%|▏         | 167/10714 [24:30<4:43:58,  1.62s/it]  2%|▏         | 168/10714 [24:32<4:57:09,  1.69s/it]  2%|▏         | 169/10714 [24:34<4:37:17,  1.58s/it]  2%|▏         | 170/10714 [24:35<4:26:48,  1.52s/it]  2%|▏         | 171/10714 [24:37<4:44:29,  1.62s/it]  2%|▏         | 172/10714 [24:39<5:13:25,  1.78s/it]  2%|▏         | 173/10714 [24:41<5:15:43,  1.80s/it]  2%|▏         | 174/10714 [24:42<5:11:43,  1.77s/it]  2%|▏         | 175/10714 [24:44<4:45:10,  1.62s/it]                                                     {'loss': 6.7695, 'grad_norm': 0.4287317097187042, 'learning_rate': 0.00016324626865671642, 'epoch': 0.02}
-  2%|▏         | 175/10714 [24:44<4:45:10,  1.62s/it]  2%|▏         | 176/10714 [24:45<4:31:38,  1.55s/it]  2%|▏         | 177/10714 [24:46<4:15:30,  1.45s/it]  2%|▏         | 178/10714 [24:48<4:07:02,  1.41s/it]  2%|▏         | 179/10714 [24:49<4:02:08,  1.38s/it]  2%|▏         | 180/10714 [24:50<3:47:49,  1.30s/it]  2%|▏         | 181/10714 [24:51<3:49:18,  1.31s/it]  2%|▏         | 182/10714 [24:53<3:50:17,  1.31s/it]  2%|▏         | 183/10714 [24:54<3:55:24,  1.34s/it]  2%|▏         | 184/10714 [24:55<3:41:01,  1.26s/it]  2%|▏         | 185/10714 [24:56<3:38:23,  1.24s/it]  2%|▏         | 186/10714 [24:58<3:32:35,  1.21s/it]  2%|▏         | 187/10714 [24:59<3:32:42,  1.21s/it]  2%|▏         | 188/10714 [25:00<3:25:01,  1.17s/it]  2%|▏         | 189/10714 [25:01<3:17:05,  1.12s/it]  2%|▏         | 190/10714 [25:02<3:13:18,  1.10s/it]  2%|▏         | 191/10714 [25:03<3:01:31,  1.04s/it]  2%|▏         | 192/10714 [25:04<2:56:49,  1.01s/it]  2%|▏         | 193/10714 [25:05<3:04:14,  1.05s/it]  2%|▏         | 194/10714 [25:06<3:01:31,  1.04s/it]  2%|▏         | 195/10714 [25:07<3:01:03,  1.03s/it]  2%|▏         | 196/10714 [25:08<2:50:58,  1.03it/s]  2%|▏         | 197/10714 [25:09<2:50:21,  1.03it/s]  2%|▏         | 198/10714 [25:10<2:54:29,  1.00it/s]  2%|▏         | 199/10714 [25:11<2:48:12,  1.04it/s]  2%|▏         | 200/10714 [25:12<2:45:46,  1.06it/s]                                                     {'loss': 6.3915, 'grad_norm': 0.4976223409175873, 'learning_rate': 0.00018656716417910448, 'epoch': 0.02}
-  2%|▏         | 200/10714 [25:12<2:45:46,  1.06it/s]  2%|▏         | 201/10714 [25:13<2:53:57,  1.01it/s]  2%|▏         | 202/10714 [25:14<2:55:13,  1.00s/it]  2%|▏         | 203/10714 [25:14<2:47:08,  1.05it/s]  2%|▏         | 204/10714 [25:15<2:49:01,  1.04it/s]  2%|▏         | 205/10714 [25:17<2:52:29,  1.02it/s]  2%|▏         | 206/10714 [25:17<2:46:10,  1.05it/s]  2%|▏         | 207/10714 [25:18<2:40:23,  1.09it/s]  2%|▏         | 208/10714 [25:19<2:37:50,  1.11it/s]  2%|▏         | 209/10714 [25:20<2:48:45,  1.04it/s]  2%|▏         | 210/10714 [25:21<2:48:00,  1.04it/s]  2%|▏         | 211/10714 [25:22<2:42:10,  1.08it/s]  2%|▏         | 212/10714 [25:23<2:39:49,  1.10it/s]  2%|▏         | 213/10714 [25:24<2:34:32,  1.13it/s]  2%|▏         | 214/10714 [25:25<2:33:40,  1.14it/s]  2%|▏         | 215/10714 [25:25<2:25:08,  1.21it/s]  2%|▏         | 216/10714 [25:26<2:31:23,  1.16it/s]  2%|▏         | 217/10714 [25:27<2:33:37,  1.14it/s]  2%|▏         | 218/10714 [25:28<2:28:46,  1.18it/s]  2%|▏         | 219/10714 [25:29<2:30:09,  1.16it/s]  2%|▏         | 220/10714 [25:30<2:30:14,  1.16it/s]  2%|▏         | 221/10714 [25:30<2:25:28,  1.20it/s]  2%|▏         | 222/10714 [25:31<2:27:41,  1.18it/s]  2%|▏         | 223/10714 [25:32<2:28:12,  1.18it/s]  2%|▏         | 224/10714 [25:33<2:25:02,  1.21it/s]  2%|▏         | 225/10714 [25:34<2:21:32,  1.24it/s]{'loss': 6.1003, 'grad_norm': 0.4623399078845978, 'learning_rate': 0.00020988805970149256, 'epoch': 0.02}
-                                                       2%|▏         | 225/10714 [25:34<2:21:32,  1.24it/s]  2%|▏         | 226/10714 [25:35<2:29:42,  1.17it/s]  2%|▏         | 227/10714 [25:35<2:23:48,  1.22it/s]  2%|▏         | 228/10714 [25:36<2:16:44,  1.28it/s]  2%|▏         | 229/10714 [25:37<2:18:10,  1.26it/s]  2%|▏         | 230/10714 [25:38<2:16:02,  1.28it/s]  2%|▏         | 231/10714 [25:38<2:07:41,  1.37it/s]  2%|▏         | 232/10714 [25:39<2:08:27,  1.36it/s]  2%|▏         | 233/10714 [25:40<2:04:41,  1.40it/s]  2%|▏         | 234/10714 [25:40<2:08:12,  1.36it/s]  2%|▏         | 235/10714 [25:41<2:06:19,  1.38it/s]  2%|▏         | 236/10714 [25:42<2:04:47,  1.40it/s]  2%|▏         | 237/10714 [25:43<2:01:47,  1.43it/s]  2%|▏         | 238/10714 [25:43<2:00:53,  1.44it/s]  2%|▏         | 239/10714 [25:44<1:58:38,  1.47it/s]  2%|▏         | 240/10714 [25:44<1:54:24,  1.53it/s]  2%|▏         | 241/10714 [25:45<1:58:32,  1.47it/s]  2%|▏         | 242/10714 [25:46<1:56:21,  1.50it/s]  2%|▏         | 243/10714 [25:47<1:59:30,  1.46it/s]  2%|▏         | 244/10714 [25:47<2:02:25,  1.43it/s]  2%|▏         | 245/10714 [25:48<1:58:13,  1.48it/s]  2%|▏         | 246/10714 [25:49<1:57:54,  1.48it/s]  2%|▏         | 247/10714 [25:49<1:55:07,  1.52it/s]  2%|▏         | 248/10714 [25:50<1:55:31,  1.51it/s]  2%|▏         | 249/10714 [25:51<1:54:23,  1.52it/s]  2%|▏         | 250/10714 [25:51<1:54:37,  1.52it/s]{'loss': 5.8833, 'grad_norm': 0.5134618878364563, 'learning_rate': 0.00023320895522388062, 'epoch': 0.02}                                                     
-  2%|▏         | 250/10714 [25:51<1:54:37,  1.52it/s]  2%|▏         | 251/10714 [25:52<1:54:54,  1.52it/s]  2%|▏         | 252/10714 [25:53<1:58:11,  1.48it/s]  2%|▏         | 253/10714 [25:53<1:56:39,  1.49it/s]  2%|▏         | 254/10714 [25:54<1:54:10,  1.53it/s]  2%|▏         | 255/10714 [25:54<1:50:30,  1.58it/s]  2%|▏         | 256/10714 [25:55<1:54:21,  1.52it/s]  2%|▏         | 257/10714 [25:56<1:55:50,  1.50it/s]  2%|▏         | 258/10714 [25:57<1:59:01,  1.46it/s]  2%|▏         | 259/10714 [25:57<1:53:36,  1.53it/s]  2%|▏         | 260/10714 [25:58<1:56:00,  1.50it/s]  2%|▏         | 261/10714 [25:58<1:53:35,  1.53it/s]  2%|▏         | 262/10714 [25:59<1:54:56,  1.52it/s]  2%|▏         | 263/10714 [26:00<1:49:55,  1.58it/s]  2%|▏         | 264/10714 [26:00<1:52:35,  1.55it/s]  2%|▏         | 265/10714 [26:01<1:50:53,  1.57it/s]  2%|▏         | 266/10714 [26:02<1:52:03,  1.55it/s]  2%|▏         | 267/10714 [26:02<1:54:22,  1.52it/s]  3%|▎         | 268/10714 [26:03<1:53:38,  1.53it/s]  3%|▎         | 269/10714 [26:04<1:53:39,  1.53it/s]  3%|▎         | 270/10714 [26:04<1:49:55,  1.58it/s]  3%|▎         | 271/10714 [26:05<1:51:35,  1.56it/s]  3%|▎         | 272/10714 [26:05<1:50:13,  1.58it/s]  3%|▎         | 273/10714 [26:06<1:51:09,  1.57it/s]  3%|▎         | 274/10714 [26:07<1:47:42,  1.62it/s]  3%|▎         | 275/10714 [26:07<1:48:47,  1.60it/s]{'loss': 5.6951, 'grad_norm': 0.5930999517440796, 'learning_rate': 0.00025652985074626865, 'epoch': 0.03}                                                     
-  3%|▎         | 275/10714 [26:07<1:48:47,  1.60it/s]  3%|▎         | 276/10714 [26:08<1:48:48,  1.60it/s]  3%|▎         | 277/10714 [26:09<1:50:07,  1.58it/s]  3%|▎         | 278/10714 [26:09<1:58:33,  1.47it/s]  3%|▎         | 279/10714 [26:10<1:51:50,  1.56it/s]  3%|▎         | 280/10714 [26:11<1:49:31,  1.59it/s]  3%|▎         | 281/10714 [26:11<1:47:32,  1.62it/s]  3%|▎         | 282/10714 [26:12<1:48:50,  1.60it/s]  3%|▎         | 283/10714 [26:12<1:44:20,  1.67it/s]  3%|▎         | 284/10714 [26:13<1:52:19,  1.55it/s]  3%|▎         | 285/10714 [26:14<1:49:16,  1.59it/s]  3%|▎         | 286/10714 [26:14<1:50:20,  1.58it/s]  3%|▎         | 287/10714 [26:15<1:45:59,  1.64it/s]  3%|▎         | 288/10714 [26:16<1:46:58,  1.62it/s]  3%|▎         | 289/10714 [26:16<1:45:35,  1.65it/s]  3%|▎         | 290/10714 [26:17<1:44:46,  1.66it/s]  3%|▎         | 291/10714 [26:17<1:42:16,  1.70it/s]  3%|▎         | 292/10714 [26:18<1:44:37,  1.66it/s]  3%|▎         | 293/10714 [26:18<1:41:30,  1.71it/s]  3%|▎         | 294/10714 [26:19<1:43:59,  1.67it/s]  3%|▎         | 295/10714 [26:20<1:40:36,  1.73it/s]  3%|▎         | 296/10714 [26:20<1:40:18,  1.73it/s]  3%|▎         | 297/10714 [26:21<1:42:40,  1.69it/s]  3%|▎         | 298/10714 [26:21<1:42:11,  1.70it/s]  3%|▎         | 299/10714 [26:22<1:41:47,  1.71it/s]  3%|▎         | 300/10714 [26:23<1:40:41,  1.72it/s]{'loss': 5.5567, 'grad_norm': 0.6129931807518005, 'learning_rate': 0.0002798507462686567, 'epoch': 0.03}                                                     
-  3%|▎         | 300/10714 [26:23<1:40:41,  1.72it/s]  3%|▎         | 301/10714 [26:23<1:40:52,  1.72it/s]  3%|▎         | 302/10714 [26:24<1:38:05,  1.77it/s]  3%|▎         | 303/10714 [26:24<1:40:57,  1.72it/s]  3%|▎         | 304/10714 [26:25<1:39:11,  1.75it/s]  3%|▎         | 305/10714 [26:25<1:39:31,  1.74it/s]  3%|▎         | 306/10714 [26:26<1:40:48,  1.72it/s]  3%|▎         | 307/10714 [26:27<1:40:04,  1.73it/s]  3%|▎         | 308/10714 [26:27<1:42:55,  1.68it/s]  3%|▎         | 309/10714 [26:28<1:39:49,  1.74it/s]  3%|▎         | 310/10714 [26:28<1:39:48,  1.74it/s]  3%|▎         | 311/10714 [26:29<1:41:54,  1.70it/s]  3%|▎         | 312/10714 [26:29<1:40:28,  1.73it/s]  3%|▎         | 313/10714 [26:30<1:40:43,  1.72it/s]  3%|▎         | 314/10714 [26:31<1:38:58,  1.75it/s]  3%|▎         | 315/10714 [26:31<1:37:51,  1.77it/s]  3%|▎         | 316/10714 [26:32<1:40:50,  1.72it/s]  3%|▎         | 317/10714 [26:32<1:38:27,  1.76it/s]  3%|▎         | 318/10714 [26:33<1:40:49,  1.72it/s]  3%|▎         | 319/10714 [26:33<1:40:30,  1.72it/s]  3%|▎         | 320/10714 [26:34<1:37:54,  1.77it/s]  3%|▎         | 321/10714 [26:35<1:55:20,  1.50it/s]  3%|▎         | 322/10714 [26:36<2:05:34,  1.38it/s]  3%|▎         | 323/10714 [26:36<2:02:07,  1.42it/s]  3%|▎         | 324/10714 [26:37<1:56:51,  1.48it/s]  3%|▎         | 325/10714 [26:38<1:54:59,  1.51it/s]                                                     {'loss': 5.4321, 'grad_norm': 0.947724461555481, 'learning_rate': 0.00030317164179104476, 'epoch': 0.03}
-  3%|▎         | 325/10714 [26:38<1:54:59,  1.51it/s]  3%|▎         | 326/10714 [26:38<1:50:52,  1.56it/s]  3%|▎         | 327/10714 [26:39<1:49:25,  1.58it/s]  3%|▎         | 328/10714 [26:40<1:48:43,  1.59it/s]  3%|▎         | 329/10714 [26:40<1:49:28,  1.58it/s]  3%|▎         | 330/10714 [26:41<1:45:40,  1.64it/s]  3%|▎         | 331/10714 [26:41<1:48:47,  1.59it/s]  3%|▎         | 332/10714 [26:42<1:45:06,  1.65it/s]  3%|▎         | 333/10714 [26:43<1:46:25,  1.63it/s]  3%|▎         | 334/10714 [26:43<1:46:10,  1.63it/s]  3%|▎         | 335/10714 [26:44<1:41:53,  1.70it/s]  3%|▎         | 336/10714 [26:44<1:41:50,  1.70it/s]  3%|▎         | 337/10714 [26:45<1:40:25,  1.72it/s]  3%|▎         | 338/10714 [26:45<1:38:34,  1.75it/s]  3%|▎         | 339/10714 [26:46<1:39:32,  1.74it/s]  3%|▎         | 340/10714 [26:47<1:38:39,  1.75it/s]  3%|▎         | 341/10714 [26:47<1:39:52,  1.73it/s]  3%|▎         | 342/10714 [26:48<1:38:22,  1.76it/s]  3%|▎         | 343/10714 [26:48<1:40:59,  1.71it/s]  3%|▎         | 344/10714 [26:49<1:42:05,  1.69it/s]  3%|▎         | 345/10714 [26:50<1:43:19,  1.67it/s]  3%|▎         | 346/10714 [26:50<1:42:58,  1.68it/s]  3%|▎         | 347/10714 [26:51<1:39:45,  1.73it/s]  3%|▎         | 348/10714 [26:51<1:39:36,  1.73it/s]  3%|▎         | 349/10714 [26:52<1:38:43,  1.75it/s]  3%|▎         | 350/10714 [26:52<1:40:33,  1.72it/s]{'loss': 5.3102, 'grad_norm': 0.482337087392807, 'learning_rate': 0.00032649253731343285, 'epoch': 0.03}
-                                                       3%|▎         | 350/10714 [26:52<1:40:33,  1.72it/s]  3%|▎         | 351/10714 [26:53<1:41:18,  1.70it/s]  3%|▎         | 352/10714 [26:54<1:41:09,  1.71it/s]  3%|▎         | 353/10714 [26:54<1:44:11,  1.66it/s]  3%|▎         | 354/10714 [26:55<1:40:48,  1.71it/s]  3%|▎         | 355/10714 [26:55<1:40:13,  1.72it/s]  3%|▎         | 356/10714 [26:56<1:41:34,  1.70it/s]  3%|▎         | 357/10714 [26:56<1:39:02,  1.74it/s]  3%|▎         | 358/10714 [26:57<1:39:50,  1.73it/s]  3%|▎         | 359/10714 [26:58<1:38:29,  1.75it/s]  3%|▎         | 360/10714 [26:58<1:37:12,  1.78it/s]  3%|▎         | 361/10714 [26:59<1:38:06,  1.76it/s]  3%|▎         | 362/10714 [26:59<1:36:38,  1.79it/s]  3%|▎         | 363/10714 [27:00<1:39:25,  1.74it/s]  3%|▎         | 364/10714 [27:00<1:38:26,  1.75it/s]  3%|▎         | 365/10714 [27:01<1:42:46,  1.68it/s]  3%|▎         | 366/10714 [27:02<1:41:11,  1.70it/s]  3%|▎         | 367/10714 [27:02<1:39:35,  1.73it/s]  3%|▎         | 368/10714 [27:03<1:40:50,  1.71it/s]  3%|▎         | 369/10714 [27:03<1:38:48,  1.74it/s]  3%|▎         | 370/10714 [27:04<1:40:04,  1.72it/s]  3%|▎         | 371/10714 [27:05<1:38:03,  1.76it/s]  3%|▎         | 372/10714 [27:05<1:38:45,  1.75it/s]  3%|▎         | 373/10714 [27:06<1:39:14,  1.74it/s]  3%|▎         | 374/10714 [27:06<1:38:26,  1.75it/s]  4%|▎         | 375/10714 [27:07<1:38:59,  1.74it/s]                                                     {'loss': 5.2128, 'grad_norm': 0.6579449772834778, 'learning_rate': 0.0003498134328358209, 'epoch': 0.04}
-  4%|▎         | 375/10714 [27:07<1:38:59,  1.74it/s]  4%|▎         | 376/10714 [27:07<1:38:14,  1.75it/s]  4%|▎         | 377/10714 [27:08<1:37:52,  1.76it/s]  4%|▎         | 378/10714 [27:09<1:39:02,  1.74it/s]  4%|▎         | 379/10714 [27:09<1:37:50,  1.76it/s]  4%|▎         | 380/10714 [27:10<1:37:07,  1.77it/s]  4%|▎         | 381/10714 [27:10<1:40:22,  1.72it/s]  4%|▎         | 382/10714 [27:11<1:38:15,  1.75it/s]  4%|▎         | 383/10714 [27:11<1:36:20,  1.79it/s]  4%|▎         | 384/10714 [27:12<1:36:32,  1.78it/s]  4%|▎         | 385/10714 [27:12<1:35:55,  1.79it/s]  4%|▎         | 386/10714 [27:13<1:35:18,  1.81it/s]  4%|▎         | 387/10714 [27:14<1:36:54,  1.78it/s]  4%|▎         | 388/10714 [27:14<1:36:20,  1.79it/s]  4%|▎         | 389/10714 [27:15<1:34:13,  1.83it/s]  4%|▎         | 390/10714 [27:15<1:35:11,  1.81it/s]  4%|▎         | 391/10714 [27:16<1:35:33,  1.80it/s]  4%|▎         | 392/10714 [27:16<1:34:53,  1.81it/s]  4%|▎         | 393/10714 [27:17<1:33:47,  1.83it/s]  4%|▎         | 394/10714 [27:17<1:33:06,  1.85it/s]  4%|▎         | 395/10714 [27:18<1:31:07,  1.89it/s]  4%|▎         | 396/10714 [27:18<1:33:32,  1.84it/s]  4%|▎         | 397/10714 [27:19<1:35:29,  1.80it/s]  4%|▎         | 398/10714 [27:20<1:34:32,  1.82it/s]  4%|▎         | 399/10714 [27:20<1:33:23,  1.84it/s]  4%|▎         | 400/10714 [27:21<1:35:57,  1.79it/s]                                                     {'loss': 5.124, 'grad_norm': 0.5597151517868042, 'learning_rate': 0.00037313432835820896, 'epoch': 0.04}
-  4%|▎         | 400/10714 [27:21<1:35:57,  1.79it/s]  4%|▎         | 401/10714 [27:21<1:35:24,  1.80it/s]  4%|▍         | 402/10714 [27:22<1:35:20,  1.80it/s]  4%|▍         | 403/10714 [27:22<1:35:27,  1.80it/s]  4%|▍         | 404/10714 [27:23<1:35:50,  1.79it/s]  4%|▍         | 405/10714 [27:23<1:34:12,  1.82it/s]  4%|▍         | 406/10714 [27:24<1:33:47,  1.83it/s]  4%|▍         | 407/10714 [27:25<1:35:23,  1.80it/s]  4%|▍         | 408/10714 [27:25<1:34:23,  1.82it/s]  4%|▍         | 409/10714 [27:26<1:33:32,  1.84it/s]  4%|▍         | 410/10714 [27:26<1:34:36,  1.82it/s]  4%|▍         | 411/10714 [27:27<1:35:36,  1.80it/s]  4%|▍         | 412/10714 [27:27<1:34:20,  1.82it/s]  4%|▍         | 413/10714 [27:28<1:33:39,  1.83it/s]  4%|▍         | 414/10714 [27:28<1:33:16,  1.84it/s]  4%|▍         | 415/10714 [27:29<1:35:18,  1.80it/s]  4%|▍         | 416/10714 [27:30<1:34:51,  1.81it/s]  4%|▍         | 417/10714 [27:30<1:34:16,  1.82it/s]  4%|▍         | 418/10714 [27:31<1:34:11,  1.82it/s]  4%|▍         | 419/10714 [27:31<1:34:13,  1.82it/s]  4%|▍         | 420/10714 [27:32<1:33:18,  1.84it/s]  4%|▍         | 421/10714 [27:32<1:33:31,  1.83it/s]  4%|▍         | 422/10714 [27:33<1:37:06,  1.77it/s]  4%|▍         | 423/10714 [27:33<1:36:15,  1.78it/s]  4%|▍         | 424/10714 [27:34<1:34:08,  1.82it/s]  4%|▍         | 425/10714 [27:34<1:33:03,  1.84it/s]                                                     {'loss': 5.049, 'grad_norm': 0.7770674824714661, 'learning_rate': 0.00039645522388059704, 'epoch': 0.04}
-  4%|▍         | 425/10714 [27:34<1:33:03,  1.84it/s]  4%|▍         | 426/10714 [27:35<1:33:25,  1.84it/s]  4%|▍         | 427/10714 [27:36<1:32:24,  1.86it/s]  4%|▍         | 428/10714 [27:36<1:31:48,  1.87it/s]  4%|▍         | 429/10714 [27:37<1:32:59,  1.84it/s]  4%|▍         | 430/10714 [27:37<1:34:36,  1.81it/s]  4%|▍         | 431/10714 [27:38<1:34:08,  1.82it/s]  4%|▍         | 432/10714 [27:38<1:32:44,  1.85it/s]  4%|▍         | 433/10714 [27:39<1:32:53,  1.84it/s]  4%|▍         | 434/10714 [27:39<1:34:04,  1.82it/s]  4%|▍         | 435/10714 [27:40<1:32:42,  1.85it/s]  4%|▍         | 436/10714 [27:40<1:31:04,  1.88it/s]  4%|▍         | 437/10714 [27:41<1:31:26,  1.87it/s]  4%|▍         | 438/10714 [27:41<1:31:48,  1.87it/s]  4%|▍         | 439/10714 [27:42<1:31:25,  1.87it/s]  4%|▍         | 440/10714 [27:43<1:31:05,  1.88it/s]  4%|▍         | 441/10714 [27:43<1:30:06,  1.90it/s]  4%|▍         | 442/10714 [27:44<1:30:13,  1.90it/s]  4%|▍         | 443/10714 [27:44<1:32:22,  1.85it/s]  4%|▍         | 444/10714 [27:45<1:31:47,  1.86it/s]  4%|▍         | 445/10714 [27:45<1:31:08,  1.88it/s]  4%|▍         | 446/10714 [27:46<1:31:44,  1.87it/s]  4%|▍         | 447/10714 [27:46<1:31:20,  1.87it/s]  4%|▍         | 448/10714 [27:47<1:32:44,  1.84it/s]  4%|▍         | 449/10714 [27:47<1:33:41,  1.83it/s]  4%|▍         | 450/10714 [27:48<1:32:43,  1.84it/s]{'loss': 4.9794, 'grad_norm': 0.8441025614738464, 'learning_rate': 0.0004197761194029851, 'epoch': 0.04}
-                                                       4%|▍         | 450/10714 [27:48<1:32:43,  1.84it/s]  4%|▍         | 451/10714 [27:48<1:31:31,  1.87it/s]  4%|▍         | 452/10714 [27:49<1:32:52,  1.84it/s]  4%|▍         | 453/10714 [27:50<1:32:28,  1.85it/s]  4%|▍         | 454/10714 [27:50<1:30:54,  1.88it/s]  4%|▍         | 455/10714 [27:51<1:30:23,  1.89it/s]  4%|▍         | 456/10714 [27:51<1:30:10,  1.90it/s]  4%|▍         | 457/10714 [27:52<1:30:31,  1.89it/s]  4%|▍         | 458/10714 [27:52<1:32:37,  1.85it/s]  4%|▍         | 459/10714 [27:53<1:34:35,  1.81it/s]  4%|▍         | 460/10714 [27:53<1:33:00,  1.84it/s]  4%|▍         | 461/10714 [27:54<1:31:38,  1.86it/s]  4%|▍         | 462/10714 [27:54<1:30:24,  1.89it/s]  4%|▍         | 463/10714 [27:55<1:31:50,  1.86it/s]  4%|▍         | 464/10714 [27:55<1:32:29,  1.85it/s]  4%|▍         | 465/10714 [27:56<1:31:13,  1.87it/s]  4%|▍         | 466/10714 [27:56<1:30:12,  1.89it/s]  4%|▍         | 467/10714 [27:57<1:30:01,  1.90it/s]  4%|▍         | 468/10714 [27:58<1:31:33,  1.87it/s]  4%|▍         | 469/10714 [27:58<1:30:43,  1.88it/s]  4%|▍         | 470/10714 [27:59<1:30:10,  1.89it/s]  4%|▍         | 471/10714 [27:59<1:29:46,  1.90it/s]  4%|▍         | 472/10714 [28:00<1:29:27,  1.91it/s]  4%|▍         | 473/10714 [28:00<1:29:00,  1.92it/s]  4%|▍         | 474/10714 [28:01<1:29:25,  1.91it/s]  4%|▍         | 475/10714 [28:01<1:30:39,  1.88it/s]                                                     {'loss': 4.9135, 'grad_norm': 0.4991113245487213, 'learning_rate': 0.00044309701492537316, 'epoch': 0.04}
-  4%|▍         | 475/10714 [28:01<1:30:39,  1.88it/s]  4%|▍         | 476/10714 [28:02<1:30:00,  1.90it/s]  4%|▍         | 477/10714 [28:02<1:29:41,  1.90it/s]  4%|▍         | 478/10714 [28:03<1:29:15,  1.91it/s]  4%|▍         | 479/10714 [28:03<1:29:02,  1.92it/s]  4%|▍         | 480/10714 [28:04<1:28:33,  1.93it/s]  4%|▍         | 481/10714 [28:04<1:29:16,  1.91it/s]  4%|▍         | 482/10714 [28:05<1:28:52,  1.92it/s]  5%|▍         | 483/10714 [28:05<1:27:41,  1.94it/s]  5%|▍         | 484/10714 [28:06<1:26:47,  1.96it/s]  5%|▍         | 485/10714 [28:06<1:27:25,  1.95it/s]  5%|▍         | 486/10714 [28:07<1:26:42,  1.97it/s]  5%|▍         | 487/10714 [28:07<1:26:27,  1.97it/s]  5%|▍         | 488/10714 [28:08<1:25:58,  1.98it/s]  5%|▍         | 489/10714 [28:08<1:26:58,  1.96it/s]  5%|▍         | 490/10714 [28:09<1:27:59,  1.94it/s]  5%|▍         | 491/10714 [28:09<1:28:22,  1.93it/s]  5%|▍         | 492/10714 [28:10<1:27:36,  1.94it/s]  5%|▍         | 493/10714 [28:10<1:27:32,  1.95it/s]  5%|▍         | 494/10714 [28:11<1:27:34,  1.94it/s]  5%|▍         | 495/10714 [28:12<1:27:31,  1.95it/s]  5%|▍         | 496/10714 [28:12<1:28:41,  1.92it/s]  5%|▍         | 497/10714 [28:13<1:29:10,  1.91it/s]  5%|▍         | 498/10714 [28:13<1:28:08,  1.93it/s]  5%|▍         | 499/10714 [28:14<1:27:24,  1.95it/s]  5%|▍         | 500/10714 [28:14<1:26:44,  1.96it/s]{'loss': 4.8584, 'grad_norm': 0.8556485176086426, 'learning_rate': 0.00046641791044776124, 'epoch': 0.05}                                                     
-  5%|▍         | 500/10714 [28:14<1:26:44,  1.96it/s]  5%|▍         | 501/10714 [28:15<1:26:37,  1.97it/s]  5%|▍         | 502/10714 [28:15<1:26:34,  1.97it/s]  5%|▍         | 503/10714 [28:16<1:27:38,  1.94it/s]  5%|▍         | 504/10714 [28:16<1:27:50,  1.94it/s]  5%|▍         | 505/10714 [28:17<1:29:13,  1.91it/s]  5%|▍         | 506/10714 [28:17<1:28:10,  1.93it/s]  5%|▍         | 507/10714 [28:18<1:27:10,  1.95it/s]  5%|▍         | 508/10714 [28:18<1:26:54,  1.96it/s]  5%|▍         | 509/10714 [28:19<1:27:22,  1.95it/s]  5%|▍         | 510/10714 [28:19<1:27:11,  1.95it/s]  5%|▍         | 511/10714 [28:20<1:27:01,  1.95it/s]  5%|▍         | 512/10714 [28:20<1:26:46,  1.96it/s]  5%|▍         | 513/10714 [28:21<1:28:07,  1.93it/s]  5%|▍         | 514/10714 [28:21<1:27:14,  1.95it/s]  5%|▍         | 515/10714 [28:22<1:27:13,  1.95it/s]  5%|▍         | 516/10714 [28:22<1:27:19,  1.95it/s]  5%|▍         | 517/10714 [28:23<1:27:05,  1.95it/s]  5%|▍         | 518/10714 [28:23<1:28:35,  1.92it/s]  5%|▍         | 519/10714 [28:24<1:27:49,  1.93it/s]  5%|▍         | 520/10714 [28:24<1:27:48,  1.93it/s]  5%|▍         | 521/10714 [28:25<1:27:35,  1.94it/s]  5%|▍         | 522/10714 [28:25<1:27:08,  1.95it/s]  5%|▍         | 523/10714 [28:26<1:26:38,  1.96it/s]  5%|▍         | 524/10714 [28:26<1:26:12,  1.97it/s]  5%|▍         | 525/10714 [28:27<1:26:30,  1.96it/s]                                                     {'loss': 4.7959, 'grad_norm': 0.5597350001335144, 'learning_rate': 0.0004897388059701492, 'epoch': 0.05}
-  5%|▍         | 525/10714 [28:27<1:26:30,  1.96it/s]  5%|▍         | 526/10714 [28:27<1:27:06,  1.95it/s]  5%|▍         | 527/10714 [28:28<1:26:42,  1.96it/s]  5%|▍         | 528/10714 [28:28<1:26:22,  1.97it/s]  5%|▍         | 529/10714 [28:29<1:26:45,  1.96it/s]  5%|▍         | 530/10714 [28:29<1:26:29,  1.96it/s]  5%|▍         | 531/10714 [28:30<1:26:01,  1.97it/s]  5%|▍         | 532/10714 [28:30<1:25:25,  1.99it/s]  5%|▍         | 533/10714 [28:31<1:25:28,  1.99it/s]  5%|▍         | 534/10714 [28:31<1:25:28,  1.99it/s]  5%|▍         | 535/10714 [28:32<1:25:15,  1.99it/s]  5%|▌         | 536/10714 [28:33<1:25:42,  1.98it/s]  5%|▌         | 537/10714 [28:33<1:25:17,  1.99it/s]  5%|▌         | 538/10714 [28:34<1:25:03,  1.99it/s]  5%|▌         | 539/10714 [28:34<1:24:53,  2.00it/s]  5%|▌         | 540/10714 [28:35<1:24:53,  2.00it/s]  5%|▌         | 541/10714 [28:35<1:24:54,  2.00it/s]  5%|▌         | 542/10714 [28:36<1:25:27,  1.98it/s]  5%|▌         | 543/10714 [28:36<1:26:04,  1.97it/s]  5%|▌         | 544/10714 [28:37<1:26:30,  1.96it/s]  5%|▌         | 545/10714 [28:37<1:26:26,  1.96it/s]  5%|▌         | 546/10714 [28:38<1:26:53,  1.95it/s]  5%|▌         | 547/10714 [28:38<1:27:29,  1.94it/s]  5%|▌         | 548/10714 [28:39<1:27:07,  1.94it/s]  5%|▌         | 549/10714 [28:39<1:26:41,  1.95it/s]  5%|▌         | 550/10714 [28:40<1:26:38,  1.96it/s]                                                     {'loss': 4.7573, 'grad_norm': 0.5076329708099365, 'learning_rate': 0.0005130597014925373, 'epoch': 0.05}
-  5%|▌         | 550/10714 [28:40<1:26:38,  1.96it/s]  5%|▌         | 551/10714 [28:40<1:26:34,  1.96it/s]  5%|▌         | 552/10714 [28:41<1:25:49,  1.97it/s]  5%|▌         | 553/10714 [28:41<1:25:54,  1.97it/s]  5%|▌         | 554/10714 [28:42<1:26:12,  1.96it/s]  5%|▌         | 555/10714 [28:42<1:26:02,  1.97it/s]  5%|▌         | 556/10714 [28:43<1:25:51,  1.97it/s]  5%|▌         | 557/10714 [28:43<1:26:01,  1.97it/s]  5%|▌         | 558/10714 [28:44<1:26:00,  1.97it/s]  5%|▌         | 559/10714 [28:44<1:25:59,  1.97it/s]  5%|▌         | 560/10714 [28:45<1:25:46,  1.97it/s]  5%|▌         | 561/10714 [28:45<1:25:24,  1.98it/s]  5%|▌         | 562/10714 [28:46<1:25:26,  1.98it/s]  5%|▌         | 563/10714 [28:46<1:26:10,  1.96it/s]  5%|▌         | 564/10714 [28:47<1:25:44,  1.97it/s]  5%|▌         | 565/10714 [28:47<1:25:59,  1.97it/s]  5%|▌         | 566/10714 [28:48<1:26:20,  1.96it/s]  5%|▌         | 567/10714 [28:48<1:26:03,  1.96it/s]  5%|▌         | 568/10714 [28:49<1:25:54,  1.97it/s]  5%|▌         | 569/10714 [28:49<1:25:44,  1.97it/s]  5%|▌         | 570/10714 [28:50<1:25:51,  1.97it/s]  5%|▌         | 571/10714 [28:50<1:25:31,  1.98it/s]  5%|▌         | 572/10714 [28:51<1:25:18,  1.98it/s]  5%|▌         | 573/10714 [28:51<1:26:12,  1.96it/s]  5%|▌         | 574/10714 [28:52<1:26:32,  1.95it/s]  5%|▌         | 575/10714 [28:52<1:26:16,  1.96it/s]{'loss': 4.708, 'grad_norm': 0.5730823278427124, 'learning_rate': 0.0005363805970149254, 'epoch': 0.05}                                                     
-  5%|▌         | 575/10714 [28:52<1:26:16,  1.96it/s]  5%|▌         | 576/10714 [28:53<1:26:03,  1.96it/s]  5%|▌         | 577/10714 [28:53<1:25:43,  1.97it/s]  5%|▌         | 578/10714 [28:54<1:25:30,  1.98it/s]  5%|▌         | 579/10714 [28:54<1:25:05,  1.99it/s]  5%|▌         | 580/10714 [28:55<1:25:21,  1.98it/s]  5%|▌         | 581/10714 [28:55<1:25:04,  1.98it/s]  5%|▌         | 582/10714 [28:56<1:25:15,  1.98it/s]  5%|▌         | 583/10714 [28:56<1:25:37,  1.97it/s]  5%|▌         | 584/10714 [28:57<1:25:35,  1.97it/s]  5%|▌         | 585/10714 [28:57<1:25:29,  1.97it/s]  5%|▌         | 586/10714 [28:58<1:25:25,  1.98it/s]  5%|▌         | 587/10714 [28:58<1:25:43,  1.97it/s]  5%|▌         | 588/10714 [28:59<1:25:11,  1.98it/s]  5%|▌         | 589/10714 [28:59<1:25:00,  1.99it/s]  6%|▌         | 590/10714 [29:00<1:25:13,  1.98it/s]  6%|▌         | 591/10714 [29:00<1:25:42,  1.97it/s]  6%|▌         | 592/10714 [29:01<1:25:12,  1.98it/s]  6%|▌         | 593/10714 [29:01<1:25:15,  1.98it/s]  6%|▌         | 594/10714 [29:02<1:24:59,  1.98it/s]  6%|▌         | 595/10714 [29:02<1:25:26,  1.97it/s]  6%|▌         | 596/10714 [29:03<1:24:59,  1.98it/s]  6%|▌         | 597/10714 [29:03<1:25:06,  1.98it/s]  6%|▌         | 598/10714 [29:04<1:24:49,  1.99it/s]  6%|▌         | 599/10714 [29:04<1:24:59,  1.98it/s]  6%|▌         | 600/10714 [29:05<1:25:01,  1.98it/s]                                                     {'loss': 4.6658, 'grad_norm': 0.5905976891517639, 'learning_rate': 0.0005597014925373134, 'epoch': 0.06}
-  6%|▌         | 600/10714 [29:05<1:25:01,  1.98it/s]  6%|▌         | 601/10714 [29:05<1:24:56,  1.98it/s]  6%|▌         | 602/10714 [29:06<1:24:53,  1.99it/s]  6%|▌         | 603/10714 [29:06<1:24:57,  1.98it/s]  6%|▌         | 604/10714 [29:07<1:24:33,  1.99it/s]  6%|▌         | 605/10714 [29:07<1:24:21,  2.00it/s]  6%|▌         | 606/10714 [29:08<1:24:59,  1.98it/s]  6%|▌         | 607/10714 [29:08<1:24:55,  1.98it/s]  6%|▌         | 608/10714 [29:09<1:25:01,  1.98it/s]  6%|▌         | 609/10714 [29:09<1:25:25,  1.97it/s]  6%|▌         | 610/10714 [29:10<1:25:19,  1.97it/s]  6%|▌         | 611/10714 [29:10<1:25:09,  1.98it/s]  6%|▌         | 612/10714 [29:11<1:24:53,  1.98it/s]  6%|▌         | 613/10714 [29:11<1:24:34,  1.99it/s]  6%|▌         | 614/10714 [29:12<1:24:34,  1.99it/s]  6%|▌         | 615/10714 [29:12<1:24:10,  2.00it/s]  6%|▌         | 616/10714 [29:13<1:24:06,  2.00it/s]  6%|▌         | 617/10714 [29:13<1:24:07,  2.00it/s]  6%|▌         | 618/10714 [29:14<1:24:59,  1.98it/s]  6%|▌         | 619/10714 [29:15<1:26:46,  1.94it/s]  6%|▌         | 620/10714 [29:15<1:26:17,  1.95it/s]  6%|▌         | 621/10714 [29:16<1:25:32,  1.97it/s]  6%|▌         | 622/10714 [29:16<1:25:31,  1.97it/s]  6%|▌         | 623/10714 [29:17<1:25:03,  1.98it/s]  6%|▌         | 624/10714 [29:17<1:24:44,  1.98it/s]  6%|▌         | 625/10714 [29:18<1:24:38,  1.99it/s]                                                     {'loss': 4.6257, 'grad_norm': 0.5594293475151062, 'learning_rate': 0.0005830223880597015, 'epoch': 0.06}
-  6%|▌         | 625/10714 [29:18<1:24:38,  1.99it/s]  6%|▌         | 626/10714 [29:18<1:25:03,  1.98it/s]  6%|▌         | 627/10714 [29:19<1:24:41,  1.98it/s]  6%|▌         | 628/10714 [29:19<1:24:29,  1.99it/s]  6%|▌         | 629/10714 [29:20<1:24:15,  1.99it/s]  6%|▌         | 630/10714 [29:20<1:24:39,  1.99it/s]  6%|▌         | 631/10714 [29:21<1:24:35,  1.99it/s]  6%|▌         | 632/10714 [29:21<1:24:10,  2.00it/s]  6%|▌         | 633/10714 [29:22<1:23:56,  2.00it/s]  6%|▌         | 634/10714 [29:22<1:23:44,  2.01it/s]  6%|▌         | 635/10714 [29:23<1:23:41,  2.01it/s]  6%|▌         | 636/10714 [29:23<1:23:41,  2.01it/s]  6%|▌         | 637/10714 [29:24<1:24:20,  1.99it/s]  6%|▌         | 638/10714 [29:24<1:24:36,  1.98it/s]  6%|▌         | 639/10714 [29:25<1:24:38,  1.98it/s]  6%|▌         | 640/10714 [29:25<1:24:23,  1.99it/s]  6%|▌         | 641/10714 [29:26<1:24:20,  1.99it/s]  6%|▌         | 642/10714 [29:26<1:24:36,  1.98it/s]  6%|▌         | 643/10714 [29:27<1:24:08,  1.99it/s]  6%|▌         | 644/10714 [29:27<1:25:19,  1.97it/s]  6%|▌         | 645/10714 [29:28<1:24:51,  1.98it/s]  6%|▌         | 646/10714 [29:28<1:24:49,  1.98it/s]  6%|▌         | 647/10714 [29:29<1:24:37,  1.98it/s]  6%|▌         | 648/10714 [29:29<1:24:16,  1.99it/s]  6%|▌         | 649/10714 [29:30<1:24:24,  1.99it/s]  6%|▌         | 650/10714 [29:30<1:24:07,  1.99it/s]{'loss': 4.5916, 'grad_norm': 0.43945735692977905, 'learning_rate': 0.0006063432835820895, 'epoch': 0.06}                                                     
-  6%|▌         | 650/10714 [29:30<1:24:07,  1.99it/s]  6%|▌         | 651/10714 [29:31<1:24:08,  1.99it/s]  6%|▌         | 652/10714 [29:31<1:24:06,  1.99it/s]  6%|▌         | 653/10714 [29:32<1:23:45,  2.00it/s]  6%|▌         | 654/10714 [29:32<1:23:40,  2.00it/s]  6%|▌         | 655/10714 [29:33<1:23:47,  2.00it/s]  6%|▌         | 656/10714 [29:33<1:23:34,  2.01it/s]  6%|▌         | 657/10714 [29:34<1:23:21,  2.01it/s]  6%|▌         | 658/10714 [29:34<1:23:33,  2.01it/s]  6%|▌         | 659/10714 [29:35<1:23:41,  2.00it/s]  6%|▌         | 660/10714 [29:35<1:23:31,  2.01it/s]  6%|▌         | 661/10714 [29:36<1:23:23,  2.01it/s]  6%|▌         | 662/10714 [29:36<1:23:24,  2.01it/s]  6%|▌         | 663/10714 [29:37<1:23:19,  2.01it/s]  6%|▌         | 664/10714 [29:37<1:23:16,  2.01it/s]  6%|▌         | 665/10714 [29:38<1:23:06,  2.02it/s]  6%|▌         | 666/10714 [29:38<1:23:00,  2.02it/s]  6%|▌         | 667/10714 [29:39<1:23:17,  2.01it/s]  6%|▌         | 668/10714 [29:39<1:23:20,  2.01it/s]  6%|▌         | 669/10714 [29:40<1:23:28,  2.01it/s]  6%|▋         | 670/10714 [29:40<1:23:16,  2.01it/s]  6%|▋         | 671/10714 [29:41<1:23:22,  2.01it/s]  6%|▋         | 672/10714 [29:41<1:23:27,  2.01it/s]  6%|▋         | 673/10714 [29:42<1:23:56,  1.99it/s]  6%|▋         | 674/10714 [29:42<1:23:40,  2.00it/s]  6%|▋         | 675/10714 [29:43<1:23:27,  2.00it/s]                                                     {'loss': 4.5493, 'grad_norm': 0.5331370234489441, 'learning_rate': 0.0006296641791044776, 'epoch': 0.06}
-  6%|▋         | 675/10714 [29:43<1:23:27,  2.00it/s]  6%|▋         | 676/10714 [29:43<1:23:18,  2.01it/s]  6%|▋         | 677/10714 [29:44<1:23:11,  2.01it/s]  6%|▋         | 678/10714 [29:44<1:23:09,  2.01it/s]  6%|▋         | 679/10714 [29:45<1:23:02,  2.01it/s]  6%|▋         | 680/10714 [29:45<1:22:52,  2.02it/s]  6%|▋         | 681/10714 [29:46<1:22:53,  2.02it/s]  6%|▋         | 682/10714 [29:46<1:22:55,  2.02it/s]  6%|▋         | 683/10714 [29:47<1:22:49,  2.02it/s]  6%|▋         | 684/10714 [29:47<1:22:50,  2.02it/s]  6%|▋         | 685/10714 [29:48<1:22:41,  2.02it/s]  6%|▋         | 686/10714 [29:48<1:22:37,  2.02it/s]  6%|▋         | 687/10714 [29:49<1:22:48,  2.02it/s]  6%|▋         | 688/10714 [29:49<1:22:47,  2.02it/s]  6%|▋         | 689/10714 [29:50<1:22:54,  2.02it/s]  6%|▋         | 690/10714 [29:50<1:23:00,  2.01it/s]  6%|▋         | 691/10714 [29:51<1:23:20,  2.00it/s]  6%|▋         | 692/10714 [29:51<1:23:20,  2.00it/s]  6%|▋         | 693/10714 [29:52<1:23:15,  2.01it/s]  6%|▋         | 694/10714 [29:52<1:23:20,  2.00it/s]  6%|▋         | 695/10714 [29:53<1:23:11,  2.01it/s]  6%|▋         | 696/10714 [29:53<1:23:05,  2.01it/s]  7%|▋         | 697/10714 [29:54<1:22:55,  2.01it/s]  7%|▋         | 698/10714 [29:54<1:23:14,  2.01it/s]  7%|▋         | 699/10714 [29:55<1:23:15,  2.00it/s]  7%|▋         | 700/10714 [29:55<1:23:11,  2.01it/s]                                                     {'loss': 4.5283, 'grad_norm': 0.4585072100162506, 'learning_rate': 0.0006529850746268657, 'epoch': 0.07}
-  7%|▋         | 700/10714 [29:55<1:23:11,  2.01it/s]  7%|▋         | 701/10714 [29:56<1:23:02,  2.01it/s]  7%|▋         | 702/10714 [29:56<1:23:00,  2.01it/s]  7%|▋         | 703/10714 [29:56<1:22:47,  2.02it/s]  7%|▋         | 704/10714 [29:57<1:23:01,  2.01it/s]  7%|▋         | 705/10714 [29:57<1:22:59,  2.01it/s]  7%|▋         | 706/10714 [29:58<1:22:45,  2.02it/s]  7%|▋         | 707/10714 [29:58<1:22:56,  2.01it/s]  7%|▋         | 708/10714 [29:59<1:22:47,  2.01it/s]  7%|▋         | 709/10714 [29:59<1:22:46,  2.01it/s]  7%|▋         | 710/10714 [30:00<1:22:40,  2.02it/s]  7%|▋         | 711/10714 [30:00<1:22:34,  2.02it/s]  7%|▋         | 712/10714 [30:01<1:22:28,  2.02it/s]  7%|▋         | 713/10714 [30:01<1:22:30,  2.02it/s]  7%|▋         | 714/10714 [30:02<1:22:23,  2.02it/s]  7%|▋         | 715/10714 [30:02<1:22:28,  2.02it/s]  7%|▋         | 716/10714 [30:03<1:22:24,  2.02it/s]  7%|▋         | 717/10714 [30:03<1:22:37,  2.02it/s]  7%|▋         | 718/10714 [30:04<1:22:33,  2.02it/s]  7%|▋         | 719/10714 [30:04<1:22:32,  2.02it/s]  7%|▋         | 720/10714 [30:05<1:22:24,  2.02it/s]  7%|▋         | 721/10714 [30:05<1:22:20,  2.02it/s]  7%|▋         | 722/10714 [30:06<1:22:20,  2.02it/s]  7%|▋         | 723/10714 [30:06<1:22:06,  2.03it/s]  7%|▋         | 724/10714 [30:07<1:22:13,  2.03it/s]  7%|▋         | 725/10714 [30:07<1:22:18,  2.02it/s]                                                     {'loss': 4.483, 'grad_norm': 0.4900133013725281, 'learning_rate': 0.0006763059701492538, 'epoch': 0.07}
-  7%|▋         | 725/10714 [30:07<1:22:18,  2.02it/s]  7%|▋         | 726/10714 [30:08<1:23:16,  2.00it/s]  7%|▋         | 727/10714 [30:08<1:22:55,  2.01it/s]  7%|▋         | 728/10714 [30:09<1:22:54,  2.01it/s]  7%|▋         | 729/10714 [30:09<1:22:40,  2.01it/s]  7%|▋         | 730/10714 [30:10<1:22:27,  2.02it/s]  7%|▋         | 731/10714 [30:10<1:22:28,  2.02it/s]  7%|▋         | 732/10714 [30:11<1:22:19,  2.02it/s]  7%|▋         | 733/10714 [30:11<1:22:11,  2.02it/s]  7%|▋         | 734/10714 [30:12<1:22:12,  2.02it/s]  7%|▋         | 735/10714 [30:12<1:22:16,  2.02it/s]  7%|▋         | 736/10714 [30:13<1:22:05,  2.03it/s]  7%|▋         | 737/10714 [30:13<1:22:13,  2.02it/s]  7%|▋         | 738/10714 [30:14<1:22:28,  2.02it/s]  7%|▋         | 739/10714 [30:14<1:22:22,  2.02it/s]  7%|▋         | 740/10714 [30:15<1:22:24,  2.02it/s]  7%|▋         | 741/10714 [30:15<1:22:31,  2.01it/s]  7%|▋         | 742/10714 [30:16<1:22:24,  2.02it/s]  7%|▋         | 743/10714 [30:16<1:22:35,  2.01it/s]  7%|▋         | 744/10714 [30:17<1:22:32,  2.01it/s]  7%|▋         | 745/10714 [30:17<1:22:29,  2.01it/s]  7%|▋         | 746/10714 [30:18<1:22:42,  2.01it/s]  7%|▋         | 747/10714 [30:18<1:22:30,  2.01it/s]  7%|▋         | 748/10714 [30:19<1:22:27,  2.01it/s]  7%|▋         | 749/10714 [30:19<1:22:47,  2.01it/s]  7%|▋         | 750/10714 [30:20<1:22:26,  2.01it/s]                                                     {'loss': 4.4651, 'grad_norm': 0.48282766342163086, 'learning_rate': 0.0006996268656716418, 'epoch': 0.07}
-  7%|▋         | 750/10714 [30:20<1:22:26,  2.01it/s]  7%|▋         | 751/10714 [30:20<1:22:24,  2.01it/s]  7%|▋         | 752/10714 [30:21<1:22:22,  2.02it/s]  7%|▋         | 753/10714 [30:21<1:22:22,  2.02it/s]  7%|▋         | 754/10714 [30:22<1:22:31,  2.01it/s]  7%|▋         | 755/10714 [30:22<1:22:21,  2.02it/s]  7%|▋         | 756/10714 [30:23<1:22:34,  2.01it/s]  7%|▋         | 757/10714 [30:23<1:22:41,  2.01it/s]  7%|▋         | 758/10714 [30:24<1:22:36,  2.01it/s]  7%|▋         | 759/10714 [30:24<1:22:28,  2.01it/s]  7%|▋         | 760/10714 [30:25<1:22:13,  2.02it/s]  7%|▋         | 761/10714 [30:25<1:22:24,  2.01it/s]  7%|▋         | 762/10714 [30:26<1:22:10,  2.02it/s]  7%|▋         | 763/10714 [30:26<1:22:11,  2.02it/s]  7%|▋         | 764/10714 [30:27<1:22:42,  2.00it/s]  7%|▋         | 765/10714 [30:27<1:22:30,  2.01it/s]  7%|▋         | 766/10714 [30:28<1:22:22,  2.01it/s]  7%|▋         | 767/10714 [30:28<1:22:41,  2.00it/s]  7%|▋         | 768/10714 [30:29<1:22:37,  2.01it/s]  7%|▋         | 769/10714 [30:29<1:22:23,  2.01it/s]  7%|▋         | 770/10714 [30:30<1:22:13,  2.02it/s]  7%|▋         | 771/10714 [30:30<1:22:09,  2.02it/s]  7%|▋         | 772/10714 [30:31<1:22:02,  2.02it/s]  7%|▋         | 773/10714 [30:31<1:21:59,  2.02it/s]  7%|▋         | 774/10714 [30:32<1:21:58,  2.02it/s]  7%|▋         | 775/10714 [30:32<1:22:11,  2.02it/s]                                                     {'loss': 4.4499, 'grad_norm': 0.4361376464366913, 'learning_rate': 0.0007229477611940298, 'epoch': 0.07}
-  7%|▋         | 775/10714 [30:32<1:22:11,  2.02it/s]  7%|▋         | 776/10714 [30:33<1:22:21,  2.01it/s]  7%|▋         | 777/10714 [30:33<1:22:28,  2.01it/s]  7%|▋         | 778/10714 [30:34<1:22:48,  2.00it/s]  7%|▋         | 779/10714 [30:34<1:22:27,  2.01it/s]  7%|▋         | 780/10714 [30:35<1:22:35,  2.00it/s]  7%|▋         | 781/10714 [30:35<1:22:21,  2.01it/s]  7%|▋         | 782/10714 [30:36<1:22:20,  2.01it/s]  7%|▋         | 783/10714 [30:36<1:22:57,  1.99it/s]  7%|▋         | 784/10714 [30:37<1:22:49,  2.00it/s]  7%|▋         | 785/10714 [30:37<1:22:37,  2.00it/s]  7%|▋         | 786/10714 [30:38<1:22:16,  2.01it/s]  7%|▋         | 787/10714 [30:38<1:22:06,  2.02it/s]  7%|▋         | 788/10714 [30:39<1:22:04,  2.02it/s]  7%|▋         | 789/10714 [30:39<1:21:51,  2.02it/s]  7%|▋         | 790/10714 [30:40<1:22:06,  2.01it/s]  7%|▋         | 791/10714 [30:40<1:21:55,  2.02it/s]  7%|▋         | 792/10714 [30:41<1:21:54,  2.02it/s]  7%|▋         | 793/10714 [30:41<1:21:53,  2.02it/s]  7%|▋         | 794/10714 [30:42<1:22:12,  2.01it/s]  7%|▋         | 795/10714 [30:42<1:22:17,  2.01it/s]  7%|▋         | 796/10714 [30:43<1:22:20,  2.01it/s]  7%|▋         | 797/10714 [30:43<1:22:07,  2.01it/s]  7%|▋         | 798/10714 [30:44<1:22:01,  2.01it/s]  7%|▋         | 799/10714 [30:44<1:21:58,  2.02it/s]  7%|▋         | 800/10714 [30:45<1:22:10,  2.01it/s]                                                     {'loss': 4.4143, 'grad_norm': 0.4622214436531067, 'learning_rate': 0.0007462686567164179, 'epoch': 0.07}
-  7%|▋         | 800/10714 [30:45<1:22:10,  2.01it/s]  7%|▋         | 801/10714 [30:45<1:22:01,  2.01it/s]  7%|▋         | 802/10714 [30:46<1:22:00,  2.01it/s]  7%|▋         | 803/10714 [30:46<1:21:52,  2.02it/s]  8%|▊         | 804/10714 [30:47<1:21:49,  2.02it/s]  8%|▊         | 805/10714 [30:47<1:21:40,  2.02it/s]  8%|▊         | 806/10714 [30:48<1:21:40,  2.02it/s]  8%|▊         | 807/10714 [30:48<1:21:40,  2.02it/s]  8%|▊         | 808/10714 [30:49<1:21:46,  2.02it/s]  8%|▊         | 809/10714 [30:49<1:21:33,  2.02it/s]  8%|▊         | 810/10714 [30:50<1:21:53,  2.02it/s]  8%|▊         | 811/10714 [30:50<1:21:49,  2.02it/s]  8%|▊         | 812/10714 [30:51<1:21:44,  2.02it/s]  8%|▊         | 813/10714 [30:51<1:21:43,  2.02it/s]  8%|▊         | 814/10714 [30:52<1:21:36,  2.02it/s]  8%|▊         | 815/10714 [30:52<1:21:26,  2.03it/s]  8%|▊         | 816/10714 [30:53<1:21:26,  2.03it/s]  8%|▊         | 817/10714 [30:53<1:21:30,  2.02it/s]  8%|▊         | 818/10714 [30:54<1:21:31,  2.02it/s]  8%|▊         | 819/10714 [30:54<1:21:50,  2.02it/s]  8%|▊         | 820/10714 [30:55<1:21:40,  2.02it/s]  8%|▊         | 821/10714 [30:55<1:22:00,  2.01it/s]  8%|▊         | 822/10714 [30:56<1:22:18,  2.00it/s]  8%|▊         | 823/10714 [30:56<1:22:13,  2.01it/s]  8%|▊         | 824/10714 [30:57<1:22:00,  2.01it/s]  8%|▊         | 825/10714 [30:57<1:21:47,  2.01it/s]                                                     {'loss': 4.3859, 'grad_norm': 0.4053763151168823, 'learning_rate': 0.000769589552238806, 'epoch': 0.08}
-  8%|▊         | 825/10714 [30:57<1:21:47,  2.01it/s]  8%|▊         | 826/10714 [30:58<1:21:54,  2.01it/s]  8%|▊         | 827/10714 [30:58<1:21:56,  2.01it/s]  8%|▊         | 828/10714 [30:59<1:21:43,  2.02it/s]  8%|▊         | 829/10714 [30:59<1:22:23,  2.00it/s]  8%|▊         | 830/10714 [31:00<1:22:07,  2.01it/s]  8%|▊         | 831/10714 [31:00<1:21:47,  2.01it/s]  8%|▊         | 832/10714 [31:01<1:21:45,  2.01it/s]  8%|▊         | 833/10714 [31:01<1:21:35,  2.02it/s]  8%|▊         | 834/10714 [31:02<1:21:24,  2.02it/s]  8%|▊         | 835/10714 [31:02<1:21:27,  2.02it/s]  8%|▊         | 836/10714 [31:02<1:21:18,  2.02it/s]  8%|▊         | 837/10714 [31:03<1:21:18,  2.02it/s]  8%|▊         | 838/10714 [31:03<1:21:11,  2.03it/s]  8%|▊         | 839/10714 [31:04<1:21:18,  2.02it/s]  8%|▊         | 840/10714 [31:04<1:21:22,  2.02it/s]  8%|▊         | 841/10714 [31:05<1:21:23,  2.02it/s]  8%|▊         | 842/10714 [31:05<1:21:22,  2.02it/s]  8%|▊         | 843/10714 [31:06<1:21:21,  2.02it/s]  8%|▊         | 844/10714 [31:06<1:21:24,  2.02it/s]  8%|▊         | 845/10714 [31:07<1:21:14,  2.02it/s]  8%|▊         | 846/10714 [31:07<1:21:09,  2.03it/s]  8%|▊         | 847/10714 [31:08<1:21:11,  2.03it/s]  8%|▊         | 848/10714 [31:08<1:21:13,  2.02it/s]  8%|▊         | 849/10714 [31:09<1:21:28,  2.02it/s]  8%|▊         | 850/10714 [31:09<1:21:22,  2.02it/s]                                                     {'loss': 4.3621, 'grad_norm': 0.3885367214679718, 'learning_rate': 0.0007929104477611941, 'epoch': 0.08}
-  8%|▊         | 850/10714 [31:09<1:21:22,  2.02it/s]  8%|▊         | 851/10714 [31:10<1:21:24,  2.02it/s]  8%|▊         | 852/10714 [31:10<1:21:15,  2.02it/s]  8%|▊         | 853/10714 [31:11<1:21:13,  2.02it/s]  8%|▊         | 854/10714 [31:11<1:21:11,  2.02it/s]  8%|▊         | 855/10714 [31:12<1:21:18,  2.02it/s]  8%|▊         | 856/10714 [31:12<1:21:18,  2.02it/s]  8%|▊         | 857/10714 [31:13<1:21:08,  2.02it/s]  8%|▊         | 858/10714 [31:13<1:21:15,  2.02it/s]  8%|▊         | 859/10714 [31:14<1:21:09,  2.02it/s]  8%|▊         | 860/10714 [31:14<1:20:58,  2.03it/s]  8%|▊         | 861/10714 [31:15<1:21:11,  2.02it/s]  8%|▊         | 862/10714 [31:15<1:21:05,  2.02it/s]  8%|▊         | 863/10714 [31:16<1:20:57,  2.03it/s]  8%|▊         | 864/10714 [31:16<1:21:00,  2.03it/s]  8%|▊         | 865/10714 [31:17<1:20:52,  2.03it/s]  8%|▊         | 866/10714 [31:17<1:20:56,  2.03it/s]  8%|▊         | 867/10714 [31:18<1:20:57,  2.03it/s]  8%|▊         | 868/10714 [31:18<1:20:55,  2.03it/s]  8%|▊         | 869/10714 [31:19<1:20:57,  2.03it/s]  8%|▊         | 870/10714 [31:19<1:20:54,  2.03it/s]  8%|▊         | 871/10714 [31:20<1:20:55,  2.03it/s]  8%|▊         | 872/10714 [31:20<1:20:59,  2.03it/s]  8%|▊         | 873/10714 [31:21<1:21:38,  2.01it/s]  8%|▊         | 874/10714 [31:21<1:21:24,  2.01it/s]  8%|▊         | 875/10714 [31:22<1:21:23,  2.01it/s]                                                     {'loss': 4.3396, 'grad_norm': 0.4001813530921936, 'learning_rate': 0.0008162313432835821, 'epoch': 0.08}
-  8%|▊         | 875/10714 [31:22<1:21:23,  2.01it/s]  8%|▊         | 876/10714 [31:22<1:21:14,  2.02it/s]  8%|▊         | 877/10714 [31:23<1:21:09,  2.02it/s]  8%|▊         | 878/10714 [31:23<1:21:05,  2.02it/s]  8%|▊         | 879/10714 [31:24<1:20:59,  2.02it/s]  8%|▊         | 880/10714 [31:24<1:20:54,  2.03it/s]  8%|▊         | 881/10714 [31:25<1:20:47,  2.03it/s]  8%|▊         | 882/10714 [31:25<1:20:54,  2.03it/s]  8%|▊         | 883/10714 [31:26<1:20:43,  2.03it/s]  8%|▊         | 884/10714 [31:26<1:20:47,  2.03it/s]  8%|▊         | 885/10714 [31:27<1:21:17,  2.02it/s]  8%|▊         | 886/10714 [31:27<1:21:03,  2.02it/s]  8%|▊         | 887/10714 [31:28<1:20:59,  2.02it/s]  8%|▊         | 888/10714 [31:28<1:20:51,  2.03it/s]  8%|▊         | 889/10714 [31:29<1:20:45,  2.03it/s]  8%|▊         | 890/10714 [31:29<1:20:43,  2.03it/s]  8%|▊         | 891/10714 [31:30<1:20:41,  2.03it/s]  8%|▊         | 892/10714 [31:30<1:20:34,  2.03it/s]  8%|▊         | 893/10714 [31:31<1:20:32,  2.03it/s]  8%|▊         | 894/10714 [31:31<1:23:20,  1.96it/s]  8%|▊         | 895/10714 [31:32<1:28:50,  1.84it/s]  8%|▊         | 896/10714 [31:32<1:34:22,  1.73it/s]  8%|▊         | 897/10714 [31:33<1:37:49,  1.67it/s]  8%|▊         | 898/10714 [31:34<1:36:40,  1.69it/s]  8%|▊         | 899/10714 [31:34<1:39:54,  1.64it/s]  8%|▊         | 900/10714 [31:35<1:42:28,  1.60it/s]                                                     {'loss': 4.3223, 'grad_norm': 0.37274226546287537, 'learning_rate': 0.0008395522388059703, 'epoch': 0.08}
-  8%|▊         | 900/10714 [31:35<1:42:28,  1.60it/s]  8%|▊         | 901/10714 [31:36<1:40:50,  1.62it/s]  8%|▊         | 902/10714 [31:36<1:42:27,  1.60it/s]  8%|▊         | 903/10714 [31:37<1:41:13,  1.62it/s]  8%|▊         | 904/10714 [31:37<1:39:56,  1.64it/s]  8%|▊         | 905/10714 [31:38<1:41:25,  1.61it/s]  8%|▊         | 906/10714 [31:39<1:44:42,  1.56it/s]  8%|▊         | 907/10714 [31:39<1:47:26,  1.52it/s]  8%|▊         | 908/10714 [31:40<1:44:17,  1.57it/s]  8%|▊         | 909/10714 [31:41<1:42:31,  1.59it/s]  8%|▊         | 910/10714 [31:41<1:47:44,  1.52it/s]  9%|▊         | 911/10714 [31:42<1:44:08,  1.57it/s]  9%|▊         | 912/10714 [31:43<1:47:04,  1.53it/s]  9%|▊         | 913/10714 [31:43<1:44:13,  1.57it/s]  9%|▊         | 914/10714 [31:44<1:44:08,  1.57it/s]  9%|▊         | 915/10714 [31:45<1:46:47,  1.53it/s]  9%|▊         | 916/10714 [31:45<1:46:32,  1.53it/s]  9%|▊         | 917/10714 [31:46<1:53:53,  1.43it/s]  9%|▊         | 918/10714 [31:47<1:52:42,  1.45it/s]  9%|▊         | 919/10714 [31:47<1:51:31,  1.46it/s]  9%|▊         | 920/10714 [31:48<1:48:46,  1.50it/s]  9%|▊         | 921/10714 [31:49<1:48:14,  1.51it/s]  9%|▊         | 922/10714 [31:49<1:45:10,  1.55it/s]  9%|▊         | 923/10714 [31:50<1:40:08,  1.63it/s]  9%|▊         | 924/10714 [31:51<1:44:49,  1.56it/s]  9%|▊         | 925/10714 [31:51<1:41:58,  1.60it/s]                                                     {'loss': 4.3089, 'grad_norm': 0.3531712293624878, 'learning_rate': 0.0008628731343283582, 'epoch': 0.09}
-  9%|▊         | 925/10714 [31:51<1:41:58,  1.60it/s]  9%|▊         | 926/10714 [31:52<1:40:16,  1.63it/s]  9%|▊         | 927/10714 [31:52<1:41:15,  1.61it/s]  9%|▊         | 928/10714 [31:53<1:44:34,  1.56it/s]  9%|▊         | 929/10714 [31:54<1:46:34,  1.53it/s]  9%|▊         | 930/10714 [31:54<1:41:23,  1.61it/s]  9%|▊         | 931/10714 [31:55<1:44:23,  1.56it/s]  9%|▊         | 932/10714 [31:56<1:44:06,  1.57it/s]  9%|▊         | 933/10714 [31:56<1:48:35,  1.50it/s]  9%|▊         | 934/10714 [31:57<1:45:36,  1.54it/s]  9%|▊         | 935/10714 [31:58<1:46:21,  1.53it/s]  9%|▊         | 936/10714 [31:58<1:46:37,  1.53it/s]  9%|▊         | 937/10714 [31:59<1:42:47,  1.59it/s]  9%|▉         | 938/10714 [31:59<1:43:48,  1.57it/s]  9%|▉         | 939/10714 [32:00<1:41:02,  1.61it/s]  9%|▉         | 940/10714 [32:01<1:43:00,  1.58it/s]  9%|▉         | 941/10714 [32:01<1:45:50,  1.54it/s]  9%|▉         | 942/10714 [32:02<1:43:06,  1.58it/s]  9%|▉         | 943/10714 [32:03<1:45:37,  1.54it/s]  9%|▉         | 944/10714 [32:03<1:43:48,  1.57it/s]  9%|▉         | 945/10714 [32:04<1:39:35,  1.63it/s]  9%|▉         | 946/10714 [32:05<1:46:59,  1.52it/s]  9%|▉         | 947/10714 [32:05<1:46:01,  1.54it/s]  9%|▉         | 948/10714 [32:06<1:42:14,  1.59it/s]  9%|▉         | 949/10714 [32:07<1:44:03,  1.56it/s]  9%|▉         | 950/10714 [32:07<1:47:54,  1.51it/s]                                                     {'loss': 4.2901, 'grad_norm': 0.4009757936000824, 'learning_rate': 0.0008861940298507463, 'epoch': 0.09}
-  9%|▉         | 950/10714 [32:07<1:47:54,  1.51it/s]  9%|▉         | 951/10714 [32:08<1:46:57,  1.52it/s]  9%|▉         | 952/10714 [32:08<1:45:02,  1.55it/s]  9%|▉         | 953/10714 [32:09<1:43:55,  1.57it/s]  9%|▉         | 954/10714 [32:10<1:42:11,  1.59it/s]  9%|▉         | 955/10714 [32:10<1:40:47,  1.61it/s]  9%|▉         | 956/10714 [32:11<1:47:01,  1.52it/s]  9%|▉         | 957/10714 [32:12<1:44:23,  1.56it/s]  9%|▉         | 958/10714 [32:12<1:43:26,  1.57it/s]  9%|▉         | 959/10714 [32:13<1:41:39,  1.60it/s]  9%|▉         | 960/10714 [32:14<1:42:20,  1.59it/s]  9%|▉         | 961/10714 [32:14<1:47:48,  1.51it/s]  9%|▉         | 962/10714 [32:15<1:39:24,  1.64it/s]  9%|▉         | 963/10714 [32:15<1:33:32,  1.74it/s]  9%|▉         | 964/10714 [32:16<1:29:20,  1.82it/s]  9%|▉         | 965/10714 [32:16<1:26:33,  1.88it/s]  9%|▉         | 966/10714 [32:17<1:24:25,  1.92it/s]  9%|▉         | 967/10714 [32:17<1:23:03,  1.96it/s]  9%|▉         | 968/10714 [32:18<1:22:04,  1.98it/s]  9%|▉         | 969/10714 [32:18<1:21:17,  2.00it/s]  9%|▉         | 970/10714 [32:19<1:20:47,  2.01it/s]  9%|▉         | 971/10714 [32:19<1:20:28,  2.02it/s]  9%|▉         | 972/10714 [32:20<1:20:13,  2.02it/s]  9%|▉         | 973/10714 [32:20<1:20:10,  2.03it/s]  9%|▉         | 974/10714 [32:21<1:19:56,  2.03it/s]  9%|▉         | 975/10714 [32:21<1:19:50,  2.03it/s]                                                     {'loss': 4.2597, 'grad_norm': 0.33263641595840454, 'learning_rate': 0.0009095149253731343, 'epoch': 0.09}
-  9%|▉         | 975/10714 [32:21<1:19:50,  2.03it/s]  9%|▉         | 976/10714 [32:22<1:19:56,  2.03it/s]  9%|▉         | 977/10714 [32:22<1:19:44,  2.03it/s]  9%|▉         | 978/10714 [32:23<1:22:17,  1.97it/s]  9%|▉         | 979/10714 [32:23<1:26:55,  1.87it/s]  9%|▉         | 980/10714 [32:24<1:31:12,  1.78it/s]  9%|▉         | 981/10714 [32:25<1:37:08,  1.67it/s]  9%|▉         | 982/10714 [32:25<1:35:57,  1.69it/s]  9%|▉         | 983/10714 [32:26<1:37:34,  1.66it/s]  9%|▉         | 984/10714 [32:26<1:35:45,  1.69it/s]  9%|▉         | 985/10714 [32:27<1:34:34,  1.71it/s]  9%|▉         | 986/10714 [32:28<1:36:45,  1.68it/s]  9%|▉         | 987/10714 [32:28<1:35:44,  1.69it/s]  9%|▉         | 988/10714 [32:29<1:39:06,  1.64it/s]  9%|▉         | 989/10714 [32:29<1:38:34,  1.64it/s]  9%|▉         | 990/10714 [32:30<1:38:21,  1.65it/s]  9%|▉         | 991/10714 [32:31<1:43:50,  1.56it/s]  9%|▉         | 992/10714 [32:31<1:41:56,  1.59it/s]  9%|▉         | 993/10714 [32:32<1:40:32,  1.61it/s]  9%|▉         | 994/10714 [32:32<1:37:16,  1.67it/s]  9%|▉         | 995/10714 [32:33<1:38:18,  1.65it/s]  9%|▉         | 996/10714 [32:34<1:34:59,  1.71it/s]  9%|▉         | 997/10714 [32:34<1:31:39,  1.77it/s]  9%|▉         | 998/10714 [32:35<1:35:31,  1.70it/s]  9%|▉         | 999/10714 [32:35<1:36:11,  1.68it/s]  9%|▉         | 1000/10714 [32:36<1:39:22,  1.63it/s]{'loss': 4.2548, 'grad_norm': 0.3137914836406708, 'learning_rate': 0.0009328358208955225, 'epoch': 0.09}                                                      
-  9%|▉         | 1000/10714 [32:36<1:39:22,  1.63it/s]  9%|▉         | 1001/10714 [32:37<1:41:29,  1.59it/s]  9%|▉         | 1002/10714 [32:37<1:40:57,  1.60it/s]  9%|▉         | 1003/10714 [32:38<1:37:18,  1.66it/s]  9%|▉         | 1004/10714 [32:38<1:34:25,  1.71it/s]  9%|▉         | 1005/10714 [32:39<1:36:25,  1.68it/s]  9%|▉         | 1006/10714 [32:40<1:34:10,  1.72it/s]  9%|▉         | 1007/10714 [32:40<1:33:13,  1.74it/s]  9%|▉         | 1008/10714 [32:41<1:31:21,  1.77it/s]  9%|▉         | 1009/10714 [32:41<1:31:56,  1.76it/s]  9%|▉         | 1010/10714 [32:42<1:32:11,  1.75it/s]  9%|▉         | 1011/10714 [32:42<1:34:53,  1.70it/s]  9%|▉         | 1012/10714 [32:43<1:41:12,  1.60it/s]  9%|▉         | 1013/10714 [32:44<1:38:46,  1.64it/s]  9%|▉         | 1014/10714 [32:44<1:35:31,  1.69it/s]  9%|▉         | 1015/10714 [32:45<1:31:53,  1.76it/s]  9%|▉         | 1016/10714 [32:45<1:30:55,  1.78it/s]  9%|▉         | 1017/10714 [32:46<1:32:41,  1.74it/s] 10%|▉         | 1018/10714 [32:47<1:36:41,  1.67it/s] 10%|▉         | 1019/10714 [32:47<1:36:18,  1.68it/s] 10%|▉         | 1020/10714 [32:48<1:35:16,  1.70it/s] 10%|▉         | 1021/10714 [32:48<1:35:56,  1.68it/s] 10%|▉         | 1022/10714 [32:49<1:36:06,  1.68it/s] 10%|▉         | 1023/10714 [32:50<1:34:51,  1.70it/s] 10%|▉         | 1024/10714 [32:50<1:35:10,  1.70it/s] 10%|▉         | 1025/10714 [32:51<1:37:55,  1.65it/s]{'loss': 4.2329, 'grad_norm': 0.3308364450931549, 'learning_rate': 0.0009561567164179105, 'epoch': 0.1}
-                                                       10%|▉         | 1025/10714 [32:51<1:37:55,  1.65it/s] 10%|▉         | 1026/10714 [32:51<1:40:00,  1.61it/s] 10%|▉         | 1027/10714 [32:52<1:40:17,  1.61it/s] 10%|▉         | 1028/10714 [32:53<1:38:10,  1.64it/s] 10%|▉         | 1029/10714 [32:53<1:36:20,  1.68it/s] 10%|▉         | 1030/10714 [32:54<1:48:25,  1.49it/s] 10%|▉         | 1031/10714 [32:55<1:43:30,  1.56it/s] 10%|▉         | 1032/10714 [32:55<1:43:01,  1.57it/s] 10%|▉         | 1033/10714 [32:56<1:38:42,  1.63it/s] 10%|▉         | 1034/10714 [32:56<1:36:46,  1.67it/s] 10%|▉         | 1035/10714 [32:57<1:38:33,  1.64it/s] 10%|▉         | 1036/10714 [32:58<1:55:27,  1.40it/s] 10%|▉         | 1037/10714 [32:59<1:50:41,  1.46it/s] 10%|▉         | 1038/10714 [32:59<1:42:20,  1.58it/s] 10%|▉         | 1039/10714 [33:00<1:41:48,  1.58it/s] 10%|▉         | 1040/10714 [33:00<1:37:33,  1.65it/s] 10%|▉         | 1041/10714 [33:01<1:38:11,  1.64it/s] 10%|▉         | 1042/10714 [33:02<1:38:06,  1.64it/s] 10%|▉         | 1043/10714 [33:02<1:34:51,  1.70it/s] 10%|▉         | 1044/10714 [33:03<1:36:24,  1.67it/s] 10%|▉         | 1045/10714 [33:03<1:34:06,  1.71it/s] 10%|▉         | 1046/10714 [33:04<1:33:25,  1.72it/s] 10%|▉         | 1047/10714 [33:04<1:32:56,  1.73it/s] 10%|▉         | 1048/10714 [33:05<1:32:37,  1.74it/s] 10%|▉         | 1049/10714 [33:06<1:32:36,  1.74it/s] 10%|▉         | 1050/10714 [33:06<1:35:17,  1.69it/s]                                                      {'loss': 4.2278, 'grad_norm': 0.3204725980758667, 'learning_rate': 0.0009794776119402984, 'epoch': 0.1}
- 10%|▉         | 1050/10714 [33:06<1:35:17,  1.69it/s] 10%|▉         | 1051/10714 [33:07<1:30:27,  1.78it/s] 10%|▉         | 1052/10714 [33:07<1:27:06,  1.85it/s] 10%|▉         | 1053/10714 [33:08<1:24:40,  1.90it/s] 10%|▉         | 1054/10714 [33:08<1:23:01,  1.94it/s] 10%|▉         | 1055/10714 [33:09<1:21:56,  1.96it/s] 10%|▉         | 1056/10714 [33:09<1:21:07,  1.98it/s] 10%|▉         | 1057/10714 [33:10<1:20:33,  2.00it/s] 10%|▉         | 1058/10714 [33:10<1:20:03,  2.01it/s] 10%|▉         | 1059/10714 [33:11<1:19:52,  2.01it/s] 10%|▉         | 1060/10714 [33:11<1:19:43,  2.02it/s] 10%|▉         | 1061/10714 [33:12<1:19:47,  2.02it/s] 10%|▉         | 1062/10714 [33:12<1:19:35,  2.02it/s] 10%|▉         | 1063/10714 [33:13<1:19:24,  2.03it/s] 10%|▉         | 1064/10714 [33:13<1:19:20,  2.03it/s] 10%|▉         | 1065/10714 [33:14<1:19:16,  2.03it/s] 10%|▉         | 1066/10714 [33:14<1:24:28,  1.90it/s] 10%|▉         | 1067/10714 [33:15<1:24:59,  1.89it/s] 10%|▉         | 1068/10714 [33:15<1:26:58,  1.85it/s] 10%|▉         | 1069/10714 [33:16<1:28:24,  1.82it/s] 10%|▉         | 1070/10714 [33:16<1:27:58,  1.83it/s] 10%|▉         | 1071/10714 [33:17<1:29:01,  1.81it/s] 10%|█         | 1072/10714 [33:18<1:34:00,  1.71it/s] 10%|█         | 1073/10714 [33:18<1:34:48,  1.69it/s] 10%|█         | 1074/10714 [33:19<1:33:46,  1.71it/s] 10%|█         | 1075/10714 [33:19<1:32:47,  1.73it/s]{'loss': 4.2103, 'grad_norm': 0.28571897745132446, 'learning_rate': 0.0009999997611374993, 'epoch': 0.1}
-                                                       10%|█         | 1075/10714 [33:19<1:32:47,  1.73it/s] 10%|█         | 1076/10714 [33:20<1:35:28,  1.68it/s] 10%|█         | 1077/10714 [33:21<1:35:09,  1.69it/s] 10%|█         | 1078/10714 [33:21<1:30:08,  1.78it/s] 10%|█         | 1079/10714 [33:22<1:35:02,  1.69it/s] 10%|█         | 1080/10714 [33:22<1:34:14,  1.70it/s] 10%|█         | 1081/10714 [33:23<1:33:45,  1.71it/s] 10%|█         | 1082/10714 [33:23<1:31:48,  1.75it/s] 10%|█         | 1083/10714 [33:24<1:34:31,  1.70it/s] 10%|█         | 1084/10714 [33:25<1:33:14,  1.72it/s] 10%|█         | 1085/10714 [33:25<1:32:55,  1.73it/s] 10%|█         | 1086/10714 [33:26<1:35:25,  1.68it/s] 10%|█         | 1087/10714 [33:26<1:34:08,  1.70it/s] 10%|█         | 1088/10714 [33:27<1:35:04,  1.69it/s] 10%|█         | 1089/10714 [33:28<1:34:10,  1.70it/s] 10%|█         | 1090/10714 [33:28<1:31:58,  1.74it/s] 10%|█         | 1091/10714 [33:29<1:40:34,  1.59it/s] 10%|█         | 1092/10714 [33:29<1:36:28,  1.66it/s] 10%|█         | 1093/10714 [33:30<1:33:34,  1.71it/s] 10%|█         | 1094/10714 [33:30<1:31:34,  1.75it/s] 10%|█         | 1095/10714 [33:31<1:32:48,  1.73it/s] 10%|█         | 1096/10714 [33:32<1:35:28,  1.68it/s] 10%|█         | 1097/10714 [33:32<1:34:10,  1.70it/s] 10%|█         | 1098/10714 [33:33<1:32:23,  1.73it/s] 10%|█         | 1099/10714 [33:33<1:30:51,  1.76it/s] 10%|█         | 1100/10714 [33:34<1:28:21,  1.81it/s]                                                      {'loss': 4.1855, 'grad_norm': 0.29204991459846497, 'learning_rate': 0.0009999791925648265, 'epoch': 0.1}
- 10%|█         | 1100/10714 [33:34<1:28:21,  1.81it/s] 10%|█         | 1101/10714 [33:34<1:26:36,  1.85it/s] 10%|█         | 1102/10714 [33:35<1:30:49,  1.76it/s] 10%|█         | 1103/10714 [33:36<1:30:55,  1.76it/s] 10%|█         | 1104/10714 [33:36<1:29:02,  1.80it/s] 10%|█         | 1105/10714 [33:37<1:31:26,  1.75it/s] 10%|█         | 1106/10714 [33:37<1:29:54,  1.78it/s] 10%|█         | 1107/10714 [33:38<1:29:15,  1.79it/s] 10%|█         | 1108/10714 [33:38<1:28:35,  1.81it/s] 10%|█         | 1109/10714 [33:39<1:29:42,  1.78it/s] 10%|█         | 1110/10714 [33:39<1:30:23,  1.77it/s] 10%|█         | 1111/10714 [33:40<1:31:49,  1.74it/s] 10%|█         | 1112/10714 [33:41<1:32:58,  1.72it/s] 10%|█         | 1113/10714 [33:41<1:35:28,  1.68it/s] 10%|█         | 1114/10714 [33:42<1:33:37,  1.71it/s] 10%|█         | 1115/10714 [33:42<1:31:51,  1.74it/s] 10%|█         | 1116/10714 [33:43<1:33:07,  1.72it/s] 10%|█         | 1117/10714 [33:44<1:31:38,  1.75it/s] 10%|█         | 1118/10714 [33:44<1:31:32,  1.75it/s] 10%|█         | 1119/10714 [33:45<1:34:21,  1.69it/s] 10%|█         | 1120/10714 [33:45<1:34:10,  1.70it/s] 10%|█         | 1121/10714 [33:46<1:34:42,  1.69it/s] 10%|█         | 1122/10714 [33:47<1:37:41,  1.64it/s] 10%|█         | 1123/10714 [33:47<1:35:28,  1.67it/s] 10%|█         | 1124/10714 [33:48<1:36:57,  1.65it/s] 11%|█         | 1125/10714 [33:48<1:33:55,  1.70it/s]                                                      {'loss': 4.1705, 'grad_norm': 0.3224640488624573, 'learning_rate': 0.0009999254502062128, 'epoch': 0.11}
- 11%|█         | 1125/10714 [33:48<1:33:55,  1.70it/s] 11%|█         | 1126/10714 [33:49<1:34:30,  1.69it/s] 11%|█         | 1127/10714 [33:50<1:33:28,  1.71it/s] 11%|█         | 1128/10714 [33:50<1:32:34,  1.73it/s] 11%|█         | 1129/10714 [33:51<1:38:00,  1.63it/s] 11%|█         | 1130/10714 [33:51<1:34:37,  1.69it/s] 11%|█         | 1131/10714 [33:52<1:37:24,  1.64it/s] 11%|█         | 1132/10714 [33:53<1:38:43,  1.62it/s] 11%|█         | 1133/10714 [33:53<1:38:08,  1.63it/s] 11%|█         | 1134/10714 [33:54<1:37:47,  1.63it/s] 11%|█         | 1135/10714 [33:54<1:38:39,  1.62it/s] 11%|█         | 1136/10714 [33:55<1:38:02,  1.63it/s] 11%|█         | 1137/10714 [33:56<1:33:21,  1.71it/s] 11%|█         | 1138/10714 [33:56<1:31:21,  1.75it/s] 11%|█         | 1139/10714 [33:57<1:32:50,  1.72it/s] 11%|█         | 1140/10714 [33:57<1:31:10,  1.75it/s] 11%|█         | 1141/10714 [33:58<1:27:21,  1.83it/s] 11%|█         | 1142/10714 [33:58<1:24:35,  1.89it/s] 11%|█         | 1143/10714 [33:59<1:22:43,  1.93it/s] 11%|█         | 1144/10714 [33:59<1:21:23,  1.96it/s] 11%|█         | 1145/10714 [34:00<1:23:06,  1.92it/s] 11%|█         | 1146/10714 [34:00<1:25:34,  1.86it/s] 11%|█         | 1147/10714 [34:01<1:24:36,  1.88it/s] 11%|█         | 1148/10714 [34:01<1:23:54,  1.90it/s] 11%|█         | 1149/10714 [34:02<1:27:29,  1.82it/s] 11%|█         | 1150/10714 [34:03<1:30:03,  1.77it/s]                                                      {'loss': 4.1486, 'grad_norm': 0.33293601870536804, 'learning_rate': 0.0009998385376274819, 'epoch': 0.11}
- 11%|█         | 1150/10714 [34:03<1:30:03,  1.77it/s] 11%|█         | 1151/10714 [34:03<1:30:45,  1.76it/s] 11%|█         | 1152/10714 [34:04<1:30:42,  1.76it/s] 11%|█         | 1153/10714 [34:04<1:28:08,  1.81it/s] 11%|█         | 1154/10714 [34:05<1:29:11,  1.79it/s] 11%|█         | 1155/10714 [34:05<1:32:49,  1.72it/s] 11%|█         | 1156/10714 [34:06<1:36:55,  1.64it/s] 11%|█         | 1157/10714 [34:07<1:37:55,  1.63it/s] 11%|█         | 1158/10714 [34:07<1:34:25,  1.69it/s] 11%|█         | 1159/10714 [34:08<1:33:06,  1.71it/s] 11%|█         | 1160/10714 [34:08<1:29:54,  1.77it/s] 11%|█         | 1161/10714 [34:09<1:29:00,  1.79it/s] 11%|█         | 1162/10714 [34:10<1:30:14,  1.76it/s] 11%|█         | 1163/10714 [34:10<1:28:08,  1.81it/s] 11%|█         | 1164/10714 [34:11<1:25:52,  1.85it/s] 11%|█         | 1165/10714 [34:11<1:23:27,  1.91it/s] 11%|█         | 1166/10714 [34:12<1:21:50,  1.94it/s] 11%|█         | 1167/10714 [34:12<1:20:41,  1.97it/s] 11%|█         | 1168/10714 [34:13<1:19:51,  1.99it/s] 11%|█         | 1169/10714 [34:13<1:19:14,  2.01it/s] 11%|█         | 1170/10714 [34:13<1:18:58,  2.01it/s] 11%|█         | 1171/10714 [34:14<1:18:41,  2.02it/s] 11%|█         | 1172/10714 [34:14<1:18:33,  2.02it/s] 11%|█         | 1173/10714 [34:15<1:18:21,  2.03it/s] 11%|█         | 1174/10714 [34:15<1:18:14,  2.03it/s] 11%|█         | 1175/10714 [34:16<1:18:09,  2.03it/s]                                                      {'loss': 4.1303, 'grad_norm': 0.30917951464653015, 'learning_rate': 0.0009997184605953118, 'epoch': 0.11}
- 11%|█         | 1175/10714 [34:16<1:18:09,  2.03it/s] 11%|█         | 1176/10714 [34:16<1:18:03,  2.04it/s] 11%|█         | 1177/10714 [34:17<1:17:59,  2.04it/s] 11%|█         | 1178/10714 [34:17<1:18:01,  2.04it/s] 11%|█         | 1179/10714 [34:18<1:17:56,  2.04it/s] 11%|█         | 1180/10714 [34:18<1:17:50,  2.04it/s] 11%|█         | 1181/10714 [34:19<1:18:07,  2.03it/s] 11%|█         | 1182/10714 [34:19<1:18:03,  2.04it/s] 11%|█         | 1183/10714 [34:20<1:17:53,  2.04it/s] 11%|█         | 1184/10714 [34:20<1:17:47,  2.04it/s] 11%|█         | 1185/10714 [34:21<1:17:49,  2.04it/s] 11%|█         | 1186/10714 [34:21<1:17:54,  2.04it/s] 11%|█         | 1187/10714 [34:22<1:17:53,  2.04it/s] 11%|█         | 1188/10714 [34:22<1:17:53,  2.04it/s] 11%|█         | 1189/10714 [34:23<1:17:54,  2.04it/s] 11%|█         | 1190/10714 [34:23<1:17:56,  2.04it/s] 11%|█         | 1191/10714 [34:24<1:17:49,  2.04it/s] 11%|█         | 1192/10714 [34:24<1:17:51,  2.04it/s] 11%|█         | 1193/10714 [34:25<1:17:52,  2.04it/s] 11%|█         | 1194/10714 [34:25<1:17:51,  2.04it/s] 11%|█         | 1195/10714 [34:26<1:17:49,  2.04it/s] 11%|█         | 1196/10714 [34:26<1:17:45,  2.04it/s] 11%|█         | 1197/10714 [34:27<1:17:53,  2.04it/s] 11%|█         | 1198/10714 [34:27<1:17:46,  2.04it/s] 11%|█         | 1199/10714 [34:28<1:17:50,  2.04it/s] 11%|█         | 1200/10714 [34:28<1:17:44,  2.04it/s]{'loss': 4.1174, 'grad_norm': 0.29252728819847107, 'learning_rate': 0.000999565227076854, 'epoch': 0.11}                                                      
- 11%|█         | 1200/10714 [34:28<1:17:44,  2.04it/s] 11%|█         | 1201/10714 [34:29<1:18:02,  2.03it/s] 11%|█         | 1202/10714 [34:29<1:17:58,  2.03it/s] 11%|█         | 1203/10714 [34:30<1:18:07,  2.03it/s] 11%|█         | 1204/10714 [34:30<1:17:59,  2.03it/s] 11%|█         | 1205/10714 [34:31<1:17:51,  2.04it/s] 11%|█▏        | 1206/10714 [34:31<1:17:46,  2.04it/s] 11%|█▏        | 1207/10714 [34:32<1:17:46,  2.04it/s] 11%|█▏        | 1208/10714 [34:32<1:17:46,  2.04it/s] 11%|█▏        | 1209/10714 [34:33<1:17:41,  2.04it/s] 11%|█▏        | 1210/10714 [34:33<1:17:40,  2.04it/s] 11%|█▏        | 1211/10714 [34:34<1:17:45,  2.04it/s] 11%|█▏        | 1212/10714 [34:34<1:17:41,  2.04it/s] 11%|█▏        | 1213/10714 [34:35<1:17:43,  2.04it/s] 11%|█▏        | 1214/10714 [34:35<1:17:47,  2.04it/s] 11%|█▏        | 1215/10714 [34:36<1:17:44,  2.04it/s] 11%|█▏        | 1216/10714 [34:36<1:17:46,  2.04it/s] 11%|█▏        | 1217/10714 [34:37<1:17:45,  2.04it/s] 11%|█▏        | 1218/10714 [34:37<1:17:37,  2.04it/s] 11%|█▏        | 1219/10714 [34:38<1:17:42,  2.04it/s] 11%|█▏        | 1220/10714 [34:38<1:17:40,  2.04it/s] 11%|█▏        | 1221/10714 [34:39<1:17:34,  2.04it/s] 11%|█▏        | 1222/10714 [34:39<1:17:35,  2.04it/s] 11%|█▏        | 1223/10714 [34:39<1:17:38,  2.04it/s] 11%|█▏        | 1224/10714 [34:40<1:17:37,  2.04it/s] 11%|█▏        | 1225/10714 [34:40<1:17:34,  2.04it/s]{'loss': 4.0988, 'grad_norm': 0.2851162552833557, 'learning_rate': 0.0009993788472392033, 'epoch': 0.11}                                                      
- 11%|█▏        | 1225/10714 [34:40<1:17:34,  2.04it/s] 11%|█▏        | 1226/10714 [34:41<1:17:47,  2.03it/s] 11%|█▏        | 1227/10714 [34:41<1:17:41,  2.04it/s] 11%|█▏        | 1228/10714 [34:42<1:17:42,  2.03it/s] 11%|█▏        | 1229/10714 [34:42<1:17:43,  2.03it/s] 11%|█▏        | 1230/10714 [34:43<1:17:40,  2.04it/s] 11%|█▏        | 1231/10714 [34:43<1:17:35,  2.04it/s] 11%|█▏        | 1232/10714 [34:44<1:17:35,  2.04it/s] 12%|█▏        | 1233/10714 [34:44<1:17:36,  2.04it/s] 12%|█▏        | 1234/10714 [34:45<1:17:31,  2.04it/s] 12%|█▏        | 1235/10714 [34:45<1:17:31,  2.04it/s] 12%|█▏        | 1236/10714 [34:46<1:17:31,  2.04it/s] 12%|█▏        | 1237/10714 [34:46<1:17:27,  2.04it/s] 12%|█▏        | 1238/10714 [34:47<1:17:27,  2.04it/s] 12%|█▏        | 1239/10714 [34:47<1:17:32,  2.04it/s] 12%|█▏        | 1240/10714 [34:48<1:17:30,  2.04it/s] 12%|█▏        | 1241/10714 [34:48<1:17:25,  2.04it/s] 12%|█▏        | 1242/10714 [34:49<1:17:28,  2.04it/s] 12%|█▏        | 1243/10714 [34:49<1:17:25,  2.04it/s] 12%|█▏        | 1244/10714 [34:50<1:17:30,  2.04it/s] 12%|█▏        | 1245/10714 [34:50<1:17:38,  2.03it/s] 12%|█▏        | 1246/10714 [34:51<1:17:38,  2.03it/s] 12%|█▏        | 1247/10714 [34:51<1:17:30,  2.04it/s] 12%|█▏        | 1248/10714 [34:52<1:17:22,  2.04it/s] 12%|█▏        | 1249/10714 [34:52<1:17:17,  2.04it/s] 12%|█▏        | 1250/10714 [34:53<1:17:24,  2.04it/s]{'loss': 4.0875, 'grad_norm': 0.26239293813705444, 'learning_rate': 0.0009991593334487243, 'epoch': 0.12}                                                      
- 12%|█▏        | 1250/10714 [34:53<1:17:24,  2.04it/s] 12%|█▏        | 1251/10714 [34:53<1:17:31,  2.03it/s] 12%|█▏        | 1252/10714 [34:54<1:17:36,  2.03it/s] 12%|█▏        | 1253/10714 [34:54<1:17:32,  2.03it/s] 12%|█▏        | 1254/10714 [34:55<1:17:23,  2.04it/s] 12%|█▏        | 1255/10714 [34:55<1:17:21,  2.04it/s] 12%|█▏        | 1256/10714 [34:56<1:17:21,  2.04it/s] 12%|█▏        | 1257/10714 [34:56<1:17:25,  2.04it/s] 12%|█▏        | 1258/10714 [34:57<1:17:29,  2.03it/s] 12%|█▏        | 1259/10714 [34:57<1:17:28,  2.03it/s] 12%|█▏        | 1260/10714 [34:58<1:17:31,  2.03it/s] 12%|█▏        | 1261/10714 [34:58<1:17:28,  2.03it/s] 12%|█▏        | 1262/10714 [34:59<1:17:21,  2.04it/s] 12%|█▏        | 1263/10714 [34:59<1:17:17,  2.04it/s] 12%|█▏        | 1264/10714 [35:00<1:17:21,  2.04it/s] 12%|█▏        | 1265/10714 [35:00<1:17:19,  2.04it/s] 12%|█▏        | 1266/10714 [35:01<1:17:25,  2.03it/s] 12%|█▏        | 1267/10714 [35:01<1:17:24,  2.03it/s] 12%|█▏        | 1268/10714 [35:02<1:17:19,  2.04it/s] 12%|█▏        | 1269/10714 [35:02<1:17:19,  2.04it/s] 12%|█▏        | 1270/10714 [35:03<1:17:14,  2.04it/s] 12%|█▏        | 1271/10714 [35:03<1:17:21,  2.03it/s] 12%|█▏        | 1272/10714 [35:04<1:17:27,  2.03it/s] 12%|█▏        | 1273/10714 [35:04<1:17:21,  2.03it/s] 12%|█▏        | 1274/10714 [35:05<1:17:15,  2.04it/s] 12%|█▏        | 1275/10714 [35:05<1:17:11,  2.04it/s]{'loss': 4.071, 'grad_norm': 0.2641715705394745, 'learning_rate': 0.0009989067002702297, 'epoch': 0.12}                                                      
- 12%|█▏        | 1275/10714 [35:05<1:17:11,  2.04it/s] 12%|█▏        | 1276/10714 [35:06<1:17:21,  2.03it/s] 12%|█▏        | 1277/10714 [35:06<1:17:16,  2.04it/s] 12%|█▏        | 1278/10714 [35:07<1:17:10,  2.04it/s] 12%|█▏        | 1279/10714 [35:07<1:17:12,  2.04it/s] 12%|█▏        | 1280/10714 [35:07<1:17:08,  2.04it/s] 12%|█▏        | 1281/10714 [35:08<1:17:07,  2.04it/s] 12%|█▏        | 1282/10714 [35:08<1:17:02,  2.04it/s] 12%|█▏        | 1283/10714 [35:09<1:17:03,  2.04it/s] 12%|█▏        | 1284/10714 [35:09<1:17:03,  2.04it/s] 12%|█▏        | 1285/10714 [35:10<1:17:01,  2.04it/s] 12%|█▏        | 1286/10714 [35:10<1:16:59,  2.04it/s] 12%|█▏        | 1287/10714 [35:11<1:17:03,  2.04it/s] 12%|█▏        | 1288/10714 [35:11<1:17:05,  2.04it/s] 12%|█▏        | 1289/10714 [35:12<1:17:00,  2.04it/s] 12%|█▏        | 1290/10714 [35:12<1:17:10,  2.04it/s] 12%|█▏        | 1291/10714 [35:13<1:17:09,  2.04it/s] 12%|█▏        | 1292/10714 [35:13<1:17:19,  2.03it/s] 12%|█▏        | 1293/10714 [35:14<1:17:09,  2.04it/s] 12%|█▏        | 1294/10714 [35:14<1:17:03,  2.04it/s] 12%|█▏        | 1295/10714 [35:15<1:17:05,  2.04it/s] 12%|█▏        | 1296/10714 [35:15<1:17:01,  2.04it/s] 12%|█▏        | 1297/10714 [35:16<1:17:07,  2.04it/s] 12%|█▏        | 1298/10714 [35:16<1:17:09,  2.03it/s] 12%|█▏        | 1299/10714 [35:17<1:17:17,  2.03it/s] 12%|█▏        | 1300/10714 [35:17<1:18:06,  2.01it/s]{'loss': 4.0591, 'grad_norm': 0.28763139247894287, 'learning_rate': 0.0009986209644660153, 'epoch': 0.12}                                                      
- 12%|█▏        | 1300/10714 [35:17<1:18:06,  2.01it/s] 12%|█▏        | 1301/10714 [35:18<1:17:51,  2.01it/s] 12%|█▏        | 1302/10714 [35:18<1:17:41,  2.02it/s] 12%|█▏        | 1303/10714 [35:19<1:17:36,  2.02it/s] 12%|█▏        | 1304/10714 [35:19<1:17:41,  2.02it/s] 12%|█▏        | 1305/10714 [35:20<1:17:29,  2.02it/s] 12%|█▏        | 1306/10714 [35:20<1:17:27,  2.02it/s] 12%|█▏        | 1307/10714 [35:21<1:17:18,  2.03it/s] 12%|█▏        | 1308/10714 [35:21<1:17:11,  2.03it/s] 12%|█▏        | 1309/10714 [35:22<1:17:32,  2.02it/s] 12%|█▏        | 1310/10714 [35:22<1:17:19,  2.03it/s] 12%|█▏        | 1311/10714 [35:23<1:17:04,  2.03it/s] 12%|█▏        | 1312/10714 [35:23<1:17:00,  2.03it/s] 12%|█▏        | 1313/10714 [35:24<1:16:58,  2.04it/s] 12%|█▏        | 1314/10714 [35:24<1:16:45,  2.04it/s] 12%|█▏        | 1315/10714 [35:25<1:17:05,  2.03it/s] 12%|█▏        | 1316/10714 [35:25<1:17:04,  2.03it/s] 12%|█▏        | 1317/10714 [35:26<1:17:17,  2.03it/s] 12%|█▏        | 1318/10714 [35:26<1:17:10,  2.03it/s] 12%|█▏        | 1319/10714 [35:27<1:17:04,  2.03it/s] 12%|█▏        | 1320/10714 [35:27<1:17:15,  2.03it/s] 12%|█▏        | 1321/10714 [35:28<1:17:08,  2.03it/s] 12%|█▏        | 1322/10714 [35:28<1:17:11,  2.03it/s] 12%|█▏        | 1323/10714 [35:29<1:17:04,  2.03it/s] 12%|█▏        | 1324/10714 [35:29<1:16:56,  2.03it/s] 12%|█▏        | 1325/10714 [35:30<1:16:56,  2.03it/s]{'loss': 4.0433, 'grad_norm': 0.24176080524921417, 'learning_rate': 0.0009983021449947469, 'epoch': 0.12}                                                      
- 12%|█▏        | 1325/10714 [35:30<1:16:56,  2.03it/s] 12%|█▏        | 1326/10714 [35:30<1:17:05,  2.03it/s] 12%|█▏        | 1327/10714 [35:31<1:16:54,  2.03it/s] 12%|█▏        | 1328/10714 [35:31<1:16:59,  2.03it/s] 12%|█▏        | 1329/10714 [35:32<1:16:56,  2.03it/s] 12%|█▏        | 1330/10714 [35:32<1:16:51,  2.03it/s] 12%|█▏        | 1331/10714 [35:33<1:16:53,  2.03it/s] 12%|█▏        | 1332/10714 [35:33<1:16:55,  2.03it/s] 12%|█▏        | 1333/10714 [35:34<1:16:54,  2.03it/s] 12%|█▏        | 1334/10714 [35:34<1:16:55,  2.03it/s] 12%|█▏        | 1335/10714 [35:35<1:16:55,  2.03it/s] 12%|█▏        | 1336/10714 [35:35<1:17:15,  2.02it/s] 12%|█▏        | 1337/10714 [35:36<1:17:14,  2.02it/s] 12%|█▏        | 1338/10714 [35:36<1:17:09,  2.03it/s] 12%|█▏        | 1339/10714 [35:37<1:17:08,  2.03it/s] 13%|█▎        | 1340/10714 [35:37<1:17:01,  2.03it/s] 13%|█▎        | 1341/10714 [35:38<1:17:01,  2.03it/s] 13%|█▎        | 1342/10714 [35:38<1:17:00,  2.03it/s] 13%|█▎        | 1343/10714 [35:39<1:16:59,  2.03it/s] 13%|█▎        | 1344/10714 [35:39<1:16:42,  2.04it/s] 13%|█▎        | 1345/10714 [35:39<1:16:42,  2.04it/s] 13%|█▎        | 1346/10714 [35:40<1:16:44,  2.03it/s] 13%|█▎        | 1347/10714 [35:40<1:16:41,  2.04it/s] 13%|█▎        | 1348/10714 [35:41<1:16:46,  2.03it/s] 13%|█▎        | 1349/10714 [35:41<1:16:48,  2.03it/s] 13%|█▎        | 1350/10714 [35:42<1:16:48,  2.03it/s]{'loss': 4.0255, 'grad_norm': 0.2573440968990326, 'learning_rate': 0.0009979502630102022, 'epoch': 0.13}                                                      
- 13%|█▎        | 1350/10714 [35:42<1:16:48,  2.03it/s] 13%|█▎        | 1351/10714 [35:42<1:16:52,  2.03it/s] 13%|█▎        | 1352/10714 [35:43<1:16:56,  2.03it/s] 13%|█▎        | 1353/10714 [35:43<1:16:54,  2.03it/s] 13%|█▎        | 1354/10714 [35:44<1:16:47,  2.03it/s] 13%|█▎        | 1355/10714 [35:44<1:16:55,  2.03it/s] 13%|█▎        | 1356/10714 [35:45<1:16:49,  2.03it/s] 13%|█▎        | 1357/10714 [35:45<1:17:01,  2.02it/s] 13%|█▎        | 1358/10714 [35:46<1:16:56,  2.03it/s] 13%|█▎        | 1359/10714 [35:46<1:16:49,  2.03it/s] 13%|█▎        | 1360/10714 [35:47<1:16:50,  2.03it/s] 13%|█▎        | 1361/10714 [35:47<1:16:45,  2.03it/s] 13%|█▎        | 1362/10714 [35:48<1:16:40,  2.03it/s] 13%|█▎        | 1363/10714 [35:48<1:16:32,  2.04it/s] 13%|█▎        | 1364/10714 [35:49<1:16:28,  2.04it/s] 13%|█▎        | 1365/10714 [35:49<1:16:35,  2.03it/s] 13%|█▎        | 1366/10714 [35:50<1:16:37,  2.03it/s] 13%|█▎        | 1367/10714 [35:50<1:16:43,  2.03it/s] 13%|█▎        | 1368/10714 [35:51<1:16:36,  2.03it/s] 13%|█▎        | 1369/10714 [35:51<1:16:45,  2.03it/s] 13%|█▎        | 1370/10714 [35:52<1:16:43,  2.03it/s] 13%|█▎        | 1371/10714 [35:52<1:16:31,  2.03it/s] 13%|█▎        | 1372/10714 [35:53<1:16:20,  2.04it/s] 13%|█▎        | 1373/10714 [35:53<1:16:25,  2.04it/s] 13%|█▎        | 1374/10714 [35:54<1:16:23,  2.04it/s] 13%|█▎        | 1375/10714 [35:54<1:16:20,  2.04it/s]                                                      {'loss': 4.0198, 'grad_norm': 0.2415800541639328, 'learning_rate': 0.0009975653418598685, 'epoch': 0.13}
- 13%|█▎        | 1375/10714 [35:54<1:16:20,  2.04it/s] 13%|█▎        | 1376/10714 [35:55<1:16:26,  2.04it/s] 13%|█▎        | 1377/10714 [35:55<1:16:26,  2.04it/s] 13%|█▎        | 1378/10714 [35:56<1:16:25,  2.04it/s] 13%|█▎        | 1379/10714 [35:56<1:16:25,  2.04it/s] 13%|█▎        | 1380/10714 [35:57<1:16:22,  2.04it/s] 13%|█▎        | 1381/10714 [35:57<1:16:24,  2.04it/s] 13%|█▎        | 1382/10714 [35:58<1:16:26,  2.03it/s] 13%|█▎        | 1383/10714 [35:58<1:16:31,  2.03it/s] 13%|█▎        | 1384/10714 [35:59<1:16:24,  2.04it/s] 13%|█▎        | 1385/10714 [35:59<1:16:24,  2.03it/s] 13%|█▎        | 1386/10714 [36:00<1:16:21,  2.04it/s] 13%|█▎        | 1387/10714 [36:00<1:16:26,  2.03it/s] 13%|█▎        | 1388/10714 [36:01<1:16:22,  2.04it/s] 13%|█▎        | 1389/10714 [36:01<1:16:16,  2.04it/s] 13%|█▎        | 1390/10714 [36:02<1:16:13,  2.04it/s] 13%|█▎        | 1391/10714 [36:02<1:16:15,  2.04it/s] 13%|█▎        | 1392/10714 [36:03<1:16:27,  2.03it/s] 13%|█▎        | 1393/10714 [36:03<1:16:21,  2.03it/s] 13%|█▎        | 1394/10714 [36:04<1:16:18,  2.04it/s] 13%|█▎        | 1395/10714 [36:04<1:16:24,  2.03it/s] 13%|█▎        | 1396/10714 [36:05<1:16:21,  2.03it/s] 13%|█▎        | 1397/10714 [36:05<1:16:24,  2.03it/s] 13%|█▎        | 1398/10714 [36:06<1:16:21,  2.03it/s] 13%|█▎        | 1399/10714 [36:06<1:16:26,  2.03it/s] 13%|█▎        | 1400/10714 [36:07<1:16:23,  2.03it/s]{'loss': 3.9999, 'grad_norm': 0.25542810559272766, 'learning_rate': 0.000997147407083392, 'epoch': 0.13}                                                      
- 13%|█▎        | 1400/10714 [36:07<1:16:23,  2.03it/s] 13%|█▎        | 1401/10714 [36:07<1:16:20,  2.03it/s] 13%|█▎        | 1402/10714 [36:08<1:16:17,  2.03it/s] 13%|█▎        | 1403/10714 [36:08<1:16:17,  2.03it/s] 13%|█▎        | 1404/10714 [36:09<1:16:31,  2.03it/s] 13%|█▎        | 1405/10714 [36:09<1:16:24,  2.03it/s] 13%|█▎        | 1406/10714 [36:10<1:16:39,  2.02it/s] 13%|█▎        | 1407/10714 [36:10<1:16:34,  2.03it/s] 13%|█▎        | 1408/10714 [36:10<1:16:29,  2.03it/s] 13%|█▎        | 1409/10714 [36:11<1:16:27,  2.03it/s] 13%|█▎        | 1410/10714 [36:11<1:16:20,  2.03it/s] 13%|█▎        | 1411/10714 [36:12<1:16:29,  2.03it/s] 13%|█▎        | 1412/10714 [36:12<1:16:25,  2.03it/s] 13%|█▎        | 1413/10714 [36:13<1:16:08,  2.04it/s] 13%|█▎        | 1414/10714 [36:13<1:16:17,  2.03it/s] 13%|█▎        | 1415/10714 [36:14<1:16:14,  2.03it/s] 13%|█▎        | 1416/10714 [36:14<1:16:10,  2.03it/s] 13%|█▎        | 1417/10714 [36:15<1:16:11,  2.03it/s] 13%|█▎        | 1418/10714 [36:15<1:16:08,  2.03it/s] 13%|█▎        | 1419/10714 [36:16<1:16:00,  2.04it/s] 13%|█▎        | 1420/10714 [36:16<1:16:11,  2.03it/s] 13%|█▎        | 1421/10714 [36:17<1:16:08,  2.03it/s] 13%|█▎        | 1422/10714 [36:17<1:16:05,  2.04it/s] 13%|█▎        | 1423/10714 [36:18<1:15:54,  2.04it/s] 13%|█▎        | 1424/10714 [36:18<1:15:56,  2.04it/s] 13%|█▎        | 1425/10714 [36:19<1:15:54,  2.04it/s]                                                      {'loss': 3.9961, 'grad_norm': 0.23870795965194702, 'learning_rate': 0.000996696486410885, 'epoch': 0.13}
- 13%|█▎        | 1425/10714 [36:19<1:15:54,  2.04it/s] 13%|█▎        | 1426/10714 [36:19<1:16:03,  2.04it/s] 13%|█▎        | 1427/10714 [36:20<1:16:05,  2.03it/s] 13%|█▎        | 1428/10714 [36:20<1:15:58,  2.04it/s] 13%|█▎        | 1429/10714 [36:21<1:15:54,  2.04it/s] 13%|█▎        | 1430/10714 [36:21<1:15:57,  2.04it/s] 13%|█▎        | 1431/10714 [36:22<1:16:01,  2.03it/s] 13%|█▎        | 1432/10714 [36:22<1:15:57,  2.04it/s] 13%|█▎        | 1433/10714 [36:23<1:16:00,  2.04it/s] 13%|█▎        | 1434/10714 [36:23<1:15:59,  2.04it/s] 13%|█▎        | 1435/10714 [36:24<1:15:49,  2.04it/s] 13%|█▎        | 1436/10714 [36:24<1:15:52,  2.04it/s] 13%|█▎        | 1437/10714 [36:25<1:15:55,  2.04it/s] 13%|█▎        | 1438/10714 [36:25<1:15:55,  2.04it/s] 13%|█▎        | 1439/10714 [36:26<1:15:50,  2.04it/s] 13%|█▎        | 1440/10714 [36:26<1:15:48,  2.04it/s] 13%|█▎        | 1441/10714 [36:27<1:15:49,  2.04it/s] 13%|█▎        | 1442/10714 [36:27<1:15:43,  2.04it/s] 13%|█▎        | 1443/10714 [36:28<1:15:45,  2.04it/s] 13%|█▎        | 1444/10714 [36:28<1:15:42,  2.04it/s] 13%|█▎        | 1445/10714 [36:29<1:15:41,  2.04it/s] 13%|█▎        | 1446/10714 [36:29<1:15:42,  2.04it/s] 14%|█▎        | 1447/10714 [36:30<1:15:39,  2.04it/s] 14%|█▎        | 1448/10714 [36:30<1:15:45,  2.04it/s] 14%|█▎        | 1449/10714 [36:31<1:15:48,  2.04it/s] 14%|█▎        | 1450/10714 [36:31<1:15:38,  2.04it/s]                                                      {'loss': 3.9827, 'grad_norm': 0.2512842118740082, 'learning_rate': 0.0009962126097610832, 'epoch': 0.14}
- 14%|█▎        | 1450/10714 [36:31<1:15:38,  2.04it/s] 14%|█▎        | 1451/10714 [36:32<1:15:38,  2.04it/s] 14%|█▎        | 1452/10714 [36:32<1:15:46,  2.04it/s] 14%|█▎        | 1453/10714 [36:33<1:15:41,  2.04it/s] 14%|█▎        | 1454/10714 [36:33<1:15:36,  2.04it/s] 14%|█▎        | 1455/10714 [36:34<1:15:33,  2.04it/s] 14%|█▎        | 1456/10714 [36:34<1:15:30,  2.04it/s] 14%|█▎        | 1457/10714 [36:35<1:15:33,  2.04it/s] 14%|█▎        | 1458/10714 [36:35<1:15:43,  2.04it/s] 14%|█▎        | 1459/10714 [36:36<1:15:44,  2.04it/s] 14%|█▎        | 1460/10714 [36:36<1:15:48,  2.03it/s] 14%|█▎        | 1461/10714 [36:37<1:15:45,  2.04it/s] 14%|█▎        | 1462/10714 [36:37<1:15:47,  2.03it/s] 14%|█▎        | 1463/10714 [36:37<1:15:45,  2.04it/s] 14%|█▎        | 1464/10714 [36:38<1:15:49,  2.03it/s] 14%|█▎        | 1465/10714 [36:38<1:15:39,  2.04it/s] 14%|█▎        | 1466/10714 [36:39<1:15:47,  2.03it/s] 14%|█▎        | 1467/10714 [36:39<1:15:42,  2.04it/s] 14%|█▎        | 1468/10714 [36:40<1:15:33,  2.04it/s] 14%|█▎        | 1469/10714 [36:40<1:15:43,  2.03it/s] 14%|█▎        | 1470/10714 [36:41<1:15:41,  2.04it/s] 14%|█▎        | 1471/10714 [36:41<1:15:43,  2.03it/s] 14%|█▎        | 1472/10714 [36:42<1:15:42,  2.03it/s] 14%|█▎        | 1473/10714 [36:42<1:15:42,  2.03it/s] 14%|█▍        | 1474/10714 [36:43<1:15:33,  2.04it/s] 14%|█▍        | 1475/10714 [36:43<1:15:38,  2.04it/s]{'loss': 3.9673, 'grad_norm': 0.22927960753440857, 'learning_rate': 0.0009956958092393643, 'epoch': 0.14}                                                      
- 14%|█▍        | 1475/10714 [36:43<1:15:38,  2.04it/s] 14%|█▍        | 1476/10714 [36:44<1:15:38,  2.04it/s] 14%|█▍        | 1477/10714 [36:44<1:15:35,  2.04it/s] 14%|█▍        | 1478/10714 [36:45<1:15:31,  2.04it/s] 14%|█▍        | 1479/10714 [36:45<1:15:33,  2.04it/s] 14%|█▍        | 1480/10714 [36:46<1:15:32,  2.04it/s] 14%|█▍        | 1481/10714 [36:46<1:15:34,  2.04it/s] 14%|█▍        | 1482/10714 [36:47<1:15:34,  2.04it/s] 14%|█▍        | 1483/10714 [36:47<1:15:31,  2.04it/s] 14%|█▍        | 1484/10714 [36:48<1:15:38,  2.03it/s] 14%|█▍        | 1485/10714 [36:48<1:15:32,  2.04it/s] 14%|█▍        | 1486/10714 [36:49<1:15:34,  2.04it/s] 14%|█▍        | 1487/10714 [36:49<1:15:29,  2.04it/s] 14%|█▍        | 1488/10714 [36:50<1:15:26,  2.04it/s] 14%|█▍        | 1489/10714 [36:50<1:15:25,  2.04it/s] 14%|█▍        | 1490/10714 [36:51<1:15:31,  2.04it/s] 14%|█▍        | 1491/10714 [36:51<1:15:25,  2.04it/s] 14%|█▍        | 1492/10714 [36:52<1:15:25,  2.04it/s] 14%|█▍        | 1493/10714 [36:52<1:15:22,  2.04it/s] 14%|█▍        | 1494/10714 [36:53<1:15:27,  2.04it/s] 14%|█▍        | 1495/10714 [36:53<1:15:22,  2.04it/s] 14%|█▍        | 1496/10714 [36:54<1:15:22,  2.04it/s] 14%|█▍        | 1497/10714 [36:54<1:15:24,  2.04it/s] 14%|█▍        | 1498/10714 [36:55<1:15:24,  2.04it/s] 14%|█▍        | 1499/10714 [36:55<1:15:37,  2.03it/s] 14%|█▍        | 1500/10714 [36:56<1:15:34,  2.03it/s]{'loss': 3.9688, 'grad_norm': 0.244327574968338, 'learning_rate': 0.0009951461191356147, 'epoch': 0.14}
-                                                       14%|█▍        | 1500/10714 [36:56<1:15:34,  2.03it/s] 14%|█▍        | 1501/10714 [36:56<1:15:34,  2.03it/s] 14%|█▍        | 1502/10714 [36:57<1:15:30,  2.03it/s] 14%|█▍        | 1503/10714 [36:57<1:15:22,  2.04it/s] 14%|█▍        | 1504/10714 [36:58<1:15:23,  2.04it/s] 14%|█▍        | 1505/10714 [36:58<1:15:24,  2.04it/s] 14%|█▍        | 1506/10714 [36:59<1:15:25,  2.03it/s] 14%|█▍        | 1507/10714 [36:59<1:15:33,  2.03it/s] 14%|█▍        | 1508/10714 [37:00<1:15:29,  2.03it/s] 14%|█▍        | 1509/10714 [37:00<1:15:17,  2.04it/s] 14%|█▍        | 1510/10714 [37:01<1:15:21,  2.04it/s] 14%|█▍        | 1511/10714 [37:01<1:15:26,  2.03it/s] 14%|█▍        | 1512/10714 [37:02<1:15:20,  2.04it/s] 14%|█▍        | 1513/10714 [37:02<1:15:18,  2.04it/s] 14%|█▍        | 1514/10714 [37:03<1:15:12,  2.04it/s] 14%|█▍        | 1515/10714 [37:03<1:15:25,  2.03it/s] 14%|█▍        | 1516/10714 [37:04<1:15:28,  2.03it/s] 14%|█▍        | 1517/10714 [37:04<1:15:30,  2.03it/s] 14%|█▍        | 1518/10714 [37:05<1:15:34,  2.03it/s] 14%|█▍        | 1519/10714 [37:05<1:15:27,  2.03it/s] 14%|█▍        | 1520/10714 [37:05<1:15:27,  2.03it/s] 14%|█▍        | 1521/10714 [37:06<1:15:22,  2.03it/s] 14%|█▍        | 1522/10714 [37:06<1:15:14,  2.04it/s] 14%|█▍        | 1523/10714 [37:07<1:15:14,  2.04it/s] 14%|█▍        | 1524/10714 [37:07<1:15:13,  2.04it/s] 14%|█▍        | 1525/10714 [37:08<1:15:10,  2.04it/s]{'loss': 3.9512, 'grad_norm': 0.2533559501171112, 'learning_rate': 0.000994563575921956, 'epoch': 0.14}                                                      
- 14%|█▍        | 1525/10714 [37:08<1:15:10,  2.04it/s] 14%|█▍        | 1526/10714 [37:08<1:15:19,  2.03it/s] 14%|█▍        | 1527/10714 [37:09<1:15:16,  2.03it/s] 14%|█▍        | 1528/10714 [37:09<1:15:17,  2.03it/s] 14%|█▍        | 1529/10714 [37:10<1:15:10,  2.04it/s] 14%|█▍        | 1530/10714 [37:10<1:15:07,  2.04it/s] 14%|█▍        | 1531/10714 [37:11<1:15:02,  2.04it/s] 14%|█▍        | 1532/10714 [37:11<1:15:04,  2.04it/s] 14%|█▍        | 1533/10714 [37:12<1:15:07,  2.04it/s] 14%|█▍        | 1534/10714 [37:12<1:15:06,  2.04it/s] 14%|█▍        | 1535/10714 [37:13<1:15:07,  2.04it/s] 14%|█▍        | 1536/10714 [37:13<1:15:06,  2.04it/s] 14%|█▍        | 1537/10714 [37:14<1:15:07,  2.04it/s] 14%|█▍        | 1538/10714 [37:14<1:15:03,  2.04it/s] 14%|█▍        | 1539/10714 [37:15<1:15:04,  2.04it/s] 14%|█▍        | 1540/10714 [37:15<1:14:57,  2.04it/s] 14%|█▍        | 1541/10714 [37:16<1:14:57,  2.04it/s] 14%|█▍        | 1542/10714 [37:16<1:14:52,  2.04it/s] 14%|█▍        | 1543/10714 [37:17<1:15:01,  2.04it/s] 14%|█▍        | 1544/10714 [37:17<1:15:15,  2.03it/s] 14%|█▍        | 1545/10714 [37:18<1:15:14,  2.03it/s] 14%|█▍        | 1546/10714 [37:18<1:15:08,  2.03it/s] 14%|█▍        | 1547/10714 [37:19<1:14:56,  2.04it/s] 14%|█▍        | 1548/10714 [37:19<1:14:52,  2.04it/s] 14%|█▍        | 1549/10714 [37:20<1:14:52,  2.04it/s] 14%|█▍        | 1550/10714 [37:20<1:14:57,  2.04it/s]{'loss': 3.9441, 'grad_norm': 0.23923414945602417, 'learning_rate': 0.0009939482182503244, 'epoch': 0.14}
-                                                       14%|█▍        | 1550/10714 [37:20<1:14:57,  2.04it/s] 14%|█▍        | 1551/10714 [37:21<1:15:06,  2.03it/s] 14%|█▍        | 1552/10714 [37:21<1:15:00,  2.04it/s] 14%|█▍        | 1553/10714 [37:22<1:15:00,  2.04it/s] 15%|█▍        | 1554/10714 [37:22<1:14:48,  2.04it/s] 15%|█▍        | 1555/10714 [37:23<1:14:47,  2.04it/s] 15%|█▍        | 1556/10714 [37:23<1:14:50,  2.04it/s] 15%|█▍        | 1557/10714 [37:24<1:14:51,  2.04it/s] 15%|█▍        | 1558/10714 [37:24<1:14:48,  2.04it/s] 15%|█▍        | 1559/10714 [37:25<1:15:01,  2.03it/s] 15%|█▍        | 1560/10714 [37:25<1:14:59,  2.03it/s] 15%|█▍        | 1561/10714 [37:26<1:15:05,  2.03it/s] 15%|█▍        | 1562/10714 [37:26<1:15:01,  2.03it/s] 15%|█▍        | 1563/10714 [37:27<1:14:53,  2.04it/s] 15%|█▍        | 1564/10714 [37:27<1:15:00,  2.03it/s] 15%|█▍        | 1565/10714 [37:28<1:15:04,  2.03it/s] 15%|█▍        | 1566/10714 [37:28<1:14:54,  2.04it/s] 15%|█▍        | 1567/10714 [37:29<1:14:51,  2.04it/s] 15%|█▍        | 1568/10714 [37:29<1:14:51,  2.04it/s] 15%|█▍        | 1569/10714 [37:30<1:14:49,  2.04it/s] 15%|█▍        | 1570/10714 [37:30<1:14:54,  2.03it/s] 15%|█▍        | 1571/10714 [37:31<1:14:56,  2.03it/s] 15%|█▍        | 1572/10714 [37:31<1:14:52,  2.04it/s] 15%|█▍        | 1573/10714 [37:32<1:14:52,  2.03it/s] 15%|█▍        | 1574/10714 [37:32<1:14:48,  2.04it/s] 15%|█▍        | 1575/10714 [37:33<1:14:53,  2.03it/s]{'loss': 3.9415, 'grad_norm': 0.24144990742206573, 'learning_rate': 0.0009933000869499062, 'epoch': 0.15}                                                      
- 15%|█▍        | 1575/10714 [37:33<1:14:53,  2.03it/s] 15%|█▍        | 1576/10714 [37:33<1:14:46,  2.04it/s] 15%|█▍        | 1577/10714 [37:33<1:14:47,  2.04it/s] 15%|█▍        | 1578/10714 [37:34<1:14:49,  2.04it/s] 15%|█▍        | 1579/10714 [37:34<1:14:48,  2.04it/s] 15%|█▍        | 1580/10714 [37:35<1:14:53,  2.03it/s] 15%|█▍        | 1581/10714 [37:35<1:14:48,  2.03it/s] 15%|█▍        | 1582/10714 [37:36<1:14:40,  2.04it/s] 15%|█▍        | 1583/10714 [37:36<1:14:36,  2.04it/s] 15%|█▍        | 1584/10714 [37:37<1:14:51,  2.03it/s] 15%|█▍        | 1585/10714 [37:37<1:14:51,  2.03it/s] 15%|█▍        | 1586/10714 [37:38<1:14:45,  2.03it/s] 15%|█▍        | 1587/10714 [37:38<1:14:41,  2.04it/s] 15%|█▍        | 1588/10714 [37:39<1:14:40,  2.04it/s] 15%|█▍        | 1589/10714 [37:39<1:14:49,  2.03it/s] 15%|█▍        | 1590/10714 [37:40<1:14:40,  2.04it/s] 15%|█▍        | 1591/10714 [37:40<1:14:37,  2.04it/s] 15%|█▍        | 1592/10714 [37:41<1:14:33,  2.04it/s] 15%|█▍        | 1593/10714 [37:41<1:14:29,  2.04it/s] 15%|█▍        | 1594/10714 [37:42<1:14:31,  2.04it/s] 15%|█▍        | 1595/10714 [37:42<1:14:30,  2.04it/s] 15%|█▍        | 1596/10714 [37:43<1:14:26,  2.04it/s] 15%|█▍        | 1597/10714 [37:43<1:14:16,  2.05it/s] 15%|█▍        | 1598/10714 [37:44<1:14:21,  2.04it/s] 15%|█▍        | 1599/10714 [37:44<1:14:25,  2.04it/s] 15%|█▍        | 1600/10714 [37:45<1:14:23,  2.04it/s]{'loss': 3.9272, 'grad_norm': 0.24227987229824066, 'learning_rate': 0.0009926192250244291, 'epoch': 0.15}                                                      
- 15%|█▍        | 1600/10714 [37:45<1:14:23,  2.04it/s] 15%|█▍        | 1601/10714 [37:45<1:14:27,  2.04it/s] 15%|█▍        | 1602/10714 [37:46<1:14:32,  2.04it/s] 15%|█▍        | 1603/10714 [37:46<1:14:28,  2.04it/s] 15%|█▍        | 1604/10714 [37:47<1:14:23,  2.04it/s] 15%|█▍        | 1605/10714 [37:47<1:14:25,  2.04it/s] 15%|█▍        | 1606/10714 [37:48<1:14:32,  2.04it/s] 15%|█▍        | 1607/10714 [37:48<1:14:27,  2.04it/s] 15%|█▌        | 1608/10714 [37:49<1:14:27,  2.04it/s] 15%|█▌        | 1609/10714 [37:49<1:14:24,  2.04it/s] 15%|█▌        | 1610/10714 [37:50<1:14:28,  2.04it/s] 15%|█▌        | 1611/10714 [37:50<1:14:23,  2.04it/s] 15%|█▌        | 1612/10714 [37:51<1:14:17,  2.04it/s] 15%|█▌        | 1613/10714 [37:51<1:14:27,  2.04it/s] 15%|█▌        | 1614/10714 [37:52<1:14:22,  2.04it/s] 15%|█▌        | 1615/10714 [37:52<1:14:20,  2.04it/s] 15%|█▌        | 1616/10714 [37:53<1:14:22,  2.04it/s] 15%|█▌        | 1617/10714 [37:53<1:14:28,  2.04it/s] 15%|█▌        | 1618/10714 [37:54<1:14:24,  2.04it/s] 15%|█▌        | 1619/10714 [37:54<1:14:25,  2.04it/s] 15%|█▌        | 1620/10714 [37:55<1:14:35,  2.03it/s] 15%|█▌        | 1621/10714 [37:55<1:14:29,  2.03it/s] 15%|█▌        | 1622/10714 [37:56<1:14:26,  2.04it/s] 15%|█▌        | 1623/10714 [37:56<1:14:24,  2.04it/s] 15%|█▌        | 1624/10714 [37:57<1:14:22,  2.04it/s] 15%|█▌        | 1625/10714 [37:57<1:14:13,  2.04it/s]{'loss': 3.9202, 'grad_norm': 0.24218735098838806, 'learning_rate': 0.0009919056776493088, 'epoch': 0.15}                                                      
- 15%|█▌        | 1625/10714 [37:57<1:14:13,  2.04it/s] 15%|█▌        | 1626/10714 [37:58<1:14:28,  2.03it/s] 15%|█▌        | 1627/10714 [37:58<1:14:28,  2.03it/s] 15%|█▌        | 1628/10714 [37:59<1:14:23,  2.04it/s] 15%|█▌        | 1629/10714 [37:59<1:14:19,  2.04it/s] 15%|█▌        | 1630/10714 [37:59<1:14:15,  2.04it/s] 15%|█▌        | 1631/10714 [38:00<1:14:19,  2.04it/s] 15%|█▌        | 1632/10714 [38:00<1:14:16,  2.04it/s] 15%|█▌        | 1633/10714 [38:01<1:14:20,  2.04it/s] 15%|█▌        | 1634/10714 [38:01<1:14:25,  2.03it/s] 15%|█▌        | 1635/10714 [38:02<1:14:15,  2.04it/s] 15%|█▌        | 1636/10714 [38:02<1:14:14,  2.04it/s] 15%|█▌        | 1637/10714 [38:03<1:14:17,  2.04it/s] 15%|█▌        | 1638/10714 [38:03<1:14:19,  2.03it/s] 15%|█▌        | 1639/10714 [38:04<1:14:14,  2.04it/s] 15%|█▌        | 1640/10714 [38:04<1:14:13,  2.04it/s] 15%|█▌        | 1641/10714 [38:05<1:14:13,  2.04it/s] 15%|█▌        | 1642/10714 [38:05<1:14:16,  2.04it/s] 15%|█▌        | 1643/10714 [38:06<1:14:08,  2.04it/s] 15%|█▌        | 1644/10714 [38:06<1:14:18,  2.03it/s] 15%|█▌        | 1645/10714 [38:07<1:14:12,  2.04it/s] 15%|█▌        | 1646/10714 [38:07<1:14:04,  2.04it/s] 15%|█▌        | 1647/10714 [38:08<1:13:58,  2.04it/s] 15%|█▌        | 1648/10714 [38:08<1:14:03,  2.04it/s] 15%|█▌        | 1649/10714 [38:09<1:14:05,  2.04it/s] 15%|█▌        | 1650/10714 [38:09<1:14:09,  2.04it/s]{'loss': 3.9113, 'grad_norm': 0.23074540495872498, 'learning_rate': 0.000991159492168651, 'epoch': 0.15}                                                      
- 15%|█▌        | 1650/10714 [38:09<1:14:09,  2.04it/s] 15%|█▌        | 1651/10714 [38:10<1:14:32,  2.03it/s] 15%|█▌        | 1652/10714 [38:10<1:14:23,  2.03it/s] 15%|█▌        | 1653/10714 [38:11<1:14:17,  2.03it/s] 15%|█▌        | 1654/10714 [38:11<1:14:13,  2.03it/s] 15%|█▌        | 1655/10714 [38:12<1:14:08,  2.04it/s] 15%|█▌        | 1656/10714 [38:12<1:14:02,  2.04it/s] 15%|█▌        | 1657/10714 [38:13<1:14:06,  2.04it/s] 15%|█▌        | 1658/10714 [38:13<1:14:11,  2.03it/s] 15%|█▌        | 1659/10714 [38:14<1:14:05,  2.04it/s] 15%|█▌        | 1660/10714 [38:14<1:14:01,  2.04it/s] 16%|█▌        | 1661/10714 [38:15<1:13:57,  2.04it/s] 16%|█▌        | 1662/10714 [38:15<1:13:53,  2.04it/s] 16%|█▌        | 1663/10714 [38:16<1:13:55,  2.04it/s] 16%|█▌        | 1664/10714 [38:16<1:13:54,  2.04it/s] 16%|█▌        | 1665/10714 [38:17<1:13:52,  2.04it/s] 16%|█▌        | 1666/10714 [38:17<1:13:49,  2.04it/s] 16%|█▌        | 1667/10714 [38:18<1:13:58,  2.04it/s] 16%|█▌        | 1668/10714 [38:18<1:13:57,  2.04it/s] 16%|█▌        | 1669/10714 [38:19<1:13:57,  2.04it/s] 16%|█▌        | 1670/10714 [38:19<1:13:55,  2.04it/s] 16%|█▌        | 1671/10714 [38:20<1:13:57,  2.04it/s] 16%|█▌        | 1672/10714 [38:20<1:13:54,  2.04it/s] 16%|█▌        | 1673/10714 [38:21<1:13:57,  2.04it/s] 16%|█▌        | 1674/10714 [38:21<1:13:52,  2.04it/s] 16%|█▌        | 1675/10714 [38:22<1:13:57,  2.04it/s]{'loss': 3.8915, 'grad_norm': 0.224241241812706, 'learning_rate': 0.000990380718092111, 'epoch': 0.16}                                                      
- 16%|█▌        | 1675/10714 [38:22<1:13:57,  2.04it/s] 16%|█▌        | 1676/10714 [38:22<1:14:01,  2.04it/s] 16%|█▌        | 1677/10714 [38:23<1:13:59,  2.04it/s] 16%|█▌        | 1678/10714 [38:23<1:13:53,  2.04it/s] 16%|█▌        | 1679/10714 [38:24<1:13:49,  2.04it/s] 16%|█▌        | 1680/10714 [38:24<1:13:51,  2.04it/s] 16%|█▌        | 1681/10714 [38:25<1:13:48,  2.04it/s] 16%|█▌        | 1682/10714 [38:25<1:13:42,  2.04it/s] 16%|█▌        | 1683/10714 [38:26<1:13:44,  2.04it/s] 16%|█▌        | 1684/10714 [38:26<1:13:46,  2.04it/s] 16%|█▌        | 1685/10714 [38:26<1:13:43,  2.04it/s] 16%|█▌        | 1686/10714 [38:27<1:13:43,  2.04it/s] 16%|█▌        | 1687/10714 [38:27<1:13:35,  2.04it/s] 16%|█▌        | 1688/10714 [38:28<1:13:41,  2.04it/s] 16%|█▌        | 1689/10714 [38:28<1:13:40,  2.04it/s] 16%|█▌        | 1690/10714 [38:29<1:13:38,  2.04it/s] 16%|█▌        | 1691/10714 [38:29<1:13:33,  2.04it/s] 16%|█▌        | 1692/10714 [38:30<1:13:40,  2.04it/s] 16%|█▌        | 1693/10714 [38:30<1:13:39,  2.04it/s] 16%|█▌        | 1694/10714 [38:31<1:13:41,  2.04it/s] 16%|█▌        | 1695/10714 [38:31<1:13:38,  2.04it/s] 16%|█▌        | 1696/10714 [38:32<1:13:36,  2.04it/s] 16%|█▌        | 1697/10714 [38:32<1:13:40,  2.04it/s] 16%|█▌        | 1698/10714 [38:33<1:13:34,  2.04it/s] 16%|█▌        | 1699/10714 [38:33<1:13:32,  2.04it/s] 16%|█▌        | 1700/10714 [38:34<1:13:39,  2.04it/s]                                                      {'loss': 3.8945, 'grad_norm': 0.23431934416294098, 'learning_rate': 0.0009895694070916083, 'epoch': 0.16}
- 16%|█▌        | 1700/10714 [38:34<1:13:39,  2.04it/s] 16%|█▌        | 1701/10714 [38:34<1:13:43,  2.04it/s] 16%|█▌        | 1702/10714 [38:35<1:13:44,  2.04it/s] 16%|█▌        | 1703/10714 [38:35<1:13:44,  2.04it/s] 16%|█▌        | 1704/10714 [38:36<1:13:41,  2.04it/s] 16%|█▌        | 1705/10714 [38:36<1:13:35,  2.04it/s] 16%|█▌        | 1706/10714 [38:37<1:13:35,  2.04it/s] 16%|█▌        | 1707/10714 [38:37<1:13:34,  2.04it/s] 16%|█▌        | 1708/10714 [38:38<1:13:31,  2.04it/s] 16%|█▌        | 1709/10714 [38:38<1:13:25,  2.04it/s] 16%|█▌        | 1710/10714 [38:39<1:13:31,  2.04it/s] 16%|█▌        | 1711/10714 [38:39<1:13:34,  2.04it/s] 16%|█▌        | 1712/10714 [38:40<1:13:32,  2.04it/s] 16%|█▌        | 1713/10714 [38:40<1:13:26,  2.04it/s] 16%|█▌        | 1714/10714 [38:41<1:13:29,  2.04it/s] 16%|█▌        | 1715/10714 [38:41<1:13:30,  2.04it/s] 16%|█▌        | 1716/10714 [38:42<1:13:27,  2.04it/s] 16%|█▌        | 1717/10714 [38:42<1:13:29,  2.04it/s] 16%|█▌        | 1718/10714 [38:43<1:13:31,  2.04it/s] 16%|█▌        | 1719/10714 [38:43<1:13:31,  2.04it/s] 16%|█▌        | 1720/10714 [38:44<1:13:25,  2.04it/s] 16%|█▌        | 1721/10714 [38:44<1:13:22,  2.04it/s] 16%|█▌        | 1722/10714 [38:45<1:13:25,  2.04it/s] 16%|█▌        | 1723/10714 [38:45<1:13:24,  2.04it/s] 16%|█▌        | 1724/10714 [38:46<1:13:26,  2.04it/s] 16%|█▌        | 1725/10714 [38:46<1:13:24,  2.04it/s]                                                      {'loss': 3.8906, 'grad_norm': 0.23468820750713348, 'learning_rate': 0.0009887256129978979, 'epoch': 0.16}
- 16%|█▌        | 1725/10714 [38:46<1:13:24,  2.04it/s] 16%|█▌        | 1726/10714 [38:47<1:13:28,  2.04it/s] 16%|█▌        | 1727/10714 [38:47<1:13:29,  2.04it/s] 16%|█▌        | 1728/10714 [38:48<1:13:23,  2.04it/s] 16%|█▌        | 1729/10714 [38:48<1:13:23,  2.04it/s] 16%|█▌        | 1730/10714 [38:49<1:13:22,  2.04it/s] 16%|█▌        | 1731/10714 [38:49<1:13:17,  2.04it/s] 16%|█▌        | 1732/10714 [38:50<1:13:21,  2.04it/s] 16%|█▌        | 1733/10714 [38:50<1:13:22,  2.04it/s] 16%|█▌        | 1734/10714 [38:50<1:13:28,  2.04it/s] 16%|█▌        | 1735/10714 [38:51<1:13:21,  2.04it/s] 16%|█▌        | 1736/10714 [38:51<1:13:20,  2.04it/s] 16%|█▌        | 1737/10714 [38:52<1:13:15,  2.04it/s] 16%|█▌        | 1738/10714 [38:53<1:25:02,  1.76it/s] 16%|█▌        | 1739/10714 [38:53<1:21:39,  1.83it/s] 16%|█▌        | 1740/10714 [38:54<1:19:05,  1.89it/s] 16%|█▌        | 1741/10714 [38:54<1:17:15,  1.94it/s] 16%|█▋        | 1742/10714 [38:55<1:16:05,  1.97it/s] 16%|█▋        | 1743/10714 [38:55<1:15:13,  1.99it/s] 16%|█▋        | 1744/10714 [38:56<1:14:37,  2.00it/s] 16%|█▋        | 1745/10714 [38:56<1:26:41,  1.72it/s] 16%|█▋        | 1746/10714 [38:57<1:22:32,  1.81it/s] 16%|█▋        | 1747/10714 [38:57<1:19:48,  1.87it/s] 16%|█▋        | 1748/10714 [38:58<1:17:49,  1.92it/s] 16%|█▋        | 1749/10714 [38:58<1:16:24,  1.96it/s] 16%|█▋        | 1750/10714 [38:59<1:15:25,  1.98it/s]{'loss': 3.8819, 'grad_norm': 0.22598986327648163, 'learning_rate': 0.0009878493917969988, 'epoch': 0.16}                                                      
- 16%|█▋        | 1750/10714 [38:59<1:15:25,  1.98it/s] 16%|█▋        | 1751/10714 [38:59<1:14:45,  2.00it/s] 16%|█▋        | 1752/10714 [39:00<1:14:17,  2.01it/s] 16%|█▋        | 1753/10714 [39:00<1:14:05,  2.02it/s] 16%|█▋        | 1754/10714 [39:01<1:13:49,  2.02it/s] 16%|█▋        | 1755/10714 [39:01<1:13:41,  2.03it/s] 16%|█▋        | 1756/10714 [39:02<1:13:46,  2.02it/s] 16%|█▋        | 1757/10714 [39:02<1:13:29,  2.03it/s] 16%|█▋        | 1758/10714 [39:03<1:13:16,  2.04it/s] 16%|█▋        | 1759/10714 [39:03<1:13:20,  2.04it/s] 16%|█▋        | 1760/10714 [39:04<1:13:14,  2.04it/s] 16%|█▋        | 1761/10714 [39:04<1:13:11,  2.04it/s] 16%|█▋        | 1762/10714 [39:05<1:13:04,  2.04it/s] 16%|█▋        | 1763/10714 [39:05<1:13:01,  2.04it/s] 16%|█▋        | 1764/10714 [39:06<1:13:04,  2.04it/s] 16%|█▋        | 1765/10714 [39:06<1:13:02,  2.04it/s] 16%|█▋        | 1766/10714 [39:07<1:13:03,  2.04it/s] 16%|█▋        | 1767/10714 [39:07<1:13:05,  2.04it/s] 17%|█▋        | 1768/10714 [39:08<1:13:04,  2.04it/s] 17%|█▋        | 1769/10714 [39:08<1:12:59,  2.04it/s] 17%|█▋        | 1770/10714 [39:09<1:12:52,  2.05it/s] 17%|█▋        | 1771/10714 [39:09<1:13:00,  2.04it/s] 17%|█▋        | 1772/10714 [39:10<1:13:00,  2.04it/s] 17%|█▋        | 1773/10714 [39:10<1:12:57,  2.04it/s] 17%|█▋        | 1774/10714 [39:11<1:12:58,  2.04it/s] 17%|█▋        | 1775/10714 [39:11<1:13:03,  2.04it/s]{'loss': 3.8731, 'grad_norm': 0.2504884600639343, 'learning_rate': 0.0009869408016264793, 'epoch': 0.17}                                                      
- 17%|█▋        | 1775/10714 [39:11<1:13:03,  2.04it/s] 17%|█▋        | 1776/10714 [39:12<1:13:06,  2.04it/s] 17%|█▋        | 1777/10714 [39:12<1:13:01,  2.04it/s] 17%|█▋        | 1778/10714 [39:13<1:13:03,  2.04it/s] 17%|█▋        | 1779/10714 [39:13<1:13:05,  2.04it/s] 17%|█▋        | 1780/10714 [39:14<1:13:03,  2.04it/s] 17%|█▋        | 1781/10714 [39:14<1:13:01,  2.04it/s] 17%|█▋        | 1782/10714 [39:15<1:12:58,  2.04it/s] 17%|█▋        | 1783/10714 [39:15<1:12:59,  2.04it/s] 17%|█▋        | 1784/10714 [39:16<1:12:51,  2.04it/s] 17%|█▋        | 1785/10714 [39:16<1:12:44,  2.05it/s] 17%|█▋        | 1786/10714 [39:17<1:12:44,  2.05it/s] 17%|█▋        | 1787/10714 [39:17<1:12:47,  2.04it/s] 17%|█▋        | 1788/10714 [39:17<1:12:46,  2.04it/s] 17%|█▋        | 1789/10714 [39:18<1:12:45,  2.04it/s] 17%|█▋        | 1790/10714 [39:18<1:12:39,  2.05it/s] 17%|█▋        | 1791/10714 [39:19<1:12:36,  2.05it/s] 17%|█▋        | 1792/10714 [39:19<1:12:38,  2.05it/s] 17%|█▋        | 1793/10714 [39:20<1:12:46,  2.04it/s] 17%|█▋        | 1794/10714 [39:20<1:12:49,  2.04it/s] 17%|█▋        | 1795/10714 [39:21<1:12:42,  2.04it/s] 17%|█▋        | 1796/10714 [39:21<1:12:36,  2.05it/s] 17%|█▋        | 1797/10714 [39:22<1:12:38,  2.05it/s] 17%|█▋        | 1798/10714 [39:22<1:12:44,  2.04it/s] 17%|█▋        | 1799/10714 [39:23<1:12:49,  2.04it/s] 17%|█▋        | 1800/10714 [39:23<1:12:49,  2.04it/s]{'loss': 3.871, 'grad_norm': 0.24239583313465118, 'learning_rate': 0.0009859999027716005, 'epoch': 0.17}                                                      
- 17%|█▋        | 1800/10714 [39:23<1:12:49,  2.04it/s] 17%|█▋        | 1801/10714 [39:24<1:13:11,  2.03it/s] 17%|█▋        | 1802/10714 [39:24<1:13:04,  2.03it/s] 17%|█▋        | 1803/10714 [39:25<1:12:58,  2.04it/s] 17%|█▋        | 1804/10714 [39:25<1:12:48,  2.04it/s] 17%|█▋        | 1805/10714 [39:26<1:12:48,  2.04it/s] 17%|█▋        | 1806/10714 [39:26<1:12:46,  2.04it/s] 17%|█▋        | 1807/10714 [39:27<1:12:47,  2.04it/s] 17%|█▋        | 1808/10714 [39:27<1:12:42,  2.04it/s] 17%|█▋        | 1809/10714 [39:28<1:12:37,  2.04it/s] 17%|█▋        | 1810/10714 [39:28<1:12:32,  2.05it/s] 17%|█▋        | 1811/10714 [39:29<1:12:32,  2.05it/s] 17%|█▋        | 1812/10714 [39:29<1:12:39,  2.04it/s] 17%|█▋        | 1813/10714 [39:30<1:12:37,  2.04it/s] 17%|█▋        | 1814/10714 [39:30<1:12:34,  2.04it/s] 17%|█▋        | 1815/10714 [39:31<1:12:37,  2.04it/s] 17%|█▋        | 1816/10714 [39:31<1:12:42,  2.04it/s] 17%|█▋        | 1817/10714 [39:32<1:12:40,  2.04it/s] 17%|█▋        | 1818/10714 [39:32<1:12:34,  2.04it/s] 17%|█▋        | 1819/10714 [39:33<1:12:32,  2.04it/s] 17%|█▋        | 1820/10714 [39:33<1:12:30,  2.04it/s] 17%|█▋        | 1821/10714 [39:34<1:12:37,  2.04it/s] 17%|█▋        | 1822/10714 [39:34<1:12:32,  2.04it/s] 17%|█▋        | 1823/10714 [39:35<1:12:27,  2.04it/s] 17%|█▋        | 1824/10714 [39:35<1:12:36,  2.04it/s] 17%|█▋        | 1825/10714 [39:36<1:12:34,  2.04it/s]{'loss': 3.8567, 'grad_norm': 0.22382239997386932, 'learning_rate': 0.000985026757661314, 'epoch': 0.17}                                                      
- 17%|█▋        | 1825/10714 [39:36<1:12:34,  2.04it/s] 17%|█▋        | 1826/10714 [39:36<1:12:35,  2.04it/s] 17%|█▋        | 1827/10714 [39:37<1:12:34,  2.04it/s] 17%|█▋        | 1828/10714 [39:37<1:12:34,  2.04it/s] 17%|█▋        | 1829/10714 [39:38<1:12:31,  2.04it/s] 17%|█▋        | 1830/10714 [39:38<1:12:33,  2.04it/s] 17%|█▋        | 1831/10714 [39:39<1:12:35,  2.04it/s] 17%|█▋        | 1832/10714 [39:39<1:12:34,  2.04it/s] 17%|█▋        | 1833/10714 [39:40<1:12:31,  2.04it/s] 17%|█▋        | 1834/10714 [39:40<1:12:24,  2.04it/s] 17%|█▋        | 1835/10714 [39:41<1:12:21,  2.05it/s] 17%|█▋        | 1836/10714 [39:41<1:12:24,  2.04it/s] 17%|█▋        | 1837/10714 [39:41<1:12:23,  2.04it/s] 17%|█▋        | 1838/10714 [39:42<1:12:21,  2.04it/s] 17%|█▋        | 1839/10714 [39:42<1:12:26,  2.04it/s] 17%|█▋        | 1840/10714 [39:43<1:12:31,  2.04it/s] 17%|█▋        | 1841/10714 [39:43<1:12:30,  2.04it/s] 17%|█▋        | 1842/10714 [39:44<1:12:27,  2.04it/s] 17%|█▋        | 1843/10714 [39:44<1:12:26,  2.04it/s] 17%|█▋        | 1844/10714 [39:45<1:12:28,  2.04it/s] 17%|█▋        | 1845/10714 [39:45<1:12:26,  2.04it/s] 17%|█▋        | 1846/10714 [39:46<1:12:22,  2.04it/s] 17%|█▋        | 1847/10714 [39:46<1:12:17,  2.04it/s] 17%|█▋        | 1848/10714 [39:47<1:12:21,  2.04it/s] 17%|█▋        | 1849/10714 [39:47<1:12:25,  2.04it/s] 17%|█▋        | 1850/10714 [39:48<1:12:22,  2.04it/s]{'loss': 3.8526, 'grad_norm': 0.21657365560531616, 'learning_rate': 0.0009840214308641224, 'epoch': 0.17}                                                      
- 17%|█▋        | 1850/10714 [39:48<1:12:22,  2.04it/s] 17%|█▋        | 1851/10714 [39:48<1:12:32,  2.04it/s] 17%|█▋        | 1852/10714 [39:49<1:12:27,  2.04it/s] 17%|█▋        | 1853/10714 [39:49<1:12:24,  2.04it/s] 17%|█▋        | 1854/10714 [39:50<1:12:19,  2.04it/s] 17%|█▋        | 1855/10714 [39:50<1:12:19,  2.04it/s] 17%|█▋        | 1856/10714 [39:51<1:12:27,  2.04it/s] 17%|█▋        | 1857/10714 [39:51<1:12:20,  2.04it/s] 17%|█▋        | 1858/10714 [39:52<1:12:14,  2.04it/s] 17%|█▋        | 1859/10714 [39:52<1:12:21,  2.04it/s] 17%|█▋        | 1860/10714 [39:53<1:12:22,  2.04it/s] 17%|█▋        | 1861/10714 [39:53<1:12:18,  2.04it/s] 17%|█▋        | 1862/10714 [39:54<1:12:10,  2.04it/s] 17%|█▋        | 1863/10714 [39:54<1:12:08,  2.04it/s] 17%|█▋        | 1864/10714 [39:55<1:12:09,  2.04it/s] 17%|█▋        | 1865/10714 [39:55<1:12:11,  2.04it/s] 17%|█▋        | 1866/10714 [39:56<1:12:09,  2.04it/s] 17%|█▋        | 1867/10714 [39:56<1:12:04,  2.05it/s] 17%|█▋        | 1868/10714 [39:57<1:12:11,  2.04it/s] 17%|█▋        | 1869/10714 [39:57<1:12:14,  2.04it/s] 17%|█▋        | 1870/10714 [39:58<1:12:08,  2.04it/s] 17%|█▋        | 1871/10714 [39:58<1:12:05,  2.04it/s] 17%|█▋        | 1872/10714 [39:59<1:12:01,  2.05it/s] 17%|█▋        | 1873/10714 [39:59<1:12:00,  2.05it/s] 17%|█▋        | 1874/10714 [40:00<1:12:05,  2.04it/s] 18%|█▊        | 1875/10714 [40:00<1:12:10,  2.04it/s]                                                      {'loss': 3.8407, 'grad_norm': 0.22392721474170685, 'learning_rate': 0.0009829839890837936, 'epoch': 0.18}
- 18%|█▊        | 1875/10714 [40:00<1:12:10,  2.04it/s] 18%|█▊        | 1876/10714 [40:01<1:12:10,  2.04it/s] 18%|█▊        | 1877/10714 [40:01<1:12:09,  2.04it/s] 18%|█▊        | 1878/10714 [40:02<1:12:10,  2.04it/s] 18%|█▊        | 1879/10714 [40:02<1:12:07,  2.04it/s] 18%|█▊        | 1880/10714 [40:03<1:12:04,  2.04it/s] 18%|█▊        | 1881/10714 [40:03<1:12:02,  2.04it/s] 18%|█▊        | 1882/10714 [40:04<1:12:03,  2.04it/s] 18%|█▊        | 1883/10714 [40:04<1:12:07,  2.04it/s] 18%|█▊        | 1884/10714 [40:05<1:12:06,  2.04it/s] 18%|█▊        | 1885/10714 [40:05<1:12:05,  2.04it/s] 18%|█▊        | 1886/10714 [40:05<1:12:10,  2.04it/s] 18%|█▊        | 1887/10714 [40:06<1:12:08,  2.04it/s] 18%|█▊        | 1888/10714 [40:06<1:12:03,  2.04it/s] 18%|█▊        | 1889/10714 [40:07<1:12:03,  2.04it/s] 18%|█▊        | 1890/10714 [40:07<1:12:18,  2.03it/s] 18%|█▊        | 1891/10714 [40:08<1:12:13,  2.04it/s] 18%|█▊        | 1892/10714 [40:08<1:12:08,  2.04it/s] 18%|█▊        | 1893/10714 [40:09<1:12:18,  2.03it/s] 18%|█▊        | 1894/10714 [40:09<1:12:14,  2.04it/s] 18%|█▊        | 1895/10714 [40:10<1:12:06,  2.04it/s] 18%|█▊        | 1896/10714 [40:10<1:12:06,  2.04it/s] 18%|█▊        | 1897/10714 [40:11<1:12:20,  2.03it/s] 18%|█▊        | 1898/10714 [40:11<1:12:07,  2.04it/s] 18%|█▊        | 1899/10714 [40:12<1:12:02,  2.04it/s] 18%|█▊        | 1900/10714 [40:12<1:11:59,  2.04it/s]{'loss': 3.8507, 'grad_norm': 0.20922264456748962, 'learning_rate': 0.0009819145011549348, 'epoch': 0.18}                                                      
- 18%|█▊        | 1900/10714 [40:12<1:11:59,  2.04it/s] 18%|█▊        | 1901/10714 [40:13<1:12:02,  2.04it/s] 18%|█▊        | 1902/10714 [40:13<1:11:57,  2.04it/s] 18%|█▊        | 1903/10714 [40:14<1:11:52,  2.04it/s] 18%|█▊        | 1904/10714 [40:14<1:11:52,  2.04it/s] 18%|█▊        | 1905/10714 [40:15<1:11:57,  2.04it/s] 18%|█▊        | 1906/10714 [40:15<1:11:55,  2.04it/s] 18%|█▊        | 1907/10714 [40:16<1:11:49,  2.04it/s] 18%|█▊        | 1908/10714 [40:16<1:11:53,  2.04it/s] 18%|█▊        | 1909/10714 [40:17<1:11:54,  2.04it/s] 18%|█▊        | 1910/10714 [40:17<1:11:49,  2.04it/s] 18%|█▊        | 1911/10714 [40:18<1:11:51,  2.04it/s] 18%|█▊        | 1912/10714 [40:18<1:11:50,  2.04it/s] 18%|█▊        | 1913/10714 [40:19<1:11:57,  2.04it/s] 18%|█▊        | 1914/10714 [40:19<1:11:56,  2.04it/s] 18%|█▊        | 1915/10714 [40:20<1:11:54,  2.04it/s] 18%|█▊        | 1916/10714 [40:20<1:11:56,  2.04it/s] 18%|█▊        | 1917/10714 [40:21<1:11:58,  2.04it/s] 18%|█▊        | 1918/10714 [40:21<1:12:02,  2.03it/s] 18%|█▊        | 1919/10714 [40:22<1:12:00,  2.04it/s] 18%|█▊        | 1920/10714 [40:22<1:12:00,  2.04it/s] 18%|█▊        | 1921/10714 [40:23<1:11:57,  2.04it/s] 18%|█▊        | 1922/10714 [40:23<1:11:57,  2.04it/s] 18%|█▊        | 1923/10714 [40:24<1:11:57,  2.04it/s] 18%|█▊        | 1924/10714 [40:24<1:11:52,  2.04it/s] 18%|█▊        | 1925/10714 [40:25<1:11:53,  2.04it/s]{'loss': 3.8416, 'grad_norm': 0.2160113900899887, 'learning_rate': 0.0009808130380384269, 'epoch': 0.18}                                                      
- 18%|█▊        | 1925/10714 [40:25<1:11:53,  2.04it/s] 18%|█▊        | 1926/10714 [40:25<1:12:02,  2.03it/s] 18%|█▊        | 1927/10714 [40:26<1:11:52,  2.04it/s] 18%|█▊        | 1928/10714 [40:26<1:11:51,  2.04it/s] 18%|█▊        | 1929/10714 [40:27<1:11:49,  2.04it/s] 18%|█▊        | 1930/10714 [40:27<1:11:48,  2.04it/s] 18%|█▊        | 1931/10714 [40:28<1:11:47,  2.04it/s] 18%|█▊        | 1932/10714 [40:28<1:11:40,  2.04it/s] 18%|█▊        | 1933/10714 [40:29<1:11:33,  2.05it/s] 18%|█▊        | 1934/10714 [40:29<1:11:30,  2.05it/s] 18%|█▊        | 1935/10714 [40:30<1:11:38,  2.04it/s] 18%|█▊        | 1936/10714 [40:30<1:11:43,  2.04it/s] 18%|█▊        | 1937/10714 [40:31<1:11:41,  2.04it/s] 18%|█▊        | 1938/10714 [40:31<1:11:38,  2.04it/s] 18%|█▊        | 1939/10714 [40:31<1:11:36,  2.04it/s] 18%|█▊        | 1940/10714 [40:32<1:11:36,  2.04it/s] 18%|█▊        | 1941/10714 [40:32<1:11:39,  2.04it/s] 18%|█▊        | 1942/10714 [40:33<1:11:44,  2.04it/s] 18%|█▊        | 1943/10714 [40:33<1:11:41,  2.04it/s] 18%|█▊        | 1944/10714 [40:34<1:11:43,  2.04it/s] 18%|█▊        | 1945/10714 [40:34<1:11:48,  2.04it/s] 18%|█▊        | 1946/10714 [40:35<1:11:42,  2.04it/s] 18%|█▊        | 1947/10714 [40:35<1:11:36,  2.04it/s] 18%|█▊        | 1948/10714 [40:36<1:11:33,  2.04it/s] 18%|█▊        | 1949/10714 [40:36<1:11:31,  2.04it/s] 18%|█▊        | 1950/10714 [40:37<1:11:36,  2.04it/s]                                                      {'loss': 3.8382, 'grad_norm': 0.24834927916526794, 'learning_rate': 0.0009796796728167138, 'epoch': 0.18}
- 18%|█▊        | 1950/10714 [40:37<1:11:36,  2.04it/s] 18%|█▊        | 1951/10714 [40:37<1:11:53,  2.03it/s] 18%|█▊        | 1952/10714 [40:38<1:11:58,  2.03it/s] 18%|█▊        | 1953/10714 [40:38<1:11:45,  2.03it/s] 18%|█▊        | 1954/10714 [40:39<1:11:39,  2.04it/s] 18%|█▊        | 1955/10714 [40:39<1:11:38,  2.04it/s] 18%|█▊        | 1956/10714 [40:40<1:11:34,  2.04it/s] 18%|█▊        | 1957/10714 [40:40<1:11:34,  2.04it/s] 18%|█▊        | 1958/10714 [40:41<1:11:28,  2.04it/s] 18%|█▊        | 1959/10714 [40:41<1:11:33,  2.04it/s] 18%|█▊        | 1960/10714 [40:42<1:11:29,  2.04it/s] 18%|█▊        | 1961/10714 [40:42<1:11:27,  2.04it/s] 18%|█▊        | 1962/10714 [40:43<1:11:20,  2.04it/s] 18%|█▊        | 1963/10714 [40:43<1:11:19,  2.04it/s] 18%|█▊        | 1964/10714 [40:44<1:11:24,  2.04it/s] 18%|█▊        | 1965/10714 [40:44<1:11:47,  2.03it/s] 18%|█▊        | 1966/10714 [40:45<1:11:39,  2.03it/s] 18%|█▊        | 1967/10714 [40:45<1:11:30,  2.04it/s] 18%|█▊        | 1968/10714 [40:46<1:11:24,  2.04it/s] 18%|█▊        | 1969/10714 [40:46<1:11:19,  2.04it/s] 18%|█▊        | 1970/10714 [40:47<1:11:19,  2.04it/s] 18%|█▊        | 1971/10714 [40:47<1:11:27,  2.04it/s] 18%|█▊        | 1972/10714 [40:48<1:11:22,  2.04it/s] 18%|█▊        | 1973/10714 [40:48<1:11:14,  2.04it/s] 18%|█▊        | 1974/10714 [40:49<1:11:15,  2.04it/s] 18%|█▊        | 1975/10714 [40:49<1:11:19,  2.04it/s]{'loss': 3.8283, 'grad_norm': 0.22575347125530243, 'learning_rate': 0.0009785144806889559, 'epoch': 0.18}
-                                                       18%|█▊        | 1975/10714 [40:49<1:11:19,  2.04it/s] 18%|█▊        | 1976/10714 [40:50<1:11:25,  2.04it/s] 18%|█▊        | 1977/10714 [40:50<1:11:18,  2.04it/s] 18%|█▊        | 1978/10714 [40:51<1:11:24,  2.04it/s] 18%|█▊        | 1979/10714 [40:51<1:11:23,  2.04it/s] 18%|█▊        | 1980/10714 [40:52<1:11:17,  2.04it/s] 18%|█▊        | 1981/10714 [40:52<1:11:18,  2.04it/s] 18%|█▊        | 1982/10714 [40:53<1:11:31,  2.03it/s] 19%|█▊        | 1983/10714 [40:53<1:11:24,  2.04it/s] 19%|█▊        | 1984/10714 [40:54<1:11:24,  2.04it/s] 19%|█▊        | 1985/10714 [40:54<1:11:34,  2.03it/s] 19%|█▊        | 1986/10714 [40:55<1:11:28,  2.04it/s] 19%|█▊        | 1987/10714 [40:55<1:11:19,  2.04it/s] 19%|█▊        | 1988/10714 [40:56<1:11:21,  2.04it/s] 19%|█▊        | 1989/10714 [40:56<1:11:19,  2.04it/s] 19%|█▊        | 1990/10714 [40:56<1:11:18,  2.04it/s] 19%|█▊        | 1991/10714 [40:57<1:11:16,  2.04it/s] 19%|█▊        | 1992/10714 [40:57<1:11:12,  2.04it/s] 19%|█▊        | 1993/10714 [40:58<1:11:13,  2.04it/s] 19%|█▊        | 1994/10714 [40:58<1:11:14,  2.04it/s] 19%|█▊        | 1995/10714 [40:59<1:11:08,  2.04it/s] 19%|█▊        | 1996/10714 [40:59<1:11:07,  2.04it/s] 19%|█▊        | 1997/10714 [41:00<1:11:19,  2.04it/s] 19%|█▊        | 1998/10714 [41:00<1:11:11,  2.04it/s] 19%|█▊        | 1999/10714 [41:01<1:11:09,  2.04it/s] 19%|█▊        | 2000/10714 [41:01<1:11:14,  2.04it/s]                                                      {'loss': 3.8249, 'grad_norm': 0.20921099185943604, 'learning_rate': 0.0009773175389660388, 'epoch': 0.19}
- 19%|█▊        | 2000/10714 [41:01<1:11:14,  2.04it/s] 19%|█▊        | 2001/10714 [41:02<1:12:43,  2.00it/s] 19%|█▊        | 2002/10714 [41:02<1:12:14,  2.01it/s] 19%|█▊        | 2003/10714 [41:03<1:11:56,  2.02it/s] 19%|█▊        | 2004/10714 [41:03<1:11:35,  2.03it/s] 19%|█▊        | 2005/10714 [41:04<1:11:24,  2.03it/s] 19%|█▊        | 2006/10714 [41:04<1:11:20,  2.03it/s] 19%|█▊        | 2007/10714 [41:05<1:11:15,  2.04it/s] 19%|█▊        | 2008/10714 [41:05<1:11:08,  2.04it/s] 19%|█▉        | 2009/10714 [41:06<1:11:25,  2.03it/s] 19%|█▉        | 2010/10714 [41:07<1:20:25,  1.80it/s] 19%|█▉        | 2011/10714 [41:07<1:17:37,  1.87it/s] 19%|█▉        | 2012/10714 [41:08<1:15:35,  1.92it/s] 19%|█▉        | 2013/10714 [41:08<1:14:16,  1.95it/s] 19%|█▉        | 2014/10714 [41:09<1:13:11,  1.98it/s] 19%|█▉        | 2015/10714 [41:09<1:12:32,  2.00it/s] 19%|█▉        | 2016/10714 [41:09<1:12:05,  2.01it/s] 19%|█▉        | 2017/10714 [41:10<1:11:47,  2.02it/s] 19%|█▉        | 2018/10714 [41:10<1:11:38,  2.02it/s] 19%|█▉        | 2019/10714 [41:11<1:11:23,  2.03it/s] 19%|█▉        | 2020/10714 [41:11<1:11:12,  2.03it/s] 19%|█▉        | 2021/10714 [41:12<1:11:08,  2.04it/s] 19%|█▉        | 2022/10714 [41:12<1:11:07,  2.04it/s] 19%|█▉        | 2023/10714 [41:13<1:11:03,  2.04it/s] 19%|█▉        | 2024/10714 [41:13<1:10:54,  2.04it/s] 19%|█▉        | 2025/10714 [41:14<1:10:54,  2.04it/s]{'loss': 3.8185, 'grad_norm': 0.2264080047607422, 'learning_rate': 0.0009760889270654442, 'epoch': 0.19}                                                      
- 19%|█▉        | 2025/10714 [41:14<1:10:54,  2.04it/s] 19%|█▉        | 2026/10714 [41:14<1:11:04,  2.04it/s] 19%|█▉        | 2027/10714 [41:15<1:10:55,  2.04it/s] 19%|█▉        | 2028/10714 [41:15<1:10:49,  2.04it/s] 19%|█▉        | 2029/10714 [41:16<1:10:44,  2.05it/s] 19%|█▉        | 2030/10714 [41:16<1:10:46,  2.05it/s] 19%|█▉        | 2031/10714 [41:17<1:10:50,  2.04it/s] 19%|█▉        | 2032/10714 [41:17<1:10:49,  2.04it/s] 19%|█▉        | 2033/10714 [41:18<1:10:46,  2.04it/s] 19%|█▉        | 2034/10714 [41:18<1:10:47,  2.04it/s] 19%|█▉        | 2035/10714 [41:19<1:10:51,  2.04it/s] 19%|█▉        | 2036/10714 [41:19<1:10:49,  2.04it/s] 19%|█▉        | 2037/10714 [41:20<1:10:45,  2.04it/s] 19%|█▉        | 2038/10714 [41:20<1:10:45,  2.04it/s] 19%|█▉        | 2039/10714 [41:21<1:10:47,  2.04it/s] 19%|█▉        | 2040/10714 [41:21<1:10:42,  2.04it/s] 19%|█▉        | 2041/10714 [41:22<1:10:45,  2.04it/s] 19%|█▉        | 2042/10714 [41:22<1:20:09,  1.80it/s] 19%|█▉        | 2043/10714 [41:23<1:17:22,  1.87it/s] 19%|█▉        | 2044/10714 [41:23<1:15:31,  1.91it/s] 19%|█▉        | 2045/10714 [41:24<1:14:01,  1.95it/s] 19%|█▉        | 2046/10714 [41:24<1:13:02,  1.98it/s] 19%|█▉        | 2047/10714 [41:25<1:12:31,  1.99it/s] 19%|█▉        | 2048/10714 [41:25<1:11:53,  2.01it/s] 19%|█▉        | 2049/10714 [41:26<1:11:32,  2.02it/s] 19%|█▉        | 2050/10714 [41:26<1:11:21,  2.02it/s]{'loss': 3.816, 'grad_norm': 0.21186546981334686, 'learning_rate': 0.0009748287265059815, 'epoch': 0.19}                                                      
- 19%|█▉        | 2050/10714 [41:26<1:11:21,  2.02it/s] 19%|█▉        | 2051/10714 [41:27<1:11:17,  2.03it/s] 19%|█▉        | 2052/10714 [41:27<1:11:02,  2.03it/s] 19%|█▉        | 2053/10714 [41:28<1:10:52,  2.04it/s] 19%|█▉        | 2054/10714 [41:28<1:10:49,  2.04it/s] 19%|█▉        | 2055/10714 [41:29<1:10:47,  2.04it/s] 19%|█▉        | 2056/10714 [41:29<1:10:42,  2.04it/s] 19%|█▉        | 2057/10714 [41:30<1:10:36,  2.04it/s] 19%|█▉        | 2058/10714 [41:30<1:10:33,  2.04it/s] 19%|█▉        | 2059/10714 [41:31<1:10:36,  2.04it/s] 19%|█▉        | 2060/10714 [41:31<1:10:34,  2.04it/s] 19%|█▉        | 2061/10714 [41:32<1:10:30,  2.05it/s] 19%|█▉        | 2062/10714 [41:32<1:10:25,  2.05it/s] 19%|█▉        | 2063/10714 [41:33<1:10:26,  2.05it/s] 19%|█▉        | 2064/10714 [41:33<1:10:31,  2.04it/s] 19%|█▉        | 2065/10714 [41:34<1:10:30,  2.04it/s] 19%|█▉        | 2066/10714 [41:34<1:10:31,  2.04it/s] 19%|█▉        | 2067/10714 [41:35<1:10:27,  2.05it/s] 19%|█▉        | 2068/10714 [41:35<1:10:25,  2.05it/s] 19%|█▉        | 2069/10714 [41:36<1:19:17,  1.82it/s] 19%|█▉        | 2070/10714 [41:36<1:16:36,  1.88it/s] 19%|█▉        | 2071/10714 [41:37<1:14:46,  1.93it/s] 19%|█▉        | 2072/10714 [41:37<1:13:28,  1.96it/s] 19%|█▉        | 2073/10714 [41:38<1:21:52,  1.76it/s] 19%|█▉        | 2074/10714 [41:39<1:18:27,  1.84it/s] 19%|█▉        | 2075/10714 [41:39<1:16:04,  1.89it/s]{'loss': 3.8072, 'grad_norm': 0.21472467482089996, 'learning_rate': 0.0009735370209023771, 'epoch': 0.19}                                                      
- 19%|█▉        | 2075/10714 [41:39<1:16:04,  1.89it/s] 19%|█▉        | 2076/10714 [41:39<1:14:28,  1.93it/s] 19%|█▉        | 2077/10714 [41:40<1:13:22,  1.96it/s] 19%|█▉        | 2078/10714 [41:40<1:12:27,  1.99it/s] 19%|█▉        | 2079/10714 [41:41<1:11:51,  2.00it/s] 19%|█▉        | 2080/10714 [41:41<1:11:24,  2.02it/s] 19%|█▉        | 2081/10714 [41:42<1:11:15,  2.02it/s] 19%|█▉        | 2082/10714 [41:42<1:11:01,  2.03it/s] 19%|█▉        | 2083/10714 [41:43<1:10:47,  2.03it/s] 19%|█▉        | 2084/10714 [41:43<1:10:34,  2.04it/s] 19%|█▉        | 2085/10714 [41:44<1:10:29,  2.04it/s] 19%|█▉        | 2086/10714 [41:44<1:10:31,  2.04it/s] 19%|█▉        | 2087/10714 [41:45<1:10:28,  2.04it/s] 19%|█▉        | 2088/10714 [41:45<1:10:22,  2.04it/s] 19%|█▉        | 2089/10714 [41:46<1:10:16,  2.05it/s] 20%|█▉        | 2090/10714 [41:46<1:10:13,  2.05it/s] 20%|█▉        | 2091/10714 [41:47<1:10:17,  2.04it/s] 20%|█▉        | 2092/10714 [41:47<1:10:19,  2.04it/s] 20%|█▉        | 2093/10714 [41:48<1:10:19,  2.04it/s] 20%|█▉        | 2094/10714 [41:48<1:10:17,  2.04it/s] 20%|█▉        | 2095/10714 [41:49<1:10:16,  2.04it/s] 20%|█▉        | 2096/10714 [41:49<1:10:17,  2.04it/s] 20%|█▉        | 2097/10714 [41:50<1:10:17,  2.04it/s] 20%|█▉        | 2098/10714 [41:50<1:10:23,  2.04it/s] 20%|█▉        | 2099/10714 [41:51<1:10:25,  2.04it/s] 20%|█▉        | 2100/10714 [41:51<1:10:24,  2.04it/s]{'loss': 3.8077, 'grad_norm': 0.23591168224811554, 'learning_rate': 0.0009722138959597278, 'epoch': 0.2}                                                      
- 20%|█▉        | 2100/10714 [41:51<1:10:24,  2.04it/s] 20%|█▉        | 2101/10714 [41:52<1:10:24,  2.04it/s] 20%|█▉        | 2102/10714 [41:52<1:10:19,  2.04it/s] 20%|█▉        | 2103/10714 [41:53<1:10:16,  2.04it/s] 20%|█▉        | 2104/10714 [41:53<1:10:15,  2.04it/s] 20%|█▉        | 2105/10714 [41:54<1:10:10,  2.04it/s] 20%|█▉        | 2106/10714 [41:54<1:10:12,  2.04it/s] 20%|█▉        | 2107/10714 [41:55<1:10:11,  2.04it/s] 20%|█▉        | 2108/10714 [41:55<1:10:14,  2.04it/s] 20%|█▉        | 2109/10714 [41:56<1:10:14,  2.04it/s] 20%|█▉        | 2110/10714 [41:56<1:10:13,  2.04it/s] 20%|█▉        | 2111/10714 [41:57<1:10:16,  2.04it/s] 20%|█▉        | 2112/10714 [41:57<1:10:14,  2.04it/s] 20%|█▉        | 2113/10714 [41:58<1:10:12,  2.04it/s] 20%|█▉        | 2114/10714 [41:58<1:10:11,  2.04it/s] 20%|█▉        | 2115/10714 [41:59<1:10:11,  2.04it/s] 20%|█▉        | 2116/10714 [41:59<1:10:13,  2.04it/s] 20%|█▉        | 2117/10714 [42:00<1:10:06,  2.04it/s] 20%|█▉        | 2118/10714 [42:00<1:10:06,  2.04it/s] 20%|█▉        | 2119/10714 [42:01<1:10:03,  2.04it/s] 20%|█▉        | 2120/10714 [42:01<1:10:08,  2.04it/s] 20%|█▉        | 2121/10714 [42:02<1:10:06,  2.04it/s] 20%|█▉        | 2122/10714 [42:02<1:10:03,  2.04it/s] 20%|█▉        | 2123/10714 [42:03<1:10:02,  2.04it/s] 20%|█▉        | 2124/10714 [42:03<1:10:11,  2.04it/s] 20%|█▉        | 2125/10714 [42:03<1:10:09,  2.04it/s]{'loss': 3.7984, 'grad_norm': 0.20304708182811737, 'learning_rate': 0.0009708594394678147, 'epoch': 0.2}                                                      
- 20%|█▉        | 2125/10714 [42:03<1:10:09,  2.04it/s] 20%|█▉        | 2126/10714 [42:04<1:19:36,  1.80it/s] 20%|█▉        | 2127/10714 [42:05<1:16:39,  1.87it/s] 20%|█▉        | 2128/10714 [42:05<1:14:47,  1.91it/s] 20%|█▉        | 2129/10714 [42:06<1:13:21,  1.95it/s] 20%|█▉        | 2130/10714 [42:06<1:12:19,  1.98it/s] 20%|█▉        | 2131/10714 [42:07<1:11:38,  2.00it/s] 20%|█▉        | 2132/10714 [42:07<1:11:07,  2.01it/s] 20%|█▉        | 2133/10714 [42:08<1:12:06,  1.98it/s] 20%|█▉        | 2134/10714 [42:08<1:11:25,  2.00it/s] 20%|█▉        | 2135/10714 [42:09<1:11:10,  2.01it/s] 20%|█▉        | 2136/10714 [42:09<1:10:46,  2.02it/s] 20%|█▉        | 2137/10714 [42:10<1:10:33,  2.03it/s] 20%|█▉        | 2138/10714 [42:10<1:10:26,  2.03it/s] 20%|█▉        | 2139/10714 [42:11<1:10:17,  2.03it/s] 20%|█▉        | 2140/10714 [42:11<1:10:11,  2.04it/s] 20%|█▉        | 2141/10714 [42:12<1:10:02,  2.04it/s] 20%|█▉        | 2142/10714 [42:12<1:10:00,  2.04it/s] 20%|██        | 2143/10714 [42:13<1:10:01,  2.04it/s] 20%|██        | 2144/10714 [42:13<1:10:03,  2.04it/s] 20%|██        | 2145/10714 [42:14<1:09:53,  2.04it/s] 20%|██        | 2146/10714 [42:14<1:09:51,  2.04it/s] 20%|██        | 2147/10714 [42:15<1:09:59,  2.04it/s] 20%|██        | 2148/10714 [42:15<1:10:01,  2.04it/s] 20%|██        | 2149/10714 [42:15<1:09:54,  2.04it/s] 20%|██        | 2150/10714 [42:16<1:09:58,  2.04it/s]{'loss': 3.7946, 'grad_norm': 0.21531611680984497, 'learning_rate': 0.0009694737412952768, 'epoch': 0.2}                                                      
- 20%|██        | 2150/10714 [42:16<1:09:58,  2.04it/s] 20%|██        | 2151/10714 [42:16<1:10:01,  2.04it/s] 20%|██        | 2152/10714 [42:17<1:10:00,  2.04it/s] 20%|██        | 2153/10714 [42:17<1:09:55,  2.04it/s] 20%|██        | 2154/10714 [42:18<1:09:52,  2.04it/s] 20%|██        | 2155/10714 [42:18<1:09:51,  2.04it/s] 20%|██        | 2156/10714 [42:19<1:09:55,  2.04it/s] 20%|██        | 2157/10714 [42:19<1:09:51,  2.04it/s] 20%|██        | 2158/10714 [42:20<1:09:47,  2.04it/s] 20%|██        | 2159/10714 [42:20<1:09:45,  2.04it/s] 20%|██        | 2160/10714 [42:21<1:09:46,  2.04it/s] 20%|██        | 2161/10714 [42:21<1:09:53,  2.04it/s] 20%|██        | 2162/10714 [42:22<1:09:52,  2.04it/s] 20%|██        | 2163/10714 [42:22<1:09:47,  2.04it/s] 20%|██        | 2164/10714 [42:23<1:09:46,  2.04it/s] 20%|██        | 2165/10714 [42:23<1:09:46,  2.04it/s] 20%|██        | 2166/10714 [42:24<1:09:46,  2.04it/s] 20%|██        | 2167/10714 [42:24<1:09:43,  2.04it/s] 20%|██        | 2168/10714 [42:25<1:09:40,  2.04it/s] 20%|██        | 2169/10714 [42:25<1:09:46,  2.04it/s] 20%|██        | 2170/10714 [42:26<1:09:45,  2.04it/s] 20%|██        | 2171/10714 [42:26<1:09:42,  2.04it/s] 20%|██        | 2172/10714 [42:27<1:09:44,  2.04it/s] 20%|██        | 2173/10714 [42:27<1:09:43,  2.04it/s] 20%|██        | 2174/10714 [42:28<1:09:41,  2.04it/s] 20%|██        | 2175/10714 [42:28<1:09:35,  2.04it/s]{'loss': 3.7906, 'grad_norm': 0.21518975496292114, 'learning_rate': 0.0009680568933836493, 'epoch': 0.2}
-                                                       20%|██        | 2175/10714 [42:28<1:09:35,  2.04it/s] 20%|██        | 2176/10714 [42:29<1:09:46,  2.04it/s] 20%|██        | 2177/10714 [42:29<1:09:44,  2.04it/s] 20%|██        | 2178/10714 [42:30<1:09:40,  2.04it/s] 20%|██        | 2179/10714 [42:30<1:09:33,  2.04it/s] 20%|██        | 2180/10714 [42:31<1:09:31,  2.05it/s] 20%|██        | 2181/10714 [42:31<1:09:27,  2.05it/s] 20%|██        | 2182/10714 [42:32<1:09:28,  2.05it/s] 20%|██        | 2183/10714 [42:32<1:09:32,  2.04it/s] 20%|██        | 2184/10714 [42:33<1:09:31,  2.04it/s] 20%|██        | 2185/10714 [42:33<1:09:31,  2.04it/s] 20%|██        | 2186/10714 [42:34<1:09:29,  2.05it/s] 20%|██        | 2187/10714 [42:34<1:09:36,  2.04it/s] 20%|██        | 2188/10714 [42:35<1:09:35,  2.04it/s] 20%|██        | 2189/10714 [42:35<1:09:34,  2.04it/s] 20%|██        | 2190/10714 [42:36<1:09:27,  2.05it/s] 20%|██        | 2191/10714 [42:36<1:09:23,  2.05it/s] 20%|██        | 2192/10714 [42:37<1:09:28,  2.04it/s] 20%|██        | 2193/10714 [42:37<1:09:29,  2.04it/s] 20%|██        | 2194/10714 [42:38<1:09:26,  2.04it/s] 20%|██        | 2195/10714 [42:38<1:09:25,  2.05it/s] 20%|██        | 2196/10714 [42:39<1:09:26,  2.04it/s] 21%|██        | 2197/10714 [42:39<1:09:30,  2.04it/s] 21%|██        | 2198/10714 [42:39<1:09:26,  2.04it/s] 21%|██        | 2199/10714 [42:40<1:09:22,  2.05it/s] 21%|██        | 2200/10714 [42:40<1:09:20,  2.05it/s]{'loss': 3.7774, 'grad_norm': 0.2122318297624588, 'learning_rate': 0.0009666089897412632, 'epoch': 0.21}                                                      
- 21%|██        | 2200/10714 [42:40<1:09:20,  2.05it/s] 21%|██        | 2201/10714 [42:41<1:09:27,  2.04it/s] 21%|██        | 2202/10714 [42:41<1:09:27,  2.04it/s] 21%|██        | 2203/10714 [42:42<1:09:23,  2.04it/s] 21%|██        | 2204/10714 [42:42<1:09:22,  2.04it/s] 21%|██        | 2205/10714 [42:43<1:09:18,  2.05it/s] 21%|██        | 2206/10714 [42:43<1:09:26,  2.04it/s] 21%|██        | 2207/10714 [42:44<1:09:27,  2.04it/s] 21%|██        | 2208/10714 [42:44<1:09:25,  2.04it/s] 21%|██        | 2209/10714 [42:45<1:09:20,  2.04it/s] 21%|██        | 2210/10714 [42:45<1:09:19,  2.04it/s] 21%|██        | 2211/10714 [42:46<1:09:18,  2.04it/s] 21%|██        | 2212/10714 [42:46<1:09:13,  2.05it/s] 21%|██        | 2213/10714 [42:47<1:09:19,  2.04it/s] 21%|██        | 2214/10714 [42:47<1:09:21,  2.04it/s] 21%|██        | 2215/10714 [42:48<1:09:22,  2.04it/s] 21%|██        | 2216/10714 [42:48<1:09:17,  2.04it/s] 21%|██        | 2217/10714 [42:49<1:09:14,  2.05it/s] 21%|██        | 2218/10714 [42:49<1:09:08,  2.05it/s] 21%|██        | 2219/10714 [42:50<1:09:10,  2.05it/s] 21%|██        | 2220/10714 [42:50<1:09:15,  2.04it/s] 21%|██        | 2221/10714 [42:51<1:09:16,  2.04it/s] 21%|██        | 2222/10714 [42:51<1:09:11,  2.05it/s] 21%|██        | 2223/10714 [42:52<1:09:09,  2.05it/s] 21%|██        | 2224/10714 [42:52<1:09:07,  2.05it/s] 21%|██        | 2225/10714 [42:53<1:09:06,  2.05it/s]                                                      {'loss': 3.7852, 'grad_norm': 0.21566569805145264, 'learning_rate': 0.0009651301264370074, 'epoch': 0.21}
- 21%|██        | 2225/10714 [42:53<1:09:06,  2.05it/s] 21%|██        | 2226/10714 [42:53<1:09:12,  2.04it/s] 21%|██        | 2227/10714 [42:54<1:09:09,  2.05it/s] 21%|██        | 2228/10714 [42:54<1:09:12,  2.04it/s] 21%|██        | 2229/10714 [42:55<1:09:12,  2.04it/s] 21%|██        | 2230/10714 [42:55<1:09:16,  2.04it/s] 21%|██        | 2231/10714 [42:56<1:09:13,  2.04it/s] 21%|██        | 2232/10714 [42:56<1:09:11,  2.04it/s] 21%|██        | 2233/10714 [42:57<1:09:11,  2.04it/s] 21%|██        | 2234/10714 [42:57<1:09:28,  2.03it/s] 21%|██        | 2235/10714 [42:58<1:09:23,  2.04it/s] 21%|██        | 2236/10714 [42:58<1:09:19,  2.04it/s] 21%|██        | 2237/10714 [42:59<1:09:14,  2.04it/s] 21%|██        | 2238/10714 [42:59<1:09:10,  2.04it/s] 21%|██        | 2239/10714 [43:00<1:09:13,  2.04it/s] 21%|██        | 2240/10714 [43:00<1:09:18,  2.04it/s] 21%|██        | 2241/10714 [43:01<1:09:13,  2.04it/s] 21%|██        | 2242/10714 [43:01<1:09:06,  2.04it/s] 21%|██        | 2243/10714 [43:02<1:08:59,  2.05it/s] 21%|██        | 2244/10714 [43:02<1:09:06,  2.04it/s] 21%|██        | 2245/10714 [43:02<1:09:07,  2.04it/s] 21%|██        | 2246/10714 [43:03<1:09:03,  2.04it/s] 21%|██        | 2247/10714 [43:03<1:08:57,  2.05it/s] 21%|██        | 2248/10714 [43:04<1:09:04,  2.04it/s] 21%|██        | 2249/10714 [43:04<1:09:05,  2.04it/s] 21%|██        | 2250/10714 [43:05<1:08:59,  2.04it/s]{'loss': 3.7738, 'grad_norm': 0.21809162199497223, 'learning_rate': 0.0009636204015939545, 'epoch': 0.21}
-                                                       21%|██        | 2250/10714 [43:05<1:08:59,  2.04it/s] 21%|██        | 2251/10714 [43:05<1:08:58,  2.04it/s] 21%|██        | 2252/10714 [43:06<1:08:54,  2.05it/s] 21%|██        | 2253/10714 [43:06<1:08:57,  2.05it/s] 21%|██        | 2254/10714 [43:07<1:08:59,  2.04it/s] 21%|██        | 2255/10714 [43:07<1:08:54,  2.05it/s] 21%|██        | 2256/10714 [43:08<1:08:53,  2.05it/s] 21%|██        | 2257/10714 [43:08<1:08:54,  2.05it/s] 21%|██        | 2258/10714 [43:09<1:08:56,  2.04it/s] 21%|██        | 2259/10714 [43:09<1:08:57,  2.04it/s] 21%|██        | 2260/10714 [43:10<1:08:54,  2.04it/s] 21%|██        | 2261/10714 [43:10<1:08:50,  2.05it/s] 21%|██        | 2262/10714 [43:11<1:08:58,  2.04it/s] 21%|██        | 2263/10714 [43:11<1:08:56,  2.04it/s] 21%|██        | 2264/10714 [43:12<1:08:54,  2.04it/s] 21%|██        | 2265/10714 [43:12<1:08:56,  2.04it/s] 21%|██        | 2266/10714 [43:13<1:08:54,  2.04it/s] 21%|██        | 2267/10714 [43:13<1:08:52,  2.04it/s] 21%|██        | 2268/10714 [43:14<1:08:57,  2.04it/s] 21%|██        | 2269/10714 [43:14<1:08:49,  2.05it/s] 21%|██        | 2270/10714 [43:15<1:08:48,  2.05it/s] 21%|██        | 2271/10714 [43:15<1:08:48,  2.05it/s] 21%|██        | 2272/10714 [43:16<1:08:52,  2.04it/s] 21%|██        | 2273/10714 [43:16<1:08:49,  2.04it/s] 21%|██        | 2274/10714 [43:17<1:08:47,  2.04it/s] 21%|██        | 2275/10714 [43:17<1:08:44,  2.05it/s]                                                      {'loss': 3.7676, 'grad_norm': 0.21162736415863037, 'learning_rate': 0.0009620799153828506, 'epoch': 0.21}
- 21%|██        | 2275/10714 [43:17<1:08:44,  2.05it/s] 21%|██        | 2276/10714 [43:18<1:08:50,  2.04it/s] 21%|██▏       | 2277/10714 [43:18<1:08:52,  2.04it/s] 21%|██▏       | 2278/10714 [43:19<1:08:47,  2.04it/s] 21%|██▏       | 2279/10714 [43:19<1:08:43,  2.05it/s] 21%|██▏       | 2280/10714 [43:20<1:08:41,  2.05it/s] 21%|██▏       | 2281/10714 [43:20<1:08:43,  2.05it/s] 21%|██▏       | 2282/10714 [43:21<1:08:46,  2.04it/s] 21%|██▏       | 2283/10714 [43:21<1:08:47,  2.04it/s] 21%|██▏       | 2284/10714 [43:22<1:08:43,  2.04it/s] 21%|██▏       | 2285/10714 [43:22<1:08:39,  2.05it/s] 21%|██▏       | 2286/10714 [43:23<1:08:42,  2.04it/s] 21%|██��       | 2287/10714 [43:23<1:08:43,  2.04it/s] 21%|██▏       | 2288/10714 [43:24<1:08:42,  2.04it/s] 21%|██▏       | 2289/10714 [43:24<1:08:40,  2.04it/s] 21%|██▏       | 2290/10714 [43:24<1:08:44,  2.04it/s] 21%|██▏       | 2291/10714 [43:25<1:08:46,  2.04it/s] 21%|██▏       | 2292/10714 [43:25<1:08:51,  2.04it/s] 21%|██▏       | 2293/10714 [43:26<1:08:46,  2.04it/s] 21%|██▏       | 2294/10714 [43:26<1:08:48,  2.04it/s] 21%|██▏       | 2295/10714 [43:27<1:08:43,  2.04it/s] 21%|██▏       | 2296/10714 [43:27<1:08:42,  2.04it/s] 21%|██▏       | 2297/10714 [43:28<1:08:39,  2.04it/s] 21%|██▏       | 2298/10714 [43:28<1:08:41,  2.04it/s] 21%|██▏       | 2299/10714 [43:29<1:09:24,  2.02it/s] 21%|██▏       | 2300/10714 [43:29<1:09:06,  2.03it/s]{'loss': 3.774, 'grad_norm': 0.2070765346288681, 'learning_rate': 0.0009605087700154691, 'epoch': 0.21}                                                      
- 21%|██▏       | 2300/10714 [43:29<1:09:06,  2.03it/s] 21%|██▏       | 2301/10714 [43:30<1:09:06,  2.03it/s] 21%|██▏       | 2302/10714 [43:30<1:08:57,  2.03it/s] 21%|██▏       | 2303/10714 [43:31<1:08:52,  2.04it/s] 22%|██▏       | 2304/10714 [43:31<1:08:44,  2.04it/s] 22%|██▏       | 2305/10714 [43:32<1:08:37,  2.04it/s] 22%|██▏       | 2306/10714 [43:32<1:08:38,  2.04it/s] 22%|██▏       | 2307/10714 [43:33<1:08:41,  2.04it/s] 22%|██▏       | 2308/10714 [43:33<1:08:39,  2.04it/s] 22%|██▏       | 2309/10714 [43:34<1:08:39,  2.04it/s] 22%|██▏       | 2310/10714 [43:34<1:08:38,  2.04it/s] 22%|██▏       | 2311/10714 [43:35<1:08:41,  2.04it/s] 22%|██▏       | 2312/10714 [43:35<1:08:38,  2.04it/s] 22%|██▏       | 2313/10714 [43:36<1:08:35,  2.04it/s] 22%|██▏       | 2314/10714 [43:36<1:08:33,  2.04it/s] 22%|██▏       | 2315/10714 [43:37<1:08:36,  2.04it/s] 22%|██▏       | 2316/10714 [43:37<1:08:35,  2.04it/s] 22%|██▏       | 2317/10714 [43:38<1:08:33,  2.04it/s] 22%|██▏       | 2318/10714 [43:38<1:08:35,  2.04it/s] 22%|██▏       | 2319/10714 [43:39<1:08:30,  2.04it/s] 22%|██▏       | 2320/10714 [43:39<1:08:24,  2.04it/s] 22%|██▏       | 2321/10714 [43:40<1:08:21,  2.05it/s] 22%|██▏       | 2322/10714 [43:40<1:08:24,  2.04it/s] 22%|██▏       | 2323/10714 [43:41<1:08:27,  2.04it/s] 22%|██▏       | 2324/10714 [43:41<1:08:25,  2.04it/s] 22%|██▏       | 2325/10714 [43:42<1:08:20,  2.05it/s]{'loss': 3.7646, 'grad_norm': 0.20280523598194122, 'learning_rate': 0.0009589070697378282, 'epoch': 0.22}
-                                                       22%|██▏       | 2325/10714 [43:42<1:08:20,  2.05it/s] 22%|██▏       | 2326/10714 [43:42<1:08:26,  2.04it/s] 22%|██▏       | 2327/10714 [43:43<1:08:32,  2.04it/s] 22%|██▏       | 2328/10714 [43:43<1:08:28,  2.04it/s] 22%|██▏       | 2329/10714 [43:44<1:08:22,  2.04it/s] 22%|██▏       | 2330/10714 [43:44<1:08:18,  2.05it/s] 22%|██▏       | 2331/10714 [43:45<1:08:17,  2.05it/s] 22%|██▏       | 2332/10714 [43:45<1:08:27,  2.04it/s] 22%|██▏       | 2333/10714 [43:46<1:08:22,  2.04it/s] 22%|██▏       | 2334/10714 [43:46<1:08:19,  2.04it/s] 22%|██▏       | 2335/10714 [43:47<1:08:15,  2.05it/s] 22%|██▏       | 2336/10714 [43:47<1:08:21,  2.04it/s] 22%|██▏       | 2337/10714 [43:48<1:08:19,  2.04it/s] 22%|██▏       | 2338/10714 [43:48<1:08:17,  2.04it/s] 22%|██▏       | 2339/10714 [43:49<1:08:13,  2.05it/s] 22%|██▏       | 2340/10714 [43:49<1:08:10,  2.05it/s] 22%|██▏       | 2341/10714 [43:49<1:08:09,  2.05it/s] 22%|██▏       | 2342/10714 [43:50<1:08:14,  2.04it/s] 22%|██▏       | 2343/10714 [43:50<1:08:19,  2.04it/s] 22%|██▏       | 2344/10714 [43:51<1:08:19,  2.04it/s] 22%|██▏       | 2345/10714 [43:51<1:08:16,  2.04it/s] 22%|██▏       | 2346/10714 [43:52<1:08:14,  2.04it/s] 22%|██▏       | 2347/10714 [43:52<1:08:15,  2.04it/s] 22%|██▏       | 2348/10714 [43:53<1:08:14,  2.04it/s] 22%|██▏       | 2349/10714 [43:53<1:08:13,  2.04it/s] 22%|██▏       | 2350/10714 [43:54<1:08:15,  2.04it/s]                                                      {'loss': 3.7579, 'grad_norm': 0.21515728533267975, 'learning_rate': 0.0009572749208232748, 'epoch': 0.22}
- 22%|██▏       | 2350/10714 [43:54<1:08:15,  2.04it/s] 22%|██▏       | 2351/10714 [43:54<1:08:17,  2.04it/s] 22%|██▏       | 2352/10714 [43:55<1:08:17,  2.04it/s] 22%|██▏       | 2353/10714 [43:55<1:08:15,  2.04it/s] 22%|██▏       | 2354/10714 [43:56<1:08:14,  2.04it/s] 22%|██▏       | 2355/10714 [43:56<1:08:14,  2.04it/s] 22%|██▏       | 2356/10714 [43:57<1:08:12,  2.04it/s] 22%|██▏       | 2357/10714 [43:57<1:08:05,  2.05it/s] 22%|██▏       | 2358/10714 [43:58<1:08:06,  2.04it/s] 22%|██▏       | 2359/10714 [43:58<1:08:11,  2.04it/s] 22%|█��▏       | 2360/10714 [43:59<1:08:54,  2.02it/s] 22%|██▏       | 2361/10714 [43:59<1:09:36,  2.00it/s] 22%|██▏       | 2362/10714 [44:00<1:09:08,  2.01it/s] 22%|██▏       | 2363/10714 [44:00<1:08:46,  2.02it/s] 22%|██▏       | 2364/10714 [44:01<1:08:36,  2.03it/s] 22%|██▏       | 2365/10714 [44:01<1:08:26,  2.03it/s] 22%|██▏       | 2366/10714 [44:02<1:08:16,  2.04it/s] 22%|██▏       | 2367/10714 [44:02<1:08:12,  2.04it/s] 22%|██▏       | 2368/10714 [44:03<1:09:05,  2.01it/s] 22%|██▏       | 2369/10714 [44:03<1:09:52,  1.99it/s] 22%|██▏       | 2370/10714 [44:04<1:09:17,  2.01it/s] 22%|██▏       | 2371/10714 [44:04<1:09:47,  1.99it/s] 22%|██▏       | 2372/10714 [44:05<1:09:14,  2.01it/s] 22%|██▏       | 2373/10714 [44:05<1:09:33,  2.00it/s] 22%|██▏       | 2374/10714 [44:06<1:09:05,  2.01it/s] 22%|██▏       | 2375/10714 [44:06<1:08:49,  2.02it/s]                                                      {'loss': 3.7632, 'grad_norm': 0.20177841186523438, 'learning_rate': 0.000955612431565433, 'epoch': 0.22}
- 22%|██▏       | 2375/10714 [44:06<1:08:49,  2.02it/s] 22%|██▏       | 2376/10714 [44:07<1:08:58,  2.01it/s] 22%|██▏       | 2377/10714 [44:07<1:08:46,  2.02it/s] 22%|██▏       | 2378/10714 [44:08<1:08:31,  2.03it/s] 22%|██▏       | 2379/10714 [44:08<1:08:25,  2.03it/s] 22%|██▏       | 2380/10714 [44:09<1:08:25,  2.03it/s] 22%|██▏       | 2381/10714 [44:09<1:08:19,  2.03it/s] 22%|██▏       | 2382/10714 [44:10<1:08:11,  2.04it/s] 22%|██▏       | 2383/10714 [44:10<1:08:08,  2.04it/s] 22%|██▏       | 2384/10714 [44:11<1:11:57,  1.93it/s] 22%|██▏       | 2385/10714 [44:11<1:10:43,  1.96it/s] 22%|██▏       | 2386/10714 [44:12<1:11:42,  1.94it/s] 22%|██▏       | 2387/10714 [44:12<1:10:31,  1.97it/s] 22%|██▏       | 2388/10714 [44:13<1:09:42,  1.99it/s] 22%|██▏       | 2389/10714 [44:13<1:10:19,  1.97it/s] 22%|██▏       | 2390/10714 [44:14<1:09:29,  2.00it/s] 22%|██▏       | 2391/10714 [44:14<1:08:55,  2.01it/s] 22%|██▏       | 2392/10714 [44:15<1:08:34,  2.02it/s] 22%|██▏       | 2393/10714 [44:15<1:09:26,  2.00it/s] 22%|██▏       | 2394/10714 [44:16<1:08:54,  2.01it/s] 22%|██▏       | 2395/10714 [44:16<1:08:32,  2.02it/s] 22%|██▏       | 2396/10714 [44:17<1:09:34,  1.99it/s] 22%|██▏       | 2397/10714 [44:17<1:08:59,  2.01it/s] 22%|██▏       | 2398/10714 [44:18<1:08:42,  2.02it/s] 22%|██▏       | 2399/10714 [44:18<1:08:26,  2.02it/s] 22%|██▏       | 2400/10714 [44:19<1:08:20,  2.03it/s]{'loss': 3.7373, 'grad_norm': 0.21332736313343048, 'learning_rate': 0.0009539197122710185, 'epoch': 0.22}
-                                                       22%|██▏       | 2400/10714 [44:19<1:08:20,  2.03it/s] 22%|██▏       | 2401/10714 [44:19<1:08:11,  2.03it/s] 22%|██▏       | 2402/10714 [44:20<1:07:58,  2.04it/s] 22%|██▏       | 2403/10714 [44:20<1:07:56,  2.04it/s] 22%|██▏       | 2404/10714 [44:21<1:07:56,  2.04it/s] 22%|██▏       | 2405/10714 [44:21<1:07:51,  2.04it/s] 22%|██▏       | 2406/10714 [44:22<1:07:48,  2.04it/s] 22%|██▏       | 2407/10714 [44:22<1:08:52,  2.01it/s] 22%|██▏       | 2408/10714 [44:23<1:09:33,  1.99it/s] 22%|██▏       | 2409/10714 [44:23<1:09:00,  2.01it/s] 22%|██▏       | 2410/10714 [44:24<1:08:41,  2.01it/s] 23%|██▎       | 2411/10714 [44:24<1:08:23,  2.02it/s] 23%|██▎       | 2412/10714 [44:25<1:09:04,  2.00it/s] 23%|██▎       | 2413/10714 [44:25<1:09:46,  1.98it/s] 23%|██▎       | 2414/10714 [44:26<1:09:09,  2.00it/s] 23%|██▎       | 2415/10714 [44:26<1:08:39,  2.01it/s] 23%|██▎       | 2416/10714 [44:27<1:08:58,  2.01it/s] 23%|██▎       | 2417/10714 [44:27<1:08:34,  2.02it/s] 23%|██▎       | 2418/10714 [44:28<1:09:21,  1.99it/s] 23%|██▎       | 2419/10714 [44:28<1:08:46,  2.01it/s] 23%|██▎       | 2420/10714 [44:29<1:08:26,  2.02it/s] 23%|██▎       | 2421/10714 [44:29<1:08:11,  2.03it/s] 23%|██▎       | 2422/10714 [44:30<1:08:03,  2.03it/s] 23%|██▎       | 2423/10714 [44:30<1:07:53,  2.04it/s] 23%|██▎       | 2424/10714 [44:31<1:07:43,  2.04it/s] 23%|██▎       | 2425/10714 [44:31<1:08:21,  2.02it/s]                                                      {'loss': 3.7326, 'grad_norm': 0.21192049980163574, 'learning_rate': 0.0009521968752525207, 'epoch': 0.23}
- 23%|██▎       | 2425/10714 [44:31<1:08:21,  2.02it/s] 23%|██▎       | 2426/10714 [44:32<1:08:11,  2.03it/s] 23%|██▎       | 2427/10714 [44:32<1:08:01,  2.03it/s] 23%|██▎       | 2428/10714 [44:33<1:07:56,  2.03it/s] 23%|██▎       | 2429/10714 [44:33<1:08:44,  2.01it/s] 23%|██▎       | 2430/10714 [44:34<1:08:24,  2.02it/s] 23%|██▎       | 2431/10714 [44:34<1:09:17,  1.99it/s] 23%|██▎       | 2432/10714 [44:35<1:08:43,  2.01it/s] 23%|���█▎       | 2433/10714 [44:35<1:08:26,  2.02it/s] 23%|██▎       | 2434/10714 [44:36<1:09:59,  1.97it/s] 23%|██▎       | 2435/10714 [44:36<1:09:12,  1.99it/s] 23%|██▎       | 2436/10714 [44:37<1:08:38,  2.01it/s] 23%|██▎       | 2437/10714 [44:37<1:08:16,  2.02it/s] 23%|██▎       | 2438/10714 [44:38<1:08:03,  2.03it/s] 23%|██▎       | 2439/10714 [44:38<1:07:57,  2.03it/s] 23%|██▎       | 2440/10714 [44:39<1:07:45,  2.04it/s] 23%|██▎       | 2441/10714 [44:39<1:07:35,  2.04it/s] 23%|██▎       | 2442/10714 [44:40<1:07:34,  2.04it/s] 23%|██▎       | 2443/10714 [44:40<1:07:38,  2.04it/s] 23%|██▎       | 2444/10714 [44:40<1:07:31,  2.04it/s] 23%|██▎       | 2445/10714 [44:41<1:09:04,  2.00it/s] 23%|██▎       | 2446/10714 [44:42<1:08:30,  2.01it/s] 23%|██▎       | 2447/10714 [44:42<1:19:23,  1.74it/s] 23%|██▎       | 2448/10714 [44:43<1:15:50,  1.82it/s] 23%|██▎       | 2449/10714 [44:43<1:13:16,  1.88it/s] 23%|██▎       | 2450/10714 [44:44<1:11:33,  1.92it/s]                                                      {'loss': 3.7353, 'grad_norm': 0.21505972743034363, 'learning_rate': 0.0009504440348207492, 'epoch': 0.23}
- 23%|██▎       | 2450/10714 [44:44<1:11:33,  1.92it/s] 23%|██▎       | 2451/10714 [44:44<1:10:23,  1.96it/s] 23%|██▎       | 2452/10714 [44:45<1:09:31,  1.98it/s] 23%|██▎       | 2453/10714 [44:45<1:08:58,  2.00it/s] 23%|██▎       | 2454/10714 [44:46<1:08:29,  2.01it/s] 23%|██▎       | 2455/10714 [44:46<1:08:03,  2.02it/s] 23%|██▎       | 2456/10714 [44:47<1:18:12,  1.76it/s] 23%|██▎       | 2457/10714 [44:47<1:14:59,  1.84it/s] 23%|██▎       | 2458/10714 [44:48<1:12:41,  1.89it/s] 23%|██▎       | 2459/10714 [44:49<1:22:21,  1.67it/s] 23%|██▎       | 2460/10714 [44:49<1:18:36,  1.75it/s] 23%|██▎       | 2461/10714 [44:50<1:16:00,  1.81it/s] 23%|██▎       | 2462/10714 [44:50<1:13:24,  1.87it/s] 23%|██▎       | 2463/10714 [44:51<1:11:32,  1.92it/s] 23%|██▎       | 2464/10714 [44:51<1:10:14,  1.96it/s] 23%|██▎       | 2465/10714 [44:52<1:09:24,  1.98it/s] 23%|██▎       | 2466/10714 [44:52<1:08:43,  2.00it/s] 23%|██▎       | 2467/10714 [44:53<1:08:15,  2.01it/s] 23%|██▎       | 2468/10714 [44:53<1:08:00,  2.02it/s] 23%|██▎       | 2469/10714 [44:54<1:07:48,  2.03it/s] 23%|██▎       | 2470/10714 [44:54<1:08:26,  2.01it/s] 23%|██▎       | 2471/10714 [44:55<1:08:03,  2.02it/s] 23%|██▎       | 2472/10714 [44:55<1:07:49,  2.03it/s] 23%|██▎       | 2473/10714 [44:56<1:07:37,  2.03it/s] 23%|██▎       | 2474/10714 [44:56<1:07:30,  2.03it/s] 23%|██▎       | 2475/10714 [44:57<1:07:20,  2.04it/s]{'loss': 3.751, 'grad_norm': 0.22587819397449493, 'learning_rate': 0.0009486613072772504, 'epoch': 0.23}                                                      
- 23%|██▎       | 2475/10714 [44:57<1:07:20,  2.04it/s] 23%|██▎       | 2476/10714 [44:57<1:08:21,  2.01it/s] 23%|██▎       | 2477/10714 [44:58<1:08:52,  1.99it/s] 23%|██▎       | 2478/10714 [44:58<1:08:19,  2.01it/s] 23%|██▎       | 2479/10714 [44:59<1:07:57,  2.02it/s] 23%|██▎       | 2480/10714 [44:59<1:07:42,  2.03it/s] 23%|██▎       | 2481/10714 [45:00<1:07:32,  2.03it/s] 23%|██▎       | 2482/10714 [45:00<1:07:26,  2.03it/s] 23%|██▎       | 2483/10714 [45:01<1:07:24,  2.04it/s] 23%|██▎       | 2484/10714 [45:01<1:07:19,  2.04it/s] 23%|██▎       | 2485/10714 [45:02<1:10:19,  1.95it/s] 23%|██▎       | 2486/10714 [45:02<1:09:19,  1.98it/s] 23%|██▎       | 2487/10714 [45:03<1:08:34,  2.00it/s] 23%|██▎       | 2488/10714 [45:03<1:08:07,  2.01it/s] 23%|██▎       | 2489/10714 [45:04<1:07:47,  2.02it/s] 23%|██▎       | 2490/10714 [45:04<1:07:34,  2.03it/s] 23%|██▎       | 2491/10714 [45:05<1:08:19,  2.01it/s] 23%|██▎       | 2492/10714 [45:05<1:07:49,  2.02it/s] 23%|██▎       | 2493/10714 [45:06<1:08:36,  2.00it/s] 23%|██▎       | 2494/10714 [45:06<1:08:11,  2.01it/s] 23%|██▎       | 2495/10714 [45:07<1:07:50,  2.02it/s] 23%|██▎       | 2496/10714 [45:07<1:07:34,  2.03it/s] 23%|██▎       | 2497/10714 [45:07<1:07:20,  2.03it/s] 23%|██▎       | 2498/10714 [45:08<1:07:13,  2.04it/s] 23%|██▎       | 2499/10714 [45:08<1:07:08,  2.04it/s] 23%|██▎       | 2500/10714 [45:09<1:07:03,  2.04it/s]                                                      {'loss': 3.7425, 'grad_norm': 0.2130030244588852, 'learning_rate': 0.0009468488109065907, 'epoch': 0.23}
- 23%|██▎       | 2500/10714 [45:09<1:07:03,  2.04it/s] 23%|██▎       | 2501/10714 [45:09<1:07:04,  2.04it/s] 23%|██▎       | 2502/10714 [45:10<1:07:02,  2.04it/s] 23%|██▎       | 2503/10714 [45:10<1:07:05,  2.04it/s] 23%|██▎       | 2504/10714 [45:11<1:07:01,  2.04it/s] 23%|██▎       | 2505/10714 [45:11<1:07:00,  2.04it/s] 23%|██▎       | 2506/10714 [45:12<1:07:56,  2.01it/s] 23%|██▎       | 2507/10714 [45:12<1:07:36,  2.02it/s] 23%|██▎       | 2508/10714 [45:13<1:07:23,  2.03it/s] 23%|██▎       | 2509/10714 [45:13<1:07:14,  2.03it/s] 23%|██▎       | 2510/10714 [45:14<1:07:12,  2.03it/s] 23%|██▎       | 2511/10714 [45:14<1:07:45,  2.02it/s] 23%|██▎       | 2512/10714 [45:15<1:07:48,  2.02it/s] 23%|██▎       | 2513/10714 [45:15<1:07:38,  2.02it/s] 23%|██▎       | 2514/10714 [45:16<1:07:25,  2.03it/s] 23%|██▎       | 2515/10714 [45:16<1:07:14,  2.03it/s] 23%|██▎       | 2516/10714 [45:17<1:07:08,  2.03it/s] 23%|██▎       | 2517/10714 [45:17<1:07:05,  2.04it/s] 24%|██▎       | 2518/10714 [45:18<1:07:44,  2.02it/s] 24%|██▎       | 2519/10714 [45:18<1:08:16,  2.00it/s] 24%|██▎       | 2520/10714 [45:19<1:07:51,  2.01it/s] 24%|██▎       | 2521/10714 [45:19<1:07:30,  2.02it/s] 24%|██▎       | 2522/10714 [45:20<1:07:16,  2.03it/s] 24%|██▎       | 2523/10714 [45:20<1:07:06,  2.03it/s] 24%|██▎       | 2524/10714 [45:21<1:07:48,  2.01it/s] 24%|██▎       | 2525/10714 [45:21<1:07:29,  2.02it/s]                                                      {'loss': 3.7383, 'grad_norm': 0.20807303488254547, 'learning_rate': 0.0009450066659685079, 'epoch': 0.24}
- 24%|██▎       | 2525/10714 [45:21<1:07:29,  2.02it/s] 24%|██▎       | 2526/10714 [45:22<1:07:21,  2.03it/s] 24%|██▎       | 2527/10714 [45:22<1:07:15,  2.03it/s] 24%|██▎       | 2528/10714 [45:23<1:07:09,  2.03it/s] 24%|██▎       | 2529/10714 [45:23<1:07:02,  2.03it/s] 24%|██▎       | 2530/10714 [45:24<1:06:57,  2.04it/s] 24%|██▎       | 2531/10714 [45:24<1:06:51,  2.04it/s] 24%|██▎       | 2532/10714 [45:25<1:06:48,  2.04it/s] 24%|██▎       | 2533/10714 [45:25<1:06:54,  2.04it/s] 24%|██▎       | 2534/10714 [45:26<1:06:52,  2.04it/s] 24%|██▎       | 2535/10714 [45:26<1:06:57,  2.04it/s] 24%|██▎       | 2536/10714 [45:27<1:06:54,  2.04it/s] 24%|██▎       | 2537/10714 [45:27<1:06:55,  2.04it/s] 24%|██▎       | 2538/10714 [45:28<1:06:52,  2.04it/s] 24%|██▎       | 2539/10714 [45:28<1:06:49,  2.04it/s] 24%|██▎       | 2540/10714 [45:29<1:06:46,  2.04it/s] 24%|██▎       | 2541/10714 [45:29<1:06:42,  2.04it/s] 24%|██▎       | 2542/10714 [45:30<1:06:41,  2.04it/s] 24%|██▎       | 2543/10714 [45:30<1:06:40,  2.04it/s] 24%|██▎       | 2544/10714 [45:31<1:06:44,  2.04it/s] 24%|██▍       | 2545/10714 [45:31<1:06:42,  2.04it/s] 24%|██▍       | 2546/10714 [45:32<1:07:32,  2.02it/s] 24%|██▍       | 2547/10714 [45:32<1:08:02,  2.00it/s] 24%|██▍       | 2548/10714 [45:33<1:07:38,  2.01it/s] 24%|██▍       | 2549/10714 [45:33<1:07:18,  2.02it/s] 24%|██▍       | 2550/10714 [45:34<1:07:08,  2.03it/s]                                                      {'loss': 3.7187, 'grad_norm': 0.2059779316186905, 'learning_rate': 0.0009431349946899319, 'epoch': 0.24}
- 24%|██▍       | 2550/10714 [45:34<1:07:08,  2.03it/s] 24%|██▍       | 2551/10714 [45:34<1:09:46,  1.95it/s] 24%|██▍       | 2552/10714 [45:35<1:08:47,  1.98it/s] 24%|██▍       | 2553/10714 [45:35<1:10:44,  1.92it/s] 24%|██▍       | 2554/10714 [45:36<1:09:30,  1.96it/s] 24%|██▍       | 2555/10714 [45:36<1:08:37,  1.98it/s] 24%|██▍       | 2556/10714 [45:37<1:08:49,  1.98it/s] 24%|██▍       | 2557/10714 [45:37<1:08:08,  1.99it/s] 24%|██▍       | 2558/10714 [45:38<1:07:42,  2.01it/s] 24%|██▍       | 2559/10714 [45:38<1:08:06,  2.00it/s] 24%|██▍       | 2560/10714 [45:39<1:07:35,  2.01it/s] 24%|██▍       | 2561/10714 [45:39<1:07:12,  2.02it/s] 24%|██▍       | 2562/10714 [45:40<1:07:00,  2.03it/s] 24%|██▍       | 2563/10714 [45:40<1:06:55,  2.03it/s] 24%|██▍       | 2564/10714 [45:41<1:06:42,  2.04it/s] 24%|██▍       | 2565/10714 [45:41<1:06:35,  2.04it/s] 24%|██▍       | 2566/10714 [45:42<1:06:32,  2.04it/s] 24%|██▍       | 2567/10714 [45:42<1:06:35,  2.04it/s] 24%|██▍       | 2568/10714 [45:43<1:06:31,  2.04it/s] 24%|██▍       | 2569/10714 [45:43<1:06:28,  2.04it/s] 24%|██▍       | 2570/10714 [45:44<1:06:27,  2.04it/s] 24%|██▍       | 2571/10714 [45:44<1:06:30,  2.04it/s] 24%|██▍       | 2572/10714 [45:45<1:07:31,  2.01it/s] 24%|██▍       | 2573/10714 [45:45<1:07:10,  2.02it/s] 24%|██▍       | 2574/10714 [45:46<1:06:53,  2.03it/s] 24%|██▍       | 2575/10714 [45:46<1:06:47,  2.03it/s]{'loss': 3.7261, 'grad_norm': 0.20367278158664703, 'learning_rate': 0.0009412339212568758, 'epoch': 0.24}                                                      
- 24%|██▍       | 2575/10714 [45:46<1:06:47,  2.03it/s] 24%|██▍       | 2576/10714 [45:47<1:06:42,  2.03it/s] 24%|██▍       | 2577/10714 [45:47<1:06:29,  2.04it/s] 24%|██▍       | 2578/10714 [45:48<1:06:24,  2.04it/s] 24%|██▍       | 2579/10714 [45:48<1:06:24,  2.04it/s] 24%|██▍       | 2580/10714 [45:48<1:06:25,  2.04it/s] 24%|██▍       | 2581/10714 [45:49<1:06:21,  2.04it/s] 24%|██▍       | 2582/10714 [45:49<1:06:16,  2.05it/s] 24%|██▍       | 2583/10714 [45:50<1:06:12,  2.05it/s] 24%|██▍       | 2584/10714 [45:50<1:06:15,  2.04it/s] 24%|██▍       | 2585/10714 [45:51<1:06:23,  2.04it/s] 24%|██▍       | 2586/10714 [45:51<1:06:24,  2.04it/s] 24%|██▍       | 2587/10714 [45:52<1:07:31,  2.01it/s] 24%|██▍       | 2588/10714 [45:52<1:08:14,  1.98it/s] 24%|██▍       | 2589/10714 [45:53<1:08:38,  1.97it/s] 24%|██▍       | 2590/10714 [45:53<1:07:54,  1.99it/s] 24%|██▍       | 2591/10714 [45:54<1:08:28,  1.98it/s] 24%|██▍       | 2592/10714 [45:54<1:07:45,  2.00it/s] 24%|██▍       | 2593/10714 [45:55<1:07:13,  2.01it/s] 24%|██▍       | 2594/10714 [45:55<1:06:51,  2.02it/s] 24%|██▍       | 2595/10714 [45:56<1:06:40,  2.03it/s] 24%|██▍       | 2596/10714 [45:56<1:06:36,  2.03it/s] 24%|██▍       | 2597/10714 [45:57<1:06:25,  2.04it/s] 24%|██▍       | 2598/10714 [45:57<1:06:17,  2.04it/s] 24%|██▍       | 2599/10714 [45:58<1:06:08,  2.04it/s] 24%|██▍       | 2600/10714 [45:58<1:06:10,  2.04it/s]                                                      {'loss': 3.7163, 'grad_norm': 0.21203303337097168, 'learning_rate': 0.0009393035718061948, 'epoch': 0.24}
- 24%|██▍       | 2600/10714 [45:58<1:06:10,  2.04it/s] 24%|██▍       | 2601/10714 [45:59<1:06:17,  2.04it/s] 24%|██▍       | 2602/10714 [45:59<1:06:11,  2.04it/s] 24%|██▍       | 2603/10714 [46:00<1:06:10,  2.04it/s] 24%|██▍       | 2604/10714 [46:00<1:07:20,  2.01it/s] 24%|██▍       | 2605/10714 [46:01<1:06:54,  2.02it/s] 24%|██▍       | 2606/10714 [46:01<1:07:36,  2.00it/s] 24%|██▍       | 2607/10714 [46:02<1:07:09,  2.01it/s] 24%|██▍       | 2608/10714 [46:02<1:06:53,  2.02it/s] 24%|██▍       | 2609/10714 [46:03<1:06:34,  2.03it/s] 24%|██▍       | 2610/10714 [46:03<1:06:21,  2.04it/s] 24%|██▍       | 2611/10714 [46:04<1:06:22,  2.03it/s] 24%|██▍       | 2612/10714 [46:04<1:06:18,  2.04it/s] 24%|██▍       | 2613/10714 [46:05<1:06:18,  2.04it/s] 24%|██▍       | 2614/10714 [46:05<1:06:11,  2.04it/s] 24%|██▍       | 2615/10714 [46:06<1:07:14,  2.01it/s] 24%|██▍       | 2616/10714 [46:06<1:06:50,  2.02it/s] 24%|██▍       | 2617/10714 [46:07<1:07:41,  1.99it/s] 24%|██▍       | 2618/10714 [46:07<1:07:09,  2.01it/s] 24%|██▍       | 2619/10714 [46:08<1:06:50,  2.02it/s] 24%|██▍       | 2620/10714 [46:08<1:07:39,  1.99it/s] 24%|██▍       | 2621/10714 [46:09<1:07:05,  2.01it/s] 24%|██▍       | 2622/10714 [46:09<1:06:41,  2.02it/s] 24%|██▍       | 2623/10714 [46:10<1:06:25,  2.03it/s] 24%|██▍       | 2624/10714 [46:10<1:06:15,  2.04it/s] 25%|██▍       | 2625/10714 [46:11<1:07:10,  2.01it/s]{'loss': 3.7212, 'grad_norm': 0.20810535550117493, 'learning_rate': 0.0009373440744172178, 'epoch': 0.25}
-                                                       25%|██▍       | 2625/10714 [46:11<1:07:10,  2.01it/s] 25%|██▍       | 2626/10714 [46:11<1:07:48,  1.99it/s] 25%|██▍       | 2627/10714 [46:12<1:07:16,  2.00it/s] 25%|██▍       | 2628/10714 [46:12<1:06:55,  2.01it/s] 25%|██▍       | 2629/10714 [46:13<1:06:36,  2.02it/s] 25%|██▍       | 2630/10714 [46:13<1:06:27,  2.03it/s] 25%|██▍       | 2631/10714 [46:14<1:07:20,  2.00it/s] 25%|██▍       | 2632/10714 [46:14<1:06:56,  2.01it/s] 25%|██▍       | 2633/10714 [46:15<1:07:38,  1.99it/s] 25%|██▍       | 2634/10714 [46:15<1:07:08,  2.01it/s] 25%|██▍       | 2635/10714 [46:16<1:06:46,  2.02it/s] 25%|██▍       | 2636/10714 [46:16<1:06:32,  2.02it/s] 25%|██▍       | 2637/10714 [46:17<1:06:20,  2.03it/s] 25%|██▍       | 2638/10714 [46:17<1:06:18,  2.03it/s] 25%|██▍       | 2639/10714 [46:18<1:06:08,  2.03it/s] 25%|██▍       | 2640/10714 [46:18<1:06:00,  2.04it/s] 25%|██▍       | 2641/10714 [46:19<1:05:54,  2.04it/s] 25%|██▍       | 2642/10714 [46:19<1:05:54,  2.04it/s] 25%|██▍       | 2643/10714 [46:20<1:05:57,  2.04it/s] 25%|██▍       | 2644/10714 [46:20<1:05:54,  2.04it/s] 25%|██▍       | 2645/10714 [46:21<1:05:51,  2.04it/s] 25%|██▍       | 2646/10714 [46:21<1:05:48,  2.04it/s] 25%|██▍       | 2647/10714 [46:22<1:05:52,  2.04it/s] 25%|██▍       | 2648/10714 [46:22<1:05:47,  2.04it/s] 25%|██▍       | 2649/10714 [46:23<1:05:44,  2.04it/s] 25%|██▍       | 2650/10714 [46:23<1:05:44,  2.04it/s]{'loss': 3.7228, 'grad_norm': 0.22339294850826263, 'learning_rate': 0.0009353555591032492, 'epoch': 0.25}                                                      
- 25%|██▍       | 2650/10714 [46:23<1:05:44,  2.04it/s] 25%|██▍       | 2651/10714 [46:24<1:05:48,  2.04it/s] 25%|██▍       | 2652/10714 [46:24<1:05:47,  2.04it/s] 25%|██▍       | 2653/10714 [46:25<1:05:47,  2.04it/s] 25%|██▍       | 2654/10714 [46:25<1:05:47,  2.04it/s] 25%|██▍       | 2655/10714 [46:26<1:05:48,  2.04it/s] 25%|██▍       | 2656/10714 [46:26<1:05:47,  2.04it/s] 25%|██▍       | 2657/10714 [46:27<1:05:45,  2.04it/s] 25%|██▍       | 2658/10714 [46:27<1:05:43,  2.04it/s] 25%|██▍       | 2659/10714 [46:27<1:05:43,  2.04it/s] 25%|██▍       | 2660/10714 [46:28<1:05:41,  2.04it/s] 25%|██▍       | 2661/10714 [46:28<1:05:40,  2.04it/s] 25%|██▍       | 2662/10714 [46:29<1:06:50,  2.01it/s] 25%|██▍       | 2663/10714 [46:29<1:06:29,  2.02it/s] 25%|██▍       | 2664/10714 [46:30<1:08:25,  1.96it/s] 25%|██▍       | 2665/10714 [46:31<1:07:34,  1.99it/s] 25%|██▍       | 2666/10714 [46:31<1:06:58,  2.00it/s] 25%|██▍       | 2667/10714 [46:31<1:06:32,  2.02it/s] 25%|██▍       | 2668/10714 [46:32<1:06:15,  2.02it/s] 25%|██▍       | 2669/10714 [46:32<1:06:06,  2.03it/s] 25%|██▍       | 2670/10714 [46:33<1:07:04,  2.00it/s] 25%|██▍       | 2671/10714 [46:33<1:06:40,  2.01it/s] 25%|██▍       | 2672/10714 [46:34<1:07:35,  1.98it/s] 25%|██▍       | 2673/10714 [46:35<1:08:05,  1.97it/s] 25%|██▍       | 2674/10714 [46:35<1:07:19,  1.99it/s] 25%|██▍       | 2675/10714 [46:35<1:06:51,  2.00it/s]{'loss': 3.7107, 'grad_norm': 0.21311216056346893, 'learning_rate': 0.0009333381578029424, 'epoch': 0.25}
-                                                       25%|██▍       | 2675/10714 [46:35<1:06:51,  2.00it/s] 25%|██▍       | 2676/10714 [46:36<1:06:41,  2.01it/s] 25%|██▍       | 2677/10714 [46:36<1:06:23,  2.02it/s] 25%|██▍       | 2678/10714 [46:37<1:06:09,  2.02it/s] 25%|██▌       | 2679/10714 [46:37<1:05:57,  2.03it/s] 25%|██▌       | 2680/10714 [46:38<1:05:50,  2.03it/s] 25%|██▌       | 2681/10714 [46:39<1:16:15,  1.76it/s] 25%|██▌       | 2682/10714 [46:39<1:13:02,  1.83it/s] 25%|██▌       | 2683/10714 [46:40<1:10:48,  1.89it/s] 25%|██▌       | 2684/10714 [46:40<1:10:15,  1.90it/s] 25%|██▌       | 2685/10714 [46:41<1:09:53,  1.91it/s] 25%|██▌       | 2686/10714 [46:41<1:09:43,  1.92it/s] 25%|██▌       | 2687/10714 [46:42<1:08:28,  1.95it/s] 25%|██▌       | 2688/10714 [46:42<1:07:32,  1.98it/s] 25%|██▌       | 2689/10714 [46:43<1:06:57,  2.00it/s] 25%|██▌       | 2690/10714 [46:43<1:06:30,  2.01it/s] 25%|██▌       | 2691/10714 [46:44<1:06:13,  2.02it/s] 25%|██▌       | 2692/10714 [46:44<1:06:01,  2.02it/s] 25%|██▌       | 2693/10714 [46:45<1:05:50,  2.03it/s] 25%|██▌       | 2694/10714 [46:45<1:05:45,  2.03it/s] 25%|██▌       | 2695/10714 [46:46<1:06:59,  1.99it/s] 25%|██▌       | 2696/10714 [46:46<1:06:29,  2.01it/s] 25%|██▌       | 2697/10714 [46:47<1:06:07,  2.02it/s] 25%|██▌       | 2698/10714 [46:47<1:07:14,  1.99it/s] 25%|██▌       | 2699/10714 [46:48<1:06:40,  2.00it/s] 25%|██▌       | 2700/10714 [46:48<1:06:15,  2.02it/s]                                                      {'loss': 3.7009, 'grad_norm': 0.23216870427131653, 'learning_rate': 0.0009312920043715455, 'epoch': 0.25}
- 25%|██▌       | 2700/10714 [46:48<1:06:15,  2.02it/s] 25%|██▌       | 2701/10714 [46:49<1:06:12,  2.02it/s] 25%|██▌       | 2702/10714 [46:49<1:10:12,  1.90it/s] 25%|██▌       | 2703/10714 [46:50<1:08:46,  1.94it/s] 25%|██▌       | 2704/10714 [46:50<1:07:40,  1.97it/s] 25%|██▌       | 2705/10714 [46:51<1:06:53,  2.00it/s] 25%|██▌       | 2706/10714 [46:51<1:06:29,  2.01it/s] 25%|██▌       | 2707/10714 [46:52<1:06:06,  2.02it/s] 25%|██▌       | 2708/10714 [46:52<1:07:00,  1.99it/s] 25%|██▌       | 2709/10714 [46:53<1:06:27,  2.01it/s] 25%|██▌       | 2710/10714 [46:53<1:06:07,  2.02it/s] 25%|██▌       | 2711/10714 [46:54<1:05:52,  2.03it/s] 25%|██▌       | 2712/10714 [46:54<1:06:48,  2.00it/s] 25%|██▌       | 2713/10714 [46:55<1:06:59,  1.99it/s] 25%|██▌       | 2714/10714 [46:55<1:07:30,  1.97it/s] 25%|██▌       | 2715/10714 [46:56<1:06:45,  2.00it/s] 25%|██▌       | 2716/10714 [46:56<1:06:12,  2.01it/s] 25%|██▌       | 2717/10714 [46:57<1:05:59,  2.02it/s] 25%|██▌       | 2718/10714 [46:57<1:05:42,  2.03it/s] 25%|██▌       | 2719/10714 [46:58<1:05:31,  2.03it/s] 25%|██▌       | 2720/10714 [46:58<1:05:26,  2.04it/s] 25%|██▌       | 2721/10714 [46:59<1:05:21,  2.04it/s] 25%|██▌       | 2722/10714 [46:59<1:05:17,  2.04it/s] 25%|██▌       | 2723/10714 [47:00<1:05:15,  2.04it/s] 25%|██▌       | 2724/10714 [47:00<1:05:15,  2.04it/s] 25%|██▌       | 2725/10714 [47:01<1:05:14,  2.04it/s]                                                      {'loss': 3.6957, 'grad_norm': 0.20317843556404114, 'learning_rate': 0.00092921723457202, 'epoch': 0.25}
- 25%|██▌       | 2725/10714 [47:01<1:05:14,  2.04it/s] 25%|██▌       | 2726/10714 [47:01<1:05:15,  2.04it/s] 25%|██▌       | 2727/10714 [47:02<1:05:10,  2.04it/s] 25%|██▌       | 2728/10714 [47:02<1:05:05,  2.04it/s] 25%|██▌       | 2729/10714 [47:03<1:06:08,  2.01it/s] 25%|██▌       | 2730/10714 [47:03<1:05:49,  2.02it/s] 25%|██▌       | 2731/10714 [47:04<1:05:29,  2.03it/s] 25%|██▌       | 2732/10714 [47:04<1:05:25,  2.03it/s] 26%|██▌       | 2733/10714 [47:05<1:05:18,  2.04it/s] 26%|██▌       | 2734/10714 [47:05<1:05:17,  2.04it/s] 26%|██▌       | 2735/10714 [47:06<1:05:16,  2.04it/s] 26%|██▌       | 2736/10714 [47:06<1:05:09,  2.04it/s] 26%|██▌       | 2737/10714 [47:06<1:05:10,  2.04it/s] 26%|██▌       | 2738/10714 [47:07<1:05:11,  2.04it/s] 26%|██▌       | 2739/10714 [47:07<1:05:04,  2.04it/s] 26%|██▌       | 2740/10714 [47:08<1:05:02,  2.04it/s] 26%|██▌       | 2741/10714 [47:08<1:05:03,  2.04it/s] 26%|██▌       | 2742/10714 [47:09<1:05:06,  2.04it/s] 26%|██▌       | 2743/10714 [47:09<1:05:02,  2.04it/s] 26%|██▌       | 2744/10714 [47:10<1:04:58,  2.04it/s] 26%|██▌       | 2745/10714 [47:10<1:04:59,  2.04it/s] 26%|██▌       | 2746/10714 [47:11<1:04:59,  2.04it/s] 26%|██▌       | 2747/10714 [47:11<1:04:59,  2.04it/s] 26%|██▌       | 2748/10714 [47:12<1:04:57,  2.04it/s] 26%|██▌       | 2749/10714 [47:12<1:04:56,  2.04it/s] 26%|██▌       | 2750/10714 [47:13<1:04:55,  2.04it/s]{'loss': 3.7002, 'grad_norm': 0.20605988800525665, 'learning_rate': 0.0009271139860660333, 'epoch': 0.26}
-                                                       26%|██▌       | 2750/10714 [47:13<1:04:55,  2.04it/s] 26%|██▌       | 2751/10714 [47:13<1:04:58,  2.04it/s] 26%|██▌       | 2752/10714 [47:14<1:04:55,  2.04it/s] 26%|██▌       | 2753/10714 [47:14<1:04:58,  2.04it/s] 26%|██▌       | 2754/10714 [47:15<1:05:48,  2.02it/s] 26%|██▌       | 2755/10714 [47:15<1:06:22,  2.00it/s] 26%|██▌       | 2756/10714 [47:16<1:05:53,  2.01it/s] 26%|██▌       | 2757/10714 [47:16<1:05:30,  2.02it/s] 26%|██▌       | 2758/10714 [47:17<1:05:20,  2.03it/s] 26%|██▌       | 2759/10714 [47:17<1:05:11,  2.03it/s] 26%|██▌       | 2760/10714 [47:18<1:05:03,  2.04it/s] 26%|██▌       | 2761/10714 [47:18<1:05:53,  2.01it/s] 26%|██▌       | 2762/10714 [47:19<1:05:32,  2.02it/s] 26%|██▌       | 2763/10714 [47:19<1:05:17,  2.03it/s] 26%|██▌       | 2764/10714 [47:20<1:05:09,  2.03it/s] 26%|██▌       | 2765/10714 [47:20<1:05:03,  2.04it/s] 26%|██▌       | 2766/10714 [47:21<1:05:00,  2.04it/s] 26%|██▌       | 2767/10714 [47:21<1:04:58,  2.04it/s] 26%|██▌       | 2768/10714 [47:22<1:04:52,  2.04it/s] 26%|██▌       | 2769/10714 [47:22<1:04:51,  2.04it/s] 26%|██▌       | 2770/10714 [47:23<1:04:52,  2.04it/s] 26%|██▌       | 2771/10714 [47:23<1:04:49,  2.04it/s] 26%|██▌       | 2772/10714 [47:24<1:04:46,  2.04it/s] 26%|██▌       | 2773/10714 [47:24<1:04:51,  2.04it/s] 26%|██▌       | 2774/10714 [47:25<1:04:50,  2.04it/s] 26%|██▌       | 2775/10714 [47:25<1:04:46,  2.04it/s]{'loss': 3.6919, 'grad_norm': 0.2047623097896576, 'learning_rate': 0.0009249823984048243, 'epoch': 0.26}                                                      
- 26%|██▌       | 2775/10714 [47:25<1:04:46,  2.04it/s] 26%|██▌       | 2776/10714 [47:26<1:04:45,  2.04it/s] 26%|██▌       | 2777/10714 [47:26<1:04:40,  2.05it/s] 26%|██▌       | 2778/10714 [47:27<1:04:42,  2.04it/s] 26%|██▌       | 2779/10714 [47:27<1:04:44,  2.04it/s] 26%|██▌       | 2780/10714 [47:28<1:04:42,  2.04it/s] 26%|██▌       | 2781/10714 [47:28<1:04:42,  2.04it/s] 26%|██▌       | 2782/10714 [47:29<1:04:45,  2.04it/s] 26%|██▌       | 2783/10714 [47:29<1:04:39,  2.04it/s] 26%|██▌       | 2784/10714 [47:30<1:04:37,  2.05it/s] 26%|██▌       | 2785/10714 [47:30<1:04:33,  2.05it/s] 26%|██▌       | 2786/10714 [47:31<1:04:35,  2.05it/s] 26%|██▌       | 2787/10714 [47:31<1:04:39,  2.04it/s] 26%|██▌       | 2788/10714 [47:32<1:04:38,  2.04it/s] 26%|██▌       | 2789/10714 [47:32<1:04:34,  2.05it/s] 26%|██▌       | 2790/10714 [47:32<1:04:35,  2.04it/s] 26%|██▌       | 2791/10714 [47:33<1:04:34,  2.05it/s] 26%|██▌       | 2792/10714 [47:33<1:04:38,  2.04it/s] 26%|██▌       | 2793/10714 [47:34<1:04:31,  2.05it/s] 26%|██▌       | 2794/10714 [47:34<1:04:29,  2.05it/s] 26%|██▌       | 2795/10714 [47:35<1:04:33,  2.04it/s] 26%|██▌       | 2796/10714 [47:35<1:04:34,  2.04it/s] 26%|██▌       | 2797/10714 [47:36<1:04:33,  2.04it/s] 26%|██▌       | 2798/10714 [47:36<1:04:31,  2.04it/s] 26%|██▌       | 2799/10714 [47:37<1:04:30,  2.04it/s] 26%|██▌       | 2800/10714 [47:37<1:04:36,  2.04it/s]                                                      {'loss': 3.6899, 'grad_norm': 0.20436324179172516, 'learning_rate': 0.000922822613019944, 'epoch': 0.26}
- 26%|██▌       | 2800/10714 [47:37<1:04:36,  2.04it/s] 26%|██▌       | 2801/10714 [47:38<1:04:39,  2.04it/s] 26%|██▌       | 2802/10714 [47:38<1:04:33,  2.04it/s] 26%|██▌       | 2803/10714 [47:39<1:04:32,  2.04it/s] 26%|██▌       | 2804/10714 [47:39<1:04:32,  2.04it/s] 26%|██▌       | 2805/10714 [47:40<1:04:33,  2.04it/s] 26%|██▌       | 2806/10714 [47:40<1:04:29,  2.04it/s] 26%|██▌       | 2807/10714 [47:41<1:04:27,  2.04it/s] 26%|██▌       | 2808/10714 [47:41<1:04:26,  2.04it/s] 26%|██▌       | 2809/10714 [47:42<1:04:31,  2.04it/s] 26%|██▌       | 2810/10714 [47:42<1:04:27,  2.04it/s] 26%|██▌       | 2811/10714 [47:43<1:04:22,  2.05it/s] 26%|██▌       | 2812/10714 [47:43<1:04:20,  2.05it/s] 26%|██▋       | 2813/10714 [47:44<1:04:20,  2.05it/s] 26%|██▋       | 2814/10714 [47:44<1:04:21,  2.05it/s] 26%|██▋       | 2815/10714 [47:45<1:04:21,  2.05it/s] 26%|██▋       | 2816/10714 [47:45<1:04:19,  2.05it/s] 26%|██▋       | 2817/10714 [47:46<1:04:21,  2.05it/s] 26%|██▋       | 2818/10714 [47:46<1:04:23,  2.04it/s] 26%|██▋       | 2819/10714 [47:47<1:04:26,  2.04it/s] 26%|██▋       | 2820/10714 [47:47<1:04:24,  2.04it/s] 26%|██▋       | 2821/10714 [47:48<1:04:20,  2.04it/s] 26%|██▋       | 2822/10714 [47:48<1:04:16,  2.05it/s] 26%|██▋       | 2823/10714 [47:49<1:04:15,  2.05it/s] 26%|██▋       | 2824/10714 [47:49<1:04:19,  2.04it/s] 26%|██▋       | 2825/10714 [47:50<1:04:16,  2.05it/s]{'loss': 3.6904, 'grad_norm': 0.22077466547489166, 'learning_rate': 0.000920634773213872, 'epoch': 0.26}                                                      
- 26%|██▋       | 2825/10714 [47:50<1:04:16,  2.05it/s] 26%|██▋       | 2826/10714 [47:50<1:04:19,  2.04it/s] 26%|██▋       | 2827/10714 [47:51<1:04:17,  2.04it/s] 26%|██▋       | 2828/10714 [47:51<1:04:17,  2.04it/s] 26%|██▋       | 2829/10714 [47:52<1:04:18,  2.04it/s] 26%|██▋       | 2830/10714 [47:52<1:04:15,  2.04it/s] 26%|██▋       | 2831/10714 [47:53<1:04:12,  2.05it/s] 26%|██▋       | 2832/10714 [47:53<1:04:10,  2.05it/s] 26%|██▋       | 2833/10714 [47:54<1:04:13,  2.05it/s] 26%|██▋       | 2834/10714 [47:54<1:04:16,  2.04it/s] 26%|██▋       | 2835/10714 [47:54<1:04:15,  2.04it/s] 26%|██▋       | 2836/10714 [47:55<1:04:15,  2.04it/s] 26%|██▋       | 2837/10714 [47:55<1:04:12,  2.04it/s] 26%|██▋       | 2838/10714 [47:56<1:04:12,  2.04it/s] 26%|██▋       | 2839/10714 [47:56<1:04:12,  2.04it/s] 27%|██▋       | 2840/10714 [47:57<1:04:11,  2.04it/s] 27%|██▋       | 2841/10714 [47:57<1:04:09,  2.04it/s] 27%|██▋       | 2842/10714 [47:58<1:04:04,  2.05it/s] 27%|██▋       | 2843/10714 [47:58<1:04:03,  2.05it/s] 27%|██▋       | 2844/10714 [47:59<1:04:05,  2.05it/s] 27%|██▋       | 2845/10714 [47:59<1:04:06,  2.05it/s] 27%|██▋       | 2846/10714 [48:00<1:04:06,  2.05it/s] 27%|██▋       | 2847/10714 [48:00<1:04:03,  2.05it/s] 27%|██▋       | 2848/10714 [48:01<1:04:03,  2.05it/s] 27%|██▋       | 2849/10714 [48:01<1:04:02,  2.05it/s] 27%|██▋       | 2850/10714 [48:02<1:04:07,  2.04it/s]{'loss': 3.6872, 'grad_norm': 0.19827640056610107, 'learning_rate': 0.0009184190241505084, 'epoch': 0.27}
-                                                       27%|██▋       | 2850/10714 [48:02<1:04:07,  2.04it/s] 27%|██▋       | 2851/10714 [48:02<1:04:10,  2.04it/s] 27%|██▋       | 2852/10714 [48:03<1:04:05,  2.04it/s] 27%|██▋       | 2853/10714 [48:03<1:04:00,  2.05it/s] 27%|██▋       | 2854/10714 [48:04<1:04:00,  2.05it/s] 27%|██▋       | 2855/10714 [48:04<1:04:03,  2.04it/s] 27%|██▋       | 2856/10714 [48:05<1:04:05,  2.04it/s] 27%|██▋       | 2857/10714 [48:05<1:04:03,  2.04it/s] 27%|██▋       | 2858/10714 [48:06<1:03:57,  2.05it/s] 27%|██▋       | 2859/10714 [48:06<1:03:56,  2.05it/s] 27%|██▋       | 2860/10714 [48:07<1:04:01,  2.04it/s] 27%|██▋       | 2861/10714 [48:07<1:04:00,  2.04it/s] 27%|██▋       | 2862/10714 [48:08<1:03:58,  2.05it/s] 27%|██▋       | 2863/10714 [48:08<1:03:59,  2.04it/s] 27%|██▋       | 2864/10714 [48:09<1:04:01,  2.04it/s] 27%|██▋       | 2865/10714 [48:09<1:04:00,  2.04it/s] 27%|██▋       | 2866/10714 [48:10<1:03:56,  2.05it/s] 27%|██▋       | 2867/10714 [48:10<1:03:53,  2.05it/s] 27%|██▋       | 2868/10714 [48:11<1:03:52,  2.05it/s] 27%|██▋       | 2869/10714 [48:11<1:04:00,  2.04it/s] 27%|██▋       | 2870/10714 [48:12<1:04:00,  2.04it/s] 27%|██▋       | 2871/10714 [48:12<1:03:56,  2.04it/s] 27%|██▋       | 2872/10714 [48:13<1:03:53,  2.05it/s] 27%|██▋       | 2873/10714 [48:13<1:03:54,  2.04it/s] 27%|██▋       | 2874/10714 [48:14<1:03:54,  2.04it/s] 27%|██▋       | 2875/10714 [48:14<1:03:52,  2.05it/s]{'loss': 3.6813, 'grad_norm': 0.2083338499069214, 'learning_rate': 0.0009161755128455409, 'epoch': 0.27}
-                                                       27%|██▋       | 2875/10714 [48:14<1:03:52,  2.05it/s] 27%|██▋       | 2876/10714 [48:15<1:03:54,  2.04it/s] 27%|██▋       | 2877/10714 [48:15<1:04:00,  2.04it/s] 27%|██▋       | 2878/10714 [48:16<1:04:02,  2.04it/s] 27%|██▋       | 2879/10714 [48:16<1:03:58,  2.04it/s] 27%|██▋       | 2880/10714 [48:17<1:03:57,  2.04it/s] 27%|██▋       | 2881/10714 [48:17<1:03:55,  2.04it/s] 27%|██▋       | 2882/10714 [48:17<1:03:54,  2.04it/s] 27%|██▋       | 2883/10714 [48:18<1:03:50,  2.04it/s] 27%|██▋       | 2884/10714 [48:18<1:03:49,  2.04it/s] 27%|██▋       | 2885/10714 [48:19<1:03:47,  2.05it/s] 27%|██▋       | 2886/10714 [48:19<1:03:50,  2.04it/s] 27%|██▋       | 2887/10714 [48:20<1:03:50,  2.04it/s] 27%|██▋       | 2888/10714 [48:20<1:03:52,  2.04it/s] 27%|██▋       | 2889/10714 [48:21<1:03:51,  2.04it/s] 27%|██▋       | 2890/10714 [48:21<1:03:55,  2.04it/s] 27%|██▋       | 2891/10714 [48:22<1:03:48,  2.04it/s] 27%|██▋       | 2892/10714 [48:22<1:03:45,  2.04it/s] 27%|██▋       | 2893/10714 [48:23<1:03:42,  2.05it/s] 27%|██▋       | 2894/10714 [48:23<1:03:41,  2.05it/s] 27%|██▋       | 2895/10714 [48:24<1:03:43,  2.04it/s] 27%|██▋       | 2896/10714 [48:24<1:03:44,  2.04it/s] 27%|██▋       | 2897/10714 [48:25<1:03:46,  2.04it/s] 27%|██▋       | 2898/10714 [48:25<1:03:43,  2.04it/s] 27%|██▋       | 2899/10714 [48:26<1:03:42,  2.04it/s] 27%|██▋       | 2900/10714 [48:26<1:03:43,  2.04it/s]                                                      {'loss': 3.6854, 'grad_norm': 0.20559188723564148, 'learning_rate': 0.0009139043881566924, 'epoch': 0.27}
- 27%|██▋       | 2900/10714 [48:26<1:03:43,  2.04it/s] 27%|██▋       | 2901/10714 [48:27<1:03:52,  2.04it/s] 27%|██▋       | 2902/10714 [48:27<1:03:48,  2.04it/s] 27%|██▋       | 2903/10714 [48:28<1:03:46,  2.04it/s] 27%|██▋       | 2904/10714 [48:28<1:03:44,  2.04it/s] 27%|██▋       | 2905/10714 [48:29<1:03:44,  2.04it/s] 27%|██▋       | 2906/10714 [48:29<1:03:41,  2.04it/s] 27%|██▋       | 2907/10714 [48:30<1:03:41,  2.04it/s] 27%|██▋       | 2908/10714 [48:30<1:03:36,  2.05it/s] 27%|██▋       | 2909/10714 [48:31<1:03:32,  2.05it/s] 27%|██▋       | 2910/10714 [48:31<1:03:39,  2.04it/s] 27%|██▋       | 2911/10714 [48:32<1:03:37,  2.04it/s] 27%|██▋       | 2912/10714 [48:32<1:03:37,  2.04it/s] 27%|██▋       | 2913/10714 [48:33<1:03:35,  2.04it/s] 27%|██▋       | 2914/10714 [48:33<1:03:37,  2.04it/s] 27%|██▋       | 2915/10714 [48:34<1:03:36,  2.04it/s] 27%|██▋       | 2916/10714 [48:34<1:03:35,  2.04it/s] 27%|██▋       | 2917/10714 [48:35<1:03:35,  2.04it/s] 27%|██▋       | 2918/10714 [48:35<1:03:37,  2.04it/s] 27%|██▋       | 2919/10714 [48:36<1:03:34,  2.04it/s] 27%|██▋       | 2920/10714 [48:36<1:03:34,  2.04it/s] 27%|██▋       | 2921/10714 [48:37<1:03:33,  2.04it/s] 27%|██▋       | 2922/10714 [48:37<1:03:36,  2.04it/s] 27%|██▋       | 2923/10714 [48:38<1:03:35,  2.04it/s] 27%|██▋       | 2924/10714 [48:38<1:03:35,  2.04it/s] 27%|██▋       | 2925/10714 [48:39<1:03:33,  2.04it/s]                                                      {'loss': 3.6796, 'grad_norm': 0.21089895069599152, 'learning_rate': 0.0009116058007738419, 'epoch': 0.27}
- 27%|██▋       | 2925/10714 [48:39<1:03:33,  2.04it/s] 27%|██▋       | 2926/10714 [48:39<1:03:36,  2.04it/s] 27%|██▋       | 2927/10714 [48:40<1:03:38,  2.04it/s] 27%|██▋       | 2928/10714 [48:40<1:03:34,  2.04it/s] 27%|██▋       | 2929/10714 [48:40<1:03:32,  2.04it/s] 27%|██▋       | 2930/10714 [48:41<1:03:34,  2.04it/s] 27%|██▋       | 2931/10714 [48:41<1:03:32,  2.04it/s] 27%|██▋       | 2932/10714 [48:42<1:03:33,  2.04it/s] 27%|██▋       | 2933/10714 [48:42<1:03:26,  2.04it/s] 27%|██▋       | 2934/10714 [48:43<1:03:26,  2.04it/s] 27%|██▋       | 2935/10714 [48:43<1:03:32,  2.04it/s] 27%|██▋       | 2936/10714 [48:44<1:03:30,  2.04it/s] 27%|██▋       | 2937/10714 [48:44<1:03:30,  2.04it/s] 27%|██▋       | 2938/10714 [48:45<1:03:31,  2.04it/s] 27%|██▋       | 2939/10714 [48:45<1:03:30,  2.04it/s] 27%|██▋       | 2940/10714 [48:46<1:03:26,  2.04it/s] 27%|██▋       | 2941/10714 [48:46<1:03:25,  2.04it/s] 27%|██▋       | 2942/10714 [48:47<1:03:25,  2.04it/s] 27%|██▋       | 2943/10714 [48:47<1:03:23,  2.04it/s] 27%|██▋       | 2944/10714 [48:48<1:03:24,  2.04it/s] 27%|██▋       | 2945/10714 [48:48<1:03:22,  2.04it/s] 27%|██▋       | 2946/10714 [48:49<1:03:24,  2.04it/s] 28%|██▊       | 2947/10714 [48:49<1:03:25,  2.04it/s] 28%|██▊       | 2948/10714 [48:50<1:03:21,  2.04it/s] 28%|██▊       | 2949/10714 [48:50<1:03:21,  2.04it/s] 28%|██▊       | 2950/10714 [48:51<1:03:19,  2.04it/s]                                                      {'loss': 3.6798, 'grad_norm': 0.20270340144634247, 'learning_rate': 0.000909279903209028, 'epoch': 0.28}
- 28%|██▊       | 2950/10714 [48:51<1:03:19,  2.04it/s] 28%|██▊       | 2951/10714 [48:51<1:03:23,  2.04it/s] 28%|██▊       | 2952/10714 [48:52<1:03:22,  2.04it/s] 28%|██▊       | 2953/10714 [48:52<1:03:19,  2.04it/s] 28%|██▊       | 2954/10714 [48:53<1:03:21,  2.04it/s] 28%|██▊       | 2955/10714 [48:53<1:03:21,  2.04it/s] 28%|██▊       | 2956/10714 [48:54<1:03:20,  2.04it/s] 28%|██▊       | 2957/10714 [48:54<1:03:18,  2.04it/s] 28%|██▊       | 2958/10714 [48:55<1:03:17,  2.04it/s] 28%|██▊       | 2959/10714 [48:55<1:03:16,  2.04it/s] 28%|██▊       | 2960/10714 [48:56<1:03:20,  2.04it/s] 28%|██▊       | 2961/10714 [48:56<1:03:19,  2.04it/s] 28%|██▊       | 2962/10714 [48:57<1:03:18,  2.04it/s] 28%|██▊       | 2963/10714 [48:57<1:03:50,  2.02it/s] 28%|██▊       | 2964/10714 [48:58<1:03:42,  2.03it/s] 28%|██▊       | 2965/10714 [48:58<1:03:34,  2.03it/s] 28%|██▊       | 2966/10714 [48:59<1:03:29,  2.03it/s] 28%|██▊       | 2967/10714 [48:59<1:03:25,  2.04it/s] 28%|██▊       | 2968/10714 [49:00<1:03:18,  2.04it/s] 28%|██▊       | 2969/10714 [49:00<1:03:18,  2.04it/s] 28%|██▊       | 2970/10714 [49:01<1:03:19,  2.04it/s] 28%|██▊       | 2971/10714 [49:01<1:03:17,  2.04it/s] 28%|██▊       | 2972/10714 [49:02<1:03:12,  2.04it/s] 28%|██▊       | 2973/10714 [49:02<1:03:16,  2.04it/s] 28%|██▊       | 2974/10714 [49:03<1:03:15,  2.04it/s] 28%|██▊       | 2975/10714 [49:03<1:03:12,  2.04it/s]                                                      {'loss': 3.6675, 'grad_norm': 0.19906069338321686, 'learning_rate': 0.0009069268497863288, 'epoch': 0.28}
- 28%|██▊       | 2975/10714 [49:03<1:03:12,  2.04it/s] 28%|██▊       | 2976/10714 [49:04<1:03:13,  2.04it/s] 28%|██▊       | 2977/10714 [49:04<1:03:15,  2.04it/s] 28%|██▊       | 2978/10714 [49:05<1:03:10,  2.04it/s] 28%|██▊       | 2979/10714 [49:05<1:03:08,  2.04it/s] 28%|██▊       | 2980/10714 [49:05<1:03:04,  2.04it/s] 28%|██▊       | 2981/10714 [49:06<1:03:03,  2.04it/s] 28%|██▊       | 2982/10714 [49:06<1:03:03,  2.04it/s] 28%|██▊       | 2983/10714 [49:07<1:03:06,  2.04it/s] 28%|██▊       | 2984/10714 [49:07<1:03:03,  2.04it/s] 28%|██▊       | 2985/10714 [49:08<1:03:00,  2.04it/s] 28%|██▊       | 2986/10714 [49:08<1:03:03,  2.04it/s] 28%|██▊       | 2987/10714 [49:09<1:03:05,  2.04it/s] 28%|██▊       | 2988/10714 [49:09<1:03:04,  2.04it/s] 28%|██▊       | 2989/10714 [49:10<1:03:02,  2.04it/s] 28%|██▊       | 2990/10714 [49:10<1:03:01,  2.04it/s] 28%|██▊       | 2991/10714 [49:11<1:03:01,  2.04it/s] 28%|██▊       | 2992/10714 [49:11<1:02:56,  2.04it/s] 28%|██▊       | 2993/10714 [49:12<1:02:56,  2.04it/s] 28%|██▊       | 2994/10714 [49:12<1:02:59,  2.04it/s] 28%|██▊       | 2995/10714 [49:13<1:03:05,  2.04it/s] 28%|██▊       | 2996/10714 [49:13<1:03:00,  2.04it/s] 28%|██▊       | 2997/10714 [49:14<1:02:56,  2.04it/s] 28%|██▊       | 2998/10714 [49:14<1:02:59,  2.04it/s] 28%|██▊       | 2999/10714 [49:15<1:02:58,  2.04it/s] 28%|██▊       | 3000/10714 [49:15<1:02:58,  2.04it/s]                                                      {'loss': 3.6662, 'grad_norm': 0.2224092185497284, 'learning_rate': 0.0009045467966316225, 'epoch': 0.28}
- 28%|██▊       | 3000/10714 [49:15<1:02:58,  2.04it/s] 28%|██▊       | 3001/10714 [49:16<1:02:56,  2.04it/s] 28%|██▊       | 3002/10714 [49:16<1:02:55,  2.04it/s] 28%|██▊       | 3003/10714 [49:17<1:03:06,  2.04it/s] 28%|██▊       | 3004/10714 [49:17<1:02:59,  2.04it/s] 28%|██▊       | 3005/10714 [49:18<1:02:54,  2.04it/s] 28%|██▊       | 3006/10714 [49:18<1:02:59,  2.04it/s] 28%|██▊       | 3007/10714 [49:19<1:02:56,  2.04it/s] 28%|██▊       | 3008/10714 [49:19<1:02:57,  2.04it/s] 28%|██▊       | 3009/10714 [49:20<1:02:50,  2.04it/s] 28%|██▊       | 3010/10714 [49:20<1:02:50,  2.04it/s] 28%|██▊       | 3011/10714 [49:21<1:02:54,  2.04it/s] 28%|██▊       | 3012/10714 [49:21<1:02:54,  2.04it/s] 28%|██▊       | 3013/10714 [49:22<1:02:47,  2.04it/s] 28%|██▊       | 3014/10714 [49:22<1:02:49,  2.04it/s] 28%|██▊       | 3015/10714 [49:23<1:02:53,  2.04it/s] 28%|██▊       | 3016/10714 [49:23<1:02:50,  2.04it/s] 28%|██▊       | 3017/10714 [49:24<1:02:50,  2.04it/s] 28%|██▊       | 3018/10714 [49:24<1:02:46,  2.04it/s] 28%|██▊       | 3019/10714 [49:25<1:02:48,  2.04it/s] 28%|██▊       | 3020/10714 [49:25<1:02:51,  2.04it/s] 28%|██▊       | 3021/10714 [49:26<1:02:46,  2.04it/s] 28%|██▊       | 3022/10714 [49:26<1:02:46,  2.04it/s] 28%|██▊       | 3023/10714 [49:27<1:02:47,  2.04it/s] 28%|██▊       | 3024/10714 [49:27<1:02:50,  2.04it/s] 28%|██▊       | 3025/10714 [49:28<1:02:47,  2.04it/s]{'loss': 3.6717, 'grad_norm': 0.21620868146419525, 'learning_rate': 0.0009021399016622284, 'epoch': 0.28}
-                                                       28%|██▊       | 3025/10714 [49:28<1:02:47,  2.04it/s] 28%|██▊       | 3026/10714 [49:28<1:02:49,  2.04it/s] 28%|██▊       | 3027/10714 [49:29<1:02:49,  2.04it/s] 28%|██▊       | 3028/10714 [49:29<1:02:50,  2.04it/s] 28%|██▊       | 3029/10714 [49:29<1:02:49,  2.04it/s] 28%|██▊       | 3030/10714 [49:30<1:02:47,  2.04it/s] 28%|██▊       | 3031/10714 [49:30<1:02:43,  2.04it/s] 28%|██▊       | 3032/10714 [49:31<1:02:42,  2.04it/s] 28%|██▊       | 3033/10714 [49:31<1:02:38,  2.04it/s] 28%|██▊       | 3034/10714 [49:32<1:02:42,  2.04it/s] 28%|██▊       | 3035/10714 [49:32<1:02:43,  2.04it/s] 28%|██▊       | 3036/10714 [49:33<1:02:39,  2.04it/s] 28%|██▊       | 3037/10714 [49:33<1:02:36,  2.04it/s] 28%|██▊       | 3038/10714 [49:34<1:02:37,  2.04it/s] 28%|██▊       | 3039/10714 [49:34<1:02:36,  2.04it/s] 28%|██▊       | 3040/10714 [49:35<1:02:39,  2.04it/s] 28%|██▊       | 3041/10714 [49:35<1:02:32,  2.04it/s] 28%|██▊       | 3042/10714 [49:36<1:02:30,  2.05it/s] 28%|██▊       | 3043/10714 [49:36<1:02:28,  2.05it/s] 28%|██▊       | 3044/10714 [49:37<1:02:36,  2.04it/s] 28%|██▊       | 3045/10714 [49:37<1:02:34,  2.04it/s] 28%|██▊       | 3046/10714 [49:38<1:02:28,  2.05it/s] 28%|██▊       | 3047/10714 [49:38<1:02:26,  2.05it/s] 28%|██▊       | 3048/10714 [49:39<1:02:33,  2.04it/s] 28%|██▊       | 3049/10714 [49:39<1:02:34,  2.04it/s] 28%|██▊       | 3050/10714 [49:40<1:02:33,  2.04it/s]                                                      {'loss': 3.6699, 'grad_norm': 0.21929633617401123, 'learning_rate': 0.0008997063245764297, 'epoch': 0.28}
- 28%|██▊       | 3050/10714 [49:40<1:02:33,  2.04it/s] 28%|██▊       | 3051/10714 [49:40<1:02:44,  2.04it/s] 28%|██▊       | 3052/10714 [49:41<1:02:38,  2.04it/s] 28%|██▊       | 3053/10714 [49:41<1:02:33,  2.04it/s] 29%|██▊       | 3054/10714 [49:42<1:02:37,  2.04it/s] 29%|██▊       | 3055/10714 [49:42<1:02:38,  2.04it/s] 29%|██▊       | 3056/10714 [49:43<1:02:33,  2.04it/s] 29%|██▊       | 3057/10714 [49:43<1:02:27,  2.04it/s] 29%|██▊       | 3058/10714 [49:44<1:02:22,  2.05it/s] 29%|██▊       | 3059/10714 [49:44<1:02:24,  2.04it/s] 29%|██▊       | 3060/10714 [49:45<1:02:26,  2.04it/s] 29%|██▊       | 3061/10714 [49:45<1:02:24,  2.04it/s] 29%|██▊       | 3062/10714 [49:46<1:02:45,  2.03it/s] 29%|██▊       | 3063/10714 [49:46<1:02:38,  2.04it/s] 29%|██▊       | 3064/10714 [49:47<1:02:33,  2.04it/s] 29%|██▊       | 3065/10714 [49:47<1:02:29,  2.04it/s] 29%|██▊       | 3066/10714 [49:48<1:02:28,  2.04it/s] 29%|██▊       | 3067/10714 [49:48<1:02:27,  2.04it/s] 29%|██▊       | 3068/10714 [49:49<1:02:24,  2.04it/s] 29%|██▊       | 3069/10714 [49:49<1:02:19,  2.04it/s] 29%|██▊       | 3070/10714 [49:50<1:02:14,  2.05it/s] 29%|██▊       | 3071/10714 [49:50<1:02:21,  2.04it/s] 29%|██▊       | 3072/10714 [49:51<1:02:21,  2.04it/s] 29%|██▊       | 3073/10714 [49:51<1:02:17,  2.04it/s] 29%|██▊       | 3074/10714 [49:52<1:02:12,  2.05it/s] 29%|██▊       | 3075/10714 [49:52<1:02:13,  2.05it/s]                                                      {'loss': 3.662, 'grad_norm': 0.1980552226305008, 'learning_rate': 0.0008972462268428763, 'epoch': 0.29}
- 29%|██▊       | 3075/10714 [49:52<1:02:13,  2.05it/s] 29%|██▊       | 3076/10714 [49:53<1:02:23,  2.04it/s] 29%|██▊       | 3077/10714 [49:53<1:02:22,  2.04it/s] 29%|██▊       | 3078/10714 [49:53<1:02:16,  2.04it/s] 29%|██▊       | 3079/10714 [49:54<1:02:17,  2.04it/s] 29%|██▊       | 3080/10714 [49:54<1:02:18,  2.04it/s] 29%|██▉       | 3081/10714 [49:55<1:02:17,  2.04it/s] 29%|██▉       | 3082/10714 [49:55<1:02:12,  2.04it/s] 29%|██▉       | 3083/10714 [49:56<1:02:11,  2.04it/s] 29%|██▉       | 3084/10714 [49:56<1:02:13,  2.04it/s] 29%|██▉       | 3085/10714 [49:57<1:02:14,  2.04it/s] 29%|██▉       | 3086/10714 [49:57<1:02:12,  2.04it/s] 29%|██▉       | 3087/10714 [49:58<1:02:12,  2.04it/s] 29%|██▉       | 3088/10714 [49:58<1:02:11,  2.04it/s] 29%|██▉       | 3089/10714 [49:59<1:02:13,  2.04it/s] 29%|██▉       | 3090/10714 [49:59<1:02:13,  2.04it/s] 29%|██▉       | 3091/10714 [50:00<1:02:12,  2.04it/s] 29%|██▉       | 3092/10714 [50:00<1:02:04,  2.05it/s] 29%|██▉       | 3093/10714 [50:01<1:02:07,  2.04it/s] 29%|██▉       | 3094/10714 [50:01<1:02:09,  2.04it/s] 29%|██▉       | 3095/10714 [50:02<1:02:08,  2.04it/s] 29%|██▉       | 3096/10714 [50:02<1:02:06,  2.04it/s] 29%|██▉       | 3097/10714 [50:03<1:02:05,  2.04it/s] 29%|██▉       | 3098/10714 [50:03<1:02:08,  2.04it/s] 29%|██▉       | 3099/10714 [50:04<1:02:11,  2.04it/s] 29%|██▉       | 3100/10714 [50:04<1:02:06,  2.04it/s]{'loss': 3.6613, 'grad_norm': 0.2127092182636261, 'learning_rate': 0.0008947597716898719, 'epoch': 0.29}
-                                                       29%|██▉       | 3100/10714 [50:04<1:02:06,  2.04it/s] 29%|██▉       | 3101/10714 [50:05<1:02:06,  2.04it/s] 29%|██▉       | 3102/10714 [50:05<1:02:07,  2.04it/s] 29%|██▉       | 3103/10714 [50:06<1:02:09,  2.04it/s] 29%|██▉       | 3104/10714 [50:06<1:02:09,  2.04it/s] 29%|██▉       | 3105/10714 [50:07<1:02:02,  2.04it/s] 29%|██▉       | 3106/10714 [50:07<1:02:01,  2.04it/s] 29%|██▉       | 3107/10714 [50:08<1:02:01,  2.04it/s] 29%|██▉       | 3108/10714 [50:08<1:02:06,  2.04it/s] 29%|██▉       | 3109/10714 [50:09<1:02:05,  2.04it/s] 29%|██▉       | 3110/10714 [50:09<1:02:00,  2.04it/s] 29%|██▉       | 3111/10714 [50:10<1:02:25,  2.03it/s] 29%|██▉       | 3112/10714 [50:10<1:02:23,  2.03it/s] 29%|██▉       | 3113/10714 [50:11<1:02:16,  2.03it/s] 29%|██▉       | 3114/10714 [50:11<1:02:17,  2.03it/s] 29%|██▉       | 3115/10714 [50:12<1:02:09,  2.04it/s] 29%|██▉       | 3116/10714 [50:12<1:02:04,  2.04it/s] 29%|██▉       | 3117/10714 [50:13<1:01:59,  2.04it/s] 29%|██▉       | 3118/10714 [50:13<1:02:02,  2.04it/s] 29%|██▉       | 3119/10714 [50:14<1:02:02,  2.04it/s] 29%|██▉       | 3120/10714 [50:14<1:01:58,  2.04it/s] 29%|██▉       | 3121/10714 [50:15<1:02:00,  2.04it/s] 29%|██▉       | 3122/10714 [50:15<1:02:05,  2.04it/s] 29%|██▉       | 3123/10714 [50:16<1:01:59,  2.04it/s] 29%|██▉       | 3124/10714 [50:16<1:01:56,  2.04it/s] 29%|██▉       | 3125/10714 [50:17<1:01:56,  2.04it/s]                                                      {'loss': 3.6591, 'grad_norm': 0.21129506826400757, 'learning_rate': 0.0008922471240945444, 'epoch': 0.29}
- 29%|██▉       | 3125/10714 [50:17<1:01:56,  2.04it/s] 29%|██▉       | 3126/10714 [50:17<1:02:08,  2.03it/s] 29%|██▉       | 3127/10714 [50:17<1:02:00,  2.04it/s] 29%|██▉       | 3128/10714 [50:18<1:01:55,  2.04it/s] 29%|██▉       | 3129/10714 [50:18<1:01:54,  2.04it/s] 29%|██▉       | 3130/10714 [50:19<1:01:56,  2.04it/s] 29%|██▉       | 3131/10714 [50:19<1:01:56,  2.04it/s] 29%|██▉       | 3132/10714 [50:20<1:01:51,  2.04it/s] 29%|██▉       | 3133/10714 [50:20<1:01:47,  2.04it/s] 29%|██▉       | 3134/10714 [50:21<1:01:49,  2.04it/s] 29%|██▉       | 3135/10714 [50:21<1:01:48,  2.04it/s] 29%|██▉       | 3136/10714 [50:22<1:01:48,  2.04it/s] 29%|██▉       | 3137/10714 [50:22<1:01:45,  2.04it/s] 29%|██▉       | 3138/10714 [50:23<1:01:48,  2.04it/s] 29%|██▉       | 3139/10714 [50:23<1:01:52,  2.04it/s] 29%|██▉       | 3140/10714 [50:24<1:01:48,  2.04it/s] 29%|██▉       | 3141/10714 [50:24<1:01:46,  2.04it/s] 29%|██▉       | 3142/10714 [50:25<1:01:50,  2.04it/s] 29%|██▉       | 3143/10714 [50:25<1:01:51,  2.04it/s] 29%|██▉       | 3144/10714 [50:26<1:01:48,  2.04it/s] 29%|██▉       | 3145/10714 [50:26<1:02:04,  2.03it/s] 29%|██▉       | 3146/10714 [50:27<1:01:59,  2.03it/s] 29%|██▉       | 3147/10714 [50:27<1:01:51,  2.04it/s] 29%|██▉       | 3148/10714 [50:28<1:01:46,  2.04it/s] 29%|██▉       | 3149/10714 [50:28<1:01:49,  2.04it/s] 29%|██▉       | 3150/10714 [50:29<1:01:46,  2.04it/s]                                                      {'loss': 3.6418, 'grad_norm': 0.2166314721107483, 'learning_rate': 0.0008897084507718984, 'epoch': 0.29}
- 29%|██▉       | 3150/10714 [50:29<1:01:46,  2.04it/s] 29%|██▉       | 3151/10714 [50:29<1:01:46,  2.04it/s] 29%|██▉       | 3152/10714 [50:30<1:01:46,  2.04it/s] 29%|██▉       | 3153/10714 [50:30<1:01:50,  2.04it/s] 29%|██▉       | 3154/10714 [50:31<1:01:56,  2.03it/s] 29%|██▉       | 3155/10714 [50:31<1:12:07,  1.75it/s] 29%|██▉       | 3156/10714 [50:32<1:09:03,  1.82it/s] 29%|██▉       | 3157/10714 [50:32<1:06:51,  1.88it/s] 29%|██▉       | 3158/10714 [50:33<1:05:16,  1.93it/s] 29%|██▉       | 3159/10714 [50:33<1:04:12,  1.96it/s] 29%|██▉       | 3160/10714 [50:34<1:03:23,  1.99it/s] 30%|██▉       | 3161/10714 [50:34<1:02:52,  2.00it/s] 30%|██▉       | 3162/10714 [50:35<1:02:34,  2.01it/s] 30%|██▉       | 3163/10714 [50:35<1:02:18,  2.02it/s] 30%|██▉       | 3164/10714 [50:36<1:02:05,  2.03it/s] 30%|██▉       | 3165/10714 [50:36<1:01:59,  2.03it/s] 30%|██���       | 3166/10714 [50:37<1:01:49,  2.03it/s] 30%|██▉       | 3167/10714 [50:37<1:01:42,  2.04it/s] 30%|██▉       | 3168/10714 [50:38<1:11:56,  1.75it/s] 30%|██▉       | 3169/10714 [50:39<1:08:44,  1.83it/s] 30%|██▉       | 3170/10714 [50:39<1:06:30,  1.89it/s] 30%|██▉       | 3171/10714 [50:40<1:05:10,  1.93it/s] 30%|██▉       | 3172/10714 [50:40<1:04:06,  1.96it/s] 30%|██▉       | 3173/10714 [50:41<1:03:17,  1.99it/s] 30%|██▉       | 3174/10714 [50:41<1:02:46,  2.00it/s] 30%|██▉       | 3175/10714 [50:42<1:02:23,  2.01it/s]                                                      {'loss': 3.6584, 'grad_norm': 0.19696468114852905, 'learning_rate': 0.0008871439201637543, 'epoch': 0.3}
- 30%|██▉       | 3175/10714 [50:42<1:02:23,  2.01it/s] 30%|██▉       | 3176/10714 [50:42<1:02:21,  2.01it/s] 30%|██▉       | 3177/10714 [50:43<1:02:04,  2.02it/s] 30%|██▉       | 3178/10714 [50:43<1:01:52,  2.03it/s] 30%|██▉       | 3179/10714 [50:44<1:01:50,  2.03it/s] 30%|██▉       | 3180/10714 [50:44<1:01:44,  2.03it/s] 30%|██▉       | 3181/10714 [50:44<1:01:43,  2.03it/s] 30%|██▉       | 3182/10714 [50:45<1:01:49,  2.03it/s] 30%|██▉       | 3183/10714 [50:45<1:01:39,  2.04it/s] 30%|██▉       | 3184/10714 [50:46<1:01:33,  2.04it/s] 30%|██▉       | 3185/10714 [50:46<1:01:29,  2.04it/s] 30%|██▉       | 3186/10714 [50:47<1:01:33,  2.04it/s] 30%|██▉       | 3187/10714 [50:47<1:01:27,  2.04it/s] 30%|██▉       | 3188/10714 [50:48<1:01:26,  2.04it/s] 30%|██▉       | 3189/10714 [50:48<1:01:23,  2.04it/s] 30%|██▉       | 3190/10714 [50:49<1:01:24,  2.04it/s] 30%|██▉       | 3191/10714 [50:49<1:01:22,  2.04it/s] 30%|██▉       | 3192/10714 [50:50<1:01:20,  2.04it/s] 30%|██▉       | 3193/10714 [50:50<1:01:22,  2.04it/s] 30%|██▉       | 3194/10714 [50:51<1:01:20,  2.04it/s] 30%|██▉       | 3195/10714 [50:51<1:01:18,  2.04it/s] 30%|██▉       | 3196/10714 [50:52<1:01:19,  2.04it/s] 30%|██▉       | 3197/10714 [50:52<1:01:19,  2.04it/s] 30%|██▉       | 3198/10714 [50:53<1:01:20,  2.04it/s] 30%|██▉       | 3199/10714 [50:53<1:01:20,  2.04it/s] 30%|██▉       | 3200/10714 [50:54<1:01:20,  2.04it/s]                                                      {'loss': 3.6574, 'grad_norm': 0.2083488255739212, 'learning_rate': 0.0008845537024275721, 'epoch': 0.3}
- 30%|██▉       | 3200/10714 [50:54<1:01:20,  2.04it/s] 30%|██▉       | 3201/10714 [50:54<1:01:27,  2.04it/s] 30%|██▉       | 3202/10714 [50:55<1:01:22,  2.04it/s] 30%|██▉       | 3203/10714 [50:55<1:01:24,  2.04it/s] 30%|██▉       | 3204/10714 [50:56<1:01:20,  2.04it/s] 30%|██▉       | 3205/10714 [50:56<1:01:24,  2.04it/s] 30%|██▉       | 3206/10714 [50:57<1:01:21,  2.04it/s] 30%|██▉       | 3207/10714 [50:57<1:01:17,  2.04it/s] 30%|██▉       | 3208/10714 [50:58<1:09:33,  1.80it/s] 30%|██▉       | 3209/10714 [50:58<1:07:09,  1.86it/s] 30%|██▉       | 3210/10714 [50:59<1:05:20,  1.91it/s] 30%|██▉       | 3211/10714 [50:59<1:04:04,  1.95it/s] 30%|██▉       | 3212/10714 [51:00<1:03:11,  1.98it/s] 30%|██▉       | 3213/10714 [51:01<1:11:07,  1.76it/s] 30%|██▉       | 3214/10714 [51:01<1:08:12,  1.83it/s] 30%|███       | 3215/10714 [51:02<1:06:04,  1.89it/s] 30%|███       | 3216/10714 [51:02<1:04:35,  1.93it/s] 30%|███       | 3217/10714 [51:03<1:03:36,  1.96it/s] 30%|███       | 3218/10714 [51:03<1:02:47,  1.99it/s] 30%|███       | 3219/10714 [51:04<1:02:14,  2.01it/s] 30%|███       | 3220/10714 [51:04<1:01:51,  2.02it/s] 30%|███       | 3221/10714 [51:05<1:01:39,  2.03it/s] 30%|███       | 3222/10714 [51:05<1:01:30,  2.03it/s] 30%|███       | 3223/10714 [51:06<1:01:26,  2.03it/s] 30%|███       | 3224/10714 [51:06<1:01:20,  2.04it/s] 30%|███       | 3225/10714 [51:06<1:01:18,  2.04it/s]                                                      {'loss': 3.6539, 'grad_norm': 0.19547949731349945, 'learning_rate': 0.0008819379694251612, 'epoch': 0.3}
- 30%|███       | 3225/10714 [51:07<1:01:18,  2.04it/s] 30%|███       | 3226/10714 [51:07<1:01:16,  2.04it/s] 30%|███       | 3227/10714 [51:07<1:01:08,  2.04it/s] 30%|███       | 3228/10714 [51:08<1:01:07,  2.04it/s] 30%|███       | 3229/10714 [51:08<1:01:08,  2.04it/s] 30%|███       | 3230/10714 [51:09<1:01:06,  2.04it/s] 30%|███       | 3231/10714 [51:09<1:01:04,  2.04it/s] 30%|███       | 3232/10714 [51:10<1:01:00,  2.04it/s] 30%|███       | 3233/10714 [51:10<1:01:02,  2.04it/s] 30%|███       | 3234/10714 [51:11<1:01:04,  2.04it/s] 30%|███       | 3235/10714 [51:11<1:00:58,  2.04it/s] 30%|███       | 3236/10714 [51:12<1:00:56,  2.04it/s] 30%|███       | 3237/10714 [51:12<1:00:51,  2.05it/s] 30%|███       | 3238/10714 [51:13<1:00:54,  2.05it/s] 30%|███       | 3239/10714 [51:13<1:01:01,  2.04it/s] 30%|███       | 3240/10714 [51:14<1:00:58,  2.04it/s] 30%|███       | 3241/10714 [51:14<1:00:55,  2.04it/s] 30%|███       | 3242/10714 [51:15<1:01:13,  2.03it/s] 30%|███       | 3243/10714 [51:15<1:01:03,  2.04it/s] 30%|███       | 3244/10714 [51:16<1:00:59,  2.04it/s] 30%|███       | 3245/10714 [51:16<1:00:59,  2.04it/s] 30%|███       | 3246/10714 [51:17<1:00:59,  2.04it/s] 30%|███       | 3247/10714 [51:17<1:00:58,  2.04it/s] 30%|███       | 3248/10714 [51:18<1:00:54,  2.04it/s] 30%|███       | 3249/10714 [51:18<1:00:50,  2.05it/s] 30%|███       | 3250/10714 [51:19<1:01:12,  2.03it/s]{'loss': 3.6481, 'grad_norm': 0.20493412017822266, 'learning_rate': 0.0008792968947112776, 'epoch': 0.3}                                                      
- 30%|███       | 3250/10714 [51:19<1:01:12,  2.03it/s] 30%|███       | 3251/10714 [51:19<1:01:07,  2.04it/s] 30%|███       | 3252/10714 [51:20<1:00:57,  2.04it/s] 30%|███       | 3253/10714 [51:20<1:00:57,  2.04it/s] 30%|███       | 3254/10714 [51:21<1:00:56,  2.04it/s] 30%|███       | 3255/10714 [51:21<1:00:55,  2.04it/s] 30%|███       | 3256/10714 [51:22<1:00:53,  2.04it/s] 30%|███       | 3257/10714 [51:22<1:00:52,  2.04it/s] 30%|███       | 3258/10714 [51:23<1:00:53,  2.04it/s] 30%|███       | 3259/10714 [51:23<1:00:53,  2.04it/s] 30%|███       | 3260/10714 [51:24<1:00:53,  2.04it/s] 30%|███       | 3261/10714 [51:24<1:00:52,  2.04it/s] 30%|███       | 3262/10714 [51:25<1:00:51,  2.04it/s] 30%|███       | 3263/10714 [51:25<1:00:49,  2.04it/s] 30%|███       | 3264/10714 [51:26<1:00:51,  2.04it/s] 30%|███       | 3265/10714 [51:26<1:00:54,  2.04it/s] 30%|███       | 3266/10714 [51:27<1:01:18,  2.02it/s] 30%|███       | 3267/10714 [51:27<1:01:10,  2.03it/s] 31%|███       | 3268/10714 [51:28<1:01:03,  2.03it/s] 31%|███       | 3269/10714 [51:28<1:00:53,  2.04it/s] 31%|███       | 3270/10714 [51:29<1:00:46,  2.04it/s] 31%|███       | 3271/10714 [51:29<1:00:44,  2.04it/s] 31%|███       | 3272/10714 [51:30<1:00:46,  2.04it/s] 31%|███       | 3273/10714 [51:30<1:00:52,  2.04it/s] 31%|███       | 3274/10714 [51:31<1:00:52,  2.04it/s] 31%|███       | 3275/10714 [51:31<1:00:48,  2.04it/s]{'loss': 3.6459, 'grad_norm': 0.21525724232196808, 'learning_rate': 0.000876630653522108, 'epoch': 0.31}                                                      
- 31%|███       | 3275/10714 [51:31<1:00:48,  2.04it/s] 31%|███       | 3276/10714 [51:31<1:00:52,  2.04it/s] 31%|███       | 3277/10714 [51:32<1:00:50,  2.04it/s] 31%|███       | 3278/10714 [51:32<1:00:45,  2.04it/s] 31%|███       | 3279/10714 [51:33<1:00:46,  2.04it/s] 31%|███       | 3280/10714 [51:33<1:00:44,  2.04it/s] 31%|███       | 3281/10714 [51:34<1:00:44,  2.04it/s] 31%|███       | 3282/10714 [51:34<1:00:45,  2.04it/s] 31%|███       | 3283/10714 [51:35<1:00:43,  2.04it/s] 31%|███       | 3284/10714 [51:35<1:00:42,  2.04it/s] 31%|███       | 3285/10714 [51:36<1:00:40,  2.04it/s] 31%|███       | 3286/10714 [51:36<1:00:42,  2.04it/s] 31%|███       | 3287/10714 [51:37<1:00:42,  2.04it/s] 31%|███       | 3288/10714 [51:37<1:00:37,  2.04it/s] 31%|███       | 3289/10714 [51:38<1:00:32,  2.04it/s] 31%|███       | 3290/10714 [51:38<1:00:32,  2.04it/s] 31%|███       | 3291/10714 [51:39<1:00:37,  2.04it/s] 31%|███       | 3292/10714 [51:39<1:00:39,  2.04it/s] 31%|███       | 3293/10714 [51:40<1:00:35,  2.04it/s] 31%|███       | 3294/10714 [51:40<1:00:34,  2.04it/s] 31%|███       | 3295/10714 [51:41<1:00:34,  2.04it/s] 31%|███       | 3296/10714 [51:41<1:00:35,  2.04it/s] 31%|███       | 3297/10714 [51:42<1:00:32,  2.04it/s] 31%|███       | 3298/10714 [51:42<1:00:31,  2.04it/s] 31%|███       | 3299/10714 [51:43<1:00:31,  2.04it/s] 31%|███       | 3300/10714 [51:43<1:00:31,  2.04it/s]                                                      {'loss': 3.6433, 'grad_norm': 0.21622346341609955, 'learning_rate': 0.0008739394227636434, 'epoch': 0.31}
- 31%|███       | 3300/10714 [51:43<1:00:31,  2.04it/s] 31%|███       | 3301/10714 [51:44<1:00:32,  2.04it/s] 31%|███       | 3302/10714 [51:44<1:00:30,  2.04it/s] 31%|███       | 3303/10714 [51:45<1:00:30,  2.04it/s] 31%|███       | 3304/10714 [51:45<1:00:28,  2.04it/s] 31%|███       | 3305/10714 [51:46<1:00:30,  2.04it/s] 31%|███       | 3306/10714 [51:46<1:00:33,  2.04it/s] 31%|███       | 3307/10714 [51:47<1:00:29,  2.04it/s] 31%|███       | 3308/10714 [51:47<1:00:24,  2.04it/s] 31%|███       | 3309/10714 [51:48<1:00:18,  2.05it/s] 31%|███       | 3310/10714 [51:48<1:00:22,  2.04it/s] 31%|███       | 3311/10714 [51:49<1:00:23,  2.04it/s] 31%|███       | 3312/10714 [51:49<1:00:22,  2.04it/s] 31%|███       | 3313/10714 [51:50<1:00:21,  2.04it/s] 31%|███       | 3314/10714 [51:50<1:00:19,  2.04it/s] 31%|███       | 3315/10714 [51:51<1:00:25,  2.04it/s] 31%|███       | 3316/10714 [51:51<1:00:24,  2.04it/s] 31%|███       | 3317/10714 [51:52<1:00:19,  2.04it/s] 31%|███       | 3318/10714 [51:52<1:00:19,  2.04it/s] 31%|███       | 3319/10714 [51:53<1:00:16,  2.04it/s] 31%|███       | 3320/10714 [51:53<1:00:19,  2.04it/s] 31%|███       | 3321/10714 [51:54<1:00:16,  2.04it/s] 31%|███       | 3322/10714 [51:54<1:00:12,  2.05it/s] 31%|███       | 3323/10714 [51:55<1:00:17,  2.04it/s] 31%|███       | 3324/10714 [51:55<1:00:31,  2.03it/s] 31%|███       | 3325/10714 [51:55<1:00:23,  2.04it/s]{'loss': 3.6393, 'grad_norm': 0.21096080541610718, 'learning_rate': 0.0008712233809999408, 'epoch': 0.31}                                                      
- 31%|███       | 3325/10714 [51:56<1:00:23,  2.04it/s] 31%|███       | 3326/10714 [51:56<1:00:26,  2.04it/s] 31%|███       | 3327/10714 [51:56<1:00:24,  2.04it/s] 31%|███       | 3328/10714 [51:57<1:00:18,  2.04it/s] 31%|███       | 3329/10714 [51:57<1:00:12,  2.04it/s] 31%|███       | 3330/10714 [51:58<1:00:31,  2.03it/s] 31%|███       | 3331/10714 [51:58<1:00:22,  2.04it/s] 31%|███       | 3332/10714 [51:59<1:00:17,  2.04it/s] 31%|███       | 3333/10714 [51:59<1:00:12,  2.04it/s] 31%|███       | 3334/10714 [52:00<1:00:16,  2.04it/s] 31%|███       | 3335/10714 [52:00<1:00:12,  2.04it/s] 31%|███       | 3336/10714 [52:01<1:00:07,  2.05it/s] 31%|███       | 3337/10714 [52:01<1:00:09,  2.04it/s] 31%|███       | 3338/10714 [52:02<1:00:10,  2.04it/s] 31%|███       | 3339/10714 [52:02<1:00:12,  2.04it/s] 31%|███       | 3340/10714 [52:03<1:00:09,  2.04it/s] 31%|███       | 3341/10714 [52:03<1:00:06,  2.04it/s] 31%|███       | 3342/10714 [52:04<1:00:09,  2.04it/s] 31%|███       | 3343/10714 [52:04<1:00:08,  2.04it/s] 31%|███       | 3344/10714 [52:05<1:00:05,  2.04it/s] 31%|███       | 3345/10714 [52:05<1:00:02,  2.05it/s] 31%|███       | 3346/10714 [52:06<1:00:03,  2.04it/s] 31%|███       | 3347/10714 [52:06<1:00:06,  2.04it/s] 31%|███       | 3348/10714 [52:07<1:00:06,  2.04it/s] 31%|███▏      | 3349/10714 [52:07<1:00:08,  2.04it/s] 31%|███▏      | 3350/10714 [52:08<1:00:08,  2.04it/s]                                                      {'loss': 3.6316, 'grad_norm': 0.20870564877986908, 'learning_rate': 0.0008684827084412759, 'epoch': 0.31}
- 31%|███▏      | 3350/10714 [52:08<1:00:08,  2.04it/s] 31%|███▏      | 3351/10714 [52:08<1:00:10,  2.04it/s] 31%|███▏      | 3352/10714 [52:09<1:00:10,  2.04it/s] 31%|███▏      | 3353/10714 [52:09<1:00:04,  2.04it/s] 31%|███▏      | 3354/10714 [52:10<1:00:04,  2.04it/s] 31%|███▏      | 3355/10714 [52:10<1:00:01,  2.04it/s] 31%|███▏      | 3356/10714 [52:11<1:00:02,  2.04it/s] 31%|███▏      | 3357/10714 [52:11<1:00:00,  2.04it/s] 31%|███▏      | 3358/10714 [52:12<1:00:01,  2.04it/s] 31%|███▏      | 3359/10714 [52:12<1:00:00,  2.04it/s] 31%|███▏      | 3360/10714 [52:13<59:56,  2.04it/s]   31%|███▏      | 3361/10714 [52:13<59:57,  2.04it/s] 31%|███▏      | 3362/10714 [52:14<59:55,  2.04it/s] 31%|███▏      | 3363/10714 [52:14<59:55,  2.04it/s] 31%|███▏      | 3364/10714 [52:15<59:53,  2.05it/s] 31%|███▏      | 3365/10714 [52:15<59:55,  2.04it/s] 31%|███▏      | 3366/10714 [52:16<59:54,  2.04it/s] 31%|███▏      | 3367/10714 [52:16<59:59,  2.04it/s] 31%|███▏      | 3368/10714 [52:17<59:57,  2.04it/s] 31%|███▏      | 3369/10714 [52:17<59:53,  2.04it/s] 31%|███▏      | 3370/10714 [52:18<59:53,  2.04it/s] 31%|███▏      | 3371/10714 [52:18<59:51,  2.04it/s] 31%|███▏      | 3372/10714 [52:19<59:48,  2.05it/s] 31%|███▏      | 3373/10714 [52:19<59:51,  2.04it/s] 31%|███▏      | 3374/10714 [52:19<59:51,  2.04it/s] 32%|███▏      | 3375/10714 [52:20<59:51,  2.04it/s]{'loss': 3.6316, 'grad_norm': 0.20672933757305145, 'learning_rate': 0.0008657175869321854, 'epoch': 0.32}
-                                                     32%|███▏      | 3375/10714 [52:20<59:51,  2.04it/s] 32%|███▏      | 3376/10714 [52:20<59:50,  2.04it/s] 32%|███▏      | 3377/10714 [52:21<59:51,  2.04it/s] 32%|███▏      | 3378/10714 [52:21<59:54,  2.04it/s] 32%|███▏      | 3379/10714 [52:22<59:52,  2.04it/s] 32%|███▏      | 3380/10714 [52:22<59:47,  2.04it/s] 32%|███▏      | 3381/10714 [52:23<59:48,  2.04it/s] 32%|███▏      | 3382/10714 [52:23<59:49,  2.04it/s] 32%|███▏      | 3383/10714 [52:24<59:49,  2.04it/s] 32%|███▏      | 3384/10714 [52:24<59:45,  2.04it/s] 32%|███▏      | 3385/10714 [52:25<59:41,  2.05it/s] 32%|███▏      | 3386/10714 [52:25<59:41,  2.05it/s] 32%|███▏      | 3387/10714 [52:26<59:41,  2.05it/s] 32%|███▏      | 3388/10714 [52:26<59:43,  2.04it/s] 32%|███▏      | 3389/10714 [52:27<59:42,  2.04it/s] 32%|███▏      | 3390/10714 [52:27<59:38,  2.05it/s] 32%|███▏      | 3391/10714 [52:28<59:39,  2.05it/s] 32%|███▏      | 3392/10714 [52:28<59:44,  2.04it/s] 32%|███▏      | 3393/10714 [52:29<59:42,  2.04it/s] 32%|███▏      | 3394/10714 [52:29<59:40,  2.04it/s] 32%|███▏      | 3395/10714 [52:30<59:38,  2.05it/s] 32%|███▏      | 3396/10714 [52:30<59:41,  2.04it/s] 32%|███▏      | 3397/10714 [52:31<59:43,  2.04it/s] 32%|███▏      | 3398/10714 [52:31<59:43,  2.04it/s] 32%|███▏      | 3399/10714 [52:32<59:42,  2.04it/s] 32%|███▏      | 3400/10714 [52:32<59:36,  2.04it/s]                                                    {'loss': 3.6279, 'grad_norm': 0.21142396330833435, 'learning_rate': 0.0008629281999394027, 'epoch': 0.32}
- 32%|███▏      | 3400/10714 [52:32<59:36,  2.04it/s] 32%|███▏      | 3401/10714 [52:33<59:50,  2.04it/s] 32%|███▏      | 3402/10714 [52:33<59:45,  2.04it/s] 32%|███▏      | 3403/10714 [52:34<59:38,  2.04it/s] 32%|███▏      | 3404/10714 [52:34<59:36,  2.04it/s] 32%|███▏      | 3405/10714 [52:35<59:32,  2.05it/s] 32%|███▏      | 3406/10714 [52:35<59:35,  2.04it/s] 32%|███▏      | 3407/10714 [52:36<59:38,  2.04it/s] 32%|███▏      | 3408/10714 [52:36<59:34,  2.04it/s] 32%|███▏      | 3409/10714 [52:37<59:32,  2.04it/s] 32%|███▏      | 3410/10714 [52:37<59:33,  2.04it/s] 32%|███▏      | 3411/10714 [52:38<59:33,  2.04it/s] 32%|███▏      | 3412/10714 [52:38<59:32,  2.04it/s] 32%|███▏      | 3413/10714 [52:39<59:30,  2.04it/s] 32%|███▏      | 3414/10714 [52:39<59:28,  2.05it/s] 32%|███▏      | 3415/10714 [52:40<59:32,  2.04it/s] 32%|███▏      | 3416/10714 [52:40<59:32,  2.04it/s] 32%|███▏      | 3417/10714 [52:41<59:32,  2.04it/s] 32%|███▏      | 3418/10714 [52:41<59:31,  2.04it/s] 32%|███▏      | 3419/10714 [52:42<59:34,  2.04it/s] 32%|███▏      | 3420/10714 [52:42<59:28,  2.04it/s] 32%|███▏      | 3421/10714 [52:42<59:28,  2.04it/s] 32%|███▏      | 3422/10714 [52:43<59:26,  2.04it/s] 32%|███▏      | 3423/10714 [52:43<59:29,  2.04it/s] 32%|███▏      | 3424/10714 [52:44<59:28,  2.04it/s] 32%|███▏      | 3425/10714 [52:44<59:25,  2.04it/s]                                                    {'loss': 3.6339, 'grad_norm': 0.21746507287025452, 'learning_rate': 0.0008601147325396838, 'epoch': 0.32}
- 32%|███▏      | 3425/10714 [52:44<59:25,  2.04it/s] 32%|███▏      | 3426/10714 [52:45<59:30,  2.04it/s] 32%|███▏      | 3427/10714 [52:45<59:29,  2.04it/s] 32%|███▏      | 3428/10714 [52:46<59:26,  2.04it/s] 32%|███▏      | 3429/10714 [52:46<59:25,  2.04it/s] 32%|███▏      | 3430/10714 [52:47<59:23,  2.04it/s] 32%|███▏      | 3431/10714 [52:47<59:18,  2.05it/s] 32%|███▏      | 3432/10714 [52:48<59:15,  2.05it/s] 32%|███▏      | 3433/10714 [52:48<59:22,  2.04it/s] 32%|███▏      | 3434/10714 [52:49<59:23,  2.04it/s] 32%|███▏      | 3435/10714 [52:49<59:22,  2.04it/s] 32%|███▏      | 3436/10714 [52:50<59:19,  2.04it/s] 32%|███▏      | 3437/10714 [52:50<59:15,  2.05it/s] 32%|███▏      | 3438/10714 [52:51<59:13,  2.05it/s] 32%|███▏      | 3439/10714 [52:51<59:15,  2.05it/s] 32%|███▏      | 3440/10714 [52:52<59:18,  2.04it/s] 32%|███▏      | 3441/10714 [52:52<59:19,  2.04it/s] 32%|███▏      | 3442/10714 [52:53<59:16,  2.04it/s] 32%|███▏      | 3443/10714 [52:53<59:18,  2.04it/s] 32%|███▏      | 3444/10714 [52:54<59:17,  2.04it/s] 32%|███▏      | 3445/10714 [52:54<59:15,  2.04it/s] 32%|███▏      | 3446/10714 [52:55<59:15,  2.04it/s] 32%|███▏      | 3447/10714 [52:55<59:13,  2.04it/s] 32%|███▏      | 3448/10714 [52:56<59:12,  2.05it/s] 32%|███▏      | 3449/10714 [52:56<59:10,  2.05it/s] 32%|███▏      | 3450/10714 [52:57<59:08,  2.05it/s]                                                    {'loss': 3.6396, 'grad_norm': 0.21894614398479462, 'learning_rate': 0.0008572773714075274, 'epoch': 0.32}
- 32%|███▏      | 3450/10714 [52:57<59:08,  2.05it/s] 32%|███▏      | 3451/10714 [52:57<59:10,  2.05it/s] 32%|███▏      | 3452/10714 [52:58<59:09,  2.05it/s] 32%|███▏      | 3453/10714 [52:58<59:11,  2.04it/s] 32%|███▏      | 3454/10714 [52:59<59:09,  2.05it/s] 32%|███▏      | 3455/10714 [52:59<59:06,  2.05it/s] 32%|███▏      | 3456/10714 [53:00<59:08,  2.05it/s] 32%|███▏      | 3457/10714 [53:00<59:10,  2.04it/s] 32%|███▏      | 3458/10714 [53:01<59:10,  2.04it/s] 32%|███▏      | 3459/10714 [53:01<59:04,  2.05it/s] 32%|███▏      | 3460/10714 [53:02<58:59,  2.05it/s] 32%|███▏      | 3461/10714 [53:02<58:59,  2.05it/s] 32%|███▏      | 3462/10714 [53:03<59:00,  2.05it/s] 32%|███▏      | 3463/10714 [53:03<59:08,  2.04it/s] 32%|███▏      | 3464/10714 [53:04<59:02,  2.05it/s] 32%|███▏      | 3465/10714 [53:04<59:03,  2.05it/s] 32%|███▏      | 3466/10714 [53:04<59:01,  2.05it/s] 32%|███▏      | 3467/10714 [53:05<59:02,  2.05it/s] 32%|███▏      | 3468/10714 [53:05<59:03,  2.04it/s] 32%|███▏      | 3469/10714 [53:06<58:58,  2.05it/s] 32%|███▏      | 3470/10714 [53:06<58:55,  2.05it/s] 32%|███▏      | 3471/10714 [53:07<58:57,  2.05it/s] 32%|███▏      | 3472/10714 [53:07<58:58,  2.05it/s] 32%|███▏      | 3473/10714 [53:08<59:03,  2.04it/s] 32%|███▏      | 3474/10714 [53:08<58:57,  2.05it/s] 32%|███▏      | 3475/10714 [53:09<58:54,  2.05it/s]{'loss': 3.6225, 'grad_norm': 0.19897688925266266, 'learning_rate': 0.0008544163048027897, 'epoch': 0.32}                                                    
- 32%|███▏      | 3475/10714 [53:09<58:54,  2.05it/s] 32%|███▏      | 3476/10714 [53:09<59:00,  2.04it/s] 32%|███▏      | 3477/10714 [53:10<59:04,  2.04it/s] 32%|███▏      | 3478/10714 [53:10<59:02,  2.04it/s] 32%|███▏      | 3479/10714 [53:11<58:58,  2.04it/s] 32%|███▏      | 3480/10714 [53:11<58:57,  2.04it/s] 32%|███▏      | 3481/10714 [53:12<58:56,  2.05it/s] 32%|███▏      | 3482/10714 [53:12<58:56,  2.05it/s] 33%|███▎      | 3483/10714 [53:13<58:57,  2.04it/s] 33%|███▎      | 3484/10714 [53:13<58:55,  2.05it/s] 33%|███▎      | 3485/10714 [53:14<58:59,  2.04it/s] 33%|███▎      | 3486/10714 [53:14<58:59,  2.04it/s] 33%|███▎      | 3487/10714 [53:15<58:58,  2.04it/s] 33%|███▎      | 3488/10714 [53:15<58:58,  2.04it/s] 33%|███▎      | 3489/10714 [53:16<58:58,  2.04it/s] 33%|███▎      | 3490/10714 [53:16<58:58,  2.04it/s] 33%|███▎      | 3491/10714 [53:17<58:56,  2.04it/s] 33%|███▎      | 3492/10714 [53:17<58:55,  2.04it/s] 33%|███▎      | 3493/10714 [53:18<58:49,  2.05it/s] 33%|███▎      | 3494/10714 [53:18<58:52,  2.04it/s] 33%|███▎      | 3495/10714 [53:19<58:51,  2.04it/s] 33%|███▎      | 3496/10714 [53:19<58:48,  2.05it/s] 33%|███▎      | 3497/10714 [53:20<58:46,  2.05it/s] 33%|███▎      | 3498/10714 [53:20<58:43,  2.05it/s] 33%|███▎      | 3499/10714 [53:21<58:41,  2.05it/s] 33%|███▎      | 3500/10714 [53:21<58:46,  2.05it/s]{'loss': 3.6243, 'grad_norm': 0.20017090439796448, 'learning_rate': 0.0008515317225581926, 'epoch': 0.33}                                                    
- 33%|███▎      | 3500/10714 [53:21<58:46,  2.05it/s] 33%|███▎      | 3501/10714 [53:22<58:49,  2.04it/s] 33%|███▎      | 3502/10714 [53:22<58:46,  2.05it/s] 33%|███▎      | 3503/10714 [53:23<58:43,  2.05it/s] 33%|███▎      | 3504/10714 [53:23<58:44,  2.05it/s] 33%|███▎      | 3505/10714 [53:24<58:45,  2.05it/s] 33%|███▎      | 3506/10714 [53:24<58:44,  2.05it/s] 33%|███▎      | 3507/10714 [53:25<58:41,  2.05it/s] 33%|███▎      | 3508/10714 [53:25<58:36,  2.05it/s] 33%|███▎      | 3509/10714 [53:26<58:39,  2.05it/s] 33%|███▎      | 3510/10714 [53:26<58:41,  2.05it/s] 33%|███▎      | 3511/10714 [53:26<58:42,  2.04it/s] 33%|███▎      | 3512/10714 [53:27<58:40,  2.05it/s] 33%|███▎      | 3513/10714 [53:27<58:38,  2.05it/s] 33%|███▎      | 3514/10714 [53:28<58:36,  2.05it/s] 33%|███▎      | 3515/10714 [53:28<58:36,  2.05it/s] 33%|███▎      | 3516/10714 [53:29<58:37,  2.05it/s] 33%|███▎      | 3517/10714 [53:29<58:43,  2.04it/s] 33%|███▎      | 3518/10714 [53:30<58:37,  2.05it/s] 33%|███▎      | 3519/10714 [53:30<58:38,  2.05it/s] 33%|███▎      | 3520/10714 [53:31<58:37,  2.05it/s] 33%|███▎      | 3521/10714 [53:31<58:40,  2.04it/s] 33%|███▎      | 3522/10714 [53:32<58:37,  2.04it/s] 33%|███▎      | 3523/10714 [53:32<58:34,  2.05it/s] 33%|███▎      | 3524/10714 [53:33<58:33,  2.05it/s] 33%|███▎      | 3525/10714 [53:33<58:34,  2.05it/s]{'loss': 3.6247, 'grad_norm': 0.20415936410427094, 'learning_rate': 0.0008486238160667291, 'epoch': 0.33}                                                    
- 33%|███▎      | 3525/10714 [53:33<58:34,  2.05it/s] 33%|███▎      | 3526/10714 [53:34<58:39,  2.04it/s] 33%|███▎      | 3527/10714 [53:34<58:36,  2.04it/s] 33%|███▎      | 3528/10714 [53:35<58:34,  2.04it/s] 33%|███▎      | 3529/10714 [53:35<58:34,  2.04it/s] 33%|███▎      | 3530/10714 [53:36<58:31,  2.05it/s] 33%|███▎      | 3531/10714 [53:36<58:32,  2.05it/s] 33%|███▎      | 3532/10714 [53:37<58:32,  2.04it/s] 33%|███▎      | 3533/10714 [53:37<58:30,  2.05it/s] 33%|███▎      | 3534/10714 [53:38<58:33,  2.04it/s] 33%|███▎      | 3535/10714 [53:38<58:30,  2.05it/s] 33%|███▎      | 3536/10714 [53:39<58:34,  2.04it/s] 33%|███▎      | 3537/10714 [53:39<58:32,  2.04it/s] 33%|███▎      | 3538/10714 [53:40<58:30,  2.04it/s] 33%|███▎      | 3539/10714 [53:40<58:30,  2.04it/s] 33%|███▎      | 3540/10714 [53:41<58:30,  2.04it/s] 33%|███▎      | 3541/10714 [53:41<58:32,  2.04it/s] 33%|███▎      | 3542/10714 [53:42<58:28,  2.04it/s] 33%|███▎      | 3543/10714 [53:42<58:28,  2.04it/s] 33%|███▎      | 3544/10714 [53:43<58:30,  2.04it/s] 33%|███▎      | 3545/10714 [53:43<58:29,  2.04it/s] 33%|███▎      | 3546/10714 [53:44<58:26,  2.04it/s] 33%|███▎      | 3547/10714 [53:44<58:22,  2.05it/s] 33%|███▎      | 3548/10714 [53:45<58:18,  2.05it/s] 33%|███▎      | 3549/10714 [53:45<58:17,  2.05it/s] 33%|███▎      | 3550/10714 [53:46<58:19,  2.05it/s]{'loss': 3.6211, 'grad_norm': 0.21098661422729492, 'learning_rate': 0.000845692778268963, 'epoch': 0.33}                                                    
- 33%|███▎      | 3550/10714 [53:46<58:19,  2.05it/s] 33%|███▎      | 3551/10714 [53:46<58:27,  2.04it/s] 33%|███▎      | 3552/10714 [53:47<58:25,  2.04it/s] 33%|███▎      | 3553/10714 [53:47<58:27,  2.04it/s] 33%|███▎      | 3554/10714 [53:48<58:25,  2.04it/s] 33%|███▎      | 3555/10714 [53:48<58:23,  2.04it/s] 33%|███▎      | 3556/10714 [53:49<58:26,  2.04it/s] 33%|███▎      | 3557/10714 [53:49<58:21,  2.04it/s] 33%|███▎      | 3558/10714 [53:49<58:18,  2.05it/s] 33%|███▎      | 3559/10714 [53:50<58:20,  2.04it/s] 33%|███▎      | 3560/10714 [53:50<58:18,  2.04it/s] 33%|███▎      | 3561/10714 [53:51<58:19,  2.04it/s] 33%|███▎      | 3562/10714 [53:51<58:15,  2.05it/s] 33%|███▎      | 3563/10714 [53:52<58:15,  2.05it/s] 33%|███▎      | 3564/10714 [53:52<58:15,  2.05it/s] 33%|███▎      | 3565/10714 [53:53<58:18,  2.04it/s] 33%|███▎      | 3566/10714 [53:53<58:16,  2.04it/s] 33%|███▎      | 3567/10714 [53:54<58:14,  2.05it/s] 33%|███▎      | 3568/10714 [53:54<58:13,  2.05it/s] 33%|███▎      | 3569/10714 [53:55<58:15,  2.04it/s] 33%|███▎      | 3570/10714 [53:55<58:18,  2.04it/s] 33%|███▎      | 3571/10714 [53:56<58:13,  2.04it/s] 33%|███▎      | 3572/10714 [53:56<58:08,  2.05it/s] 33%|███▎      | 3573/10714 [53:57<58:09,  2.05it/s] 33%|███▎      | 3574/10714 [53:57<58:10,  2.05it/s] 33%|███▎      | 3575/10714 [53:58<58:09,  2.05it/s]{'loss': 3.6259, 'grad_norm': 0.20976459980010986, 'learning_rate': 0.0008427388036402286, 'epoch': 0.33}
-                                                     33%|███▎      | 3575/10714 [53:58<58:09,  2.05it/s] 33%|███▎      | 3576/10714 [53:58<58:14,  2.04it/s] 33%|███▎      | 3577/10714 [53:59<58:12,  2.04it/s] 33%|███▎      | 3578/10714 [53:59<58:15,  2.04it/s] 33%|███▎      | 3579/10714 [54:00<58:09,  2.04it/s] 33%|███▎      | 3580/10714 [54:00<58:08,  2.05it/s] 33%|███▎      | 3581/10714 [54:01<58:09,  2.04it/s] 33%|███▎      | 3582/10714 [54:01<58:11,  2.04it/s] 33%|███▎      | 3583/10714 [54:02<58:06,  2.05it/s] 33%|███▎      | 3584/10714 [54:02<58:03,  2.05it/s] 33%|███▎      | 3585/10714 [54:03<57:59,  2.05it/s] 33%|███▎      | 3586/10714 [54:03<57:58,  2.05it/s] 33%|███▎      | 3587/10714 [54:04<58:03,  2.05it/s] 33%|███▎      | 3588/10714 [54:04<58:03,  2.05it/s] 33%|███▎      | 3589/10714 [54:05<58:04,  2.04it/s] 34%|███▎      | 3590/10714 [54:05<58:01,  2.05it/s] 34%|███▎      | 3591/10714 [54:06<57:57,  2.05it/s] 34%|███▎      | 3592/10714 [54:06<57:58,  2.05it/s] 34%|███▎      | 3593/10714 [54:07<58:02,  2.04it/s] 34%|███▎      | 3594/10714 [54:07<58:02,  2.04it/s] 34%|███▎      | 3595/10714 [54:08<57:59,  2.05it/s] 34%|███▎      | 3596/10714 [54:08<57:57,  2.05it/s] 34%|███▎      | 3597/10714 [54:09<57:58,  2.05it/s] 34%|███▎      | 3598/10714 [54:09<57:58,  2.05it/s] 34%|███▎      | 3599/10714 [54:10<57:57,  2.05it/s] 34%|███▎      | 3600/10714 [54:10<57:56,  2.05it/s]{'loss': 3.6158, 'grad_norm': 0.22065499424934387, 'learning_rate': 0.0008397620881777263, 'epoch': 0.34}                                                    
- 34%|███▎      | 3600/10714 [54:10<57:56,  2.05it/s] 34%|███▎      | 3601/10714 [54:11<58:02,  2.04it/s] 34%|███▎      | 3602/10714 [54:11<58:01,  2.04it/s] 34%|███▎      | 3603/10714 [54:11<58:00,  2.04it/s] 34%|███▎      | 3604/10714 [54:12<57:57,  2.04it/s] 34%|███▎      | 3605/10714 [54:12<58:01,  2.04it/s] 34%|███▎      | 3606/10714 [54:13<58:02,  2.04it/s] 34%|███▎      | 3607/10714 [54:13<58:00,  2.04it/s] 34%|███▎      | 3608/10714 [54:14<57:55,  2.04it/s] 34%|███▎      | 3609/10714 [54:14<57:56,  2.04it/s] 34%|███▎      | 3610/10714 [54:15<57:54,  2.04it/s] 34%|███▎      | 3611/10714 [54:15<57:56,  2.04it/s] 34%|███▎      | 3612/10714 [54:16<57:54,  2.04it/s] 34%|███▎      | 3613/10714 [54:16<57:50,  2.05it/s] 34%|███▎      | 3614/10714 [54:17<57:54,  2.04it/s] 34%|███▎      | 3615/10714 [54:17<57:53,  2.04it/s] 34%|███▍      | 3616/10714 [54:18<57:51,  2.04it/s] 34%|███▍      | 3617/10714 [54:18<57:49,  2.05it/s] 34%|███▍      | 3618/10714 [54:19<57:46,  2.05it/s] 34%|███▍      | 3619/10714 [54:19<57:47,  2.05it/s] 34%|███▍      | 3620/10714 [54:20<57:48,  2.05it/s] 34%|███▍      | 3621/10714 [54:20<57:49,  2.04it/s] 34%|███▍      | 3622/10714 [54:21<57:47,  2.05it/s] 34%|███▍      | 3623/10714 [54:21<57:43,  2.05it/s] 34%|███▍      | 3624/10714 [54:22<57:46,  2.05it/s] 34%|███▍      | 3625/10714 [54:22<57:54,  2.04it/s]{'loss': 3.6167, 'grad_norm': 0.2116837054491043, 'learning_rate': 0.000836762829387518, 'epoch': 0.34}                                                    
- 34%|███▍      | 3625/10714 [54:22<57:54,  2.04it/s] 34%|███▍      | 3626/10714 [54:23<57:53,  2.04it/s] 34%|███▍      | 3627/10714 [54:23<57:55,  2.04it/s] 34%|███▍      | 3628/10714 [54:24<57:55,  2.04it/s] 34%|███▍      | 3629/10714 [54:24<57:51,  2.04it/s] 34%|███▍      | 3630/10714 [54:25<57:47,  2.04it/s] 34%|███▍      | 3631/10714 [54:25<57:44,  2.04it/s] 34%|███▍      | 3632/10714 [54:26<57:43,  2.04it/s] 34%|███▍      | 3633/10714 [54:26<57:46,  2.04it/s] 34%|███▍      | 3634/10714 [54:27<57:45,  2.04it/s] 34%|███▍      | 3635/10714 [54:27<57:46,  2.04it/s] 34%|███▍      | 3636/10714 [54:28<57:41,  2.04it/s] 34%|███▍      | 3637/10714 [54:28<57:43,  2.04it/s] 34%|███▍      | 3638/10714 [54:29<57:41,  2.04it/s] 34%|███▍      | 3639/10714 [54:29<57:38,  2.05it/s] 34%|███▍      | 3640/10714 [54:30<57:34,  2.05it/s] 34%|███▍      | 3641/10714 [54:30<57:36,  2.05it/s] 34%|███▍      | 3642/10714 [54:31<57:34,  2.05it/s] 34%|███▍      | 3643/10714 [54:31<57:36,  2.05it/s] 34%|███▍      | 3644/10714 [54:32<57:35,  2.05it/s] 34%|███▍      | 3645/10714 [54:32<57:30,  2.05it/s] 34%|███▍      | 3646/10714 [54:33<57:28,  2.05it/s] 34%|███▍      | 3647/10714 [54:33<57:26,  2.05it/s] 34%|███▍      | 3648/10714 [54:33<57:26,  2.05it/s] 34%|███▍      | 3649/10714 [54:34<57:29,  2.05it/s] 34%|███▍      | 3650/10714 [54:34<57:30,  2.05it/s]                                                    {'loss': 3.6116, 'grad_norm': 0.21005839109420776, 'learning_rate': 0.000833741226271424, 'epoch': 0.34}
- 34%|███▍      | 3650/10714 [54:34<57:30,  2.05it/s] 34%|███▍      | 3651/10714 [54:35<57:33,  2.05it/s] 34%|███▍      | 3652/10714 [54:35<57:29,  2.05it/s] 34%|███▍      | 3653/10714 [54:36<57:32,  2.05it/s] 34%|███▍      | 3654/10714 [54:36<57:38,  2.04it/s] 34%|███▍      | 3655/10714 [54:37<57:35,  2.04it/s] 34%|███▍      | 3656/10714 [54:37<57:28,  2.05it/s] 34%|███▍      | 3657/10714 [54:38<57:26,  2.05it/s] 34%|███▍      | 3658/10714 [54:38<57:45,  2.04it/s] 34%|███▍      | 3659/10714 [54:39<57:36,  2.04it/s] 34%|███▍      | 3660/10714 [54:39<57:38,  2.04it/s] 34%|███▍      | 3661/10714 [54:40<57:38,  2.04it/s] 34%|███▍      | 3662/10714 [54:40<57:38,  2.04it/s] 34%|███▍      | 3663/10714 [54:41<57:37,  2.04it/s] 34%|███▍      | 3664/10714 [54:41<57:32,  2.04it/s] 34%|███▍      | 3665/10714 [54:42<57:29,  2.04it/s] 34%|███▍      | 3666/10714 [54:42<57:29,  2.04it/s] 34%|███▍      | 3667/10714 [54:43<57:27,  2.04it/s] 34%|███▍      | 3668/10714 [54:43<57:26,  2.04it/s] 34%|███▍      | 3669/10714 [54:44<57:26,  2.04it/s] 34%|███▍      | 3670/10714 [54:44<57:24,  2.05it/s] 34%|███▍      | 3671/10714 [54:45<57:43,  2.03it/s] 34%|███▍      | 3672/10714 [54:45<57:34,  2.04it/s] 34%|███▍      | 3673/10714 [54:46<57:31,  2.04it/s] 34%|███▍      | 3674/10714 [54:46<57:27,  2.04it/s] 34%|███▍      | 3675/10714 [54:47<57:27,  2.04it/s]                                                    {'loss': 3.6044, 'grad_norm': 0.2041596621274948, 'learning_rate': 0.0008306974793138166, 'epoch': 0.34}
- 34%|███▍      | 3675/10714 [54:47<57:27,  2.04it/s] 34%|███▍      | 3676/10714 [54:47<57:25,  2.04it/s] 34%|███▍      | 3677/10714 [54:48<57:20,  2.05it/s] 34%|███▍      | 3678/10714 [54:48<57:30,  2.04it/s] 34%|███▍      | 3679/10714 [54:49<57:26,  2.04it/s] 34%|███▍      | 3680/10714 [54:49<57:37,  2.03it/s] 34%|███▍      | 3681/10714 [54:50<57:34,  2.04it/s] 34%|███▍      | 3682/10714 [54:50<57:28,  2.04it/s] 34%|███▍      | 3683/10714 [54:51<57:26,  2.04it/s] 34%|███▍      | 3684/10714 [54:51<57:23,  2.04it/s] 34%|███▍      | 3685/10714 [54:52<57:22,  2.04it/s] 34%|███▍      | 3686/10714 [54:52<57:19,  2.04it/s] 34%|███▍      | 3687/10714 [54:53<57:17,  2.04it/s] 34%|███▍      | 3688/10714 [54:53<57:20,  2.04it/s] 34%|███▍      | 3689/10714 [54:54<57:16,  2.04it/s] 34%|███▍      | 3690/10714 [54:54<57:18,  2.04it/s] 34%|███▍      | 3691/10714 [54:55<57:13,  2.05it/s] 34%|███▍      | 3692/10714 [54:55<57:10,  2.05it/s] 34%|███▍      | 3693/10714 [54:56<57:05,  2.05it/s] 34%|███▍      | 3694/10714 [54:56<57:05,  2.05it/s] 34%|███▍      | 3695/10714 [54:57<57:08,  2.05it/s] 34%|███▍      | 3696/10714 [54:57<57:11,  2.05it/s] 35%|███▍      | 3697/10714 [54:57<57:10,  2.05it/s] 35%|███▍      | 3698/10714 [54:58<57:08,  2.05it/s] 35%|███▍      | 3699/10714 [54:58<57:03,  2.05it/s] 35%|███▍      | 3700/10714 [54:59<57:06,  2.05it/s]{'loss': 3.6096, 'grad_norm': 0.20070986449718475, 'learning_rate': 0.0008276317904683208, 'epoch': 0.35}                                                    
- 35%|███▍      | 3700/10714 [54:59<57:06,  2.05it/s] 35%|███▍      | 3701/10714 [54:59<57:10,  2.04it/s] 35%|███▍      | 3702/10714 [55:00<57:07,  2.05it/s] 35%|███▍      | 3703/10714 [55:00<57:03,  2.05it/s] 35%|███▍      | 3704/10714 [55:01<57:01,  2.05it/s] 35%|███▍      | 3705/10714 [55:01<57:02,  2.05it/s] 35%|███▍      | 3706/10714 [55:02<57:05,  2.05it/s] 35%|███▍      | 3707/10714 [55:02<57:06,  2.05it/s] 35%|███▍      | 3708/10714 [55:03<57:03,  2.05it/s] 35%|███▍      | 3709/10714 [55:03<57:01,  2.05it/s] 35%|███▍      | 3710/10714 [55:04<57:02,  2.05it/s] 35%|███▍      | 3711/10714 [55:04<57:02,  2.05it/s] 35%|███▍      | 3712/10714 [55:05<57:09,  2.04it/s] 35%|███▍      | 3713/10714 [55:05<57:09,  2.04it/s] 35%|███▍      | 3714/10714 [55:06<57:08,  2.04it/s] 35%|███▍      | 3715/10714 [55:06<57:06,  2.04it/s] 35%|███▍      | 3716/10714 [55:07<57:02,  2.04it/s] 35%|███▍      | 3717/10714 [55:07<57:03,  2.04it/s] 35%|███▍      | 3718/10714 [55:08<57:04,  2.04it/s] 35%|███▍      | 3719/10714 [55:08<57:07,  2.04it/s] 35%|███▍      | 3720/10714 [55:09<57:02,  2.04it/s] 35%|███▍      | 3721/10714 [55:09<56:59,  2.04it/s] 35%|███▍      | 3722/10714 [55:10<56:57,  2.05it/s] 35%|███▍      | 3723/10714 [55:10<56:57,  2.05it/s] 35%|███▍      | 3724/10714 [55:11<56:55,  2.05it/s] 35%|███▍      | 3725/10714 [55:11<56:57,  2.04it/s]{'loss': 3.6004, 'grad_norm': 0.21683259308338165, 'learning_rate': 0.0008245443631444122, 'epoch': 0.35}                                                    
- 35%|███▍      | 3725/10714 [55:11<56:57,  2.04it/s] 35%|███▍      | 3726/10714 [55:12<57:00,  2.04it/s] 35%|███▍      | 3727/10714 [55:12<56:59,  2.04it/s] 35%|███▍      | 3728/10714 [55:13<57:17,  2.03it/s] 35%|███▍      | 3729/10714 [55:13<57:12,  2.03it/s] 35%|███▍      | 3730/10714 [55:14<57:11,  2.04it/s] 35%|███▍      | 3731/10714 [55:14<57:07,  2.04it/s] 35%|███▍      | 3732/10714 [55:15<57:03,  2.04it/s] 35%|███▍      | 3733/10714 [55:15<56:59,  2.04it/s] 35%|███▍      | 3734/10714 [55:16<56:56,  2.04it/s] 35%|███▍      | 3735/10714 [55:16<56:49,  2.05it/s] 35%|███▍      | 3736/10714 [55:17<56:50,  2.05it/s] 35%|███▍      | 3737/10714 [55:17<56:50,  2.05it/s] 35%|███▍      | 3738/10714 [55:18<56:51,  2.04it/s] 35%|███▍      | 3739/10714 [55:18<56:48,  2.05it/s] 35%|███▍      | 3740/10714 [55:19<56:46,  2.05it/s] 35%|███▍      | 3741/10714 [55:19<56:45,  2.05it/s] 35%|███▍      | 3742/10714 [55:19<56:47,  2.05it/s] 35%|███▍      | 3743/10714 [55:20<56:48,  2.04it/s] 35%|███▍      | 3744/10714 [55:20<56:49,  2.04it/s] 35%|███▍      | 3745/10714 [55:21<56:47,  2.05it/s] 35%|███▍      | 3746/10714 [55:21<56:49,  2.04it/s] 35%|███▍      | 3747/10714 [55:22<56:51,  2.04it/s] 35%|███▍      | 3748/10714 [55:22<56:48,  2.04it/s] 35%|███▍      | 3749/10714 [55:23<56:44,  2.05it/s] 35%|███▌      | 3750/10714 [55:23<56:42,  2.05it/s]{'loss': 3.6035, 'grad_norm': 0.20252223312854767, 'learning_rate': 0.000821435402193922, 'epoch': 0.35}
-                                                     35%|███▌      | 3750/10714 [55:23<56:42,  2.05it/s] 35%|███▌      | 3751/10714 [55:24<56:50,  2.04it/s] 35%|███▌      | 3752/10714 [55:24<56:47,  2.04it/s] 35%|███▌      | 3753/10714 [55:25<56:46,  2.04it/s] 35%|███▌      | 3754/10714 [55:25<56:43,  2.05it/s] 35%|███▌      | 3755/10714 [55:26<56:45,  2.04it/s] 35%|███▌      | 3756/10714 [55:26<56:46,  2.04it/s] 35%|███▌      | 3757/10714 [55:27<56:46,  2.04it/s] 35%|███▌      | 3758/10714 [55:27<56:39,  2.05it/s] 35%|███▌      | 3759/10714 [55:28<56:36,  2.05it/s] 35%|███▌      | 3760/10714 [55:28<56:36,  2.05it/s] 35%|███▌      | 3761/10714 [55:29<56:39,  2.05it/s] 35%|███▌      | 3762/10714 [55:29<56:41,  2.04it/s] 35%|███▌      | 3763/10714 [55:30<56:40,  2.04it/s] 35%|███▌      | 3764/10714 [55:30<56:39,  2.04it/s] 35%|███▌      | 3765/10714 [55:31<56:43,  2.04it/s] 35%|███▌      | 3766/10714 [55:31<56:42,  2.04it/s] 35%|███▌      | 3767/10714 [55:32<56:41,  2.04it/s] 35%|███▌      | 3768/10714 [55:32<56:39,  2.04it/s] 35%|███▌      | 3769/10714 [55:33<56:38,  2.04it/s] 35%|███▌      | 3770/10714 [55:33<56:39,  2.04it/s] 35%|███▌      | 3771/10714 [55:34<56:40,  2.04it/s] 35%|███▌      | 3772/10714 [55:34<56:33,  2.05it/s] 35%|███▌      | 3773/10714 [55:35<56:37,  2.04it/s] 35%|███▌      | 3774/10714 [55:35<56:45,  2.04it/s] 35%|███▌      | 3775/10714 [55:36<56:38,  2.04it/s]{'loss': 3.592, 'grad_norm': 0.19438771903514862, 'learning_rate': 0.0008183051138974447, 'epoch': 0.35}
-                                                     35%|███▌      | 3775/10714 [55:36<56:38,  2.04it/s] 35%|███▌      | 3776/10714 [55:36<56:40,  2.04it/s] 35%|███▌      | 3777/10714 [55:37<56:41,  2.04it/s] 35%|███▌      | 3778/10714 [55:37<56:37,  2.04it/s] 35%|███▌      | 3779/10714 [55:38<56:39,  2.04it/s] 35%|███▌      | 3780/10714 [55:38<56:43,  2.04it/s] 35%|███▌      | 3781/10714 [55:39<56:40,  2.04it/s] 35%|███▌      | 3782/10714 [55:39<56:38,  2.04it/s] 35%|███▌      | 3783/10714 [55:40<56:36,  2.04it/s] 35%|███▌      | 3784/10714 [55:40<56:31,  2.04it/s] 35%|███▌      | 3785/10714 [55:41<56:30,  2.04it/s] 35%|███▌      | 3786/10714 [55:41<56:27,  2.04it/s] 35%|███▌      | 3787/10714 [55:42<56:25,  2.05it/s] 35%|███▌      | 3788/10714 [55:42<56:26,  2.05it/s] 35%|███▌      | 3789/10714 [55:43<56:25,  2.05it/s] 35%|███▌      | 3790/10714 [55:43<56:25,  2.05it/s] 35%|███▌      | 3791/10714 [55:43<56:26,  2.04it/s] 35%|███▌      | 3792/10714 [55:44<56:27,  2.04it/s] 35%|███▌      | 3793/10714 [55:44<56:23,  2.05it/s] 35%|███▌      | 3794/10714 [55:45<56:22,  2.05it/s] 35%|███▌      | 3795/10714 [55:45<56:27,  2.04it/s] 35%|███▌      | 3796/10714 [55:46<56:25,  2.04it/s] 35%|███▌      | 3797/10714 [55:46<56:22,  2.04it/s] 35%|███▌      | 3798/10714 [55:47<56:18,  2.05it/s] 35%|███▌      | 3799/10714 [55:47<56:15,  2.05it/s] 35%|███▌      | 3800/10714 [55:48<56:15,  2.05it/s]{'loss': 3.602, 'grad_norm': 0.2215633988380432, 'learning_rate': 0.0008151537059506513, 'epoch': 0.35}                                                    
- 35%|███▌      | 3800/10714 [55:48<56:15,  2.05it/s] 35%|███▌      | 3801/10714 [55:48<56:20,  2.04it/s] 35%|███▌      | 3802/10714 [55:49<56:22,  2.04it/s] 35%|███▌      | 3803/10714 [55:49<56:17,  2.05it/s] 36%|███▌      | 3804/10714 [55:50<56:16,  2.05it/s] 36%|███▌      | 3805/10714 [55:50<56:15,  2.05it/s] 36%|███▌      | 3806/10714 [55:51<56:14,  2.05it/s] 36%|███▌      | 3807/10714 [55:51<56:22,  2.04it/s] 36%|███▌      | 3808/10714 [55:52<56:19,  2.04it/s] 36%|███▌      | 3809/10714 [55:52<56:16,  2.04it/s] 36%|███▌      | 3810/10714 [55:53<56:15,  2.05it/s] 36%|███▌      | 3811/10714 [55:53<56:14,  2.05it/s] 36%|███▌      | 3812/10714 [55:54<56:14,  2.05it/s] 36%|███▌      | 3813/10714 [55:54<56:16,  2.04it/s] 36%|███▌      | 3814/10714 [55:55<56:14,  2.04it/s] 36%|███▌      | 3815/10714 [55:55<56:16,  2.04it/s] 36%|███▌      | 3816/10714 [55:56<56:14,  2.04it/s] 36%|███▌      | 3817/10714 [55:56<56:11,  2.05it/s] 36%|███▌      | 3818/10714 [55:57<56:12,  2.04it/s] 36%|███▌      | 3819/10714 [55:57<56:15,  2.04it/s] 36%|███▌      | 3820/10714 [55:58<56:16,  2.04it/s] 36%|███▌      | 3821/10714 [55:58<56:15,  2.04it/s] 36%|███▌      | 3822/10714 [55:59<56:10,  2.04it/s] 36%|███▌      | 3823/10714 [55:59<56:12,  2.04it/s] 36%|███▌      | 3824/10714 [56:00<56:12,  2.04it/s] 36%|███▌      | 3825/10714 [56:00<56:11,  2.04it/s]{'loss': 3.598, 'grad_norm': 0.20032264292240143, 'learning_rate': 0.0008119813874505086, 'epoch': 0.36}
-                                                     36%|███▌      | 3825/10714 [56:00<56:11,  2.04it/s] 36%|███▌      | 3826/10714 [56:01<56:14,  2.04it/s] 36%|███▌      | 3827/10714 [56:01<56:12,  2.04it/s] 36%|███▌      | 3828/10714 [56:02<56:12,  2.04it/s] 36%|███▌      | 3829/10714 [56:02<56:14,  2.04it/s] 36%|███▌      | 3830/10714 [56:03<56:08,  2.04it/s] 36%|███▌      | 3831/10714 [56:03<56:08,  2.04it/s] 36%|███▌      | 3832/10714 [56:04<56:10,  2.04it/s] 36%|███▌      | 3833/10714 [56:04<56:11,  2.04it/s] 36%|███▌      | 3834/10714 [56:05<56:07,  2.04it/s] 36%|███▌      | 3835/10714 [56:05<56:04,  2.04it/s] 36%|███▌      | 3836/10714 [56:05<56:07,  2.04it/s] 36%|███▌      | 3837/10714 [56:06<56:10,  2.04it/s] 36%|███▌      | 3838/10714 [56:06<56:07,  2.04it/s] 36%|███▌      | 3839/10714 [56:07<56:07,  2.04it/s] 36%|███▌      | 3840/10714 [56:07<56:06,  2.04it/s] 36%|███▌      | 3841/10714 [56:08<56:07,  2.04it/s] 36%|███▌      | 3842/10714 [56:08<56:07,  2.04it/s] 36%|███▌      | 3843/10714 [56:09<56:03,  2.04it/s] 36%|███▌      | 3844/10714 [56:09<56:05,  2.04it/s] 36%|███▌      | 3845/10714 [56:10<56:06,  2.04it/s] 36%|███▌      | 3846/10714 [56:10<56:04,  2.04it/s] 36%|███▌      | 3847/10714 [56:11<56:00,  2.04it/s] 36%|███▌      | 3848/10714 [56:11<56:00,  2.04it/s] 36%|███▌      | 3849/10714 [56:12<56:01,  2.04it/s] 36%|███▌      | 3850/10714 [56:12<55:59,  2.04it/s]{'loss': 3.6022, 'grad_norm': 0.2067333608865738, 'learning_rate': 0.0008087883688814055, 'epoch': 0.36}
-                                                     36%|███▌      | 3850/10714 [56:12<55:59,  2.04it/s] 36%|███▌      | 3851/10714 [56:13<56:07,  2.04it/s] 36%|███▌      | 3852/10714 [56:13<56:05,  2.04it/s] 36%|███▌      | 3853/10714 [56:14<56:00,  2.04it/s] 36%|███▌      | 3854/10714 [56:14<56:06,  2.04it/s] 36%|███▌      | 3855/10714 [56:15<56:04,  2.04it/s] 36%|███▌      | 3856/10714 [56:15<56:05,  2.04it/s] 36%|███▌      | 3857/10714 [56:16<55:58,  2.04it/s] 36%|███▌      | 3858/10714 [56:16<55:51,  2.05it/s] 36%|███▌      | 3859/10714 [56:17<55:48,  2.05it/s] 36%|███▌      | 3860/10714 [56:17<55:47,  2.05it/s] 36%|███▌      | 3861/10714 [56:18<55:50,  2.05it/s] 36%|███▌      | 3862/10714 [56:18<55:48,  2.05it/s] 36%|███▌      | 3863/10714 [56:19<55:49,  2.05it/s] 36%|███▌      | 3864/10714 [56:19<1:04:57,  1.76it/s] 36%|███▌      | 3865/10714 [56:20<1:02:11,  1.84it/s] 36%|███▌      | 3866/10714 [56:20<1:00:19,  1.89it/s] 36%|███▌      | 3867/10714 [56:21<58:56,  1.94it/s]   36%|███▌      | 3868/10714 [56:21<57:54,  1.97it/s] 36%|███▌      | 3869/10714 [56:22<57:13,  1.99it/s] 36%|███▌      | 3870/10714 [56:22<56:44,  2.01it/s] 36%|███▌      | 3871/10714 [56:23<56:29,  2.02it/s] 36%|███▌      | 3872/10714 [56:23<56:15,  2.03it/s] 36%|███▌      | 3873/10714 [56:24<56:02,  2.03it/s] 36%|███▌      | 3874/10714 [56:24<55:52,  2.04it/s] 36%|███▌      | 3875/10714 [56:25<55:48,  2.04it/s]{'loss': 3.5872, 'grad_norm': 0.2021036148071289, 'learning_rate': 0.0008055748621011877, 'epoch': 0.36}                                                    
- 36%|███▌      | 3875/10714 [56:25<55:48,  2.04it/s] 36%|███▌      | 3876/10714 [56:25<55:54,  2.04it/s] 36%|███▌      | 3877/10714 [56:26<55:50,  2.04it/s] 36%|███▌      | 3878/10714 [56:26<55:42,  2.05it/s] 36%|███▌      | 3879/10714 [56:27<55:37,  2.05it/s] 36%|███▌      | 3880/10714 [56:27<55:36,  2.05it/s] 36%|███▌      | 3881/10714 [56:28<55:39,  2.05it/s] 36%|███▌      | 3882/10714 [56:29<1:05:13,  1.75it/s] 36%|███▌      | 3883/10714 [56:29<1:02:20,  1.83it/s] 36%|███▋      | 3884/10714 [56:30<1:00:17,  1.89it/s] 36%|███▋      | 3885/10714 [56:30<58:50,  1.93it/s]   36%|███▋      | 3886/10714 [56:30<57:55,  1.96it/s] 36%|███▋      | 3887/10714 [56:31<57:18,  1.99it/s] 36%|███▋      | 3888/10714 [56:31<56:45,  2.00it/s] 36%|███▋      | 3889/10714 [56:32<56:21,  2.02it/s] 36%|███▋      | 3890/10714 [56:32<56:11,  2.02it/s] 36%|███▋      | 3891/10714 [56:33<56:05,  2.03it/s] 36%|███▋      | 3892/10714 [56:33<55:56,  2.03it/s] 36%|███▋      | 3893/10714 [56:34<55:46,  2.04it/s] 36%|███▋      | 3894/10714 [56:34<55:44,  2.04it/s] 36%|███▋      | 3895/10714 [56:35<55:41,  2.04it/s] 36%|███▋      | 3896/10714 [56:35<55:38,  2.04it/s] 36%|███▋      | 3897/10714 [56:36<55:35,  2.04it/s] 36%|███▋      | 3898/10714 [56:36<55:29,  2.05it/s] 36%|███▋      | 3899/10714 [56:37<55:32,  2.04it/s] 36%|███▋      | 3900/10714 [56:37<55:34,  2.04it/s]{'loss': 3.5848, 'grad_norm': 0.20001351833343506, 'learning_rate': 0.0008023410803271001, 'epoch': 0.36}                                                    
- 36%|███▋      | 3900/10714 [56:37<55:34,  2.04it/s] 36%|███▋      | 3901/10714 [56:38<55:35,  2.04it/s] 36%|███▋      | 3902/10714 [56:38<55:33,  2.04it/s] 36%|███▋      | 3903/10714 [56:39<55:30,  2.05it/s] 36%|███▋      | 3904/10714 [56:39<55:29,  2.05it/s] 36%|███▋      | 3905/10714 [56:40<55:32,  2.04it/s] 36%|███▋      | 3906/10714 [56:40<55:30,  2.04it/s] 36%|███▋      | 3907/10714 [56:41<55:27,  2.05it/s] 36%|███▋      | 3908/10714 [56:41<55:23,  2.05it/s] 36%|███▋      | 3909/10714 [56:42<55:28,  2.04it/s] 36%|███▋      | 3910/10714 [56:42<55:30,  2.04it/s] 37%|███▋      | 3911/10714 [56:43<55:27,  2.04it/s] 37%|███▋      | 3912/10714 [56:43<55:23,  2.05it/s] 37%|███▋      | 3913/10714 [56:44<55:19,  2.05it/s] 37%|███▋      | 3914/10714 [56:44<55:18,  2.05it/s] 37%|███▋      | 3915/10714 [56:45<55:20,  2.05it/s] 37%|███▋      | 3916/10714 [56:45<55:23,  2.05it/s] 37%|███▋      | 3917/10714 [56:46<55:24,  2.04it/s] 37%|███▋      | 3918/10714 [56:46<55:26,  2.04it/s] 37%|███▋      | 3919/10714 [56:47<55:27,  2.04it/s] 37%|███▋      | 3920/10714 [56:47<55:26,  2.04it/s] 37%|███▋      | 3921/10714 [56:48<55:22,  2.04it/s] 37%|███▋      | 3922/10714 [56:48<55:20,  2.05it/s] 37%|███▋      | 3923/10714 [56:49<55:16,  2.05it/s] 37%|███▋      | 3924/10714 [56:49<55:13,  2.05it/s] 37%|███▋      | 3925/10714 [56:50<55:14,  2.05it/s]{'loss': 3.5951, 'grad_norm': 0.2053142786026001, 'learning_rate': 0.0007990872381216405, 'epoch': 0.37}                                                    
- 37%|███▋      | 3925/10714 [56:50<55:14,  2.05it/s] 37%|███▋      | 3926/10714 [56:50<55:22,  2.04it/s] 37%|███▋      | 3927/10714 [56:51<55:18,  2.05it/s] 37%|███▋      | 3928/10714 [56:51<55:17,  2.05it/s] 37%|███▋      | 3929/10714 [56:52<55:18,  2.04it/s] 37%|███▋      | 3930/10714 [56:52<55:18,  2.04it/s] 37%|███▋      | 3931/10714 [56:53<55:23,  2.04it/s] 37%|███▋      | 3932/10714 [56:53<55:20,  2.04it/s] 37%|███▋      | 3933/10714 [56:53<55:16,  2.04it/s] 37%|███▋      | 3934/10714 [56:54<55:18,  2.04it/s] 37%|███▋      | 3935/10714 [56:54<55:15,  2.04it/s] 37%|███▋      | 3936/10714 [56:55<55:17,  2.04it/s] 37%|███▋      | 3937/10714 [56:55<55:14,  2.04it/s] 37%|███▋      | 3938/10714 [56:56<55:12,  2.05it/s] 37%|███▋      | 3939/10714 [56:56<55:13,  2.04it/s] 37%|███▋      | 3940/10714 [56:57<55:13,  2.04it/s] 37%|███▋      | 3941/10714 [56:57<55:20,  2.04it/s] 37%|███▋      | 3942/10714 [56:58<55:16,  2.04it/s] 37%|███▋      | 3943/10714 [56:58<55:14,  2.04it/s] 37%|███▋      | 3944/10714 [56:59<55:12,  2.04it/s] 37%|███▋      | 3945/10714 [56:59<55:11,  2.04it/s] 37%|███▋      | 3946/10714 [57:00<55:13,  2.04it/s] 37%|███▋      | 3947/10714 [57:00<55:08,  2.05it/s] 37%|███▋      | 3948/10714 [57:01<55:10,  2.04it/s] 37%|███▋      | 3949/10714 [57:01<55:11,  2.04it/s] 37%|███▋      | 3950/10714 [57:02<55:12,  2.04it/s]                                                    {'loss': 3.5983, 'grad_norm': 0.1923193633556366, 'learning_rate': 0.0007958135513783229, 'epoch': 0.37}
- 37%|███▋      | 3950/10714 [57:02<55:12,  2.04it/s] 37%|███▋      | 3951/10714 [57:02<55:32,  2.03it/s] 37%|███▋      | 3952/10714 [57:03<55:24,  2.03it/s] 37%|███▋      | 3953/10714 [57:03<55:15,  2.04it/s] 37%|███▋      | 3954/10714 [57:04<55:09,  2.04it/s] 37%|███▋      | 3955/10714 [57:04<55:08,  2.04it/s] 37%|███▋      | 3956/10714 [57:05<55:07,  2.04it/s] 37%|███▋      | 3957/10714 [57:05<55:06,  2.04it/s] 37%|███▋      | 3958/10714 [57:06<55:04,  2.04it/s] 37%|███▋      | 3959/10714 [57:06<55:03,  2.04it/s] 37%|███▋      | 3960/10714 [57:07<55:03,  2.04it/s] 37%|███▋      | 3961/10714 [57:07<55:06,  2.04it/s] 37%|███▋      | 3962/10714 [57:08<55:01,  2.05it/s] 37%|███▋      | 3963/10714 [57:08<54:59,  2.05it/s] 37%|███▋      | 3964/10714 [57:09<55:01,  2.04it/s] 37%|███▋      | 3965/10714 [57:09<55:01,  2.04it/s] 37%|███▋      | 3966/10714 [57:10<55:01,  2.04it/s] 37%|███▋      | 3967/10714 [57:10<55:00,  2.04it/s] 37%|███▋      | 3968/10714 [57:11<54:59,  2.04it/s] 37%|███▋      | 3969/10714 [57:11<55:00,  2.04it/s] 37%|███▋      | 3970/10714 [57:12<54:58,  2.04it/s] 37%|███▋      | 3971/10714 [57:12<54:54,  2.05it/s] 37%|███▋      | 3972/10714 [57:13<54:50,  2.05it/s] 37%|███▋      | 3973/10714 [57:13<54:51,  2.05it/s] 37%|███▋      | 3974/10714 [57:14<54:53,  2.05it/s] 37%|███▋      | 3975/10714 [57:14<54:55,  2.05it/s]                                                    {'loss': 3.5832, 'grad_norm': 0.1970953345298767, 'learning_rate': 0.000792520237307353, 'epoch': 0.37}
- 37%|███▋      | 3975/10714 [57:14<54:55,  2.05it/s] 37%|███▋      | 3976/10714 [57:15<54:56,  2.04it/s] 37%|███▋      | 3977/10714 [57:15<54:51,  2.05it/s] 37%|███▋      | 3978/10714 [57:16<55:36,  2.02it/s] 37%|███▋      | 3979/10714 [57:16<55:23,  2.03it/s] 37%|███▋      | 3980/10714 [57:17<55:14,  2.03it/s] 37%|███▋      | 3981/10714 [57:17<55:06,  2.04it/s] 37%|███▋      | 3982/10714 [57:17<54:58,  2.04it/s] 37%|███▋      | 3983/10714 [57:18<54:59,  2.04it/s] 37%|███▋      | 3984/10714 [57:18<54:57,  2.04it/s] 37%|███▋      | 3985/10714 [57:19<54:58,  2.04it/s] 37%|███▋      | 3986/10714 [57:19<54:55,  2.04it/s] 37%|███▋      | 3987/10714 [57:20<54:52,  2.04it/s] 37%|███▋      | 3988/10714 [57:20<54:49,  2.04it/s] 37%|███▋      | 3989/10714 [57:21<54:45,  2.05it/s] 37%|███▋      | 3990/10714 [57:21<54:42,  2.05it/s] 37%|███▋      | 3991/10714 [57:22<54:39,  2.05it/s] 37%|███▋      | 3992/10714 [57:22<54:45,  2.05it/s] 37%|███▋      | 3993/10714 [57:23<54:48,  2.04it/s] 37%|███▋      | 3994/10714 [57:23<54:49,  2.04it/s] 37%|███▋      | 3995/10714 [57:24<54:45,  2.04it/s] 37%|███▋      | 3996/10714 [57:24<54:44,  2.05it/s] 37%|███▋      | 3997/10714 [57:25<54:43,  2.05it/s] 37%|███▋      | 3998/10714 [57:25<54:47,  2.04it/s] 37%|███▋      | 3999/10714 [57:26<54:45,  2.04it/s] 37%|███▋      | 4000/10714 [57:26<54:45,  2.04it/s]                                                    {'loss': 3.5907, 'grad_norm': 0.20458732545375824, 'learning_rate': 0.0007892075144212162, 'epoch': 0.37}
- 37%|███▋      | 4000/10714 [57:26<54:45,  2.04it/s] 37%|███▋      | 4001/10714 [57:27<54:51,  2.04it/s] 37%|███▋      | 4002/10714 [57:27<54:47,  2.04it/s] 37%|███▋      | 4003/10714 [57:28<54:43,  2.04it/s] 37%|███▋      | 4004/10714 [57:28<54:42,  2.04it/s] 37%|███▋      | 4005/10714 [57:29<54:42,  2.04it/s] 37%|███▋      | 4006/10714 [57:29<54:41,  2.04it/s] 37%|███▋      | 4007/10714 [57:30<54:39,  2.05it/s] 37%|███▋      | 4008/10714 [57:30<54:35,  2.05it/s] 37%|███▋      | 4009/10714 [57:31<54:37,  2.05it/s] 37%|███▋      | 4010/10714 [57:31<54:38,  2.05it/s] 37%|███▋      | 4011/10714 [57:32<54:35,  2.05it/s] 37%|███▋      | 4012/10714 [57:32<54:30,  2.05it/s] 37%|███▋      | 4013/10714 [57:33<54:26,  2.05it/s] 37%|███▋      | 4014/10714 [57:33<54:28,  2.05it/s] 37%|███▋      | 4015/10714 [57:34<54:32,  2.05it/s] 37%|███▋      | 4016/10714 [57:34<54:31,  2.05it/s] 37%|███▋      | 4017/10714 [57:35<54:29,  2.05it/s] 38%|███▊      | 4018/10714 [57:35<54:26,  2.05it/s] 38%|███▊      | 4019/10714 [57:36<54:26,  2.05it/s] 38%|███▊      | 4020/10714 [57:36<54:27,  2.05it/s] 38%|███▊      | 4021/10714 [57:37<54:30,  2.05it/s] 38%|███▊      | 4022/10714 [57:37<54:29,  2.05it/s] 38%|███▊      | 4023/10714 [57:38<54:28,  2.05it/s] 38%|███▊      | 4024/10714 [57:38<54:25,  2.05it/s] 38%|███▊      | 4025/10714 [57:38<54:29,  2.05it/s]                                                    {'loss': 3.5914, 'grad_norm': 0.20121245086193085, 'learning_rate': 0.0007858756025201792, 'epoch': 0.38}
- 38%|███▊      | 4025/10714 [57:39<54:29,  2.05it/s] 38%|███▊      | 4026/10714 [57:39<54:34,  2.04it/s] 38%|███▊      | 4027/10714 [57:39<54:30,  2.04it/s] 38%|███▊      | 4028/10714 [57:40<54:26,  2.05it/s] 38%|███▊      | 4029/10714 [57:40<54:27,  2.05it/s] 38%|███▊      | 4030/10714 [57:41<54:28,  2.04it/s] 38%|███▊      | 4031/10714 [57:41<54:29,  2.04it/s] 38%|███▊      | 4032/10714 [57:42<54:25,  2.05it/s] 38%|███▊      | 4033/10714 [57:42<54:23,  2.05it/s] 38%|███▊      | 4034/10714 [57:43<54:23,  2.05it/s] 38%|███▊      | 4035/10714 [57:43<54:30,  2.04it/s] 38%|███▊      | 4036/10714 [57:44<54:31,  2.04it/s] 38%|███▊      | 4037/10714 [57:44<54:25,  2.04it/s] 38%|███▊      | 4038/10714 [57:45<54:24,  2.04it/s] 38%|███▊      | 4039/10714 [57:45<54:24,  2.04it/s] 38%|███▊      | 4040/10714 [57:46<54:25,  2.04it/s] 38%|███▊      | 4041/10714 [57:46<54:23,  2.04it/s] 38%|███▊      | 4042/10714 [57:47<54:21,  2.05it/s] 38%|███▊      | 4043/10714 [57:47<54:19,  2.05it/s] 38%|███▊      | 4044/10714 [57:48<54:22,  2.04it/s] 38%|███▊      | 4045/10714 [57:48<54:22,  2.04it/s] 38%|███▊      | 4046/10714 [57:49<54:19,  2.05it/s] 38%|███▊      | 4047/10714 [57:49<54:16,  2.05it/s] 38%|███▊      | 4048/10714 [57:50<54:16,  2.05it/s] 38%|███▊      | 4049/10714 [57:50<54:18,  2.05it/s] 38%|███▊      | 4050/10714 [57:51<54:17,  2.05it/s]                                                    {'loss': 3.5819, 'grad_norm': 0.20728091895580292, 'learning_rate': 0.0007825247226777064, 'epoch': 0.38}
- 38%|███▊      | 4050/10714 [57:51<54:17,  2.05it/s] 38%|███▊      | 4051/10714 [57:51<54:19,  2.04it/s] 38%|███▊      | 4052/10714 [57:52<54:13,  2.05it/s] 38%|███▊      | 4053/10714 [57:52<54:13,  2.05it/s] 38%|███▊      | 4054/10714 [57:53<54:15,  2.05it/s] 38%|███▊      | 4055/10714 [57:53<54:16,  2.04it/s] 38%|███▊      | 4056/10714 [57:54<54:15,  2.05it/s] 38%|███▊      | 4057/10714 [57:54<54:13,  2.05it/s] 38%|███▊      | 4058/10714 [57:55<54:10,  2.05it/s] 38%|███▊      | 4059/10714 [57:55<54:10,  2.05it/s] 38%|███▊      | 4060/10714 [57:56<54:14,  2.04it/s] 38%|███▊      | 4061/10714 [57:56<54:14,  2.04it/s] 38%|███▊      | 4062/10714 [57:57<54:12,  2.05it/s] 38%|███▊      | 4063/10714 [57:57<54:15,  2.04it/s] 38%|███▊      | 4064/10714 [57:58<54:09,  2.05it/s] 38%|███▊      | 4065/10714 [57:58<54:10,  2.05it/s] 38%|███▊      | 4066/10714 [57:59<54:15,  2.04it/s] 38%|███▊      | 4067/10714 [57:59<54:16,  2.04it/s] 38%|███▊      | 4068/10714 [58:00<54:13,  2.04it/s] 38%|███▊      | 4069/10714 [58:00<54:11,  2.04it/s] 38%|███▊      | 4070/10714 [58:01<54:08,  2.05it/s] 38%|███▊      | 4071/10714 [58:01<54:07,  2.05it/s] 38%|███▊      | 4072/10714 [58:01<54:09,  2.04it/s] 38%|███▊      | 4073/10714 [58:02<54:08,  2.04it/s] 38%|███▊      | 4074/10714 [58:02<54:06,  2.05it/s] 38%|███▊      | 4075/10714 [58:03<54:04,  2.05it/s]{'loss': 3.5808, 'grad_norm': 0.21700961887836456, 'learning_rate': 0.0007791550972257912, 'epoch': 0.38}                                                    
- 38%|███▊      | 4075/10714 [58:03<54:04,  2.05it/s] 38%|███▊      | 4076/10714 [58:03<54:06,  2.04it/s] 38%|███▊      | 4077/10714 [58:04<54:07,  2.04it/s] 38%|███▊      | 4078/10714 [58:04<54:07,  2.04it/s] 38%|███▊      | 4079/10714 [58:05<54:05,  2.04it/s] 38%|███▊      | 4080/10714 [58:05<54:05,  2.04it/s] 38%|███▊      | 4081/10714 [58:06<54:06,  2.04it/s] 38%|███▊      | 4082/10714 [58:06<54:07,  2.04it/s] 38%|███▊      | 4083/10714 [58:07<54:07,  2.04it/s] 38%|███▊      | 4084/10714 [58:07<54:02,  2.04it/s] 38%|███▊      | 4085/10714 [58:08<54:02,  2.04it/s] 38%|███▊      | 4086/10714 [58:08<53:58,  2.05it/s] 38%|███▊      | 4087/10714 [58:09<53:58,  2.05it/s] 38%|███▊      | 4088/10714 [58:09<54:01,  2.04it/s] 38%|███▊      | 4089/10714 [58:10<54:01,  2.04it/s] 38%|███▊      | 4090/10714 [58:10<54:00,  2.04it/s] 38%|███▊      | 4091/10714 [58:11<53:57,  2.05it/s] 38%|███▊      | 4092/10714 [58:11<53:58,  2.04it/s] 38%|███▊      | 4093/10714 [58:12<53:56,  2.05it/s] 38%|███▊      | 4094/10714 [58:12<53:53,  2.05it/s] 38%|███▊      | 4095/10714 [58:13<53:56,  2.05it/s] 38%|███▊      | 4096/10714 [58:13<53:54,  2.05it/s] 38%|███▊      | 4097/10714 [58:14<53:59,  2.04it/s] 38%|███▊      | 4098/10714 [58:14<53:55,  2.04it/s] 38%|███▊      | 4099/10714 [58:15<53:50,  2.05it/s] 38%|███▊      | 4100/10714 [58:15<53:52,  2.05it/s]                                                    {'loss': 3.5708, 'grad_norm': 0.21207259595394135, 'learning_rate': 0.0007757669497402047, 'epoch': 0.38}
- 38%|███▊      | 4100/10714 [58:15<53:52,  2.05it/s] 38%|███▊      | 4101/10714 [58:16<53:57,  2.04it/s] 38%|███▊      | 4102/10714 [58:16<53:56,  2.04it/s] 38%|███▊      | 4103/10714 [58:17<53:53,  2.04it/s] 38%|███▊      | 4104/10714 [58:17<53:49,  2.05it/s] 38%|███▊      | 4105/10714 [58:18<53:46,  2.05it/s] 38%|███▊      | 4106/10714 [58:18<53:44,  2.05it/s] 38%|███▊      | 4107/10714 [58:19<53:47,  2.05it/s] 38%|███▊      | 4108/10714 [58:19<53:45,  2.05it/s] 38%|███▊      | 4109/10714 [58:20<53:45,  2.05it/s] 38%|███▊      | 4110/10714 [58:20<53:43,  2.05it/s] 38%|███▊      | 4111/10714 [58:21<53:43,  2.05it/s] 38%|███▊      | 4112/10714 [58:21<53:43,  2.05it/s] 38%|███▊      | 4113/10714 [58:22<53:44,  2.05it/s] 38%|███▊      | 4114/10714 [58:22<53:45,  2.05it/s] 38%|███▊      | 4115/10714 [58:23<53:42,  2.05it/s] 38%|███▊      | 4116/10714 [58:23<53:40,  2.05it/s] 38%|███▊      | 4117/10714 [58:23<53:41,  2.05it/s] 38%|███▊      | 4118/10714 [58:24<53:40,  2.05it/s] 38%|███▊      | 4119/10714 [58:24<53:43,  2.05it/s] 38%|███▊      | 4120/10714 [58:25<53:41,  2.05it/s] 38%|███▊      | 4121/10714 [58:25<53:38,  2.05it/s] 38%|███▊      | 4122/10714 [58:26<53:36,  2.05it/s] 38%|███▊      | 4123/10714 [58:26<53:35,  2.05it/s] 38%|███▊      | 4124/10714 [58:27<53:38,  2.05it/s] 39%|███▊      | 4125/10714 [58:27<53:38,  2.05it/s]{'loss': 3.5752, 'grad_norm': 0.19944816827774048, 'learning_rate': 0.000772360505025661, 'epoch': 0.39}
-                                                     39%|███▊      | 4125/10714 [58:27<53:38,  2.05it/s] 39%|███▊      | 4126/10714 [58:28<53:46,  2.04it/s] 39%|███▊      | 4127/10714 [58:28<53:48,  2.04it/s] 39%|███▊      | 4128/10714 [58:29<53:44,  2.04it/s] 39%|███▊      | 4129/10714 [58:29<53:39,  2.05it/s] 39%|███▊      | 4130/10714 [58:30<53:36,  2.05it/s] 39%|███▊      | 4131/10714 [58:30<53:39,  2.04it/s] 39%|███▊      | 4132/10714 [58:31<53:45,  2.04it/s] 39%|███▊      | 4133/10714 [58:31<53:41,  2.04it/s] 39%|███▊      | 4134/10714 [58:32<53:38,  2.04it/s] 39%|███▊      | 4135/10714 [58:32<53:35,  2.05it/s] 39%|███▊      | 4136/10714 [58:33<53:36,  2.05it/s] 39%|███▊      | 4137/10714 [58:33<53:36,  2.04it/s] 39%|███▊      | 4138/10714 [58:34<53:35,  2.04it/s] 39%|███▊      | 4139/10714 [58:34<53:34,  2.05it/s] 39%|███▊      | 4140/10714 [58:35<53:32,  2.05it/s] 39%|███▊      | 4141/10714 [58:35<53:34,  2.04it/s] 39%|███▊      | 4142/10714 [58:36<53:34,  2.04it/s] 39%|███▊      | 4143/10714 [58:36<53:33,  2.04it/s] 39%|███▊      | 4144/10714 [58:37<53:30,  2.05it/s] 39%|███▊      | 4145/10714 [58:37<53:32,  2.05it/s] 39%|███▊      | 4146/10714 [58:38<53:31,  2.05it/s] 39%|███▊      | 4147/10714 [58:38<53:30,  2.05it/s] 39%|███▊      | 4148/10714 [58:39<53:31,  2.04it/s] 39%|███▊      | 4149/10714 [58:39<53:33,  2.04it/s] 39%|███▊      | 4150/10714 [58:40<53:32,  2.04it/s]{'loss': 3.5703, 'grad_norm': 0.19396036863327026, 'learning_rate': 0.0007689359891009012, 'epoch': 0.39}                                                    
- 39%|███▊      | 4150/10714 [58:40<53:32,  2.04it/s] 39%|███▊      | 4151/10714 [58:40<53:37,  2.04it/s] 39%|███▉      | 4152/10714 [58:41<53:34,  2.04it/s] 39%|███▉      | 4153/10714 [58:41<53:32,  2.04it/s] 39%|███▉      | 4154/10714 [58:42<53:32,  2.04it/s] 39%|███▉      | 4155/10714 [58:42<53:30,  2.04it/s] 39%|███▉      | 4156/10714 [58:43<53:28,  2.04it/s] 39%|███▉      | 4157/10714 [58:43<53:27,  2.04it/s] 39%|███▉      | 4158/10714 [58:44<53:23,  2.05it/s] 39%|███▉      | 4159/10714 [58:44<53:22,  2.05it/s] 39%|███▉      | 4160/10714 [58:45<53:23,  2.05it/s] 39%|███▉      | 4161/10714 [58:45<53:25,  2.04it/s] 39%|███▉      | 4162/10714 [58:45<53:23,  2.05it/s] 39%|███▉      | 4163/10714 [58:46<53:22,  2.05it/s] 39%|███▉      | 4164/10714 [58:46<53:22,  2.05it/s] 39%|███▉      | 4165/10714 [58:47<53:23,  2.04it/s] 39%|███▉      | 4166/10714 [58:47<53:24,  2.04it/s] 39%|███▉      | 4167/10714 [58:48<53:22,  2.04it/s] 39%|███▉      | 4168/10714 [58:48<53:21,  2.04it/s] 39%|███▉      | 4169/10714 [58:49<53:20,  2.05it/s] 39%|███▉      | 4170/10714 [58:49<53:18,  2.05it/s] 39%|███▉      | 4171/10714 [58:50<53:17,  2.05it/s] 39%|███▉      | 4172/10714 [58:50<53:16,  2.05it/s] 39%|███▉      | 4173/10714 [58:51<53:16,  2.05it/s] 39%|███▉      | 4174/10714 [58:51<53:15,  2.05it/s] 39%|███▉      | 4175/10714 [58:52<53:19,  2.04it/s]                                                    {'loss': 3.574, 'grad_norm': 0.20406243205070496, 'learning_rate': 0.0007654936291836976, 'epoch': 0.39}
- 39%|███▉      | 4175/10714 [58:52<53:19,  2.04it/s] 39%|███▉      | 4176/10714 [58:52<53:20,  2.04it/s] 39%|███▉      | 4177/10714 [58:53<53:20,  2.04it/s] 39%|███▉      | 4178/10714 [58:53<53:16,  2.04it/s] 39%|███▉      | 4179/10714 [58:54<53:15,  2.05it/s] 39%|███▉      | 4180/10714 [58:54<53:14,  2.05it/s] 39%|███▉      | 4181/10714 [58:55<53:12,  2.05it/s] 39%|███▉      | 4182/10714 [58:55<53:10,  2.05it/s] 39%|███▉      | 4183/10714 [58:56<53:11,  2.05it/s] 39%|███▉      | 4184/10714 [58:56<53:12,  2.05it/s] 39%|███▉      | 4185/10714 [58:57<53:12,  2.04it/s] 39%|███▉      | 4186/10714 [58:57<53:09,  2.05it/s] 39%|███▉      | 4187/10714 [58:58<53:06,  2.05it/s] 39%|███▉      | 4188/10714 [58:58<53:38,  2.03it/s] 39%|███▉      | 4189/10714 [58:59<53:25,  2.04it/s] 39%|███▉      | 4190/10714 [58:59<53:18,  2.04it/s] 39%|███▉      | 4191/10714 [59:00<53:17,  2.04it/s] 39%|███▉      | 4192/10714 [59:00<53:17,  2.04it/s] 39%|███▉      | 4193/10714 [59:01<53:11,  2.04it/s] 39%|███▉      | 4194/10714 [59:01<53:07,  2.05it/s] 39%|███▉      | 4195/10714 [59:02<53:03,  2.05it/s] 39%|███▉      | 4196/10714 [59:02<53:04,  2.05it/s] 39%|███▉      | 4197/10714 [59:03<53:05,  2.05it/s] 39%|███▉      | 4198/10714 [59:03<53:05,  2.05it/s] 39%|███▉      | 4199/10714 [59:04<53:02,  2.05it/s] 39%|███▉      | 4200/10714 [59:04<53:00,  2.05it/s]{'loss': 3.5652, 'grad_norm': 0.21343164145946503, 'learning_rate': 0.0007620336536757772, 'epoch': 0.39}                                                    
- 39%|███▉      | 4200/10714 [59:04<53:00,  2.05it/s] 39%|███▉      | 4201/10714 [59:05<53:07,  2.04it/s] 39%|███▉      | 4202/10714 [59:05<53:07,  2.04it/s] 39%|███▉      | 4203/10714 [59:06<53:06,  2.04it/s] 39%|███▉      | 4204/10714 [59:06<53:01,  2.05it/s] 39%|███▉      | 4205/10714 [59:07<52:57,  2.05it/s] 39%|███▉      | 4206/10714 [59:07<52:59,  2.05it/s] 39%|███▉      | 4207/10714 [59:07<53:05,  2.04it/s] 39%|███▉      | 4208/10714 [59:08<53:06,  2.04it/s] 39%|███▉      | 4209/10714 [59:08<53:04,  2.04it/s] 39%|███▉      | 4210/10714 [59:09<53:02,  2.04it/s] 39%|███▉      | 4211/10714 [59:09<53:02,  2.04it/s] 39%|███▉      | 4212/10714 [59:10<53:00,  2.04it/s] 39%|███▉      | 4213/10714 [59:10<53:01,  2.04it/s] 39%|███▉      | 4214/10714 [59:11<53:02,  2.04it/s] 39%|███▉      | 4215/10714 [59:11<52:59,  2.04it/s] 39%|███▉      | 4216/10714 [59:12<52:58,  2.04it/s] 39%|███▉      | 4217/10714 [59:12<52:58,  2.04it/s] 39%|███▉      | 4218/10714 [59:13<53:00,  2.04it/s] 39%|███▉      | 4219/10714 [59:13<53:00,  2.04it/s] 39%|███▉      | 4220/10714 [59:14<52:56,  2.04it/s] 39%|███▉      | 4221/10714 [59:14<52:53,  2.05it/s] 39%|███▉      | 4222/10714 [59:15<52:52,  2.05it/s] 39%|███▉      | 4223/10714 [59:15<52:51,  2.05it/s] 39%|███▉      | 4224/10714 [59:16<52:50,  2.05it/s] 39%|███▉      | 4225/10714 [59:16<52:51,  2.05it/s]{'loss': 3.5764, 'grad_norm': 0.22052328288555145, 'learning_rate': 0.0007585562921476671, 'epoch': 0.39}                                                    
- 39%|███▉      | 4225/10714 [59:16<52:51,  2.05it/s] 39%|███▉      | 4226/10714 [59:17<52:57,  2.04it/s] 39%|███▉      | 4227/10714 [59:17<52:57,  2.04it/s] 39%|███▉      | 4228/10714 [59:18<52:53,  2.04it/s] 39%|███▉      | 4229/10714 [59:18<52:51,  2.04it/s] 39%|███▉      | 4230/10714 [59:19<52:52,  2.04it/s] 39%|███▉      | 4231/10714 [59:19<52:51,  2.04it/s] 39%|███▉      | 4232/10714 [59:20<52:53,  2.04it/s] 40%|███▉      | 4233/10714 [59:20<52:50,  2.04it/s] 40%|███▉      | 4234/10714 [59:21<52:49,  2.04it/s] 40%|███▉      | 4235/10714 [59:21<52:45,  2.05it/s] 40%|███▉      | 4236/10714 [59:22<52:46,  2.05it/s] 40%|███▉      | 4237/10714 [59:22<52:48,  2.04it/s] 40%|███▉      | 4238/10714 [59:23<52:47,  2.04it/s] 40%|███▉      | 4239/10714 [59:23<52:45,  2.05it/s] 40%|███▉      | 4240/10714 [59:24<52:39,  2.05it/s] 40%|███▉      | 4241/10714 [59:24<52:41,  2.05it/s] 40%|███▉      | 4242/10714 [59:25<52:41,  2.05it/s] 40%|███▉      | 4243/10714 [59:25<52:43,  2.05it/s] 40%|███▉      | 4244/10714 [59:26<52:43,  2.05it/s] 40%|███▉      | 4245/10714 [59:26<52:40,  2.05it/s] 40%|███▉      | 4246/10714 [59:27<52:37,  2.05it/s] 40%|███▉      | 4247/10714 [59:27<52:39,  2.05it/s] 40%|███▉      | 4248/10714 [59:28<52:42,  2.04it/s] 40%|███▉      | 4249/10714 [59:28<52:44,  2.04it/s] 40%|███▉      | 4250/10714 [59:29<52:37,  2.05it/s]{'loss': 3.5642, 'grad_norm': 0.21197457611560822, 'learning_rate': 0.0007550617753234628, 'epoch': 0.4}
-                                                     40%|███▉      | 4250/10714 [59:29<52:37,  2.05it/s] 40%|███▉      | 4251/10714 [59:29<52:40,  2.04it/s] 40%|███▉      | 4252/10714 [59:30<52:39,  2.05it/s] 40%|███▉      | 4253/10714 [59:30<52:41,  2.04it/s] 40%|███▉      | 4254/10714 [59:30<52:36,  2.05it/s] 40%|███▉      | 4255/10714 [59:31<52:36,  2.05it/s] 40%|███▉      | 4256/10714 [59:31<52:36,  2.05it/s] 40%|███▉      | 4257/10714 [59:32<52:36,  2.05it/s] 40%|███▉      | 4258/10714 [59:32<52:41,  2.04it/s] 40%|███▉      | 4259/10714 [59:33<52:37,  2.04it/s] 40%|███▉      | 4260/10714 [59:33<52:36,  2.04it/s] 40%|███▉      | 4261/10714 [59:34<52:35,  2.05it/s] 40%|███▉      | 4262/10714 [59:34<52:35,  2.04it/s] 40%|███▉      | 4263/10714 [59:35<52:33,  2.05it/s] 40%|███▉      | 4264/10714 [59:35<52:32,  2.05it/s] 40%|███▉      | 4265/10714 [59:36<52:32,  2.05it/s] 40%|███▉      | 4266/10714 [59:36<52:33,  2.04it/s] 40%|███▉      | 4267/10714 [59:37<52:33,  2.04it/s] 40%|███▉      | 4268/10714 [59:37<52:31,  2.05it/s] 40%|███▉      | 4269/10714 [59:38<52:27,  2.05it/s] 40%|███▉      | 4270/10714 [59:38<52:26,  2.05it/s] 40%|███▉      | 4271/10714 [59:39<52:29,  2.05it/s] 40%|███▉      | 4272/10714 [59:39<52:29,  2.05it/s] 40%|███▉      | 4273/10714 [59:40<52:28,  2.05it/s] 40%|███▉      | 4274/10714 [59:40<52:25,  2.05it/s] 40%|███▉      | 4275/10714 [59:41<52:25,  2.05it/s]                                                    {'loss': 3.5704, 'grad_norm': 0.20357002317905426, 'learning_rate': 0.0007515503350655194, 'epoch': 0.4}
- 40%|███▉      | 4275/10714 [59:41<52:25,  2.05it/s] 40%|███▉      | 4276/10714 [59:41<52:31,  2.04it/s] 40%|███▉      | 4277/10714 [59:42<52:32,  2.04it/s] 40%|███▉      | 4278/10714 [59:42<52:28,  2.04it/s] 40%|███▉      | 4279/10714 [59:43<52:26,  2.04it/s] 40%|███▉      | 4280/10714 [59:43<52:29,  2.04it/s] 40%|███▉      | 4281/10714 [59:44<52:25,  2.05it/s] 40%|███▉      | 4282/10714 [59:44<52:26,  2.04it/s] 40%|███▉      | 4283/10714 [59:45<52:25,  2.04it/s] 40%|███▉      | 4284/10714 [59:45<52:25,  2.04it/s] 40%|███▉      | 4285/10714 [59:46<53:53,  1.99it/s] 40%|████      | 4286/10714 [59:46<53:25,  2.01it/s] 40%|████      | 4287/10714 [59:47<53:09,  2.02it/s] 40%|████      | 4288/10714 [59:47<52:54,  2.02it/s] 40%|████      | 4289/10714 [59:48<52:43,  2.03it/s] 40%|████      | 4290/10714 [59:48<52:39,  2.03it/s] 40%|████      | 4291/10714 [59:49<52:33,  2.04it/s] 40%|████      | 4292/10714 [59:49<52:27,  2.04it/s] 40%|████      | 4293/10714 [59:50<52:28,  2.04it/s] 40%|████      | 4294/10714 [59:50<52:27,  2.04it/s] 40%|████      | 4295/10714 [59:51<52:26,  2.04it/s] 40%|████      | 4296/10714 [59:51<52:20,  2.04it/s] 40%|████      | 4297/10714 [59:52<52:18,  2.04it/s] 40%|████      | 4298/10714 [59:52<52:16,  2.05it/s] 40%|████      | 4299/10714 [59:53<52:16,  2.05it/s] 40%|████      | 4300/10714 [59:53<52:17,  2.04it/s]                                                    {'loss': 3.5741, 'grad_norm': 0.19818046689033508, 'learning_rate': 0.0007480222043590676, 'epoch': 0.4}
- 40%|████      | 4300/10714 [59:53<52:17,  2.04it/s] 40%|████      | 4301/10714 [59:54<52:19,  2.04it/s] 40%|████      | 4302/10714 [59:54<52:20,  2.04it/s] 40%|████      | 4303/10714 [59:54<52:18,  2.04it/s] 40%|████      | 4304/10714 [59:55<52:18,  2.04it/s] 40%|████      | 4305/10714 [59:55<52:18,  2.04it/s] 40%|████      | 4306/10714 [59:56<52:13,  2.04it/s] 40%|████      | 4307/10714 [59:56<52:13,  2.04it/s] 40%|████      | 4308/10714 [59:57<52:12,  2.04it/s] 40%|████      | 4309/10714 [59:57<52:12,  2.04it/s] 40%|████      | 4310/10714 [59:58<52:12,  2.04it/s] 40%|████      | 4311/10714 [59:58<52:09,  2.05it/s] 40%|████      | 4312/10714 [59:59<52:12,  2.04it/s] 40%|████      | 4313/10714 [59:59<52:12,  2.04it/s] 40%|████      | 4314/10714 [1:00:00<52:11,  2.04it/s] 40%|████      | 4315/10714 [1:00:00<52:10,  2.04it/s] 40%|████      | 4316/10714 [1:00:01<52:09,  2.04it/s] 40%|████      | 4317/10714 [1:00:01<52:11,  2.04it/s] 40%|████      | 4318/10714 [1:00:02<52:11,  2.04it/s] 40%|████      | 4319/10714 [1:00:02<52:08,  2.04it/s] 40%|████      | 4320/10714 [1:00:03<52:08,  2.04it/s] 40%|████      | 4321/10714 [1:00:03<52:12,  2.04it/s] 40%|████      | 4322/10714 [1:00:04<52:09,  2.04it/s] 40%|████      | 4323/10714 [1:00:04<52:06,  2.04it/s] 40%|████      | 4324/10714 [1:00:05<52:04,  2.05it/s] 40%|████      | 4325/10714 [1:00:05<52:04,  2.04it/s]                                                      {'loss': 3.5656, 'grad_norm': 0.20538853108882904, 'learning_rate': 0.0007444776172967547, 'epoch': 0.4}
- 40%|████      | 4325/10714 [1:00:05<52:04,  2.04it/s] 40%|████      | 4326/10714 [1:00:06<52:07,  2.04it/s] 40%|████      | 4327/10714 [1:00:06<52:06,  2.04it/s] 40%|████      | 4328/10714 [1:00:07<52:05,  2.04it/s] 40%|████      | 4329/10714 [1:00:07<52:05,  2.04it/s] 40%|████      | 4330/10714 [1:00:08<52:02,  2.04it/s] 40%|████      | 4331/10714 [1:00:08<51:59,  2.05it/s] 40%|████      | 4332/10714 [1:00:09<52:00,  2.05it/s] 40%|████      | 4333/10714 [1:00:09<51:57,  2.05it/s] 40%|████      | 4334/10714 [1:00:10<52:02,  2.04it/s] 40%|████      | 4335/10714 [1:00:10<52:02,  2.04it/s] 40%|████      | 4336/10714 [1:00:11<52:00,  2.04it/s] 40%|████      | 4337/10714 [1:00:11<52:03,  2.04it/s] 40%|████      | 4338/10714 [1:00:12<52:00,  2.04it/s] 40%|████      | 4339/10714 [1:00:12<52:00,  2.04it/s] 41%|████      | 4340/10714 [1:00:13<51:59,  2.04it/s] 41%|████      | 4341/10714 [1:00:13<51:59,  2.04it/s] 41%|████      | 4342/10714 [1:00:14<52:05,  2.04it/s] 41%|████      | 4343/10714 [1:00:14<52:12,  2.03it/s] 41%|████      | 4344/10714 [1:00:15<52:22,  2.03it/s] 41%|████      | 4345/10714 [1:00:15<52:19,  2.03it/s] 41%|████      | 4346/10714 [1:00:16<52:13,  2.03it/s] 41%|████      | 4347/10714 [1:00:16<52:25,  2.02it/s] 41%|████      | 4348/10714 [1:00:17<52:33,  2.02it/s] 41%|████      | 4349/10714 [1:00:17<52:43,  2.01it/s] 41%|████      | 4350/10714 [1:00:18<52:48,  2.01it/s]{'loss': 3.5571, 'grad_norm': 0.19657555222511292, 'learning_rate': 0.0007409168090631129, 'epoch': 0.41}                                                      
- 41%|████      | 4350/10714 [1:00:18<52:48,  2.01it/s] 41%|████      | 4351/10714 [1:00:18<52:51,  2.01it/s] 41%|████      | 4352/10714 [1:00:19<52:45,  2.01it/s] 41%|████      | 4353/10714 [1:00:19<52:52,  2.00it/s] 41%|████      | 4354/10714 [1:00:20<52:55,  2.00it/s] 41%|████      | 4355/10714 [1:00:20<52:52,  2.00it/s] 41%|████      | 4356/10714 [1:00:21<52:51,  2.00it/s] 41%|████      | 4357/10714 [1:00:21<52:54,  2.00it/s] 41%|████      | 4358/10714 [1:00:22<52:51,  2.00it/s] 41%|████      | 4359/10714 [1:00:22<52:48,  2.01it/s] 41%|████      | 4360/10714 [1:00:23<52:52,  2.00it/s] 41%|████      | 4361/10714 [1:00:23<52:50,  2.00it/s] 41%|████      | 4362/10714 [1:00:24<52:49,  2.00it/s] 41%|████      | 4363/10714 [1:00:24<52:50,  2.00it/s] 41%|████      | 4364/10714 [1:00:25<52:54,  2.00it/s] 41%|████      | 4365/10714 [1:00:25<52:51,  2.00it/s] 41%|████      | 4366/10714 [1:00:26<52:50,  2.00it/s] 41%|████      | 4367/10714 [1:00:26<52:49,  2.00it/s] 41%|████      | 4368/10714 [1:00:27<52:53,  2.00it/s] 41%|████      | 4369/10714 [1:00:27<52:53,  2.00it/s] 41%|████      | 4370/10714 [1:00:28<52:54,  2.00it/s] 41%|████      | 4371/10714 [1:00:28<52:52,  2.00it/s] 41%|████      | 4372/10714 [1:00:29<52:52,  2.00it/s] 41%|████      | 4373/10714 [1:00:29<52:48,  2.00it/s] 41%|████      | 4374/10714 [1:00:30<52:45,  2.00it/s] 41%|████      | 4375/10714 [1:00:30<52:49,  2.00it/s]                                                      {'loss': 3.5592, 'grad_norm': 0.20769503712654114, 'learning_rate': 0.0007373400159189544, 'epoch': 0.41}
- 41%|████      | 4375/10714 [1:00:30<52:49,  2.00it/s] 41%|████      | 4376/10714 [1:00:31<52:53,  2.00it/s] 41%|████      | 4377/10714 [1:00:31<52:51,  2.00it/s] 41%|████      | 4378/10714 [1:00:32<52:51,  2.00it/s] 41%|████      | 4379/10714 [1:00:32<52:48,  2.00it/s] 41%|████      | 4380/10714 [1:00:33<52:48,  2.00it/s] 41%|████      | 4381/10714 [1:00:33<52:46,  2.00it/s] 41%|████      | 4382/10714 [1:00:34<52:27,  2.01it/s] 41%|████      | 4383/10714 [1:00:34<52:11,  2.02it/s] 41%|████      | 4384/10714 [1:00:35<52:01,  2.03it/s] 41%|████      | 4385/10714 [1:00:35<51:53,  2.03it/s] 41%|████      | 4386/10714 [1:00:35<51:49,  2.04it/s] 41%|████      | 4387/10714 [1:00:36<51:44,  2.04it/s] 41%|████      | 4388/10714 [1:00:36<51:41,  2.04it/s] 41%|████      | 4389/10714 [1:00:37<51:38,  2.04it/s] 41%|████      | 4390/10714 [1:00:37<51:34,  2.04it/s] 41%|████      | 4391/10714 [1:00:38<51:35,  2.04it/s] 41%|████      | 4392/10714 [1:00:38<51:34,  2.04it/s] 41%|████      | 4393/10714 [1:00:39<51:35,  2.04it/s] 41%|████      | 4394/10714 [1:00:39<51:37,  2.04it/s] 41%|████      | 4395/10714 [1:00:40<51:35,  2.04it/s] 41%|████      | 4396/10714 [1:00:40<51:35,  2.04it/s] 41%|████      | 4397/10714 [1:00:41<51:36,  2.04it/s] 41%|████      | 4398/10714 [1:00:41<51:31,  2.04it/s] 41%|████      | 4399/10714 [1:00:42<51:26,  2.05it/s] 41%|████      | 4400/10714 [1:00:42<51:26,  2.05it/s]{'loss': 3.5519, 'grad_norm': 0.22185787558555603, 'learning_rate': 0.0007337474751856952, 'epoch': 0.41}                                                      
- 41%|████      | 4400/10714 [1:00:42<51:26,  2.05it/s] 41%|████      | 4401/10714 [1:00:43<51:31,  2.04it/s] 41%|████      | 4402/10714 [1:00:43<51:28,  2.04it/s] 41%|████      | 4403/10714 [1:00:44<51:28,  2.04it/s] 41%|████      | 4404/10714 [1:00:44<51:24,  2.05it/s] 41%|████      | 4405/10714 [1:00:45<51:26,  2.04it/s] 41%|████      | 4406/10714 [1:00:45<51:24,  2.05it/s] 41%|████      | 4407/10714 [1:00:46<51:22,  2.05it/s] 41%|████      | 4408/10714 [1:00:46<51:22,  2.05it/s] 41%|████      | 4409/10714 [1:00:47<51:25,  2.04it/s] 41%|████      | 4410/10714 [1:00:47<51:27,  2.04it/s] 41%|████      | 4411/10714 [1:00:48<51:24,  2.04it/s] 41%|████      | 4412/10714 [1:00:48<51:20,  2.05it/s] 41%|████      | 4413/10714 [1:00:49<51:17,  2.05it/s] 41%|████      | 4414/10714 [1:00:49<51:20,  2.05it/s] 41%|████      | 4415/10714 [1:00:50<51:21,  2.04it/s] 41%|████      | 4416/10714 [1:00:50<51:20,  2.04it/s] 41%|████      | 4417/10714 [1:00:51<51:18,  2.05it/s] 41%|████      | 4418/10714 [1:00:51<51:14,  2.05it/s] 41%|████      | 4419/10714 [1:00:52<51:19,  2.04it/s] 41%|████▏     | 4420/10714 [1:00:52<51:18,  2.04it/s] 41%|████▏     | 4421/10714 [1:00:53<51:15,  2.05it/s] 41%|████▏     | 4422/10714 [1:00:53<51:11,  2.05it/s] 41%|████▏     | 4423/10714 [1:00:54<51:11,  2.05it/s] 41%|████▏     | 4424/10714 [1:00:54<51:16,  2.04it/s] 41%|████▏     | 4425/10714 [1:00:55<51:17,  2.04it/s]                                                      {'loss': 3.5531, 'grad_norm': 0.20502187311649323, 'learning_rate': 0.0007301394252296099, 'epoch': 0.41}
- 41%|████▏     | 4425/10714 [1:00:55<51:17,  2.04it/s] 41%|████▏     | 4426/10714 [1:00:55<51:18,  2.04it/s] 41%|████▏     | 4427/10714 [1:00:56<51:15,  2.04it/s] 41%|████▏     | 4428/10714 [1:00:56<51:17,  2.04it/s] 41%|████▏     | 4429/10714 [1:00:57<51:16,  2.04it/s] 41%|████▏     | 4430/10714 [1:00:57<51:13,  2.04it/s] 41%|████▏     | 4431/10714 [1:00:58<51:09,  2.05it/s] 41%|████▏     | 4432/10714 [1:00:58<51:11,  2.05it/s] 41%|████▏     | 4433/10714 [1:00:58<51:11,  2.04it/s] 41%|████▏     | 4434/10714 [1:00:59<51:12,  2.04it/s] 41%|████▏     | 4435/10714 [1:00:59<51:10,  2.05it/s] 41%|████▏     | 4436/10714 [1:01:00<51:07,  2.05it/s] 41%|████▏     | 4437/10714 [1:01:00<51:07,  2.05it/s] 41%|████▏     | 4438/10714 [1:01:01<51:09,  2.04it/s] 41%|████▏     | 4439/10714 [1:01:01<51:12,  2.04it/s] 41%|████▏     | 4440/10714 [1:01:02<51:07,  2.05it/s] 41%|████▏     | 4441/10714 [1:01:02<51:09,  2.04it/s] 41%|████▏     | 4442/10714 [1:01:03<51:10,  2.04it/s] 41%|████▏     | 4443/10714 [1:01:03<51:09,  2.04it/s] 41%|████▏     | 4444/10714 [1:01:04<51:06,  2.04it/s] 41%|████▏     | 4445/10714 [1:01:04<51:02,  2.05it/s] 41%|████▏     | 4446/10714 [1:01:05<51:02,  2.05it/s] 42%|████▏     | 4447/10714 [1:01:05<51:06,  2.04it/s] 42%|████▏     | 4448/10714 [1:01:06<51:03,  2.05it/s] 42%|████▏     | 4449/10714 [1:01:06<51:01,  2.05it/s] 42%|████▏     | 4450/10714 [1:01:07<51:00,  2.05it/s]{'loss': 3.5517, 'grad_norm': 0.2087969034910202, 'learning_rate': 0.0007265161054460143, 'epoch': 0.42}                                                      
- 42%|████▏     | 4450/10714 [1:01:07<51:00,  2.05it/s] 42%|████▏     | 4451/10714 [1:01:07<51:09,  2.04it/s] 42%|████▏     | 4452/10714 [1:01:08<51:06,  2.04it/s] 42%|████▏     | 4453/10714 [1:01:08<51:02,  2.04it/s] 42%|████▏     | 4454/10714 [1:01:09<51:00,  2.05it/s] 42%|████▏     | 4455/10714 [1:01:09<50:59,  2.05it/s] 42%|████▏     | 4456/10714 [1:01:10<51:03,  2.04it/s] 42%|████▏     | 4457/10714 [1:01:10<51:01,  2.04it/s] 42%|████▏     | 4458/10714 [1:01:11<50:58,  2.05it/s] 42%|████▏     | 4459/10714 [1:01:11<50:57,  2.05it/s] 42%|████▏     | 4460/10714 [1:01:12<50:58,  2.05it/s] 42%|████▏     | 4461/10714 [1:01:12<50:59,  2.04it/s] 42%|████▏     | 4462/10714 [1:01:13<50:59,  2.04it/s] 42%|████▏     | 4463/10714 [1:01:13<50:55,  2.05it/s] 42%|████▏     | 4464/10714 [1:01:14<50:57,  2.04it/s] 42%|████▏     | 4465/10714 [1:01:14<50:57,  2.04it/s] 42%|████▏     | 4466/10714 [1:01:15<50:58,  2.04it/s] 42%|████▏     | 4467/10714 [1:01:15<50:55,  2.04it/s] 42%|████▏     | 4468/10714 [1:01:16<50:55,  2.04it/s] 42%|████▏     | 4469/10714 [1:01:16<50:56,  2.04it/s] 42%|████▏     | 4470/10714 [1:01:17<50:57,  2.04it/s] 42%|████▏     | 4471/10714 [1:01:17<50:56,  2.04it/s] 42%|████▏     | 4472/10714 [1:01:18<50:52,  2.05it/s] 42%|████▏     | 4473/10714 [1:01:18<50:51,  2.05it/s] 42%|████▏     | 4474/10714 [1:01:19<50:48,  2.05it/s] 42%|████▏     | 4475/10714 [1:01:19<50:48,  2.05it/s]{'loss': 3.5453, 'grad_norm': 0.1912698894739151, 'learning_rate': 0.0007228777562433832, 'epoch': 0.42}                                                      
- 42%|████▏     | 4475/10714 [1:01:19<50:48,  2.05it/s] 42%|████▏     | 4476/10714 [1:01:20<50:54,  2.04it/s] 42%|████▏     | 4477/10714 [1:01:20<50:50,  2.04it/s] 42%|████▏     | 4478/10714 [1:01:20<50:47,  2.05it/s] 42%|████▏     | 4479/10714 [1:01:21<50:45,  2.05it/s] 42%|████▏     | 4480/10714 [1:01:21<50:50,  2.04it/s] 42%|████▏     | 4481/10714 [1:01:22<50:49,  2.04it/s] 42%|████▏     | 4482/10714 [1:01:22<50:46,  2.05it/s] 42%|████▏     | 4483/10714 [1:01:23<50:47,  2.04it/s] 42%|████▏     | 4484/10714 [1:01:23<50:49,  2.04it/s] 42%|████▏     | 4485/10714 [1:01:24<50:46,  2.04it/s] 42%|████▏     | 4486/10714 [1:01:24<50:50,  2.04it/s] 42%|████▏     | 4487/10714 [1:01:25<50:44,  2.05it/s] 42%|████▏     | 4488/10714 [1:01:25<50:43,  2.05it/s] 42%|████▏     | 4489/10714 [1:01:26<50:43,  2.05it/s] 42%|████▏     | 4490/10714 [1:01:26<50:46,  2.04it/s] 42%|████▏     | 4491/10714 [1:01:27<50:46,  2.04it/s] 42%|████▏     | 4492/10714 [1:01:27<50:45,  2.04it/s] 42%|████▏     | 4493/10714 [1:01:28<50:47,  2.04it/s] 42%|████▏     | 4494/10714 [1:01:28<50:43,  2.04it/s] 42%|████▏     | 4495/10714 [1:01:29<50:42,  2.04it/s] 42%|████▏     | 4496/10714 [1:01:29<50:45,  2.04it/s] 42%|████▏     | 4497/10714 [1:01:30<50:42,  2.04it/s] 42%|████▏     | 4498/10714 [1:01:30<50:43,  2.04it/s] 42%|████▏     | 4499/10714 [1:01:31<50:41,  2.04it/s] 42%|████▏     | 4500/10714 [1:01:31<50:42,  2.04it/s]{'loss': 3.5468, 'grad_norm': 0.20844414830207825, 'learning_rate': 0.0007192246190273975, 'epoch': 0.42}
-                                                       42%|████▏     | 4500/10714 [1:01:31<50:42,  2.04it/s] 42%|████▏     | 4501/10714 [1:01:32<50:45,  2.04it/s] 42%|████▏     | 4502/10714 [1:01:32<50:41,  2.04it/s] 42%|████▏     | 4503/10714 [1:01:33<50:43,  2.04it/s] 42%|████▏     | 4504/10714 [1:01:33<50:41,  2.04it/s] 42%|████▏     | 4505/10714 [1:01:34<50:38,  2.04it/s] 42%|████▏     | 4506/10714 [1:01:34<50:37,  2.04it/s] 42%|████▏     | 4507/10714 [1:01:35<50:36,  2.04it/s] 42%|████▏     | 4508/10714 [1:01:35<50:41,  2.04it/s] 42%|████▏     | 4509/10714 [1:01:36<50:38,  2.04it/s] 42%|████▏     | 4510/10714 [1:01:36<50:37,  2.04it/s] 42%|████▏     | 4511/10714 [1:01:37<50:40,  2.04it/s] 42%|████▏     | 4512/10714 [1:01:37<50:38,  2.04it/s] 42%|████▏     | 4513/10714 [1:01:38<51:35,  2.00it/s] 42%|████▏     | 4514/10714 [1:01:38<51:15,  2.02it/s] 42%|████▏     | 4515/10714 [1:01:39<51:04,  2.02it/s] 42%|████▏     | 4516/10714 [1:01:39<50:54,  2.03it/s] 42%|████▏     | 4517/10714 [1:01:40<50:47,  2.03it/s] 42%|████▏     | 4518/10714 [1:01:40<50:44,  2.04it/s] 42%|████▏     | 4519/10714 [1:01:41<50:37,  2.04it/s] 42%|████▏     | 4520/10714 [1:01:41<50:36,  2.04it/s] 42%|████▏     | 4521/10714 [1:01:42<50:33,  2.04it/s] 42%|████▏     | 4522/10714 [1:01:42<50:32,  2.04it/s] 42%|████▏     | 4523/10714 [1:01:43<50:30,  2.04it/s] 42%|████▏     | 4524/10714 [1:01:43<50:25,  2.05it/s] 42%|████▏     | 4525/10714 [1:01:44<50:27,  2.04it/s]{'loss': 3.5402, 'grad_norm': 0.21238106489181519, 'learning_rate': 0.0007155569361849282, 'epoch': 0.42}
-                                                       42%|████▏     | 4525/10714 [1:01:44<50:27,  2.04it/s] 42%|████▏     | 4526/10714 [1:01:44<50:30,  2.04it/s] 42%|████▏     | 4527/10714 [1:01:45<50:28,  2.04it/s] 42%|████▏     | 4528/10714 [1:01:45<50:28,  2.04it/s] 42%|████▏     | 4529/10714 [1:01:45<50:28,  2.04it/s] 42%|████▏     | 4530/10714 [1:01:46<50:30,  2.04it/s] 42%|████▏     | 4531/10714 [1:01:46<50:28,  2.04it/s] 42%|████▏     | 4532/10714 [1:01:47<50:27,  2.04it/s] 42%|████▏     | 4533/10714 [1:01:47<50:26,  2.04it/s] 42%|████▏     | 4534/10714 [1:01:48<50:23,  2.04it/s] 42%|████▏     | 4535/10714 [1:01:48<50:22,  2.04it/s] 42%|████▏     | 4536/10714 [1:01:49<50:20,  2.05it/s] 42%|████▏     | 4537/10714 [1:01:49<50:20,  2.05it/s] 42%|████▏     | 4538/10714 [1:01:50<50:24,  2.04it/s] 42%|████▏     | 4539/10714 [1:01:50<50:20,  2.04it/s] 42%|████▏     | 4540/10714 [1:01:51<50:18,  2.05it/s] 42%|████▏     | 4541/10714 [1:01:51<50:15,  2.05it/s] 42%|████▏     | 4542/10714 [1:01:52<50:16,  2.05it/s] 42%|████▏     | 4543/10714 [1:01:52<50:18,  2.04it/s] 42%|████▏     | 4544/10714 [1:01:53<50:15,  2.05it/s] 42%|████▏     | 4545/10714 [1:01:53<50:19,  2.04it/s] 42%|████▏     | 4546/10714 [1:01:54<50:19,  2.04it/s] 42%|████▏     | 4547/10714 [1:01:54<50:17,  2.04it/s] 42%|████▏     | 4548/10714 [1:01:55<50:14,  2.05it/s] 42%|████▏     | 4549/10714 [1:01:55<50:12,  2.05it/s] 42%|████▏     | 4550/10714 [1:01:56<50:09,  2.05it/s]{'loss': 3.5492, 'grad_norm': 0.19340306520462036, 'learning_rate': 0.0007118749510679536, 'epoch': 0.42}                                                      
- 42%|████▏     | 4550/10714 [1:01:56<50:09,  2.05it/s] 42%|████▏     | 4551/10714 [1:01:56<50:15,  2.04it/s] 42%|████▏     | 4552/10714 [1:01:57<50:14,  2.04it/s] 42%|████▏     | 4553/10714 [1:01:57<50:11,  2.05it/s] 43%|████▎     | 4554/10714 [1:01:58<50:06,  2.05it/s] 43%|████▎     | 4555/10714 [1:01:58<50:06,  2.05it/s] 43%|████▎     | 4556/10714 [1:01:59<50:06,  2.05it/s] 43%|████▎     | 4557/10714 [1:01:59<50:12,  2.04it/s] 43%|████▎     | 4558/10714 [1:02:00<50:09,  2.05it/s] 43%|████▎     | 4559/10714 [1:02:00<50:08,  2.05it/s] 43%|████▎     | 4560/10714 [1:02:01<50:06,  2.05it/s] 43%|████▎     | 4561/10714 [1:02:01<50:09,  2.04it/s] 43%|████▎     | 4562/10714 [1:02:02<50:09,  2.04it/s] 43%|████▎     | 4563/10714 [1:02:02<50:05,  2.05it/s] 43%|████▎     | 4564/10714 [1:02:03<50:03,  2.05it/s] 43%|████▎     | 4565/10714 [1:02:03<50:02,  2.05it/s] 43%|████▎     | 4566/10714 [1:02:04<50:03,  2.05it/s] 43%|████▎     | 4567/10714 [1:02:04<50:05,  2.05it/s] 43%|████▎     | 4568/10714 [1:02:05<50:01,  2.05it/s] 43%|████▎     | 4569/10714 [1:02:05<50:00,  2.05it/s] 43%|████▎     | 4570/10714 [1:02:06<49:59,  2.05it/s] 43%|████▎     | 4571/10714 [1:02:06<49:59,  2.05it/s] 43%|████▎     | 4572/10714 [1:02:07<58:13,  1.76it/s] 43%|████▎     | 4573/10714 [1:02:07<55:43,  1.84it/s] 43%|████▎     | 4574/10714 [1:02:08<54:00,  1.89it/s] 43%|████▎     | 4575/10714 [1:02:08<52:49,  1.94it/s]{'loss': 3.5425, 'grad_norm': 0.21041125059127808, 'learning_rate': 0.0007081789079774124, 'epoch': 0.43}                                                      
- 43%|████▎     | 4575/10714 [1:02:08<52:49,  1.94it/s] 43%|████▎     | 4576/10714 [1:02:09<52:01,  1.97it/s] 43%|████▎     | 4577/10714 [1:02:09<51:29,  1.99it/s] 43%|████▎     | 4578/10714 [1:02:10<51:02,  2.00it/s] 43%|████▎     | 4579/10714 [1:02:10<50:44,  2.02it/s] 43%|████▎     | 4580/10714 [1:02:11<50:31,  2.02it/s] 43%|████▎     | 4581/10714 [1:02:11<50:20,  2.03it/s] 43%|████▎     | 4582/10714 [1:02:12<50:13,  2.03it/s] 43%|████▎     | 4583/10714 [1:02:12<50:06,  2.04it/s] 43%|████▎     | 4584/10714 [1:02:13<50:04,  2.04it/s] 43%|████▎     | 4585/10714 [1:02:13<50:03,  2.04it/s] 43%|████▎     | 4586/10714 [1:02:14<49:57,  2.04it/s] 43%|████▎     | 4587/10714 [1:02:14<49:56,  2.04it/s] 43%|████▎     | 4588/10714 [1:02:15<49:54,  2.05it/s] 43%|████▎     | 4589/10714 [1:02:15<49:54,  2.05it/s] 43%|████▎     | 4590/10714 [1:02:16<49:58,  2.04it/s] 43%|████▎     | 4591/10714 [1:02:16<58:04,  1.76it/s] 43%|████▎     | 4592/10714 [1:02:17<55:32,  1.84it/s] 43%|████▎     | 4593/10714 [1:02:17<53:49,  1.90it/s] 43%|████▎     | 4594/10714 [1:02:18<52:40,  1.94it/s] 43%|████▎     | 4595/10714 [1:02:18<51:55,  1.96it/s] 43%|████▎     | 4596/10714 [1:02:19<51:15,  1.99it/s] 43%|████▎     | 4597/10714 [1:02:19<50:47,  2.01it/s] 43%|████▎     | 4598/10714 [1:02:20<50:30,  2.02it/s] 43%|████▎     | 4599/10714 [1:02:20<50:17,  2.03it/s] 43%|████▎     | 4600/10714 [1:02:21<50:08,  2.03it/s]{'loss': 3.5504, 'grad_norm': 0.21522486209869385, 'learning_rate': 0.0007044690521469944, 'epoch': 0.43}                                                      
- 43%|████▎     | 4600/10714 [1:02:21<50:08,  2.03it/s] 43%|████▎     | 4601/10714 [1:02:21<50:02,  2.04it/s] 43%|████▎     | 4602/10714 [1:02:22<49:54,  2.04it/s] 43%|████▎     | 4603/10714 [1:02:22<49:52,  2.04it/s] 43%|████▎     | 4604/10714 [1:02:23<49:51,  2.04it/s] 43%|████▎     | 4605/10714 [1:02:23<49:51,  2.04it/s] 43%|████▎     | 4606/10714 [1:02:24<49:48,  2.04it/s] 43%|████▎     | 4607/10714 [1:02:24<49:45,  2.05it/s] 43%|████▎     | 4608/10714 [1:02:25<49:45,  2.05it/s] 43%|████▎     | 4609/10714 [1:02:25<49:46,  2.04it/s] 43%|████▎     | 4610/10714 [1:02:26<49:49,  2.04it/s] 43%|████▎     | 4611/10714 [1:02:26<49:44,  2.04it/s] 43%|████▎     | 4612/10714 [1:02:27<49:41,  2.05it/s] 43%|████▎     | 4613/10714 [1:02:27<49:40,  2.05it/s] 43%|████▎     | 4614/10714 [1:02:28<49:38,  2.05it/s] 43%|████▎     | 4615/10714 [1:02:28<49:41,  2.05it/s] 43%|████▎     | 4616/10714 [1:02:29<49:42,  2.04it/s] 43%|████▎     | 4617/10714 [1:02:29<49:42,  2.04it/s] 43%|████▎     | 4618/10714 [1:02:30<49:40,  2.05it/s] 43%|████▎     | 4619/10714 [1:02:30<49:38,  2.05it/s] 43%|████▎     | 4620/10714 [1:02:31<49:40,  2.04it/s] 43%|████▎     | 4621/10714 [1:02:31<49:41,  2.04it/s] 43%|████▎     | 4622/10714 [1:02:31<49:38,  2.05it/s] 43%|████▎     | 4623/10714 [1:02:32<49:35,  2.05it/s] 43%|████▎     | 4624/10714 [1:02:32<49:35,  2.05it/s] 43%|████▎     | 4625/10714 [1:02:33<49:36,  2.05it/s]{'loss': 3.5421, 'grad_norm': 0.22000610828399658, 'learning_rate': 0.0007007456297268697, 'epoch': 0.43}                                                      
- 43%|████▎     | 4625/10714 [1:02:33<49:36,  2.05it/s] 43%|████▎     | 4626/10714 [1:02:33<49:42,  2.04it/s] 43%|████▎     | 4627/10714 [1:02:34<49:40,  2.04it/s] 43%|████▎     | 4628/10714 [1:02:34<49:39,  2.04it/s] 43%|████▎     | 4629/10714 [1:02:35<49:41,  2.04it/s] 43%|████▎     | 4630/10714 [1:02:35<49:42,  2.04it/s] 43%|████▎     | 4631/10714 [1:02:36<49:37,  2.04it/s] 43%|████▎     | 4632/10714 [1:02:36<49:38,  2.04it/s] 43%|████▎     | 4633/10714 [1:02:37<50:12,  2.02it/s] 43%|████▎     | 4634/10714 [1:02:37<50:06,  2.02it/s] 43%|████▎     | 4635/10714 [1:02:38<49:57,  2.03it/s] 43%|████▎     | 4636/10714 [1:02:38<49:48,  2.03it/s] 43%|████▎     | 4637/10714 [1:02:39<49:49,  2.03it/s] 43%|████▎     | 4638/10714 [1:02:39<49:46,  2.03it/s] 43%|████▎     | 4639/10714 [1:02:40<49:41,  2.04it/s] 43%|████▎     | 4640/10714 [1:02:40<49:35,  2.04it/s] 43%|████▎     | 4641/10714 [1:02:41<49:30,  2.04it/s] 43%|████▎     | 4642/10714 [1:02:41<49:27,  2.05it/s] 43%|████▎     | 4643/10714 [1:02:42<49:27,  2.05it/s] 43%|████▎     | 4644/10714 [1:02:42<49:30,  2.04it/s] 43%|████▎     | 4645/10714 [1:02:43<49:30,  2.04it/s] 43%|████▎     | 4646/10714 [1:02:43<49:27,  2.04it/s] 43%|████▎     | 4647/10714 [1:02:44<49:26,  2.05it/s] 43%|████▎     | 4648/10714 [1:02:44<49:25,  2.05it/s] 43%|████▎     | 4649/10714 [1:02:45<49:28,  2.04it/s] 43%|████▎     | 4650/10714 [1:02:45<49:29,  2.04it/s]                                                      {'loss': 3.544, 'grad_norm': 0.2027307152748108, 'learning_rate': 0.000697008887767356, 'epoch': 0.43}
- 43%|████▎     | 4650/10714 [1:02:45<49:29,  2.04it/s] 43%|████▎     | 4651/10714 [1:02:46<49:29,  2.04it/s] 43%|████▎     | 4652/10714 [1:02:46<49:27,  2.04it/s] 43%|████▎     | 4653/10714 [1:02:47<49:27,  2.04it/s] 43%|████▎     | 4654/10714 [1:02:47<49:29,  2.04it/s] 43%|████▎     | 4655/10714 [1:02:48<49:27,  2.04it/s] 43%|████▎     | 4656/10714 [1:02:48<49:22,  2.05it/s] 43%|████▎     | 4657/10714 [1:02:49<49:20,  2.05it/s] 43%|████▎     | 4658/10714 [1:02:49<49:21,  2.04it/s] 43%|████▎     | 4659/10714 [1:02:50<49:22,  2.04it/s] 43%|████▎     | 4660/10714 [1:02:50<49:22,  2.04it/s] 44%|████▎     | 4661/10714 [1:02:51<49:24,  2.04it/s] 44%|████▎     | 4662/10714 [1:02:51<49:23,  2.04it/s] 44%|████▎     | 4663/10714 [1:02:52<49:27,  2.04it/s] 44%|████▎     | 4664/10714 [1:02:52<49:23,  2.04it/s] 44%|████▎     | 4665/10714 [1:02:53<49:20,  2.04it/s] 44%|████▎     | 4666/10714 [1:02:53<49:20,  2.04it/s] 44%|████▎     | 4667/10714 [1:02:54<49:21,  2.04it/s] 44%|████▎     | 4668/10714 [1:02:54<49:21,  2.04it/s] 44%|████▎     | 4669/10714 [1:02:55<49:15,  2.05it/s] 44%|████▎     | 4670/10714 [1:02:55<49:15,  2.04it/s] 44%|████▎     | 4671/10714 [1:02:55<49:18,  2.04it/s] 44%|████▎     | 4672/10714 [1:02:56<49:18,  2.04it/s] 44%|████▎     | 4673/10714 [1:02:56<49:17,  2.04it/s] 44%|████▎     | 4674/10714 [1:02:57<49:16,  2.04it/s] 44%|████▎     | 4675/10714 [1:02:57<49:17,  2.04it/s]{'loss': 3.5363, 'grad_norm': 0.21028034389019012, 'learning_rate': 0.0006932590742025264, 'epoch': 0.44}
-                                                       44%|████▎     | 4675/10714 [1:02:57<49:17,  2.04it/s] 44%|████▎     | 4676/10714 [1:02:58<49:20,  2.04it/s] 44%|████▎     | 4677/10714 [1:02:58<49:18,  2.04it/s] 44%|████▎     | 4678/10714 [1:02:59<49:17,  2.04it/s] 44%|████▎     | 4679/10714 [1:02:59<49:14,  2.04it/s] 44%|████▎     | 4680/10714 [1:03:00<49:11,  2.04it/s] 44%|████▎     | 4681/10714 [1:03:00<49:06,  2.05it/s] 44%|████▎     | 4682/10714 [1:03:01<49:03,  2.05it/s] 44%|████▎     | 4683/10714 [1:03:01<49:04,  2.05it/s] 44%|████▎     | 4684/10714 [1:03:02<49:06,  2.05it/s] 44%|████▎     | 4685/10714 [1:03:02<49:08,  2.04it/s] 44%|████▎     | 4686/10714 [1:03:03<49:05,  2.05it/s] 44%|████▎     | 4687/10714 [1:03:03<49:03,  2.05it/s] 44%|████▍     | 4688/10714 [1:03:04<49:02,  2.05it/s] 44%|████▍     | 4689/10714 [1:03:04<49:07,  2.04it/s] 44%|████▍     | 4690/10714 [1:03:05<49:08,  2.04it/s] 44%|████▍     | 4691/10714 [1:03:05<49:07,  2.04it/s] 44%|████▍     | 4692/10714 [1:03:06<49:07,  2.04it/s] 44%|████▍     | 4693/10714 [1:03:06<49:07,  2.04it/s] 44%|████▍     | 4694/10714 [1:03:07<49:05,  2.04it/s] 44%|████▍     | 4695/10714 [1:03:07<49:04,  2.04it/s] 44%|████▍     | 4696/10714 [1:03:08<49:04,  2.04it/s] 44%|████▍     | 4697/10714 [1:03:08<49:05,  2.04it/s] 44%|████▍     | 4698/10714 [1:03:09<49:01,  2.04it/s] 44%|████▍     | 4699/10714 [1:03:09<49:04,  2.04it/s] 44%|████▍     | 4700/10714 [1:03:10<49:03,  2.04it/s]{'loss': 3.544, 'grad_norm': 0.19643884897232056, 'learning_rate': 0.0006894964378337603, 'epoch': 0.44}                                                      
- 44%|████▍     | 4700/10714 [1:03:10<49:03,  2.04it/s] 44%|████▍     | 4701/10714 [1:03:10<49:05,  2.04it/s] 44%|████▍     | 4702/10714 [1:03:11<49:04,  2.04it/s] 44%|████▍     | 4703/10714 [1:03:11<49:04,  2.04it/s] 44%|████▍     | 4704/10714 [1:03:12<49:01,  2.04it/s] 44%|████▍     | 4705/10714 [1:03:12<49:02,  2.04it/s] 44%|████▍     | 4706/10714 [1:03:13<48:57,  2.05it/s] 44%|████▍     | 4707/10714 [1:03:13<48:57,  2.05it/s] 44%|████▍     | 4708/10714 [1:03:14<48:56,  2.04it/s] 44%|████▍     | 4709/10714 [1:03:14<48:58,  2.04it/s] 44%|████▍     | 4710/10714 [1:03:15<48:57,  2.04it/s] 44%|████▍     | 4711/10714 [1:03:15<48:55,  2.04it/s] 44%|████▍     | 4712/10714 [1:03:16<48:57,  2.04it/s] 44%|████▍     | 4713/10714 [1:03:16<48:56,  2.04it/s] 44%|████▍     | 4714/10714 [1:03:17<48:57,  2.04it/s] 44%|████▍     | 4715/10714 [1:03:17<48:53,  2.04it/s] 44%|████▍     | 4716/10714 [1:03:18<48:54,  2.04it/s] 44%|████▍     | 4717/10714 [1:03:18<48:55,  2.04it/s] 44%|████▍     | 4718/10714 [1:03:18<48:53,  2.04it/s] 44%|████▍     | 4719/10714 [1:03:19<48:52,  2.04it/s] 44%|████▍     | 4720/10714 [1:03:19<48:55,  2.04it/s] 44%|████▍     | 4721/10714 [1:03:20<48:53,  2.04it/s] 44%|████▍     | 4722/10714 [1:03:20<48:54,  2.04it/s] 44%|████▍     | 4723/10714 [1:03:21<48:50,  2.04it/s] 44%|████▍     | 4724/10714 [1:03:21<48:48,  2.05it/s] 44%|████▍     | 4725/10714 [1:03:22<48:50,  2.04it/s]{'loss': 3.5349, 'grad_norm': 0.20703105628490448, 'learning_rate': 0.0006857212283132335, 'epoch': 0.44}                                                      
- 44%|████▍     | 4725/10714 [1:03:22<48:50,  2.04it/s] 44%|████▍     | 4726/10714 [1:03:22<48:54,  2.04it/s] 44%|████▍     | 4727/10714 [1:03:23<48:52,  2.04it/s] 44%|████▍     | 4728/10714 [1:03:23<48:49,  2.04it/s] 44%|████▍     | 4729/10714 [1:03:24<48:49,  2.04it/s] 44%|████▍     | 4730/10714 [1:03:24<48:51,  2.04it/s] 44%|████▍     | 4731/10714 [1:03:25<48:47,  2.04it/s] 44%|████▍     | 4732/10714 [1:03:25<48:44,  2.05it/s] 44%|████▍     | 4733/10714 [1:03:26<48:43,  2.05it/s] 44%|████▍     | 4734/10714 [1:03:26<48:44,  2.04it/s] 44%|████▍     | 4735/10714 [1:03:27<48:44,  2.04it/s] 44%|████▍     | 4736/10714 [1:03:27<48:47,  2.04it/s] 44%|████▍     | 4737/10714 [1:03:28<48:45,  2.04it/s] 44%|████▍     | 4738/10714 [1:03:28<48:45,  2.04it/s] 44%|████▍     | 4739/10714 [1:03:29<48:44,  2.04it/s] 44%|████▍     | 4740/10714 [1:03:29<48:41,  2.04it/s] 44%|████▍     | 4741/10714 [1:03:30<48:43,  2.04it/s] 44%|████▍     | 4742/10714 [1:03:30<48:40,  2.05it/s] 44%|████▍     | 4743/10714 [1:03:31<48:40,  2.04it/s] 44%|████▍     | 4744/10714 [1:03:31<48:40,  2.04it/s] 44%|████▍     | 4745/10714 [1:03:32<48:38,  2.05it/s] 44%|████▍     | 4746/10714 [1:03:32<48:40,  2.04it/s] 44%|████▍     | 4747/10714 [1:03:33<48:38,  2.04it/s] 44%|████▍     | 4748/10714 [1:03:33<48:38,  2.04it/s] 44%|████▍     | 4749/10714 [1:03:34<48:37,  2.04it/s] 44%|████▍     | 4750/10714 [1:03:34<48:34,  2.05it/s]{'loss': 3.534, 'grad_norm': 0.2228260189294815, 'learning_rate': 0.0006819336961273552, 'epoch': 0.44}                                                      
- 44%|████▍     | 4750/10714 [1:03:34<48:34,  2.05it/s] 44%|████▍     | 4751/10714 [1:03:35<48:40,  2.04it/s] 44%|████▍     | 4752/10714 [1:03:35<48:40,  2.04it/s] 44%|████▍     | 4753/10714 [1:03:36<48:39,  2.04it/s] 44%|████▍     | 4754/10714 [1:03:36<48:40,  2.04it/s] 44%|████▍     | 4755/10714 [1:03:37<48:38,  2.04it/s] 44%|████▍     | 4756/10714 [1:03:37<48:34,  2.04it/s] 44%|████▍     | 4757/10714 [1:03:38<48:32,  2.05it/s] 44%|████▍     | 4758/10714 [1:03:38<48:34,  2.04it/s] 44%|████▍     | 4759/10714 [1:03:39<48:34,  2.04it/s] 44%|████▍     | 4760/10714 [1:03:39<48:30,  2.05it/s] 44%|████▍     | 4761/10714 [1:03:40<48:28,  2.05it/s] 44%|████▍     | 4762/10714 [1:03:40<48:28,  2.05it/s] 44%|████▍     | 4763/10714 [1:03:41<48:30,  2.04it/s] 44%|████▍     | 4764/10714 [1:03:41<48:31,  2.04it/s] 44%|████▍     | 4765/10714 [1:03:41<48:28,  2.05it/s] 44%|████▍     | 4766/10714 [1:03:42<48:25,  2.05it/s] 44%|████▍     | 4767/10714 [1:03:42<48:21,  2.05it/s] 45%|████▍     | 4768/10714 [1:03:43<48:22,  2.05it/s] 45%|████▍     | 4769/10714 [1:03:43<48:26,  2.05it/s] 45%|████▍     | 4770/10714 [1:03:44<48:28,  2.04it/s] 45%|████▍     | 4771/10714 [1:03:44<48:26,  2.04it/s] 45%|████▍     | 4772/10714 [1:03:45<48:25,  2.05it/s] 45%|████▍     | 4773/10714 [1:03:45<48:26,  2.04it/s] 45%|████▍     | 4774/10714 [1:03:46<48:26,  2.04it/s] 45%|████▍     | 4775/10714 [1:03:46<48:25,  2.04it/s]{'loss': 3.5302, 'grad_norm': 0.2183614820241928, 'learning_rate': 0.0006781340925801472, 'epoch': 0.45}                                                      
- 45%|████▍     | 4775/10714 [1:03:46<48:25,  2.04it/s] 45%|████▍     | 4776/10714 [1:03:47<48:26,  2.04it/s] 45%|████▍     | 4777/10714 [1:03:47<48:23,  2.04it/s] 45%|████▍     | 4778/10714 [1:03:48<48:27,  2.04it/s] 45%|████▍     | 4779/10714 [1:03:48<48:25,  2.04it/s] 45%|████▍     | 4780/10714 [1:03:49<48:26,  2.04it/s] 45%|████▍     | 4781/10714 [1:03:49<48:24,  2.04it/s] 45%|████▍     | 4782/10714 [1:03:50<48:22,  2.04it/s] 45%|████▍     | 4783/10714 [1:03:50<48:22,  2.04it/s] 45%|████▍     | 4784/10714 [1:03:51<48:20,  2.04it/s] 45%|████▍     | 4785/10714 [1:03:51<48:17,  2.05it/s] 45%|████▍     | 4786/10714 [1:03:52<48:19,  2.04it/s] 45%|████▍     | 4787/10714 [1:03:52<48:21,  2.04it/s] 45%|████▍     | 4788/10714 [1:03:53<48:20,  2.04it/s] 45%|████▍     | 4789/10714 [1:03:53<48:17,  2.05it/s] 45%|████▍     | 4790/10714 [1:03:54<48:16,  2.05it/s] 45%|████▍     | 4791/10714 [1:03:54<48:15,  2.05it/s] 45%|████▍     | 4792/10714 [1:03:55<48:19,  2.04it/s] 45%|████▍     | 4793/10714 [1:03:55<48:16,  2.04it/s] 45%|████▍     | 4794/10714 [1:03:56<48:12,  2.05it/s] 45%|████▍     | 4795/10714 [1:03:56<48:11,  2.05it/s] 45%|████▍     | 4796/10714 [1:03:57<48:10,  2.05it/s] 45%|████▍     | 4797/10714 [1:03:57<48:11,  2.05it/s] 45%|████▍     | 4798/10714 [1:03:58<48:11,  2.05it/s] 45%|████▍     | 4799/10714 [1:03:58<48:08,  2.05it/s] 45%|████▍     | 4800/10714 [1:03:59<48:06,  2.05it/s]                                                      {'loss': 3.5319, 'grad_norm': 0.2091052234172821, 'learning_rate': 0.0006743226697765703, 'epoch': 0.45}
- 45%|████▍     | 4800/10714 [1:03:59<48:06,  2.05it/s] 45%|████▍     | 4801/10714 [1:03:59<48:13,  2.04it/s] 45%|████▍     | 4802/10714 [1:04:00<48:13,  2.04it/s] 45%|████▍     | 4803/10714 [1:04:00<48:13,  2.04it/s] 45%|████▍     | 4804/10714 [1:04:01<48:09,  2.05it/s] 45%|████▍     | 4805/10714 [1:04:01<48:09,  2.04it/s] 45%|████▍     | 4806/10714 [1:04:02<48:10,  2.04it/s] 45%|████▍     | 4807/10714 [1:04:02<48:12,  2.04it/s] 45%|████▍     | 4808/10714 [1:04:03<48:10,  2.04it/s] 45%|████▍     | 4809/10714 [1:04:03<48:07,  2.05it/s] 45%|████▍     | 4810/10714 [1:04:03<48:07,  2.04it/s] 45%|████▍     | 4811/10714 [1:04:04<48:07,  2.04it/s] 45%|████▍     | 4812/10714 [1:04:04<48:06,  2.04it/s] 45%|████▍     | 4813/10714 [1:04:05<48:04,  2.05it/s] 45%|████▍     | 4814/10714 [1:04:05<48:04,  2.05it/s] 45%|████▍     | 4815/10714 [1:04:06<48:07,  2.04it/s] 45%|████▍     | 4816/10714 [1:04:06<48:04,  2.04it/s] 45%|████▍     | 4817/10714 [1:04:07<48:03,  2.05it/s] 45%|████▍     | 4818/10714 [1:04:07<48:02,  2.05it/s] 45%|████▍     | 4819/10714 [1:04:08<48:02,  2.04it/s] 45%|████▍     | 4820/10714 [1:04:08<48:04,  2.04it/s] 45%|████▍     | 4821/10714 [1:04:09<48:07,  2.04it/s] 45%|████▌     | 4822/10714 [1:04:09<48:03,  2.04it/s] 45%|████▌     | 4823/10714 [1:04:10<48:02,  2.04it/s] 45%|████▌     | 4824/10714 [1:04:10<48:01,  2.04it/s] 45%|████▌     | 4825/10714 [1:04:11<47:57,  2.05it/s]{'loss': 3.5278, 'grad_norm': 0.2050975114107132, 'learning_rate': 0.0006704996806057971, 'epoch': 0.45}
-                                                       45%|████▌     | 4825/10714 [1:04:11<47:57,  2.05it/s] 45%|████▌     | 4826/10714 [1:04:11<48:03,  2.04it/s] 45%|████▌     | 4827/10714 [1:04:12<48:03,  2.04it/s] 45%|████▌     | 4828/10714 [1:04:12<48:01,  2.04it/s] 45%|████▌     | 4829/10714 [1:04:13<48:00,  2.04it/s] 45%|████▌     | 4830/10714 [1:04:13<47:58,  2.04it/s] 45%|████▌     | 4831/10714 [1:04:14<48:00,  2.04it/s] 45%|████▌     | 4832/10714 [1:04:14<48:00,  2.04it/s] 45%|████▌     | 4833/10714 [1:04:15<47:55,  2.05it/s] 45%|████▌     | 4834/10714 [1:04:15<47:54,  2.05it/s] 45%|████▌     | 4835/10714 [1:04:16<47:55,  2.04it/s] 45%|████▌     | 4836/10714 [1:04:16<47:55,  2.04it/s] 45%|████▌     | 4837/10714 [1:04:17<47:54,  2.04it/s] 45%|████▌     | 4838/10714 [1:04:17<47:51,  2.05it/s] 45%|████▌     | 4839/10714 [1:04:18<47:50,  2.05it/s] 45%|████▌     | 4840/10714 [1:04:18<47:49,  2.05it/s] 45%|████▌     | 4841/10714 [1:04:19<47:51,  2.05it/s] 45%|████▌     | 4842/10714 [1:04:19<47:49,  2.05it/s] 45%|████▌     | 4843/10714 [1:04:20<47:48,  2.05it/s] 45%|████▌     | 4844/10714 [1:04:20<47:48,  2.05it/s] 45%|████▌     | 4845/10714 [1:04:21<47:50,  2.04it/s] 45%|████▌     | 4846/10714 [1:04:21<47:51,  2.04it/s] 45%|████▌     | 4847/10714 [1:04:22<47:50,  2.04it/s] 45%|████▌     | 4848/10714 [1:04:22<47:48,  2.04it/s] 45%|████▌     | 4849/10714 [1:04:23<47:48,  2.04it/s] 45%|████▌     | 4850/10714 [1:04:23<47:49,  2.04it/s]                                                      {'loss': 3.5234, 'grad_norm': 0.20383208990097046, 'learning_rate': 0.000666665378724432, 'epoch': 0.45}
- 45%|████▌     | 4850/10714 [1:04:23<47:49,  2.04it/s] 45%|████▌     | 4851/10714 [1:04:24<47:50,  2.04it/s] 45%|████▌     | 4852/10714 [1:04:24<47:47,  2.04it/s] 45%|████▌     | 4853/10714 [1:04:25<47:46,  2.04it/s] 45%|████▌     | 4854/10714 [1:04:25<47:46,  2.04it/s] 45%|████▌     | 4855/10714 [1:04:26<47:48,  2.04it/s] 45%|████▌     | 4856/10714 [1:04:26<47:45,  2.04it/s] 45%|████▌     | 4857/10714 [1:04:26<47:42,  2.05it/s] 45%|████▌     | 4858/10714 [1:04:27<47:40,  2.05it/s] 45%|████▌     | 4859/10714 [1:04:27<47:42,  2.05it/s] 45%|████▌     | 4860/10714 [1:04:28<47:44,  2.04it/s] 45%|████▌     | 4861/10714 [1:04:28<47:41,  2.05it/s] 45%|████▌     | 4862/10714 [1:04:29<47:38,  2.05it/s] 45%|████▌     | 4863/10714 [1:04:29<47:38,  2.05it/s] 45%|████▌     | 4864/10714 [1:04:30<47:40,  2.04it/s] 45%|████▌     | 4865/10714 [1:04:30<47:42,  2.04it/s] 45%|████▌     | 4866/10714 [1:04:31<47:39,  2.04it/s] 45%|████▌     | 4867/10714 [1:04:31<47:37,  2.05it/s] 45%|████▌     | 4868/10714 [1:04:32<47:36,  2.05it/s] 45%|████▌     | 4869/10714 [1:04:32<47:37,  2.05it/s] 45%|████▌     | 4870/10714 [1:04:33<47:38,  2.04it/s] 45%|████▌     | 4871/10714 [1:04:33<47:38,  2.04it/s] 45%|████▌     | 4872/10714 [1:04:34<47:34,  2.05it/s] 45%|████▌     | 4873/10714 [1:04:34<47:34,  2.05it/s] 45%|████▌     | 4874/10714 [1:04:35<47:35,  2.04it/s] 46%|████▌     | 4875/10714 [1:04:35<47:35,  2.04it/s]                                                      {'loss': 3.523, 'grad_norm': 0.19608613848686218, 'learning_rate': 0.0006628200185396818, 'epoch': 0.46}
- 46%|████▌     | 4875/10714 [1:04:35<47:35,  2.04it/s] 46%|████▌     | 4876/10714 [1:04:36<47:37,  2.04it/s] 46%|████▌     | 4877/10714 [1:04:36<47:35,  2.04it/s] 46%|████▌     | 4878/10714 [1:04:37<47:36,  2.04it/s] 46%|████▌     | 4879/10714 [1:04:37<47:38,  2.04it/s] 46%|████▌     | 4880/10714 [1:04:38<47:35,  2.04it/s] 46%|████▌     | 4881/10714 [1:04:38<47:30,  2.05it/s] 46%|████▌     | 4882/10714 [1:04:39<47:31,  2.05it/s] 46%|████▌     | 4883/10714 [1:04:39<47:33,  2.04it/s] 46%|████▌     | 4884/10714 [1:04:40<47:32,  2.04it/s] 46%|████▌     | 4885/10714 [1:04:40<47:28,  2.05it/s] 46%|████▌     | 4886/10714 [1:04:41<47:25,  2.05it/s] 46%|████▌     | 4887/10714 [1:04:41<47:25,  2.05it/s] 46%|████▌     | 4888/10714 [1:04:42<47:26,  2.05it/s] 46%|████▌     | 4889/10714 [1:04:42<47:28,  2.04it/s] 46%|████▌     | 4890/10714 [1:04:43<47:27,  2.05it/s] 46%|████▌     | 4891/10714 [1:04:43<47:26,  2.05it/s] 46%|████▌     | 4892/10714 [1:04:44<47:28,  2.04it/s] 46%|████▌     | 4893/10714 [1:04:44<47:27,  2.04it/s] 46%|████▌     | 4894/10714 [1:04:45<47:28,  2.04it/s] 46%|████▌     | 4895/10714 [1:04:45<47:26,  2.04it/s] 46%|████▌     | 4896/10714 [1:04:46<47:25,  2.04it/s] 46%|████▌     | 4897/10714 [1:04:46<47:26,  2.04it/s] 46%|████▌     | 4898/10714 [1:04:47<47:24,  2.04it/s] 46%|████▌     | 4899/10714 [1:04:47<47:25,  2.04it/s] 46%|████▌     | 4900/10714 [1:04:48<47:27,  2.04it/s]{'loss': 3.513, 'grad_norm': 0.22912758588790894, 'learning_rate': 0.0006589638551924757, 'epoch': 0.46}
-                                                       46%|████▌     | 4900/10714 [1:04:48<47:27,  2.04it/s] 46%|████▌     | 4901/10714 [1:04:48<47:30,  2.04it/s] 46%|████▌     | 4902/10714 [1:04:48<47:27,  2.04it/s] 46%|████▌     | 4903/10714 [1:04:49<47:26,  2.04it/s] 46%|████▌     | 4904/10714 [1:04:49<47:25,  2.04it/s] 46%|████▌     | 4905/10714 [1:04:50<47:24,  2.04it/s] 46%|████▌     | 4906/10714 [1:04:50<47:22,  2.04it/s] 46%|████▌     | 4907/10714 [1:04:51<47:19,  2.05it/s] 46%|████▌     | 4908/10714 [1:04:51<47:19,  2.04it/s] 46%|████▌     | 4909/10714 [1:04:52<47:19,  2.04it/s] 46%|████▌     | 4910/10714 [1:04:52<47:19,  2.04it/s] 46%|████▌     | 4911/10714 [1:04:53<47:18,  2.04it/s] 46%|████▌     | 4912/10714 [1:04:53<47:17,  2.04it/s] 46%|████▌     | 4913/10714 [1:04:54<47:20,  2.04it/s] 46%|████▌     | 4914/10714 [1:04:54<47:19,  2.04it/s] 46%|████▌     | 4915/10714 [1:04:55<47:15,  2.05it/s] 46%|████▌     | 4916/10714 [1:04:55<47:16,  2.04it/s] 46%|████▌     | 4917/10714 [1:04:56<47:18,  2.04it/s] 46%|████▌     | 4918/10714 [1:04:56<47:16,  2.04it/s] 46%|████▌     | 4919/10714 [1:04:57<47:14,  2.04it/s] 46%|████▌     | 4920/10714 [1:04:57<47:11,  2.05it/s] 46%|████▌     | 4921/10714 [1:04:58<47:11,  2.05it/s] 46%|████▌     | 4922/10714 [1:04:58<47:14,  2.04it/s] 46%|████▌     | 4923/10714 [1:04:59<47:13,  2.04it/s] 46%|████▌     | 4924/10714 [1:04:59<47:11,  2.04it/s] 46%|████▌     | 4925/10714 [1:05:00<47:08,  2.05it/s]{'loss': 3.5293, 'grad_norm': 0.20848509669303894, 'learning_rate': 0.000655097144540536, 'epoch': 0.46}                                                      
- 46%|████▌     | 4925/10714 [1:05:00<47:08,  2.05it/s] 46%|████▌     | 4926/10714 [1:05:00<47:09,  2.05it/s] 46%|████▌     | 4927/10714 [1:05:01<47:09,  2.05it/s] 46%|████▌     | 4928/10714 [1:05:01<47:10,  2.04it/s] 46%|████▌     | 4929/10714 [1:05:02<47:09,  2.04it/s] 46%|████▌     | 4930/10714 [1:05:02<47:07,  2.05it/s] 46%|████▌     | 4931/10714 [1:05:03<47:05,  2.05it/s] 46%|████▌     | 4932/10714 [1:05:03<47:06,  2.05it/s] 46%|████▌     | 4933/10714 [1:05:04<47:09,  2.04it/s] 46%|████▌     | 4934/10714 [1:05:04<47:08,  2.04it/s] 46%|████▌     | 4935/10714 [1:05:05<47:03,  2.05it/s] 46%|████▌     | 4936/10714 [1:05:05<47:05,  2.05it/s] 46%|████▌     | 4937/10714 [1:05:06<47:07,  2.04it/s] 46%|████▌     | 4938/10714 [1:05:06<47:07,  2.04it/s] 46%|████▌     | 4939/10714 [1:05:07<47:05,  2.04it/s] 46%|████▌     | 4940/10714 [1:05:07<47:02,  2.05it/s] 46%|████▌     | 4941/10714 [1:05:08<47:06,  2.04it/s] 46%|████▌     | 4942/10714 [1:05:08<47:06,  2.04it/s] 46%|████▌     | 4943/10714 [1:05:09<47:04,  2.04it/s] 46%|████▌     | 4944/10714 [1:05:09<47:00,  2.05it/s] 46%|████▌     | 4945/10714 [1:05:10<47:00,  2.05it/s] 46%|████▌     | 4946/10714 [1:05:10<46:59,  2.05it/s] 46%|████▌     | 4947/10714 [1:05:11<47:02,  2.04it/s] 46%|████▌     | 4948/10714 [1:05:11<47:01,  2.04it/s] 46%|████▌     | 4949/10714 [1:05:11<47:02,  2.04it/s] 46%|████▌     | 4950/10714 [1:05:12<47:01,  2.04it/s]{'loss': 3.5221, 'grad_norm': 0.21587064862251282, 'learning_rate': 0.0006512201431414023, 'epoch': 0.46}                                                      
- 46%|████▌     | 4950/10714 [1:05:12<47:01,  2.04it/s] 46%|████▌     | 4951/10714 [1:05:12<47:03,  2.04it/s] 46%|████▌     | 4952/10714 [1:05:13<47:00,  2.04it/s] 46%|████▌     | 4953/10714 [1:05:13<47:02,  2.04it/s] 46%|████▌     | 4954/10714 [1:05:14<47:01,  2.04it/s] 46%|████▌     | 4955/10714 [1:05:14<46:58,  2.04it/s] 46%|████▋     | 4956/10714 [1:05:15<46:57,  2.04it/s] 46%|████▋     | 4957/10714 [1:05:15<46:54,  2.05it/s] 46%|████▋     | 4958/10714 [1:05:16<46:55,  2.04it/s] 46%|████▋     | 4959/10714 [1:05:16<46:56,  2.04it/s] 46%|████▋     | 4960/10714 [1:05:17<46:55,  2.04it/s] 46%|████▋     | 4961/10714 [1:05:17<46:54,  2.04it/s] 46%|████▋     | 4962/10714 [1:05:18<46:55,  2.04it/s] 46%|████▋     | 4963/10714 [1:05:18<46:52,  2.04it/s] 46%|████▋     | 4964/10714 [1:05:19<46:51,  2.05it/s] 46%|████▋     | 4965/10714 [1:05:19<46:55,  2.04it/s] 46%|████▋     | 4966/10714 [1:05:20<46:53,  2.04it/s] 46%|████▋     | 4967/10714 [1:05:20<46:51,  2.04it/s] 46%|████▋     | 4968/10714 [1:05:21<46:48,  2.05it/s] 46%|████▋     | 4969/10714 [1:05:21<46:48,  2.05it/s] 46%|████▋     | 4970/10714 [1:05:22<46:51,  2.04it/s] 46%|████▋     | 4971/10714 [1:05:22<46:51,  2.04it/s] 46%|████▋     | 4972/10714 [1:05:23<46:48,  2.04it/s] 46%|████▋     | 4973/10714 [1:05:23<46:46,  2.05it/s] 46%|████▋     | 4974/10714 [1:05:24<46:48,  2.04it/s] 46%|████▋     | 4975/10714 [1:05:24<46:48,  2.04it/s]                                                      {'loss': 3.5237, 'grad_norm': 0.213925302028656, 'learning_rate': 0.000647333108235408, 'epoch': 0.46}
- 46%|████▋     | 4975/10714 [1:05:24<46:48,  2.04it/s] 46%|████▋     | 4976/10714 [1:05:25<47:07,  2.03it/s] 46%|████▋     | 4977/10714 [1:05:25<47:03,  2.03it/s] 46%|████▋     | 4978/10714 [1:05:26<46:56,  2.04it/s] 46%|████▋     | 4979/10714 [1:05:26<46:49,  2.04it/s] 46%|████▋     | 4980/10714 [1:05:27<46:44,  2.04it/s] 46%|████▋     | 4981/10714 [1:05:27<46:48,  2.04it/s] 46%|████▋     | 4982/10714 [1:05:28<46:45,  2.04it/s] 47%|████▋     | 4983/10714 [1:05:28<46:41,  2.05it/s] 47%|████▋     | 4984/10714 [1:05:29<46:38,  2.05it/s] 47%|████▋     | 4985/10714 [1:05:29<46:36,  2.05it/s] 47%|████▋     | 4986/10714 [1:05:30<46:39,  2.05it/s] 47%|████▋     | 4987/10714 [1:05:30<46:41,  2.04it/s] 47%|████▋     | 4988/10714 [1:05:31<46:37,  2.05it/s] 47%|████▋     | 4989/10714 [1:05:31<46:36,  2.05it/s] 47%|████▋     | 4990/10714 [1:05:32<46:35,  2.05it/s] 47%|████▋     | 4991/10714 [1:05:32<46:36,  2.05it/s] 47%|████▋     | 4992/10714 [1:05:33<46:39,  2.04it/s] 47%|████▋     | 4993/10714 [1:05:33<46:38,  2.04it/s] 47%|████▋     | 4994/10714 [1:05:34<46:34,  2.05it/s] 47%|████▋     | 4995/10714 [1:05:34<46:34,  2.05it/s] 47%|████▋     | 4996/10714 [1:05:34<46:38,  2.04it/s] 47%|████▋     | 4997/10714 [1:05:35<46:38,  2.04it/s] 47%|████▋     | 4998/10714 [1:05:35<46:35,  2.04it/s] 47%|████▋     | 4999/10714 [1:05:36<46:30,  2.05it/s] 47%|████▋     | 5000/10714 [1:05:36<46:31,  2.05it/s]                                                      {'loss': 3.5237, 'grad_norm': 0.22597020864486694, 'learning_rate': 0.0006434362977286145, 'epoch': 0.47}
- 47%|████▋     | 5000/10714 [1:05:36<46:31,  2.05it/s] 47%|████▋     | 5001/10714 [1:05:37<46:38,  2.04it/s] 47%|████▋     | 5002/10714 [1:05:37<46:37,  2.04it/s] 47%|████▋     | 5003/10714 [1:05:38<46:31,  2.05it/s] 47%|████▋     | 5004/10714 [1:05:38<46:32,  2.04it/s] 47%|████▋     | 5005/10714 [1:05:39<46:34,  2.04it/s] 47%|████▋     | 5006/10714 [1:05:39<46:34,  2.04it/s] 47%|████▋     | 5007/10714 [1:05:40<46:29,  2.05it/s] 47%|████▋     | 5008/10714 [1:05:40<46:26,  2.05it/s] 47%|████▋     | 5009/10714 [1:05:41<46:25,  2.05it/s] 47%|████▋     | 5010/10714 [1:05:41<46:27,  2.05it/s] 47%|████▋     | 5011/10714 [1:05:42<46:27,  2.05it/s] 47%|████▋     | 5012/10714 [1:05:42<46:28,  2.05it/s] 47%|████▋     | 5013/10714 [1:05:43<46:24,  2.05it/s] 47%|████▋     | 5014/10714 [1:05:43<46:22,  2.05it/s] 47%|████▋     | 5015/10714 [1:05:44<46:25,  2.05it/s] 47%|████▋     | 5016/10714 [1:05:44<46:28,  2.04it/s] 47%|████▋     | 5017/10714 [1:05:45<46:29,  2.04it/s] 47%|████▋     | 5018/10714 [1:05:45<46:24,  2.05it/s] 47%|████▋     | 5019/10714 [1:05:46<46:24,  2.05it/s] 47%|████▋     | 5020/10714 [1:05:46<46:26,  2.04it/s] 47%|████▋     | 5021/10714 [1:05:47<46:27,  2.04it/s] 47%|████▋     | 5022/10714 [1:05:47<46:23,  2.04it/s] 47%|████▋     | 5023/10714 [1:05:48<46:20,  2.05it/s] 47%|████▋     | 5024/10714 [1:05:48<46:18,  2.05it/s] 47%|████▋     | 5025/10714 [1:05:49<46:18,  2.05it/s]                                                      {'loss': 3.5162, 'grad_norm': 0.20931977033615112, 'learning_rate': 0.0006395299701756963, 'epoch': 0.47}
- 47%|████▋     | 5025/10714 [1:05:49<46:18,  2.05it/s] 47%|████▋     | 5026/10714 [1:05:49<46:24,  2.04it/s] 47%|████▋     | 5027/10714 [1:05:50<46:23,  2.04it/s] 47%|████▋     | 5028/10714 [1:05:50<46:18,  2.05it/s] 47%|██��█▋     | 5029/10714 [1:05:51<46:17,  2.05it/s] 47%|████▋     | 5030/10714 [1:05:51<46:15,  2.05it/s] 47%|████▋     | 5031/10714 [1:05:52<46:19,  2.04it/s] 47%|████▋     | 5032/10714 [1:05:52<46:19,  2.04it/s] 47%|████▋     | 5033/10714 [1:05:53<46:16,  2.05it/s] 47%|████▋     | 5034/10714 [1:05:53<46:16,  2.05it/s] 47%|████▋     | 5035/10714 [1:05:54<46:16,  2.05it/s] 47%|████▋     | 5036/10714 [1:05:54<46:16,  2.04it/s] 47%|████▋     | 5037/10714 [1:05:55<46:17,  2.04it/s] 47%|████▋     | 5038/10714 [1:05:55<46:18,  2.04it/s] 47%|████▋     | 5039/10714 [1:05:56<46:15,  2.04it/s] 47%|████▋     | 5040/10714 [1:05:56<46:14,  2.04it/s] 47%|████▋     | 5041/10714 [1:05:56<46:15,  2.04it/s] 47%|████▋     | 5042/10714 [1:05:57<46:15,  2.04it/s] 47%|████▋     | 5043/10714 [1:05:57<46:13,  2.04it/s] 47%|████▋     | 5044/10714 [1:05:58<46:14,  2.04it/s] 47%|████▋     | 5045/10714 [1:05:58<46:12,  2.04it/s] 47%|████▋     | 5046/10714 [1:05:59<46:12,  2.04it/s] 47%|████▋     | 5047/10714 [1:05:59<46:12,  2.04it/s] 47%|████▋     | 5048/10714 [1:06:00<46:12,  2.04it/s] 47%|████▋     | 5049/10714 [1:06:00<46:13,  2.04it/s] 47%|████▋     | 5050/10714 [1:06:01<46:11,  2.04it/s]{'loss': 3.5209, 'grad_norm': 0.19692181050777435, 'learning_rate': 0.0006356143847627877, 'epoch': 0.47}                                                      
- 47%|████▋     | 5050/10714 [1:06:01<46:11,  2.04it/s] 47%|████▋     | 5051/10714 [1:06:01<46:14,  2.04it/s] 47%|████▋     | 5052/10714 [1:06:02<46:11,  2.04it/s] 47%|████▋     | 5053/10714 [1:06:02<46:09,  2.04it/s] 47%|████▋     | 5054/10714 [1:06:03<46:05,  2.05it/s] 47%|████▋     | 5055/10714 [1:06:03<46:06,  2.05it/s] 47%|████▋     | 5056/10714 [1:06:04<46:07,  2.04it/s] 47%|████▋     | 5057/10714 [1:06:04<46:07,  2.04it/s] 47%|████▋     | 5058/10714 [1:06:05<46:04,  2.05it/s] 47%|████▋     | 5059/10714 [1:06:05<46:02,  2.05it/s] 47%|████▋     | 5060/10714 [1:06:06<46:00,  2.05it/s] 47%|████▋     | 5061/10714 [1:06:06<46:05,  2.04it/s] 47%|████▋     | 5062/10714 [1:06:07<46:04,  2.04it/s] 47%|████▋     | 5063/10714 [1:06:07<46:03,  2.04it/s] 47%|████▋     | 5064/10714 [1:06:08<45:58,  2.05it/s] 47%|████▋     | 5065/10714 [1:06:08<46:02,  2.04it/s] 47%|████▋     | 5066/10714 [1:06:09<46:04,  2.04it/s] 47%|████▋     | 5067/10714 [1:06:09<46:02,  2.04it/s] 47%|████▋     | 5068/10714 [1:06:10<46:02,  2.04it/s] 47%|████▋     | 5069/10714 [1:06:10<46:00,  2.04it/s] 47%|████▋     | 5070/10714 [1:06:11<45:59,  2.05it/s] 47%|████▋     | 5071/10714 [1:06:11<46:03,  2.04it/s] 47%|████▋     | 5072/10714 [1:06:12<45:59,  2.04it/s] 47%|████▋     | 5073/10714 [1:06:12<45:59,  2.04it/s] 47%|████▋     | 5074/10714 [1:06:13<45:57,  2.05it/s] 47%|████▋     | 5075/10714 [1:06:13<45:57,  2.05it/s]{'loss': 3.5175, 'grad_norm': 0.20024056732654572, 'learning_rate': 0.0006316898012902845, 'epoch': 0.47}                                                      
- 47%|████▋     | 5075/10714 [1:06:13<45:57,  2.05it/s] 47%|████▋     | 5076/10714 [1:06:14<46:00,  2.04it/s] 47%|████▋     | 5077/10714 [1:06:14<45:57,  2.04it/s] 47%|████▋     | 5078/10714 [1:06:15<45:55,  2.05it/s] 47%|████▋     | 5079/10714 [1:06:15<45:55,  2.04it/s] 47%|████▋     | 5080/10714 [1:06:16<45:57,  2.04it/s] 47%|████▋     | 5081/10714 [1:06:16<45:56,  2.04it/s] 47%|████▋     | 5082/10714 [1:06:17<45:55,  2.04it/s] 47%|████▋     | 5083/10714 [1:06:17<45:53,  2.04it/s] 47%|████▋     | 5084/10714 [1:06:18<45:54,  2.04it/s] 47%|████▋     | 5085/10714 [1:06:18<45:52,  2.04it/s] 47%|████▋     | 5086/10714 [1:06:18<45:53,  2.04it/s] 47%|████▋     | 5087/10714 [1:06:19<45:51,  2.05it/s] 47%|████▋     | 5088/10714 [1:06:19<45:50,  2.05it/s] 47%|████▋     | 5089/10714 [1:06:20<45:50,  2.04it/s] 48%|████▊     | 5090/10714 [1:06:20<45:49,  2.05it/s] 48%|████▊     | 5091/10714 [1:06:21<45:46,  2.05it/s] 48%|████▊     | 5092/10714 [1:06:21<45:44,  2.05it/s] 48%|████▊     | 5093/10714 [1:06:22<45:44,  2.05it/s] 48%|████▊     | 5094/10714 [1:06:22<45:46,  2.05it/s] 48%|████▊     | 5095/10714 [1:06:23<45:46,  2.05it/s] 48%|████▊     | 5096/10714 [1:06:23<45:46,  2.05it/s] 48%|████▊     | 5097/10714 [1:06:24<45:43,  2.05it/s] 48%|████▊     | 5098/10714 [1:06:24<45:43,  2.05it/s] 48%|████▊     | 5099/10714 [1:06:25<45:42,  2.05it/s] 48%|████▊     | 5100/10714 [1:06:25<45:44,  2.05it/s]{'loss': 3.5188, 'grad_norm': 0.2016219049692154, 'learning_rate': 0.0006277564801556076, 'epoch': 0.48}
-                                                       48%|████▊     | 5100/10714 [1:06:25<45:44,  2.05it/s] 48%|████▊     | 5101/10714 [1:06:26<45:46,  2.04it/s] 48%|████▊     | 5102/10714 [1:06:26<45:43,  2.05it/s] 48%|████▊     | 5103/10714 [1:06:27<45:43,  2.05it/s] 48%|████▊     | 5104/10714 [1:06:27<45:43,  2.04it/s] 48%|████▊     | 5105/10714 [1:06:28<45:45,  2.04it/s] 48%|████▊     | 5106/10714 [1:06:28<45:44,  2.04it/s] 48%|████▊     | 5107/10714 [1:06:29<45:42,  2.04it/s] 48%|████▊     | 5108/10714 [1:06:29<45:41,  2.04it/s] 48%|████▊     | 5109/10714 [1:06:30<45:40,  2.05it/s] 48%|████▊     | 5110/10714 [1:06:30<45:43,  2.04it/s] 48%|████▊     | 5111/10714 [1:06:31<45:40,  2.04it/s] 48%|████▊     | 5112/10714 [1:06:31<45:44,  2.04it/s] 48%|████▊     | 5113/10714 [1:06:32<45:40,  2.04it/s] 48%|████▊     | 5114/10714 [1:06:32<45:43,  2.04it/s] 48%|████▊     | 5115/10714 [1:06:33<45:40,  2.04it/s] 48%|████▊     | 5116/10714 [1:06:33<45:38,  2.04it/s] 48%|████▊     | 5117/10714 [1:06:34<45:40,  2.04it/s] 48%|████▊     | 5118/10714 [1:06:34<45:40,  2.04it/s] 48%|████▊     | 5119/10714 [1:06:35<45:39,  2.04it/s] 48%|████▊     | 5120/10714 [1:06:35<45:40,  2.04it/s] 48%|████▊     | 5121/10714 [1:06:36<45:37,  2.04it/s] 48%|████▊     | 5122/10714 [1:06:36<45:34,  2.04it/s] 48%|████▊     | 5123/10714 [1:06:37<45:34,  2.04it/s] 48%|████▊     | 5124/10714 [1:06:37<45:35,  2.04it/s] 48%|████▊     | 5125/10714 [1:06:38<45:38,  2.04it/s]{'loss': 3.5101, 'grad_norm': 0.20597127079963684, 'learning_rate': 0.0006238146823359241, 'epoch': 0.48}                                                      
- 48%|████▊     | 5125/10714 [1:06:38<45:38,  2.04it/s] 48%|████▊     | 5126/10714 [1:06:38<45:40,  2.04it/s] 48%|████▊     | 5127/10714 [1:06:39<45:36,  2.04it/s] 48%|████▊     | 5128/10714 [1:06:39<45:36,  2.04it/s] 48%|████▊     | 5129/10714 [1:06:40<45:33,  2.04it/s] 48%|████▊     | 5130/10714 [1:06:40<45:33,  2.04it/s] 48%|████▊     | 5131/10714 [1:06:41<45:32,  2.04it/s] 48%|████▊     | 5132/10714 [1:06:41<45:33,  2.04it/s] 48%|████▊     | 5133/10714 [1:06:41<45:32,  2.04it/s] 48%|████▊     | 5134/10714 [1:06:42<45:32,  2.04it/s] 48%|████▊     | 5135/10714 [1:06:42<45:33,  2.04it/s] 48%|████▊     | 5136/10714 [1:06:43<45:33,  2.04it/s] 48%|████▊     | 5137/10714 [1:06:43<45:32,  2.04it/s] 48%|████▊     | 5138/10714 [1:06:44<45:31,  2.04it/s] 48%|████▊     | 5139/10714 [1:06:44<45:31,  2.04it/s] 48%|████▊     | 5140/10714 [1:06:45<45:27,  2.04it/s] 48%|████▊     | 5141/10714 [1:06:45<45:27,  2.04it/s] 48%|████▊     | 5142/10714 [1:06:46<45:30,  2.04it/s] 48%|████▊     | 5143/10714 [1:06:46<45:27,  2.04it/s] 48%|████▊     | 5144/10714 [1:06:47<45:26,  2.04it/s] 48%|████▊     | 5145/10714 [1:06:47<45:21,  2.05it/s] 48%|████▊     | 5146/10714 [1:06:48<45:17,  2.05it/s] 48%|████▊     | 5147/10714 [1:06:48<45:17,  2.05it/s] 48%|████▊     | 5148/10714 [1:06:49<45:18,  2.05it/s] 48%|████▊     | 5149/10714 [1:06:49<45:20,  2.05it/s] 48%|████▊     | 5150/10714 [1:06:50<45:17,  2.05it/s]                                                      {'loss': 3.5023, 'grad_norm': 0.21320977807044983, 'learning_rate': 0.0006198646693708321, 'epoch': 0.48}
- 48%|████▊     | 5150/10714 [1:06:50<45:17,  2.05it/s] 48%|████▊     | 5151/10714 [1:06:50<45:21,  2.04it/s] 48%|████▊     | 5152/10714 [1:06:51<45:18,  2.05it/s] 48%|████▊     | 5153/10714 [1:06:51<45:19,  2.04it/s] 48%|████▊     | 5154/10714 [1:06:52<45:19,  2.04it/s] 48%|████▊     | 5155/10714 [1:06:52<45:16,  2.05it/s] 48%|████▊     | 5156/10714 [1:06:53<45:14,  2.05it/s] 48%|████▊     | 5157/10714 [1:06:53<45:11,  2.05it/s] 48%|████▊     | 5158/10714 [1:06:54<45:13,  2.05it/s] 48%|████▊     | 5159/10714 [1:06:54<45:16,  2.04it/s] 48%|████▊     | 5160/10714 [1:06:55<45:13,  2.05it/s] 48%|████▊     | 5161/10714 [1:06:55<45:12,  2.05it/s] 48%|████▊     | 5162/10714 [1:06:56<45:10,  2.05it/s] 48%|████▊     | 5163/10714 [1:06:56<45:08,  2.05it/s] 48%|████▊     | 5164/10714 [1:06:57<45:09,  2.05it/s] 48%|████▊     | 5165/10714 [1:06:57<45:11,  2.05it/s] 48%|████▊     | 5166/10714 [1:06:58<45:14,  2.04it/s] 48%|████▊     | 5167/10714 [1:06:58<45:12,  2.05it/s] 48%|████▊     | 5168/10714 [1:06:59<45:07,  2.05it/s] 48%|████▊     | 5169/10714 [1:06:59<45:09,  2.05it/s] 48%|████▊     | 5170/10714 [1:07:00<45:11,  2.04it/s] 48%|████▊     | 5171/10714 [1:07:00<45:11,  2.04it/s] 48%|████▊     | 5172/10714 [1:07:01<45:09,  2.05it/s] 48%|████▊     | 5173/10714 [1:07:01<45:08,  2.05it/s] 48%|████▊     | 5174/10714 [1:07:02<45:06,  2.05it/s] 48%|████▊     | 5175/10714 [1:07:02<45:07,  2.05it/s]                                                      {'loss': 3.5155, 'grad_norm': 0.20734918117523193, 'learning_rate': 0.0006159067033450074, 'epoch': 0.48}
- 48%|████▊     | 5175/10714 [1:07:02<45:07,  2.05it/s] 48%|████▊     | 5176/10714 [1:07:03<45:14,  2.04it/s] 48%|████▊     | 5177/10714 [1:07:03<45:12,  2.04it/s] 48%|████▊     | 5178/10714 [1:07:03<45:06,  2.05it/s] 48%|████▊     | 5179/10714 [1:07:04<45:08,  2.04it/s] 48%|████▊     | 5180/10714 [1:07:04<45:06,  2.04it/s] 48%|████▊     | 5181/10714 [1:07:05<45:07,  2.04it/s] 48%|████▊     | 5182/10714 [1:07:05<45:04,  2.05it/s] 48%|████▊     | 5183/10714 [1:07:06<45:02,  2.05it/s] 48%|████▊     | 5184/10714 [1:07:06<45:03,  2.05it/s] 48%|████▊     | 5185/10714 [1:07:07<45:03,  2.05it/s] 48%|████▊     | 5186/10714 [1:07:07<45:06,  2.04it/s] 48%|████▊     | 5187/10714 [1:07:08<45:01,  2.05it/s] 48%|████▊     | 5188/10714 [1:07:08<45:00,  2.05it/s] 48%|████▊     | 5189/10714 [1:07:09<44:57,  2.05it/s] 48%|████▊     | 5190/10714 [1:07:09<44:59,  2.05it/s] 48%|████▊     | 5191/10714 [1:07:10<45:00,  2.05it/s] 48%|████▊     | 5192/10714 [1:07:10<45:00,  2.04it/s] 48%|████▊     | 5193/10714 [1:07:11<44:59,  2.04it/s] 48%|████▊     | 5194/10714 [1:07:11<44:55,  2.05it/s] 48%|████▊     | 5195/10714 [1:07:12<44:56,  2.05it/s] 48%|████▊     | 5196/10714 [1:07:12<44:56,  2.05it/s] 49%|████▊     | 5197/10714 [1:07:13<44:56,  2.05it/s] 49%|████▊     | 5198/10714 [1:07:13<44:57,  2.05it/s] 49%|████▊     | 5199/10714 [1:07:14<44:56,  2.05it/s] 49%|████▊     | 5200/10714 [1:07:14<45:01,  2.04it/s]{'loss': 3.5058, 'grad_norm': 0.20810212194919586, 'learning_rate': 0.0006119410468708138, 'epoch': 0.49}
-                                                       49%|████▊     | 5200/10714 [1:07:14<45:01,  2.04it/s] 49%|████▊     | 5201/10714 [1:07:15<45:01,  2.04it/s] 49%|████▊     | 5202/10714 [1:07:15<44:59,  2.04it/s] 49%|████▊     | 5203/10714 [1:07:16<45:02,  2.04it/s] 49%|████▊     | 5204/10714 [1:07:16<45:00,  2.04it/s] 49%|████▊     | 5205/10714 [1:07:17<44:59,  2.04it/s] 49%|████▊     | 5206/10714 [1:07:17<44:57,  2.04it/s] 49%|████▊     | 5207/10714 [1:07:18<44:59,  2.04it/s] 49%|████▊     | 5208/10714 [1:07:18<44:58,  2.04it/s] 49%|████▊     | 5209/10714 [1:07:19<44:55,  2.04it/s] 49%|████▊     | 5210/10714 [1:07:19<44:52,  2.04it/s] 49%|████▊     | 5211/10714 [1:07:20<44:50,  2.05it/s] 49%|████▊     | 5212/10714 [1:07:20<44:51,  2.04it/s] 49%|████▊     | 5213/10714 [1:07:21<44:53,  2.04it/s] 49%|████▊     | 5214/10714 [1:07:21<44:50,  2.04it/s] 49%|████▊     | 5215/10714 [1:07:22<44:50,  2.04it/s] 49%|████▊     | 5216/10714 [1:07:22<44:49,  2.04it/s] 49%|████▊     | 5217/10714 [1:07:23<44:48,  2.04it/s] 49%|████▊     | 5218/10714 [1:07:23<44:51,  2.04it/s] 49%|████▊     | 5219/10714 [1:07:24<44:48,  2.04it/s] 49%|████▊     | 5220/10714 [1:07:24<44:50,  2.04it/s] 49%|████▊     | 5221/10714 [1:07:25<44:46,  2.04it/s] 49%|████▊     | 5222/10714 [1:07:25<44:47,  2.04it/s] 49%|████▊     | 5223/10714 [1:07:26<44:47,  2.04it/s] 49%|████▉     | 5224/10714 [1:07:26<44:48,  2.04it/s] 49%|████▉     | 5225/10714 [1:07:26<44:47,  2.04it/s]                                                      {'loss': 3.504, 'grad_norm': 0.20837758481502533, 'learning_rate': 0.0006079679630708793, 'epoch': 0.49}
- 49%|████▉     | 5225/10714 [1:07:26<44:47,  2.04it/s] 49%|████▉     | 5226/10714 [1:07:27<44:43,  2.04it/s] 49%|████▉     | 5227/10714 [1:07:27<44:40,  2.05it/s] 49%|████▉     | 5228/10714 [1:07:28<44:38,  2.05it/s] 49%|████▉     | 5229/10714 [1:07:28<44:39,  2.05it/s] 49%|████▉     | 5230/10714 [1:07:29<44:40,  2.05it/s] 49%|████▉     | 5231/10714 [1:07:29<44:41,  2.05it/s] 49%|████▉     | 5232/10714 [1:07:30<44:41,  2.04it/s] 49%|████▉     | 5233/10714 [1:07:30<44:40,  2.04it/s] 49%|████▉     | 5234/10714 [1:07:31<44:41,  2.04it/s] 49%|████▉     | 5235/10714 [1:07:31<44:40,  2.04it/s] 49%|████▉     | 5236/10714 [1:07:32<44:37,  2.05it/s] 49%|████▉     | 5237/10714 [1:07:32<44:38,  2.05it/s] 49%|████▉     | 5238/10714 [1:07:33<44:38,  2.04it/s] 49%|████▉     | 5239/10714 [1:07:33<44:39,  2.04it/s] 49%|████▉     | 5240/10714 [1:07:34<44:36,  2.04it/s] 49%|████▉     | 5241/10714 [1:07:34<44:32,  2.05it/s] 49%|████▉     | 5242/10714 [1:07:35<44:34,  2.05it/s] 49%|████▉     | 5243/10714 [1:07:35<44:36,  2.04it/s] 49%|████▉     | 5244/10714 [1:07:36<44:35,  2.04it/s] 49%|████▉     | 5245/10714 [1:07:36<44:31,  2.05it/s] 49%|████▉     | 5246/10714 [1:07:37<44:29,  2.05it/s] 49%|████▉     | 5247/10714 [1:07:37<44:30,  2.05it/s] 49%|████▉     | 5248/10714 [1:07:38<44:32,  2.05it/s] 49%|████▉     | 5249/10714 [1:07:38<44:33,  2.04it/s] 49%|████▉     | 5250/10714 [1:07:39<44:30,  2.05it/s]{'loss': 3.5099, 'grad_norm': 0.20111097395420074, 'learning_rate': 0.0006039877155606373, 'epoch': 0.49}                                                      
- 49%|████▉     | 5250/10714 [1:07:39<44:30,  2.05it/s] 49%|████▉     | 5251/10714 [1:07:39<44:32,  2.04it/s] 49%|████▉     | 5252/10714 [1:07:40<44:33,  2.04it/s] 49%|████▉     | 5253/10714 [1:07:40<44:30,  2.04it/s] 49%|████▉     | 5254/10714 [1:07:41<44:28,  2.05it/s] 49%|████▉     | 5255/10714 [1:07:41<44:26,  2.05it/s] 49%|████▉     | 5256/10714 [1:07:42<44:27,  2.05it/s] 49%|████▉     | 5257/10714 [1:07:42<44:28,  2.04it/s] 49%|████▉     | 5258/10714 [1:07:43<44:28,  2.04it/s] 49%|████▉     | 5259/10714 [1:07:43<44:29,  2.04it/s] 49%|████▉     | 5260/10714 [1:07:44<44:26,  2.05it/s] 49%|████▉     | 5261/10714 [1:07:44<44:29,  2.04it/s] 49%|████▉     | 5262/10714 [1:07:45<44:29,  2.04it/s] 49%|████▉     | 5263/10714 [1:07:45<44:25,  2.04it/s] 49%|████▉     | 5264/10714 [1:07:46<44:22,  2.05it/s] 49%|████▉     | 5265/10714 [1:07:46<44:19,  2.05it/s] 49%|████▉     | 5266/10714 [1:07:47<44:20,  2.05it/s] 49%|████▉     | 5267/10714 [1:07:47<44:26,  2.04it/s] 49%|████▉     | 5268/10714 [1:07:48<44:23,  2.04it/s] 49%|████▉     | 5269/10714 [1:07:48<44:19,  2.05it/s] 49%|████▉     | 5270/10714 [1:07:48<44:17,  2.05it/s] 49%|████▉     | 5271/10714 [1:07:49<44:17,  2.05it/s] 49%|████▉     | 5272/10714 [1:07:49<44:19,  2.05it/s] 49%|████▉     | 5273/10714 [1:07:50<44:18,  2.05it/s] 49%|████▉     | 5274/10714 [1:07:50<44:17,  2.05it/s] 49%|████▉     | 5275/10714 [1:07:51<44:15,  2.05it/s]{'loss': 3.5041, 'grad_norm': 0.1927383989095688, 'learning_rate': 0.0006000005684308354, 'epoch': 0.49}                                                      
- 49%|████▉     | 5275/10714 [1:07:51<44:15,  2.05it/s] 49%|████▉     | 5276/10714 [1:07:51<44:20,  2.04it/s] 49%|████▉     | 5277/10714 [1:07:52<44:21,  2.04it/s] 49%|████▉     | 5278/10714 [1:07:52<44:21,  2.04it/s] 49%|████▉     | 5279/10714 [1:07:53<44:18,  2.04it/s] 49%|████▉     | 5280/10714 [1:07:53<44:18,  2.04it/s] 49%|████▉     | 5281/10714 [1:07:54<52:01,  1.74it/s] 49%|████▉     | 5282/10714 [1:07:55<49:43,  1.82it/s] 49%|████▉     | 5283/10714 [1:07:55<48:01,  1.88it/s] 49%|████▉     | 5284/10714 [1:07:56<46:51,  1.93it/s] 49%|████▉     | 5285/10714 [1:07:56<46:03,  1.96it/s] 49%|████▉     | 5286/10714 [1:07:57<45:32,  1.99it/s] 49%|████▉     | 5287/10714 [1:07:57<45:10,  2.00it/s] 49%|████▉     | 5288/10714 [1:07:58<44:49,  2.02it/s] 49%|████▉     | 5289/10714 [1:07:58<44:35,  2.03it/s] 49%|████▉     | 5290/10714 [1:07:59<44:28,  2.03it/s] 49%|████▉     | 5291/10714 [1:07:59<44:23,  2.04it/s] 49%|████▉     | 5292/10714 [1:08:00<44:24,  2.04it/s] 49%|████▉     | 5293/10714 [1:08:00<44:16,  2.04it/s] 49%|████▉     | 5294/10714 [1:08:01<44:12,  2.04it/s] 49%|████▉     | 5295/10714 [1:08:01<44:11,  2.04it/s] 49%|████▉     | 5296/10714 [1:08:01<44:09,  2.05it/s] 49%|████▉     | 5297/10714 [1:08:02<44:09,  2.04it/s] 49%|████▉     | 5298/10714 [1:08:02<44:08,  2.04it/s] 49%|████▉     | 5299/10714 [1:08:03<44:08,  2.04it/s] 49%|████▉     | 5300/10714 [1:08:03<44:07,  2.04it/s]{'loss': 3.5043, 'grad_norm': 0.20757493376731873, 'learning_rate': 0.0005960067862300137, 'epoch': 0.49}
-                                                       49%|████▉     | 5300/10714 [1:08:03<44:07,  2.04it/s] 49%|████▉     | 5301/10714 [1:08:04<44:13,  2.04it/s] 49%|████▉     | 5302/10714 [1:08:04<44:09,  2.04it/s] 49%|████▉     | 5303/10714 [1:08:05<44:09,  2.04it/s] 50%|████▉     | 5304/10714 [1:08:05<44:11,  2.04it/s] 50%|████▉     | 5305/10714 [1:08:06<51:57,  1.73it/s] 50%|████▉     | 5306/10714 [1:08:07<49:38,  1.82it/s] 50%|████▉     | 5307/10714 [1:08:07<47:59,  1.88it/s] 50%|████▉     | 5308/10714 [1:08:08<46:47,  1.93it/s] 50%|████▉     | 5309/10714 [1:08:08<45:54,  1.96it/s] 50%|████▉     | 5310/10714 [1:08:09<45:20,  1.99it/s] 50%|████▉     | 5311/10714 [1:08:09<44:58,  2.00it/s] 50%|████▉     | 5312/10714 [1:08:10<44:41,  2.01it/s] 50%|████▉     | 5313/10714 [1:08:10<44:30,  2.02it/s] 50%|████▉     | 5314/10714 [1:08:11<44:17,  2.03it/s] 50%|████▉     | 5315/10714 [1:08:11<44:09,  2.04it/s] 50%|████▉     | 5316/10714 [1:08:12<44:05,  2.04it/s] 50%|████▉     | 5317/10714 [1:08:12<45:08,  1.99it/s] 50%|████▉     | 5318/10714 [1:08:13<44:49,  2.01it/s] 50%|████▉     | 5319/10714 [1:08:13<44:31,  2.02it/s] 50%|████▉     | 5320/10714 [1:08:14<44:18,  2.03it/s] 50%|████▉     | 5321/10714 [1:08:14<44:08,  2.04it/s] 50%|████▉     | 5322/10714 [1:08:15<44:07,  2.04it/s] 50%|████▉     | 5323/10714 [1:08:15<44:04,  2.04it/s] 50%|████▉     | 5324/10714 [1:08:16<44:00,  2.04it/s] 50%|████▉     | 5325/10714 [1:08:16<43:56,  2.04it/s]                                                      {'loss': 3.5091, 'grad_norm': 0.20323273539543152, 'learning_rate': 0.0005920066339469514, 'epoch': 0.5}
- 50%|████▉     | 5325/10714 [1:08:16<43:56,  2.04it/s] 50%|████▉     | 5326/10714 [1:08:16<43:58,  2.04it/s] 50%|████▉     | 5327/10714 [1:08:17<43:59,  2.04it/s] 50%|████▉     | 5328/10714 [1:08:17<44:00,  2.04it/s] 50%|████▉     | 5329/10714 [1:08:18<43:58,  2.04it/s] 50%|████▉     | 5330/10714 [1:08:18<43:55,  2.04it/s] 50%|████▉     | 5331/10714 [1:08:19<43:54,  2.04it/s] 50%|████▉     | 5332/10714 [1:08:19<43:54,  2.04it/s] 50%|████▉     | 5333/10714 [1:08:20<43:51,  2.04it/s] 50%|████▉     | 5334/10714 [1:08:20<43:49,  2.05it/s] 50%|████▉     | 5335/10714 [1:08:21<43:49,  2.05it/s] 50%|████▉     | 5336/10714 [1:08:21<43:49,  2.05it/s] 50%|████▉     | 5337/10714 [1:08:22<43:51,  2.04it/s] 50%|████▉     | 5338/10714 [1:08:22<43:48,  2.05it/s] 50%|████▉     | 5339/10714 [1:08:23<43:44,  2.05it/s] 50%|████▉     | 5340/10714 [1:08:23<43:45,  2.05it/s] 50%|████▉     | 5341/10714 [1:08:24<43:44,  2.05it/s] 50%|████▉     | 5342/10714 [1:08:24<43:47,  2.04it/s] 50%|████▉     | 5343/10714 [1:08:25<43:44,  2.05it/s] 50%|████▉     | 5344/10714 [1:08:25<43:40,  2.05it/s] 50%|████▉     | 5345/10714 [1:08:26<43:38,  2.05it/s] 50%|████▉     | 5346/10714 [1:08:26<43:38,  2.05it/s] 50%|████▉     | 5347/10714 [1:08:27<43:39,  2.05it/s] 50%|████▉     | 5348/10714 [1:08:27<43:41,  2.05it/s] 50%|████▉     | 5349/10714 [1:08:28<43:39,  2.05it/s] 50%|████▉     | 5350/10714 [1:08:28<43:37,  2.05it/s]{'loss': 3.4869, 'grad_norm': 0.20305444300174713, 'learning_rate': 0.0005880003769930846, 'epoch': 0.5}
-                                                       50%|████▉     | 5350/10714 [1:08:28<43:37,  2.05it/s] 50%|████▉     | 5351/10714 [1:08:29<43:38,  2.05it/s] 50%|████▉     | 5352/10714 [1:08:29<43:41,  2.05it/s] 50%|████▉     | 5353/10714 [1:08:30<43:43,  2.04it/s] 50%|████▉     | 5354/10714 [1:08:30<43:43,  2.04it/s] 50%|████▉     | 5355/10714 [1:08:31<43:38,  2.05it/s] 50%|████▉     | 5356/10714 [1:08:31<43:37,  2.05it/s] 50%|█████     | 5357/10714 [1:08:32<43:40,  2.04it/s] 50%|█████     | 5358/10714 [1:08:32<43:39,  2.04it/s] 50%|█████     | 5359/10714 [1:08:33<43:42,  2.04it/s] 50%|█████     | 5360/10714 [1:08:33<43:39,  2.04it/s] 50%|█████     | 5361/10714 [1:08:34<43:39,  2.04it/s] 50%|█████     | 5362/10714 [1:08:34<43:40,  2.04it/s] 50%|█████     | 5363/10714 [1:08:35<43:37,  2.04it/s] 50%|█████     | 5364/10714 [1:08:35<43:39,  2.04it/s] 50%|█████     | 5365/10714 [1:08:36<43:40,  2.04it/s] 50%|█████     | 5366/10714 [1:08:36<43:38,  2.04it/s] 50%|█████     | 5367/10714 [1:08:37<43:37,  2.04it/s] 50%|█████     | 5368/10714 [1:08:37<43:34,  2.04it/s] 50%|█████     | 5369/10714 [1:08:38<43:32,  2.05it/s] 50%|█████     | 5370/10714 [1:08:38<43:34,  2.04it/s] 50%|█████     | 5371/10714 [1:08:38<43:35,  2.04it/s] 50%|█████     | 5372/10714 [1:08:39<43:35,  2.04it/s] 50%|█████     | 5373/10714 [1:08:39<43:35,  2.04it/s] 50%|█████     | 5374/10714 [1:08:40<44:36,  2.00it/s] 50%|█████     | 5375/10714 [1:08:40<44:18,  2.01it/s]{'loss': 3.5024, 'grad_norm': 0.19891434907913208, 'learning_rate': 0.0005839882811848966, 'epoch': 0.5}
-                                                       50%|█████     | 5375/10714 [1:08:40<44:18,  2.01it/s] 50%|█████     | 5376/10714 [1:08:41<44:08,  2.02it/s] 50%|█████     | 5377/10714 [1:08:41<43:57,  2.02it/s] 50%|█████     | 5378/10714 [1:08:42<43:48,  2.03it/s] 50%|█████     | 5379/10714 [1:08:42<43:44,  2.03it/s] 50%|█████     | 5380/10714 [1:08:43<43:39,  2.04it/s] 50%|█████     | 5381/10714 [1:08:43<43:36,  2.04it/s] 50%|█████     | 5382/10714 [1:08:44<43:36,  2.04it/s] 50%|█████     | 5383/10714 [1:08:44<43:36,  2.04it/s] 50%|█████     | 5384/10714 [1:08:45<43:35,  2.04it/s] 50%|█████     | 5385/10714 [1:08:45<43:32,  2.04it/s] 50%|█████     | 5386/10714 [1:08:46<43:33,  2.04it/s] 50%|█████     | 5387/10714 [1:08:46<43:30,  2.04it/s] 50%|█████     | 5388/10714 [1:08:47<43:29,  2.04it/s] 50%|█████     | 5389/10714 [1:08:47<43:28,  2.04it/s] 50%|█████     | 5390/10714 [1:08:48<43:27,  2.04it/s] 50%|█████     | 5391/10714 [1:08:48<43:26,  2.04it/s] 50%|█████     | 5392/10714 [1:08:49<43:27,  2.04it/s] 50%|█████     | 5393/10714 [1:08:49<43:23,  2.04it/s] 50%|█████     | 5394/10714 [1:08:50<43:21,  2.04it/s] 50%|█████     | 5395/10714 [1:08:50<43:22,  2.04it/s] 50%|█████     | 5396/10714 [1:08:51<43:21,  2.04it/s] 50%|█████     | 5397/10714 [1:08:51<43:21,  2.04it/s] 50%|█████     | 5398/10714 [1:08:52<43:20,  2.04it/s] 50%|█████     | 5399/10714 [1:08:52<43:21,  2.04it/s] 50%|█████     | 5400/10714 [1:08:53<43:22,  2.04it/s]                                                      {'loss': 3.5008, 'grad_norm': 0.21846836805343628, 'learning_rate': 0.0005799706127262802, 'epoch': 0.5}
- 50%|█████     | 5400/10714 [1:08:53<43:22,  2.04it/s] 50%|█████     | 5401/10714 [1:08:53<43:25,  2.04it/s] 50%|█████     | 5402/10714 [1:08:54<43:21,  2.04it/s] 50%|█████     | 5403/10714 [1:08:54<43:22,  2.04it/s] 50%|█████     | 5404/10714 [1:08:55<43:23,  2.04it/s] 50%|█████     | 5405/10714 [1:08:55<43:22,  2.04it/s] 50%|█████     | 5406/10714 [1:08:56<43:19,  2.04it/s] 50%|█████     | 5407/10714 [1:08:56<43:21,  2.04it/s] 50%|█████     | 5408/10714 [1:08:57<43:19,  2.04it/s] 50%|█████     | 5409/10714 [1:08:57<43:16,  2.04it/s] 50%|█████     | 5410/10714 [1:08:58<43:13,  2.05it/s] 51%|█████     | 5411/10714 [1:08:58<43:16,  2.04it/s] 51%|█████     | 5412/10714 [1:08:59<43:15,  2.04it/s] 51%|█████     | 5413/10714 [1:08:59<43:15,  2.04it/s] 51%|█████     | 5414/10714 [1:09:00<43:13,  2.04it/s] 51%|█████     | 5415/10714 [1:09:00<43:10,  2.05it/s] 51%|█████     | 5416/10714 [1:09:01<43:11,  2.04it/s] 51%|█████     | 5417/10714 [1:09:01<43:10,  2.05it/s] 51%|█████     | 5418/10714 [1:09:02<43:08,  2.05it/s] 51%|█████     | 5419/10714 [1:09:02<43:07,  2.05it/s] 51%|█████     | 5420/10714 [1:09:03<43:07,  2.05it/s] 51%|█████     | 5421/10714 [1:09:03<43:10,  2.04it/s] 51%|█████     | 5422/10714 [1:09:04<43:08,  2.04it/s] 51%|█████     | 5423/10714 [1:09:04<43:08,  2.04it/s] 51%|█████     | 5424/10714 [1:09:04<43:08,  2.04it/s] 51%|█████     | 5425/10714 [1:09:05<43:10,  2.04it/s]{'loss': 3.4931, 'grad_norm': 0.23374681174755096, 'learning_rate': 0.000575947638190876, 'epoch': 0.51}                                                      
- 51%|█████     | 5425/10714 [1:09:05<43:10,  2.04it/s] 51%|█████     | 5426/10714 [1:09:05<43:11,  2.04it/s] 51%|█████     | 5427/10714 [1:09:06<43:06,  2.04it/s] 51%|█████     | 5428/10714 [1:09:06<43:05,  2.04it/s] 51%|█████     | 5429/10714 [1:09:07<43:06,  2.04it/s] 51%|█████     | 5430/10714 [1:09:07<43:05,  2.04it/s] 51%|█████     | 5431/10714 [1:09:08<43:02,  2.05it/s] 51%|█████     | 5432/10714 [1:09:08<43:03,  2.04it/s] 51%|█████     | 5433/10714 [1:09:09<43:02,  2.04it/s] 51%|█████     | 5434/10714 [1:09:09<43:05,  2.04it/s] 51%|█████     | 5435/10714 [1:09:10<43:03,  2.04it/s] 51%|█████     | 5436/10714 [1:09:10<43:03,  2.04it/s] 51%|█████     | 5437/10714 [1:09:11<43:03,  2.04it/s] 51%|█████     | 5438/10714 [1:09:11<43:06,  2.04it/s] 51%|█████     | 5439/10714 [1:09:12<43:05,  2.04it/s] 51%|█████     | 5440/10714 [1:09:12<43:04,  2.04it/s] 51%|█████     | 5441/10714 [1:09:13<43:04,  2.04it/s] 51%|█████     | 5442/10714 [1:09:13<43:04,  2.04it/s] 51%|█████     | 5443/10714 [1:09:14<43:02,  2.04it/s] 51%|█████     | 5444/10714 [1:09:14<42:59,  2.04it/s] 51%|█████     | 5445/10714 [1:09:15<42:57,  2.04it/s] 51%|█████     | 5446/10714 [1:09:15<42:56,  2.04it/s] 51%|█████     | 5447/10714 [1:09:16<42:54,  2.05it/s] 51%|█████     | 5448/10714 [1:09:16<42:55,  2.04it/s] 51%|█████     | 5449/10714 [1:09:17<42:55,  2.04it/s] 51%|█████     | 5450/10714 [1:09:17<42:55,  2.04it/s]{'loss': 3.4914, 'grad_norm': 0.19850319623947144, 'learning_rate': 0.0005719196245043838, 'epoch': 0.51}                                                      
- 51%|█████     | 5450/10714 [1:09:17<42:55,  2.04it/s] 51%|█████     | 5451/10714 [1:09:18<42:57,  2.04it/s] 51%|█████     | 5452/10714 [1:09:18<42:54,  2.04it/s] 51%|█████     | 5453/10714 [1:09:19<42:56,  2.04it/s] 51%|█████     | 5454/10714 [1:09:19<42:56,  2.04it/s] 51%|█████     | 5455/10714 [1:09:20<42:54,  2.04it/s] 51%|█████     | 5456/10714 [1:09:20<42:51,  2.04it/s] 51%|█████     | 5457/10714 [1:09:21<42:53,  2.04it/s] 51%|█████     | 5458/10714 [1:09:21<42:54,  2.04it/s] 51%|█████     | 5459/10714 [1:09:22<42:53,  2.04it/s] 51%|█████     | 5460/10714 [1:09:22<42:51,  2.04it/s] 51%|█████     | 5461/10714 [1:09:23<42:51,  2.04it/s] 51%|█████     | 5462/10714 [1:09:23<42:52,  2.04it/s] 51%|█████     | 5463/10714 [1:09:24<42:53,  2.04it/s] 51%|█████     | 5464/10714 [1:09:24<42:50,  2.04it/s] 51%|█████     | 5465/10714 [1:09:25<42:47,  2.04it/s] 51%|█████     | 5466/10714 [1:09:25<42:48,  2.04it/s] 51%|█████     | 5467/10714 [1:09:26<42:46,  2.04it/s] 51%|█████     | 5468/10714 [1:09:26<42:45,  2.04it/s] 51%|█████     | 5469/10714 [1:09:27<42:45,  2.04it/s] 51%|█████     | 5470/10714 [1:09:27<42:45,  2.04it/s] 51%|█████     | 5471/10714 [1:09:27<42:45,  2.04it/s] 51%|█████     | 5472/10714 [1:09:28<42:45,  2.04it/s] 51%|█████     | 5473/10714 [1:09:28<42:42,  2.05it/s] 51%|█████     | 5474/10714 [1:09:29<42:39,  2.05it/s] 51%|█████     | 5475/10714 [1:09:29<42:43,  2.04it/s]{'loss': 3.4941, 'grad_norm': 0.20464494824409485, 'learning_rate': 0.0005678868389268536, 'epoch': 0.51}                                                      
- 51%|█████     | 5475/10714 [1:09:29<42:43,  2.04it/s] 51%|█████     | 5476/10714 [1:09:30<42:46,  2.04it/s] 51%|█████     | 5477/10714 [1:09:30<42:43,  2.04it/s] 51%|█████     | 5478/10714 [1:09:31<42:38,  2.05it/s] 51%|█████     | 5479/10714 [1:09:31<42:36,  2.05it/s] 51%|█████     | 5480/10714 [1:09:32<42:41,  2.04it/s] 51%|█████     | 5481/10714 [1:09:32<42:40,  2.04it/s] 51%|█████     | 5482/10714 [1:09:33<42:38,  2.05it/s] 51%|█████     | 5483/10714 [1:09:33<42:37,  2.05it/s] 51%|█████     | 5484/10714 [1:09:34<42:35,  2.05it/s] 51%|█████     | 5485/10714 [1:09:34<42:38,  2.04it/s] 51%|█████     | 5486/10714 [1:09:35<42:36,  2.04it/s] 51%|█████     | 5487/10714 [1:09:35<42:34,  2.05it/s] 51%|█████     | 5488/10714 [1:09:36<42:33,  2.05it/s] 51%|█████     | 5489/10714 [1:09:36<42:36,  2.04it/s] 51%|█████     | 5490/10714 [1:09:37<42:38,  2.04it/s] 51%|█████▏    | 5491/10714 [1:09:37<42:37,  2.04it/s] 51%|█████▏    | 5492/10714 [1:09:38<42:35,  2.04it/s] 51%|█████▏    | 5493/10714 [1:09:38<42:36,  2.04it/s] 51%|█████▏    | 5494/10714 [1:09:39<42:37,  2.04it/s] 51%|█████▏    | 5495/10714 [1:09:39<42:36,  2.04it/s] 51%|█████▏    | 5496/10714 [1:09:40<42:37,  2.04it/s] 51%|█████▏    | 5497/10714 [1:09:40<42:36,  2.04it/s] 51%|█████▏    | 5498/10714 [1:09:41<42:35,  2.04it/s] 51%|█████▏    | 5499/10714 [1:09:41<42:36,  2.04it/s] 51%|█████▏    | 5500/10714 [1:09:42<42:37,  2.04it/s]                                                      {'loss': 3.4891, 'grad_norm': 0.2016771286725998, 'learning_rate': 0.0005638495490349513, 'epoch': 0.51}
- 51%|█████▏    | 5500/10714 [1:09:42<42:37,  2.04it/s] 51%|█████▏    | 5501/10714 [1:09:42<42:37,  2.04it/s] 51%|█████▏    | 5502/10714 [1:09:43<43:47,  1.98it/s] 51%|█████▏    | 5503/10714 [1:09:43<45:20,  1.92it/s] 51%|█████▏    | 5504/10714 [1:09:44<44:32,  1.95it/s] 51%|█████▏    | 5505/10714 [1:09:44<43:55,  1.98it/s] 51%|█████▏    | 5506/10714 [1:09:45<43:29,  2.00it/s] 51%|█████▏    | 5507/10714 [1:09:45<43:09,  2.01it/s] 51%|█████▏    | 5508/10714 [1:09:46<42:57,  2.02it/s] 51%|█████▏    | 5509/10714 [1:09:46<42:48,  2.03it/s] 51%|█████▏    | 5510/10714 [1:09:47<42:43,  2.03it/s] 51%|█████▏    | 5511/10714 [1:09:47<42:37,  2.03it/s] 51%|█████▏    | 5512/10714 [1:09:48<42:31,  2.04it/s] 51%|█████▏    | 5513/10714 [1:09:48<42:29,  2.04it/s] 51%|█████▏    | 5514/10714 [1:09:49<42:28,  2.04it/s] 51%|█████▏    | 5515/10714 [1:09:49<42:28,  2.04it/s] 51%|█████▏    | 5516/10714 [1:09:50<42:26,  2.04it/s] 51%|█████▏    | 5517/10714 [1:09:50<42:22,  2.04it/s] 52%|█████▏    | 5518/10714 [1:09:51<42:21,  2.04it/s] 52%|█████▏    | 5519/10714 [1:09:51<42:23,  2.04it/s] 52%|█████▏    | 5520/10714 [1:09:52<42:22,  2.04it/s] 52%|█████▏    | 5521/10714 [1:09:52<42:19,  2.04it/s] 52%|█████▏    | 5522/10714 [1:09:53<42:19,  2.04it/s] 52%|█████▏    | 5523/10714 [1:09:53<42:21,  2.04it/s] 52%|█████▏    | 5524/10714 [1:09:54<42:21,  2.04it/s] 52%|█████▏    | 5525/10714 [1:09:54<42:20,  2.04it/s]                                                      {'loss': 3.4875, 'grad_norm': 0.20842069387435913, 'learning_rate': 0.0005598080227042062, 'epoch': 0.52}
- 52%|█████▏    | 5525/10714 [1:09:54<42:20,  2.04it/s] 52%|█████▏    | 5526/10714 [1:09:55<42:31,  2.03it/s] 52%|█████▏    | 5527/10714 [1:09:55<42:27,  2.04it/s] 52%|█████▏    | 5528/10714 [1:09:56<42:21,  2.04it/s] 52%|█████▏    | 5529/10714 [1:09:56<42:20,  2.04it/s] 52%|█████▏    | 5530/10714 [1:09:56<42:20,  2.04it/s] 52%|█████▏    | 5531/10714 [1:09:57<42:21,  2.04it/s] 52%|█████▏    | 5532/10714 [1:09:57<42:18,  2.04it/s] 52%|█████▏    | 5533/10714 [1:09:58<42:14,  2.04it/s] 52%|█████▏    | 5534/10714 [1:09:58<42:15,  2.04it/s] 52%|█████▏    | 5535/10714 [1:09:59<42:16,  2.04it/s] 52%|█████▏    | 5536/10714 [1:09:59<42:14,  2.04it/s] 52%|█████▏    | 5537/10714 [1:10:00<44:15,  1.95it/s] 52%|█████▏    | 5538/10714 [1:10:00<43:38,  1.98it/s] 52%|█████▏    | 5539/10714 [1:10:01<43:14,  1.99it/s] 52%|█████▏    | 5540/10714 [1:10:01<42:55,  2.01it/s] 52%|█████▏    | 5541/10714 [1:10:02<42:41,  2.02it/s] 52%|█████▏    | 5542/10714 [1:10:02<42:32,  2.03it/s] 52%|█████▏    | 5543/10714 [1:10:03<42:27,  2.03it/s] 52%|█████▏    | 5544/10714 [1:10:03<42:22,  2.03it/s] 52%|█████▏    | 5545/10714 [1:10:04<42:15,  2.04it/s] 52%|█████▏    | 5546/10714 [1:10:04<42:17,  2.04it/s] 52%|█████▏    | 5547/10714 [1:10:05<42:14,  2.04it/s] 52%|█████▏    | 5548/10714 [1:10:05<42:13,  2.04it/s] 52%|█████▏    | 5549/10714 [1:10:06<42:07,  2.04it/s] 52%|█████▏    | 5550/10714 [1:10:06<42:03,  2.05it/s]{'loss': 3.4882, 'grad_norm': 0.19236871600151062, 'learning_rate': 0.000555762528091236, 'epoch': 0.52}                                                      
- 52%|█████▏    | 5550/10714 [1:10:06<42:03,  2.05it/s] 52%|█████▏    | 5551/10714 [1:10:07<42:09,  2.04it/s] 52%|█████▏    | 5552/10714 [1:10:07<42:08,  2.04it/s] 52%|█████▏    | 5553/10714 [1:10:08<42:05,  2.04it/s] 52%|█████▏    | 5554/10714 [1:10:08<42:02,  2.05it/s] 52%|█████▏    | 5555/10714 [1:10:09<42:02,  2.04it/s] 52%|█████▏    | 5556/10714 [1:10:09<42:03,  2.04it/s] 52%|█████▏    | 5557/10714 [1:10:10<42:05,  2.04it/s] 52%|█████▏    | 5558/10714 [1:10:10<42:01,  2.04it/s] 52%|█████▏    | 5559/10714 [1:10:11<42:00,  2.05it/s] 52%|█████▏    | 5560/10714 [1:10:11<42:03,  2.04it/s] 52%|█████▏    | 5561/10714 [1:10:12<42:02,  2.04it/s] 52%|█████▏    | 5562/10714 [1:10:12<42:00,  2.04it/s] 52%|█████▏    | 5563/10714 [1:10:13<41:58,  2.05it/s] 52%|█████▏    | 5564/10714 [1:10:13<41:59,  2.04it/s] 52%|█████▏    | 5565/10714 [1:10:14<42:02,  2.04it/s] 52%|█████▏    | 5566/10714 [1:10:14<42:02,  2.04it/s] 52%|█████▏    | 5567/10714 [1:10:15<42:00,  2.04it/s] 52%|█████▏    | 5568/10714 [1:10:15<41:56,  2.04it/s] 52%|█████▏    | 5569/10714 [1:10:16<41:53,  2.05it/s] 52%|█████▏    | 5570/10714 [1:10:16<41:54,  2.05it/s] 52%|█████▏    | 5571/10714 [1:10:17<41:56,  2.04it/s] 52%|█████▏    | 5572/10714 [1:10:17<41:54,  2.05it/s] 52%|█████▏    | 5573/10714 [1:10:18<41:53,  2.05it/s] 52%|█████▏    | 5574/10714 [1:10:18<41:52,  2.05it/s] 52%|█████▏    | 5575/10714 [1:10:19<41:56,  2.04it/s]                                                      {'loss': 3.4834, 'grad_norm': 0.22884902358055115, 'learning_rate': 0.0005517133336159556, 'epoch': 0.52}
- 52%|█████▏    | 5575/10714 [1:10:19<41:56,  2.04it/s] 52%|█████▏    | 5576/10714 [1:10:19<42:01,  2.04it/s] 52%|█████▏    | 5577/10714 [1:10:20<41:55,  2.04it/s] 52%|█████▏    | 5578/10714 [1:10:20<41:54,  2.04it/s] 52%|█████▏    | 5579/10714 [1:10:21<41:53,  2.04it/s] 52%|█████▏    | 5580/10714 [1:10:21<41:54,  2.04it/s] 52%|█████▏    | 5581/10714 [1:10:22<41:54,  2.04it/s] 52%|█████▏    | 5582/10714 [1:10:22<41:53,  2.04it/s] 52%|█████▏    | 5583/10714 [1:10:23<41:52,  2.04it/s] 52%|█████▏    | 5584/10714 [1:10:23<41:51,  2.04it/s] 52%|█████▏    | 5585/10714 [1:10:23<41:50,  2.04it/s] 52%|█████▏    | 5586/10714 [1:10:24<41:48,  2.04it/s] 52%|█████▏    | 5587/10714 [1:10:24<41:48,  2.04it/s] 52%|█████▏    | 5588/10714 [1:10:25<41:49,  2.04it/s] 52%|█████▏    | 5589/10714 [1:10:25<41:48,  2.04it/s] 52%|█████▏    | 5590/10714 [1:10:26<41:49,  2.04it/s] 52%|█████▏    | 5591/10714 [1:10:26<41:46,  2.04it/s] 52%|█████▏    | 5592/10714 [1:10:27<41:47,  2.04it/s] 52%|█████▏    | 5593/10714 [1:10:27<41:45,  2.04it/s] 52%|█████▏    | 5594/10714 [1:10:28<41:48,  2.04it/s] 52%|█████▏    | 5595/10714 [1:10:28<41:46,  2.04it/s] 52%|█████▏    | 5596/10714 [1:10:29<41:46,  2.04it/s] 52%|█████▏    | 5597/10714 [1:10:29<41:44,  2.04it/s] 52%|█████▏    | 5598/10714 [1:10:30<41:46,  2.04it/s] 52%|█████▏    | 5599/10714 [1:10:30<41:46,  2.04it/s] 52%|█████▏    | 5600/10714 [1:10:31<41:48,  2.04it/s]{'loss': 3.4886, 'grad_norm': 0.21026434004306793, 'learning_rate': 0.000547660707943767, 'epoch': 0.52}                                                      
- 52%|█████▏    | 5600/10714 [1:10:31<41:48,  2.04it/s] 52%|█████▏    | 5601/10714 [1:10:31<41:48,  2.04it/s] 52%|█████▏    | 5602/10714 [1:10:32<41:46,  2.04it/s] 52%|█████▏    | 5603/10714 [1:10:32<41:43,  2.04it/s] 52%|█████▏    | 5604/10714 [1:10:33<41:41,  2.04it/s] 52%|█████▏    | 5605/10714 [1:10:33<41:42,  2.04it/s] 52%|█████▏    | 5606/10714 [1:10:34<41:43,  2.04it/s] 52%|█████▏    | 5607/10714 [1:10:34<41:41,  2.04it/s] 52%|█████▏    | 5608/10714 [1:10:35<41:39,  2.04it/s] 52%|█████▏    | 5609/10714 [1:10:35<41:41,  2.04it/s] 52%|█████▏    | 5610/10714 [1:10:36<41:40,  2.04it/s] 52%|█████▏    | 5611/10714 [1:10:36<41:38,  2.04it/s] 52%|█████▏    | 5612/10714 [1:10:37<41:37,  2.04it/s] 52%|█████▏    | 5613/10714 [1:10:37<41:36,  2.04it/s] 52%|█████▏    | 5614/10714 [1:10:38<41:36,  2.04it/s] 52%|█████▏    | 5615/10714 [1:10:38<41:37,  2.04it/s] 52%|█████▏    | 5616/10714 [1:10:39<41:33,  2.04it/s] 52%|█████▏    | 5617/10714 [1:10:39<41:34,  2.04it/s] 52%|█████▏    | 5618/10714 [1:10:40<41:31,  2.05it/s] 52%|█████▏    | 5619/10714 [1:10:40<41:34,  2.04it/s] 52%|█████▏    | 5620/10714 [1:10:41<41:34,  2.04it/s] 52%|█████▏    | 5621/10714 [1:10:41<41:30,  2.04it/s] 52%|█████▏    | 5622/10714 [1:10:42<41:28,  2.05it/s] 52%|█████▏    | 5623/10714 [1:10:42<41:32,  2.04it/s] 52%|█████▏    | 5624/10714 [1:10:43<41:32,  2.04it/s] 53%|█████▎    | 5625/10714 [1:10:43<41:29,  2.04it/s]{'loss': 3.4794, 'grad_norm': 0.21579556167125702, 'learning_rate': 0.0005436049199677334, 'epoch': 0.53}
-                                                       53%|█████▎    | 5625/10714 [1:10:43<41:29,  2.04it/s] 53%|█████▎    | 5626/10714 [1:10:44<41:33,  2.04it/s] 53%|█████▎    | 5627/10714 [1:10:44<41:34,  2.04it/s] 53%|█████▎    | 5628/10714 [1:10:45<41:32,  2.04it/s] 53%|█████▎    | 5629/10714 [1:10:45<41:26,  2.04it/s] 53%|█████▎    | 5630/10714 [1:10:46<41:24,  2.05it/s] 53%|█████▎    | 5631/10714 [1:10:46<41:23,  2.05it/s] 53%|█████▎    | 5632/10714 [1:10:47<41:28,  2.04it/s] 53%|█████▎    | 5633/10714 [1:10:47<41:28,  2.04it/s] 53%|█████▎    | 5634/10714 [1:10:47<41:27,  2.04it/s] 53%|█████▎    | 5635/10714 [1:10:48<41:25,  2.04it/s] 53%|█████▎    | 5636/10714 [1:10:48<41:26,  2.04it/s] 53%|█████▎    | 5637/10714 [1:10:49<41:28,  2.04it/s] 53%|█████▎    | 5638/10714 [1:10:49<41:27,  2.04it/s] 53%|█████▎    | 5639/10714 [1:10:50<41:25,  2.04it/s] 53%|█████▎    | 5640/10714 [1:10:50<41:22,  2.04it/s] 53%|█████▎    | 5641/10714 [1:10:51<41:22,  2.04it/s] 53%|█████▎    | 5642/10714 [1:10:51<41:21,  2.04it/s] 53%|█████▎    | 5643/10714 [1:10:52<41:22,  2.04it/s] 53%|█████▎    | 5644/10714 [1:10:52<41:21,  2.04it/s] 53%|█████▎    | 5645/10714 [1:10:53<41:22,  2.04it/s] 53%|█████▎    | 5646/10714 [1:10:53<41:20,  2.04it/s] 53%|█████▎    | 5647/10714 [1:10:54<41:18,  2.04it/s] 53%|█████▎    | 5648/10714 [1:10:54<41:20,  2.04it/s] 53%|█████▎    | 5649/10714 [1:10:55<41:20,  2.04it/s] 53%|█████▎    | 5650/10714 [1:10:55<41:19,  2.04it/s]{'loss': 3.4864, 'grad_norm': 0.2131970375776291, 'learning_rate': 0.0005395462387907377, 'epoch': 0.53}                                                      
- 53%|█████▎    | 5650/10714 [1:10:55<41:19,  2.04it/s] 53%|█████▎    | 5651/10714 [1:10:56<41:22,  2.04it/s] 53%|█████▎    | 5652/10714 [1:10:56<41:18,  2.04it/s] 53%|█████▎    | 5653/10714 [1:10:57<41:16,  2.04it/s] 53%|█████▎    | 5654/10714 [1:10:57<41:15,  2.04it/s] 53%|█████▎    | 5655/10714 [1:10:58<41:16,  2.04it/s] 53%|█████▎    | 5656/10714 [1:10:58<41:14,  2.04it/s] 53%|█████▎    | 5657/10714 [1:10:59<41:12,  2.05it/s] 53%|█████▎    | 5658/10714 [1:10:59<41:12,  2.04it/s] 53%|█████▎    | 5659/10714 [1:11:00<41:13,  2.04it/s] 53%|█████▎    | 5660/10714 [1:11:00<41:11,  2.05it/s] 53%|█████▎    | 5661/10714 [1:11:01<41:10,  2.05it/s] 53%|█████▎    | 5662/10714 [1:11:01<41:07,  2.05it/s] 53%|█████▎    | 5663/10714 [1:11:02<41:05,  2.05it/s] 53%|█████▎    | 5664/10714 [1:11:02<41:08,  2.05it/s] 53%|█████▎    | 5665/10714 [1:11:03<41:10,  2.04it/s] 53%|█████▎    | 5666/10714 [1:11:03<41:11,  2.04it/s] 53%|█████▎    | 5667/10714 [1:11:04<41:10,  2.04it/s] 53%|█████▎    | 5668/10714 [1:11:04<41:12,  2.04it/s] 53%|█████▎    | 5669/10714 [1:11:05<41:09,  2.04it/s] 53%|█████▎    | 5670/10714 [1:11:05<41:07,  2.04it/s] 53%|█████▎    | 5671/10714 [1:11:06<41:03,  2.05it/s] 53%|█████▎    | 5672/10714 [1:11:06<41:03,  2.05it/s] 53%|█████▎    | 5673/10714 [1:11:07<41:03,  2.05it/s] 53%|█████▎    | 5674/10714 [1:11:07<41:04,  2.05it/s] 53%|█████▎    | 5675/10714 [1:11:08<41:04,  2.04it/s]{'loss': 3.4939, 'grad_norm': 0.22159336507320404, 'learning_rate': 0.0005354849337076277, 'epoch': 0.53}                                                      
- 53%|█████▎    | 5675/10714 [1:11:08<41:04,  2.04it/s] 53%|█████▎    | 5676/10714 [1:11:08<41:06,  2.04it/s] 53%|█████▎    | 5677/10714 [1:11:09<41:06,  2.04it/s] 53%|█████▎    | 5678/10714 [1:11:09<41:05,  2.04it/s] 53%|█████▎    | 5679/10714 [1:11:10<41:02,  2.04it/s] 53%|█████▎    | 5680/10714 [1:11:10<41:01,  2.05it/s] 53%|█████▎    | 5681/10714 [1:11:10<41:02,  2.04it/s] 53%|█████▎    | 5682/10714 [1:11:11<41:04,  2.04it/s] 53%|█████▎    | 5683/10714 [1:11:11<41:00,  2.04it/s] 53%|█████▎    | 5684/10714 [1:11:12<40:59,  2.05it/s] 53%|█████▎    | 5685/10714 [1:11:12<40:57,  2.05it/s] 53%|█████▎    | 5686/10714 [1:11:13<40:57,  2.05it/s] 53%|█████▎    | 5687/10714 [1:11:13<40:56,  2.05it/s] 53%|█████▎    | 5688/10714 [1:11:14<40:57,  2.05it/s] 53%|█████▎    | 5689/10714 [1:11:14<40:55,  2.05it/s] 53%|█████▎    | 5690/10714 [1:11:15<40:52,  2.05it/s] 53%|█████▎    | 5691/10714 [1:11:15<40:56,  2.04it/s] 53%|█████▎    | 5692/10714 [1:11:16<40:59,  2.04it/s] 53%|█████▎    | 5693/10714 [1:11:16<40:58,  2.04it/s] 53%|█████▎    | 5694/10714 [1:11:17<40:55,  2.04it/s] 53%|█████▎    | 5695/10714 [1:11:17<40:53,  2.05it/s] 53%|█████▎    | 5696/10714 [1:11:18<40:55,  2.04it/s] 53%|█████▎    | 5697/10714 [1:11:18<40:55,  2.04it/s] 53%|█████▎    | 5698/10714 [1:11:19<40:54,  2.04it/s] 53%|█████▎    | 5699/10714 [1:11:19<40:52,  2.04it/s] 53%|█████▎    | 5700/10714 [1:11:20<40:49,  2.05it/s]{'loss': 3.4857, 'grad_norm': 0.20947393774986267, 'learning_rate': 0.0005314212741873482, 'epoch': 0.53}                                                      
- 53%|█████▎    | 5700/10714 [1:11:20<40:49,  2.05it/s] 53%|█████▎    | 5701/10714 [1:11:20<41:01,  2.04it/s] 53%|█████▎    | 5702/10714 [1:11:21<40:56,  2.04it/s] 53%|█████▎    | 5703/10714 [1:11:21<40:53,  2.04it/s] 53%|█████▎    | 5704/10714 [1:11:22<40:53,  2.04it/s] 53%|█████▎    | 5705/10714 [1:11:22<40:53,  2.04it/s] 53%|█████▎    | 5706/10714 [1:11:23<40:52,  2.04it/s] 53%|█████▎    | 5707/10714 [1:11:23<40:49,  2.04it/s] 53%|█████▎    | 5708/10714 [1:11:24<40:50,  2.04it/s] 53%|█████▎    | 5709/10714 [1:11:24<40:51,  2.04it/s] 53%|█████▎    | 5710/10714 [1:11:25<40:52,  2.04it/s] 53%|█████▎    | 5711/10714 [1:11:25<40:49,  2.04it/s] 53%|█████▎    | 5712/10714 [1:11:26<40:46,  2.04it/s] 53%|█████▎    | 5713/10714 [1:11:26<40:47,  2.04it/s] 53%|█████▎    | 5714/10714 [1:11:27<40:47,  2.04it/s] 53%|██��██▎    | 5715/10714 [1:11:27<40:46,  2.04it/s] 53%|█████▎    | 5716/10714 [1:11:28<40:45,  2.04it/s] 53%|█████▎    | 5717/10714 [1:11:28<40:44,  2.04it/s] 53%|█████▎    | 5718/10714 [1:11:29<40:46,  2.04it/s] 53%|█████▎    | 5719/10714 [1:11:29<40:45,  2.04it/s] 53%|█████▎    | 5720/10714 [1:11:30<40:43,  2.04it/s] 53%|█████▎    | 5721/10714 [1:11:30<40:41,  2.05it/s] 53%|█████▎    | 5722/10714 [1:11:31<40:42,  2.04it/s] 53%|█████▎    | 5723/10714 [1:11:31<40:44,  2.04it/s] 53%|█████▎    | 5724/10714 [1:11:32<40:42,  2.04it/s] 53%|█████▎    | 5725/10714 [1:11:32<40:41,  2.04it/s]                                                      {'loss': 3.4826, 'grad_norm': 0.20630933344364166, 'learning_rate': 0.0005273555298550615, 'epoch': 0.53}
- 53%|█████▎    | 5725/10714 [1:11:32<40:41,  2.04it/s] 53%|█████▎    | 5726/10714 [1:11:33<40:46,  2.04it/s] 53%|█████▎    | 5727/10714 [1:11:33<40:45,  2.04it/s] 53%|█████▎    | 5728/10714 [1:11:33<40:43,  2.04it/s] 53%|█████▎    | 5729/10714 [1:11:34<40:38,  2.04it/s] 53%|█████▎    | 5730/10714 [1:11:34<40:36,  2.05it/s] 53%|█████▎    | 5731/10714 [1:11:35<40:37,  2.04it/s] 54%|█████▎    | 5732/10714 [1:11:35<40:36,  2.04it/s] 54%|█████▎    | 5733/10714 [1:11:36<40:38,  2.04it/s] 54%|█████▎    | 5734/10714 [1:11:36<40:37,  2.04it/s] 54%|█████▎    | 5735/10714 [1:11:37<40:37,  2.04it/s] 54%|█████▎    | 5736/10714 [1:11:37<40:37,  2.04it/s] 54%|█████▎    | 5737/10714 [1:11:38<40:36,  2.04it/s] 54%|█████▎    | 5738/10714 [1:11:38<40:34,  2.04it/s] 54%|█████▎    | 5739/10714 [1:11:39<40:32,  2.05it/s] 54%|█████▎    | 5740/10714 [1:11:39<40:33,  2.04it/s] 54%|█████▎    | 5741/10714 [1:11:40<40:35,  2.04it/s] 54%|█████▎    | 5742/10714 [1:11:40<40:35,  2.04it/s] 54%|█████▎    | 5743/10714 [1:11:41<40:31,  2.04it/s] 54%|█████▎    | 5744/10714 [1:11:41<40:31,  2.04it/s] 54%|█████▎    | 5745/10714 [1:11:42<40:32,  2.04it/s] 54%|█████▎    | 5746/10714 [1:11:42<40:32,  2.04it/s] 54%|█████▎    | 5747/10714 [1:11:43<40:32,  2.04it/s] 54%|█████▎    | 5748/10714 [1:11:43<40:31,  2.04it/s] 54%|█████▎    | 5749/10714 [1:11:44<40:29,  2.04it/s] 54%|█████▎    | 5750/10714 [1:11:44<40:33,  2.04it/s]{'loss': 3.4824, 'grad_norm': 0.20655640959739685, 'learning_rate': 0.0005232879704742587, 'epoch': 0.54}
-                                                       54%|█████▎    | 5750/10714 [1:11:44<40:33,  2.04it/s] 54%|█████▎    | 5751/10714 [1:11:45<40:36,  2.04it/s] 54%|█████▎    | 5752/10714 [1:11:45<40:34,  2.04it/s] 54%|█████▎    | 5753/10714 [1:11:46<40:33,  2.04it/s] 54%|█████▎    | 5754/10714 [1:11:46<40:32,  2.04it/s] 54%|█████▎    | 5755/10714 [1:11:47<40:31,  2.04it/s] 54%|█████▎    | 5756/10714 [1:11:47<40:28,  2.04it/s] 54%|█████▎    | 5757/10714 [1:11:48<40:28,  2.04it/s] 54%|█████▎    | 5758/10714 [1:11:48<40:29,  2.04it/s] 54%|█████▍    | 5759/10714 [1:11:49<40:26,  2.04it/s] 54%|█████▍    | 5760/10714 [1:11:49<40:29,  2.04it/s] 54%|█████▍    | 5761/10714 [1:11:50<40:29,  2.04it/s] 54%|█████▍    | 5762/10714 [1:11:50<40:28,  2.04it/s] 54%|█████▍    | 5763/10714 [1:11:51<40:27,  2.04it/s] 54%|█████▍    | 5764/10714 [1:11:51<40:23,  2.04it/s] 54%|█████▍    | 5765/10714 [1:11:52<40:28,  2.04it/s] 54%|█████▍    | 5766/10714 [1:11:52<40:27,  2.04it/s] 54%|█████▍    | 5767/10714 [1:11:53<40:24,  2.04it/s] 54%|█████▍    | 5768/10714 [1:11:53<40:26,  2.04it/s] 54%|█████▍    | 5769/10714 [1:11:54<40:26,  2.04it/s] 54%|█████▍    | 5770/10714 [1:11:54<40:23,  2.04it/s] 54%|█████▍    | 5771/10714 [1:11:55<40:19,  2.04it/s] 54%|█████▍    | 5772/10714 [1:11:55<40:17,  2.04it/s] 54%|█████▍    | 5773/10714 [1:11:56<40:20,  2.04it/s] 54%|█████▍    | 5774/10714 [1:11:56<40:21,  2.04it/s] 54%|█████▍    | 5775/10714 [1:11:57<40:19,  2.04it/s]{'loss': 3.477, 'grad_norm': 0.20442445576190948, 'learning_rate': 0.000519218865928859, 'epoch': 0.54}
-                                                       54%|█████▍    | 5775/10714 [1:11:57<40:19,  2.04it/s] 54%|█████▍    | 5776/10714 [1:11:57<40:24,  2.04it/s] 54%|█████▍    | 5777/10714 [1:11:57<40:20,  2.04it/s] 54%|█████▍    | 5778/10714 [1:11:58<40:17,  2.04it/s] 54%|█████▍    | 5779/10714 [1:11:58<40:47,  2.02it/s] 54%|█████▍    | 5780/10714 [1:11:59<40:39,  2.02it/s] 54%|█████▍    | 5781/10714 [1:11:59<40:30,  2.03it/s] 54%|█████▍    | 5782/10714 [1:12:00<40:23,  2.03it/s] 54%|█████▍    | 5783/10714 [1:12:00<40:22,  2.04it/s] 54%|█████▍    | 5784/10714 [1:12:01<40:21,  2.04it/s] 54%|█████▍    | 5785/10714 [1:12:01<40:18,  2.04it/s] 54%|█████▍    | 5786/10714 [1:12:02<40:16,  2.04it/s] 54%|█████▍    | 5787/10714 [1:12:02<40:14,  2.04it/s] 54%|█████▍    | 5788/10714 [1:12:03<40:15,  2.04it/s] 54%|█████▍    | 5789/10714 [1:12:03<40:14,  2.04it/s] 54%|█████▍    | 5790/10714 [1:12:04<40:10,  2.04it/s] 54%|█████▍    | 5791/10714 [1:12:04<40:11,  2.04it/s] 54%|█████▍    | 5792/10714 [1:12:05<40:15,  2.04it/s] 54%|█████▍    | 5793/10714 [1:12:05<40:12,  2.04it/s] 54%|█████▍    | 5794/10714 [1:12:06<40:09,  2.04it/s] 54%|█████▍    | 5795/10714 [1:12:06<40:10,  2.04it/s] 54%|█████▍    | 5796/10714 [1:12:07<40:10,  2.04it/s] 54%|█████▍    | 5797/10714 [1:12:07<40:07,  2.04it/s] 54%|█████▍    | 5798/10714 [1:12:08<40:07,  2.04it/s] 54%|█████▍    | 5799/10714 [1:12:08<40:06,  2.04it/s] 54%|█████▍    | 5800/10714 [1:12:09<40:09,  2.04it/s]{'loss': 3.4795, 'grad_norm': 0.21299412846565247, 'learning_rate': 0.0005151484862053042, 'epoch': 0.54}
-                                                       54%|█████▍    | 5800/10714 [1:12:09<40:09,  2.04it/s] 54%|█████▍    | 5801/10714 [1:12:09<40:12,  2.04it/s] 54%|█████▍    | 5802/10714 [1:12:10<40:09,  2.04it/s] 54%|█████▍    | 5803/10714 [1:12:10<40:08,  2.04it/s] 54%|█████▍    | 5804/10714 [1:12:11<40:06,  2.04it/s] 54%|█████▍    | 5805/10714 [1:12:11<40:03,  2.04it/s] 54%|█████▍    | 5806/10714 [1:12:12<40:04,  2.04it/s] 54%|█████▍    | 5807/10714 [1:12:12<40:05,  2.04it/s] 54%|█████▍    | 5808/10714 [1:12:13<40:02,  2.04it/s] 54%|█████▍    | 5809/10714 [1:12:13<40:02,  2.04it/s] 54%|█████▍    | 5810/10714 [1:12:14<40:03,  2.04it/s] 54%|█████▍    | 5811/10714 [1:12:14<40:03,  2.04it/s] 54%|█████▍    | 5812/10714 [1:12:15<40:00,  2.04it/s] 54%|█████▍    | 5813/10714 [1:12:15<39:59,  2.04it/s] 54%|█████▍    | 5814/10714 [1:12:16<40:02,  2.04it/s] 54%|█████▍    | 5815/10714 [1:12:16<39:59,  2.04it/s] 54%|█████▍    | 5816/10714 [1:12:17<39:58,  2.04it/s] 54%|█████▍    | 5817/10714 [1:12:17<39:57,  2.04it/s] 54%|█████▍    | 5818/10714 [1:12:18<39:55,  2.04it/s] 54%|█████▍    | 5819/10714 [1:12:18<39:58,  2.04it/s] 54%|█████▍    | 5820/10714 [1:12:19<39:55,  2.04it/s] 54%|█████▍    | 5821/10714 [1:12:19<39:53,  2.04it/s] 54%|█████▍    | 5822/10714 [1:12:20<39:54,  2.04it/s] 54%|█████▍    | 5823/10714 [1:12:20<39:55,  2.04it/s] 54%|█████▍    | 5824/10714 [1:12:21<39:55,  2.04it/s] 54%|█████▍    | 5825/10714 [1:12:21<39:52,  2.04it/s]{'loss': 3.487, 'grad_norm': 0.21259059011936188, 'learning_rate': 0.0005110771013746444, 'epoch': 0.54}
-                                                       54%|█████▍    | 5825/10714 [1:12:21<39:52,  2.04it/s] 54%|█████▍    | 5826/10714 [1:12:22<39:59,  2.04it/s] 54%|█████▍    | 5827/10714 [1:12:22<39:58,  2.04it/s] 54%|█████▍    | 5828/10714 [1:12:23<39:54,  2.04it/s] 54%|█████▍    | 5829/10714 [1:12:23<39:51,  2.04it/s] 54%|█████▍    | 5830/10714 [1:12:23<39:51,  2.04it/s] 54%|█████▍    | 5831/10714 [1:12:24<39:53,  2.04it/s] 54%|█████▍    | 5832/10714 [1:12:24<39:52,  2.04it/s] 54%|█████▍    | 5833/10714 [1:12:25<39:50,  2.04it/s] 54%|█████▍    | 5834/10714 [1:12:25<39:54,  2.04it/s] 54%|█████▍    | 5835/10714 [1:12:26<39:51,  2.04it/s] 54%|█████▍    | 5836/10714 [1:12:26<39:49,  2.04it/s] 54%|█████▍    | 5837/10714 [1:12:27<39:46,  2.04it/s] 54%|█████▍    | 5838/10714 [1:12:27<39:48,  2.04it/s] 54%|█████▍    | 5839/10714 [1:12:28<39:49,  2.04it/s] 55%|█████▍    | 5840/10714 [1:12:28<39:47,  2.04it/s] 55%|█████▍    | 5841/10714 [1:12:29<39:46,  2.04it/s] 55%|█████▍    | 5842/10714 [1:12:29<39:50,  2.04it/s] 55%|█████▍    | 5843/10714 [1:12:30<39:49,  2.04it/s] 55%|█████▍    | 5844/10714 [1:12:30<39:45,  2.04it/s] 55%|█████▍    | 5845/10714 [1:12:31<39:44,  2.04it/s] 55%|█████▍    | 5846/10714 [1:12:31<39:44,  2.04it/s] 55%|█████▍    | 5847/10714 [1:12:32<39:46,  2.04it/s] 55%|█████▍    | 5848/10714 [1:12:32<39:42,  2.04it/s] 55%|█████▍    | 5849/10714 [1:12:33<39:39,  2.04it/s] 55%|█████▍    | 5850/10714 [1:12:33<39:39,  2.04it/s]{'loss': 3.4774, 'grad_norm': 0.2003488391637802, 'learning_rate': 0.0005070049815746195, 'epoch': 0.55}                                                      
- 55%|█████▍    | 5850/10714 [1:12:33<39:39,  2.04it/s] 55%|█████▍    | 5851/10714 [1:12:34<39:44,  2.04it/s] 55%|█████▍    | 5852/10714 [1:12:34<39:42,  2.04it/s] 55%|█████▍    | 5853/10714 [1:12:35<39:39,  2.04it/s] 55%|█████▍    | 5854/10714 [1:12:35<39:39,  2.04it/s] 55%|█████▍    | 5855/10714 [1:12:36<39:38,  2.04it/s] 55%|█████▍    | 5856/10714 [1:12:36<39:38,  2.04it/s] 55%|█████▍    | 5857/10714 [1:12:37<39:37,  2.04it/s] 55%|█████▍    | 5858/10714 [1:12:37<39:37,  2.04it/s] 55%|█████▍    | 5859/10714 [1:12:38<39:40,  2.04it/s] 55%|█████▍    | 5860/10714 [1:12:38<39:37,  2.04it/s] 55%|█████▍    | 5861/10714 [1:12:39<39:37,  2.04it/s] 55%|█████▍    | 5862/10714 [1:12:39<39:33,  2.04it/s] 55%|█████▍    | 5863/10714 [1:12:40<39:32,  2.04it/s] 55%|█████▍    | 5864/10714 [1:12:40<39:33,  2.04it/s] 55%|█████▍    | 5865/10714 [1:12:41<39:36,  2.04it/s] 55%|█████▍    | 5866/10714 [1:12:41<39:33,  2.04it/s] 55%|█████▍    | 5867/10714 [1:12:42<39:33,  2.04it/s] 55%|█████▍    | 5868/10714 [1:12:42<39:30,  2.04it/s] 55%|█████▍    | 5869/10714 [1:12:43<39:32,  2.04it/s] 55%|█████▍    | 5870/10714 [1:12:43<39:34,  2.04it/s] 55%|█████▍    | 5871/10714 [1:12:44<39:35,  2.04it/s] 55%|█████▍    | 5872/10714 [1:12:44<39:31,  2.04it/s] 55%|█████▍    | 5873/10714 [1:12:45<39:31,  2.04it/s] 55%|█████▍    | 5874/10714 [1:12:45<39:29,  2.04it/s] 55%|█████▍    | 5875/10714 [1:12:46<39:29,  2.04it/s]{'loss': 3.4597, 'grad_norm': 0.1932557076215744, 'learning_rate': 0.0005029323969917341, 'epoch': 0.55}
-                                                       55%|█████▍    | 5875/10714 [1:12:46<39:29,  2.04it/s] 55%|█████▍    | 5876/10714 [1:12:46<39:32,  2.04it/s] 55%|█████▍    | 5877/10714 [1:12:47<39:31,  2.04it/s] 55%|█████▍    | 5878/10714 [1:12:47<39:28,  2.04it/s] 55%|█████▍    | 5879/10714 [1:12:47<39:25,  2.04it/s] 55%|█████▍    | 5880/10714 [1:12:48<39:25,  2.04it/s] 55%|█████▍    | 5881/10714 [1:12:48<39:28,  2.04it/s] 55%|█████▍    | 5882/10714 [1:12:49<39:26,  2.04it/s] 55%|█████▍    | 5883/10714 [1:12:49<39:25,  2.04it/s] 55%|█████▍    | 5884/10714 [1:12:50<39:24,  2.04it/s] 55%|█████▍    | 5885/10714 [1:12:50<39:24,  2.04it/s] 55%|█████▍    | 5886/10714 [1:12:51<39:25,  2.04it/s] 55%|█████▍    | 5887/10714 [1:12:51<39:24,  2.04it/s] 55%|█████▍    | 5888/10714 [1:12:52<39:23,  2.04it/s] 55%|█████▍    | 5889/10714 [1:12:52<39:24,  2.04it/s] 55%|█████▍    | 5890/10714 [1:12:53<39:24,  2.04it/s] 55%|█████▍    | 5891/10714 [1:12:53<39:23,  2.04it/s] 55%|█████▍    | 5892/10714 [1:12:54<39:21,  2.04it/s] 55%|█████▌    | 5893/10714 [1:12:54<39:22,  2.04it/s] 55%|█████▌    | 5894/10714 [1:12:55<39:21,  2.04it/s] 55%|█████▌    | 5895/10714 [1:12:55<39:19,  2.04it/s] 55%|█████▌    | 5896/10714 [1:12:56<39:21,  2.04it/s] 55%|█████▌    | 5897/10714 [1:12:56<39:21,  2.04it/s] 55%|█████▌    | 5898/10714 [1:12:57<39:19,  2.04it/s] 55%|█████▌    | 5899/10714 [1:12:57<39:16,  2.04it/s] 55%|█████▌    | 5900/10714 [1:12:58<39:15,  2.04it/s]                                                      {'loss': 3.4671, 'grad_norm': 0.2019266039133072, 'learning_rate': 0.0004988596178433317, 'epoch': 0.55}
- 55%|█████▌    | 5900/10714 [1:12:58<39:15,  2.04it/s] 55%|█████▌    | 5901/10714 [1:12:58<39:23,  2.04it/s] 55%|█████▌    | 5902/10714 [1:12:59<39:19,  2.04it/s] 55%|█████▌    | 5903/10714 [1:12:59<39:16,  2.04it/s] 55%|█████▌    | 5904/10714 [1:13:00<39:16,  2.04it/s] 55%|█████▌    | 5905/10714 [1:13:00<39:16,  2.04it/s] 55%|█████▌    | 5906/10714 [1:13:01<39:18,  2.04it/s] 55%|█████▌    | 5907/10714 [1:13:01<39:13,  2.04it/s] 55%|█████▌    | 5908/10714 [1:13:02<39:14,  2.04it/s] 55%|█████▌    | 5909/10714 [1:13:02<39:12,  2.04it/s] 55%|█████▌    | 5910/10714 [1:13:03<39:13,  2.04it/s] 55%|█████▌    | 5911/10714 [1:13:03<39:14,  2.04it/s] 55%|█████▌    | 5912/10714 [1:13:04<39:11,  2.04it/s] 55%|█████▌    | 5913/10714 [1:13:04<39:09,  2.04it/s] 55%|█████▌    | 5914/10714 [1:13:05<39:08,  2.04it/s] 55%|█████▌    | 5915/10714 [1:13:05<39:07,  2.04it/s] 55%|█████▌    | 5916/10714 [1:13:06<39:08,  2.04it/s] 55%|█████▌    | 5917/10714 [1:13:06<39:08,  2.04it/s] 55%|█████▌    | 5918/10714 [1:13:07<39:08,  2.04it/s] 55%|█████▌    | 5919/10714 [1:13:07<39:07,  2.04it/s] 55%|█████▌    | 5920/10714 [1:13:08<39:02,  2.05it/s] 55%|█████▌    | 5921/10714 [1:13:08<39:01,  2.05it/s] 55%|█████▌    | 5922/10714 [1:13:09<39:01,  2.05it/s] 55%|█████▌    | 5923/10714 [1:13:09<39:03,  2.04it/s] 55%|█████▌    | 5924/10714 [1:13:10<39:01,  2.05it/s] 55%|█████▌    | 5925/10714 [1:13:10<39:00,  2.05it/s]{'loss': 3.4659, 'grad_norm': 0.2023603320121765, 'learning_rate': 0.0004947869143596652, 'epoch': 0.55}                                                      
- 55%|█████▌    | 5925/10714 [1:13:10<39:00,  2.05it/s] 55%|█████▌    | 5926/10714 [1:13:10<39:04,  2.04it/s] 55%|█████▌    | 5927/10714 [1:13:11<39:04,  2.04it/s] 55%|█████▌    | 5928/10714 [1:13:11<39:04,  2.04it/s] 55%|█████▌    | 5929/10714 [1:13:12<39:01,  2.04it/s] 55%|█████▌    | 5930/10714 [1:13:12<38:58,  2.05it/s] 55%|█████▌    | 5931/10714 [1:13:13<38:58,  2.05it/s] 55%|█████▌    | 5932/10714 [1:13:13<38:59,  2.04it/s] 55%|█████▌    | 5933/10714 [1:13:14<39:01,  2.04it/s] 55%|█████▌    | 5934/10714 [1:13:14<39:01,  2.04it/s] 55%|█████▌    | 5935/10714 [1:13:15<39:01,  2.04it/s] 55%|█████▌    | 5936/10714 [1:13:15<39:00,  2.04it/s] 55%|█████▌    | 5937/10714 [1:13:16<39:00,  2.04it/s] 55%|█████▌    | 5938/10714 [1:13:16<39:00,  2.04it/s] 55%|█████▌    | 5939/10714 [1:13:17<38:59,  2.04it/s] 55%|█████▌    | 5940/10714 [1:13:17<39:01,  2.04it/s] 55%|█████▌    | 5941/10714 [1:13:18<38:59,  2.04it/s] 55%|█████▌    | 5942/10714 [1:13:18<38:57,  2.04it/s] 55%|█████▌    | 5943/10714 [1:13:19<38:59,  2.04it/s] 55%|█████▌    | 5944/10714 [1:13:19<38:57,  2.04it/s] 55%|█████▌    | 5945/10714 [1:13:20<38:54,  2.04it/s] 55%|█████▌    | 5946/10714 [1:13:20<38:55,  2.04it/s] 56%|█████▌    | 5947/10714 [1:13:21<38:53,  2.04it/s] 56%|█████▌    | 5948/10714 [1:13:21<38:55,  2.04it/s] 56%|█████▌    | 5949/10714 [1:13:22<38:53,  2.04it/s] 56%|█████▌    | 5950/10714 [1:13:22<38:54,  2.04it/s]                                                      {'loss': 3.4613, 'grad_norm': 0.2076665163040161, 'learning_rate': 0.0004907145567659669, 'epoch': 0.56}
- 56%|█████▌    | 5950/10714 [1:13:22<38:54,  2.04it/s] 56%|█████▌    | 5951/10714 [1:13:23<39:00,  2.04it/s] 56%|█████▌    | 5952/10714 [1:13:23<38:58,  2.04it/s] 56%|█████▌    | 5953/10714 [1:13:24<38:57,  2.04it/s] 56%|█████▌    | 5954/10714 [1:13:24<38:54,  2.04it/s] 56%|█████▌    | 5955/10714 [1:13:25<38:52,  2.04it/s] 56%|█████▌    | 5956/10714 [1:13:25<38:50,  2.04it/s] 56%|█████▌    | 5957/10714 [1:13:26<38:50,  2.04it/s] 56%|█████▌    | 5958/10714 [1:13:26<38:53,  2.04it/s] 56%|█████▌    | 5959/10714 [1:13:27<38:52,  2.04it/s] 56%|█████▌    | 5960/10714 [1:13:27<38:51,  2.04it/s] 56%|█████▌    | 5961/10714 [1:13:28<38:52,  2.04it/s] 56%|█████▌    | 5962/10714 [1:13:28<38:50,  2.04it/s] 56%|█████▌    | 5963/10714 [1:13:29<38:48,  2.04it/s] 56%|█████▌    | 5964/10714 [1:13:29<38:47,  2.04it/s] 56%|█████▌    | 5965/10714 [1:13:30<38:49,  2.04it/s] 56%|█████▌    | 5966/10714 [1:13:30<38:46,  2.04it/s] 56%|█████▌    | 5967/10714 [1:13:31<38:44,  2.04it/s] 56%|█████▌    | 5968/10714 [1:13:31<38:44,  2.04it/s] 56%|█████▌    | 5969/10714 [1:13:32<38:46,  2.04it/s] 56%|█████▌    | 5970/10714 [1:13:32<38:45,  2.04it/s] 56%|█████▌    | 5971/10714 [1:13:33<38:43,  2.04it/s] 56%|█████▌    | 5972/10714 [1:13:33<38:43,  2.04it/s] 56%|█████▌    | 5973/10714 [1:13:34<38:43,  2.04it/s] 56%|█████▌    | 5974/10714 [1:13:34<38:43,  2.04it/s] 56%|█████▌    | 5975/10714 [1:13:35<38:41,  2.04it/s]{'loss': 3.4755, 'grad_norm': 0.21113255620002747, 'learning_rate': 0.00048664281526451976, 'epoch': 0.56}                                                      
- 56%|█████▌    | 5975/10714 [1:13:35<38:41,  2.04it/s] 56%|█████▌    | 5976/10714 [1:13:35<38:44,  2.04it/s] 56%|█████▌    | 5977/10714 [1:13:35<38:44,  2.04it/s] 56%|█████▌    | 5978/10714 [1:13:36<38:40,  2.04it/s] 56%|█████▌    | 5979/10714 [1:13:36<38:39,  2.04it/s] 56%|█████▌    | 5980/10714 [1:13:37<38:40,  2.04it/s] 56%|█████▌    | 5981/10714 [1:13:37<38:41,  2.04it/s] 56%|█████▌    | 5982/10714 [1:13:38<38:40,  2.04it/s] 56%|█████▌    | 5983/10714 [1:13:38<38:41,  2.04it/s] 56%|█████▌    | 5984/10714 [1:13:39<38:43,  2.04it/s] 56%|█████▌    | 5985/10714 [1:13:39<38:39,  2.04it/s] 56%|█████▌    | 5986/10714 [1:13:40<38:37,  2.04it/s] 56%|█████▌    | 5987/10714 [1:13:40<38:35,  2.04it/s] 56%|█████▌    | 5988/10714 [1:13:41<38:34,  2.04it/s] 56%|█████▌    | 5989/10714 [1:13:42<44:51,  1.76it/s] 56%|█████▌    | 5990/10714 [1:13:42<43:02,  1.83it/s] 56%|█████▌    | 5991/10714 [1:13:43<41:41,  1.89it/s] 56%|█████▌    | 5992/10714 [1:13:43<40:44,  1.93it/s] 56%|█████▌    | 5993/10714 [1:13:44<40:04,  1.96it/s] 56%|█████▌    | 5994/10714 [1:13:44<39:39,  1.98it/s] 56%|█████▌    | 5995/10714 [1:13:45<39:19,  2.00it/s] 56%|█████▌    | 5996/10714 [1:13:45<39:04,  2.01it/s] 56%|█████▌    | 5997/10714 [1:13:46<38:54,  2.02it/s] 56%|█████▌    | 5998/10714 [1:13:46<38:47,  2.03it/s] 56%|█████▌    | 5999/10714 [1:13:47<38:45,  2.03it/s] 56%|█████▌    | 6000/10714 [1:13:47<38:39,  2.03it/s]{'loss': 3.4588, 'grad_norm': 0.22413049638271332, 'learning_rate': 0.0004825719600167285, 'epoch': 0.56}
-                                                       56%|█████▌    | 6000/10714 [1:13:47<38:39,  2.03it/s] 56%|█████▌    | 6001/10714 [1:13:48<38:39,  2.03it/s] 56%|█████▌    | 6002/10714 [1:13:48<38:37,  2.03it/s] 56%|█████▌    | 6003/10714 [1:13:49<38:32,  2.04it/s] 56%|█████▌    | 6004/10714 [1:13:49<38:30,  2.04it/s] 56%|█████▌    | 6005/10714 [1:13:49<38:28,  2.04it/s] 56%|█████▌    | 6006/10714 [1:13:50<38:23,  2.04it/s] 56%|█████▌    | 6007/10714 [1:13:50<38:24,  2.04it/s] 56%|█████▌    | 6008/10714 [1:13:51<38:26,  2.04it/s] 56%|█████▌    | 6009/10714 [1:13:51<38:28,  2.04it/s] 56%|█████▌    | 6010/10714 [1:13:52<38:27,  2.04it/s] 56%|█████▌    | 6011/10714 [1:13:52<38:26,  2.04it/s] 56%|█████▌    | 6012/10714 [1:13:53<38:25,  2.04it/s] 56%|█████▌    | 6013/10714 [1:13:53<38:22,  2.04it/s] 56%|█████▌    | 6014/10714 [1:13:54<44:54,  1.74it/s] 56%|█████▌    | 6015/10714 [1:13:55<42:58,  1.82it/s] 56%|█████▌    | 6016/10714 [1:13:55<41:39,  1.88it/s] 56%|█████▌    | 6017/10714 [1:13:56<40:37,  1.93it/s] 56%|█████▌    | 6018/10714 [1:13:56<39:55,  1.96it/s] 56%|█████▌    | 6019/10714 [1:13:57<39:26,  1.98it/s] 56%|█████▌    | 6020/10714 [1:13:57<39:05,  2.00it/s] 56%|█████▌    | 6021/10714 [1:13:58<38:50,  2.01it/s] 56%|█████▌    | 6022/10714 [1:13:58<38:38,  2.02it/s] 56%|█████▌    | 6023/10714 [1:13:59<38:30,  2.03it/s] 56%|█████▌    | 6024/10714 [1:13:59<38:27,  2.03it/s] 56%|█████▌    | 6025/10714 [1:14:00<38:23,  2.04it/s]                                                      {'loss': 3.465, 'grad_norm': 0.19440129399299622, 'learning_rate': 0.00047850226112519423, 'epoch': 0.56}
- 56%|█████▌    | 6025/10714 [1:14:00<38:23,  2.04it/s] 56%|█████▌    | 6026/10714 [1:14:00<38:20,  2.04it/s] 56%|█████▋    | 6027/10714 [1:14:01<38:17,  2.04it/s] 56%|█████▋    | 6028/10714 [1:14:01<38:18,  2.04it/s] 56%|█████▋    | 6029/10714 [1:14:02<38:17,  2.04it/s] 56%|█████▋    | 6030/10714 [1:14:02<38:16,  2.04it/s] 56%|█████▋    | 6031/10714 [1:14:03<38:14,  2.04it/s] 56%|█████▋    | 6032/10714 [1:14:03<38:14,  2.04it/s] 56%|█████▋    | 6033/10714 [1:14:03<38:15,  2.04it/s] 56%|█████▋    | 6034/10714 [1:14:04<38:13,  2.04it/s] 56%|█████▋    | 6035/10714 [1:14:04<38:12,  2.04it/s] 56%|█████▋    | 6036/10714 [1:14:05<38:12,  2.04it/s] 56%|█████▋    | 6037/10714 [1:14:05<38:12,  2.04it/s] 56%|█████▋    | 6038/10714 [1:14:06<38:10,  2.04it/s] 56%|█████▋    | 6039/10714 [1:14:06<38:09,  2.04it/s] 56%|█████▋    | 6040/10714 [1:14:07<38:10,  2.04it/s] 56%|█████▋    | 6041/10714 [1:14:07<38:12,  2.04it/s] 56%|█████▋    | 6042/10714 [1:14:08<38:09,  2.04it/s] 56%|█████▋    | 6043/10714 [1:14:08<38:08,  2.04it/s] 56%|█████▋    | 6044/10714 [1:14:09<38:08,  2.04it/s] 56%|█████▋    | 6045/10714 [1:14:09<38:09,  2.04it/s] 56%|█████▋    | 6046/10714 [1:14:10<38:07,  2.04it/s] 56%|█████▋    | 6047/10714 [1:14:10<38:03,  2.04it/s] 56%|█████▋    | 6048/10714 [1:14:11<38:02,  2.04it/s] 56%|█████▋    | 6049/10714 [1:14:11<38:03,  2.04it/s] 56%|█████▋    | 6050/10714 [1:14:12<38:04,  2.04it/s]{'loss': 3.4557, 'grad_norm': 0.20691819489002228, 'learning_rate': 0.0004744339886157941, 'epoch': 0.56}
-                                                       56%|█████▋    | 6050/10714 [1:14:12<38:04,  2.04it/s] 56%|█████▋    | 6051/10714 [1:14:12<38:05,  2.04it/s] 56%|█████▋    | 6052/10714 [1:14:13<38:02,  2.04it/s] 56%|█████▋    | 6053/10714 [1:14:13<38:00,  2.04it/s] 57%|█████▋    | 6054/10714 [1:14:14<37:59,  2.04it/s] 57%|█████▋    | 6055/10714 [1:14:14<37:58,  2.04it/s] 57%|█████▋    | 6056/10714 [1:14:15<37:58,  2.04it/s] 57%|█████▋    | 6057/10714 [1:14:15<38:00,  2.04it/s] 57%|█████▋    | 6058/10714 [1:14:16<37:59,  2.04it/s] 57%|█████▋    | 6059/10714 [1:14:16<38:19,  2.02it/s] 57%|█████▋    | 6060/10714 [1:14:17<38:09,  2.03it/s] 57%|█████▋    | 6061/10714 [1:14:17<38:04,  2.04it/s] 57%|█████▋    | 6062/10714 [1:14:18<38:05,  2.04it/s] 57%|█████▋    | 6063/10714 [1:14:18<38:03,  2.04it/s] 57%|█████▋    | 6064/10714 [1:14:19<38:01,  2.04it/s] 57%|█████▋    | 6065/10714 [1:14:19<37:56,  2.04it/s] 57%|█████▋    | 6066/10714 [1:14:20<37:55,  2.04it/s] 57%|█████▋    | 6067/10714 [1:14:20<37:56,  2.04it/s] 57%|█████▋    | 6068/10714 [1:14:21<37:54,  2.04it/s] 57%|█████▋    | 6069/10714 [1:14:21<37:50,  2.05it/s] 57%|█████▋    | 6070/10714 [1:14:22<37:48,  2.05it/s] 57%|█████▋    | 6071/10714 [1:14:22<37:49,  2.05it/s] 57%|█████▋    | 6072/10714 [1:14:23<37:53,  2.04it/s] 57%|█████▋    | 6073/10714 [1:14:23<37:50,  2.04it/s] 57%|█████▋    | 6074/10714 [1:14:24<37:47,  2.05it/s] 57%|█████▋    | 6075/10714 [1:14:24<37:49,  2.04it/s]{'loss': 3.4618, 'grad_norm': 0.21666319668293, 'learning_rate': 0.00047036741241976367, 'epoch': 0.57}                                                      
- 57%|█████▋    | 6075/10714 [1:14:24<37:49,  2.04it/s] 57%|█████▋    | 6076/10714 [1:14:25<37:52,  2.04it/s] 57%|█████▋    | 6077/10714 [1:14:25<37:50,  2.04it/s] 57%|█████▋    | 6078/10714 [1:14:26<37:47,  2.04it/s] 57%|█████▋    | 6079/10714 [1:14:26<37:46,  2.04it/s] 57%|█████▋    | 6080/10714 [1:14:27<37:50,  2.04it/s] 57%|█████▋    | 6081/10714 [1:14:27<37:47,  2.04it/s] 57%|█████▋    | 6082/10714 [1:14:27<37:44,  2.05it/s] 57%|█████▋    | 6083/10714 [1:14:28<37:44,  2.04it/s] 57%|█████▋    | 6084/10714 [1:14:28<37:46,  2.04it/s] 57%|█████▋    | 6085/10714 [1:14:29<37:47,  2.04it/s] 57%|█████▋    | 6086/10714 [1:14:29<37:44,  2.04it/s] 57%|█████▋    | 6087/10714 [1:14:30<37:43,  2.04it/s] 57%|█████▋    | 6088/10714 [1:14:30<37:43,  2.04it/s] 57%|█████▋    | 6089/10714 [1:14:31<37:46,  2.04it/s] 57%|█████▋    | 6090/10714 [1:14:31<37:43,  2.04it/s] 57%|█████▋    | 6091/10714 [1:14:32<37:39,  2.05it/s] 57%|█████▋    | 6092/10714 [1:14:32<37:40,  2.04it/s] 57%|█████▋    | 6093/10714 [1:14:33<37:41,  2.04it/s] 57%|█████▋    | 6094/10714 [1:14:33<37:42,  2.04it/s] 57%|█████▋    | 6095/10714 [1:14:34<37:38,  2.05it/s] 57%|█████▋    | 6096/10714 [1:14:34<37:39,  2.04it/s] 57%|█████▋    | 6097/10714 [1:14:35<37:41,  2.04it/s] 57%|█████▋    | 6098/10714 [1:14:35<37:41,  2.04it/s] 57%|█████▋    | 6099/10714 [1:14:36<37:39,  2.04it/s] 57%|█████▋    | 6100/10714 [1:14:36<37:39,  2.04it/s]{'loss': 3.4589, 'grad_norm': 0.21661707758903503, 'learning_rate': 0.0004663028023557881, 'epoch': 0.57}                                                      
- 57%|█████▋    | 6100/10714 [1:14:36<37:39,  2.04it/s] 57%|█████▋    | 6101/10714 [1:14:37<37:43,  2.04it/s] 57%|█████▋    | 6102/10714 [1:14:37<37:41,  2.04it/s] 57%|█████▋    | 6103/10714 [1:14:38<37:37,  2.04it/s] 57%|█████▋    | 6104/10714 [1:14:38<37:38,  2.04it/s] 57%|█████▋    | 6105/10714 [1:14:39<37:39,  2.04it/s] 57%|█████▋    | 6106/10714 [1:14:39<37:39,  2.04it/s] 57%|█████▋    | 6107/10714 [1:14:40<37:36,  2.04it/s] 57%|█████▋    | 6108/10714 [1:14:40<37:37,  2.04it/s] 57%|█████▋    | 6109/10714 [1:14:41<37:38,  2.04it/s] 57%|█████▋    | 6110/10714 [1:14:41<37:35,  2.04it/s] 57%|█████▋    | 6111/10714 [1:14:42<37:34,  2.04it/s] 57%|█████▋    | 6112/10714 [1:14:42<37:37,  2.04it/s] 57%|█████▋    | 6113/10714 [1:14:43<37:35,  2.04it/s] 57%|█████▋    | 6114/10714 [1:14:43<37:33,  2.04it/s] 57%|█████▋    | 6115/10714 [1:14:44<37:30,  2.04it/s] 57%|█████▋    | 6116/10714 [1:14:44<37:33,  2.04it/s] 57%|█████▋    | 6117/10714 [1:14:45<37:33,  2.04it/s] 57%|█████▋    | 6118/10714 [1:14:45<37:32,  2.04it/s] 57%|█████▋    | 6119/10714 [1:14:46<37:29,  2.04it/s] 57%|█████▋    | 6120/10714 [1:14:46<37:28,  2.04it/s] 57%|█████▋    | 6121/10714 [1:14:47<37:31,  2.04it/s] 57%|█████▋    | 6122/10714 [1:14:47<37:31,  2.04it/s] 57%|█████▋    | 6123/10714 [1:14:48<37:27,  2.04it/s] 57%|█████▋    | 6124/10714 [1:14:48<37:27,  2.04it/s] 57%|█████▋    | 6125/10714 [1:14:49<37:28,  2.04it/s]{'loss': 3.4746, 'grad_norm': 0.19972464442253113, 'learning_rate': 0.000462240428112099, 'epoch': 0.57}                                                      
- 57%|█████▋    | 6125/10714 [1:14:49<37:28,  2.04it/s] 57%|█████▋    | 6126/10714 [1:14:49<37:29,  2.04it/s] 57%|█████▋    | 6127/10714 [1:14:50<37:24,  2.04it/s] 57%|█████▋    | 6128/10714 [1:14:50<37:19,  2.05it/s] 57%|█████▋    | 6129/10714 [1:14:51<39:59,  1.91it/s] 57%|█████▋    | 6130/10714 [1:14:51<39:12,  1.95it/s] 57%|█████▋    | 6131/10714 [1:14:52<38:41,  1.97it/s] 57%|█████▋    | 6132/10714 [1:14:52<38:18,  1.99it/s] 57%|█████▋    | 6133/10714 [1:14:53<37:59,  2.01it/s] 57%|█████▋    | 6134/10714 [1:14:53<37:49,  2.02it/s] 57%|█████▋    | 6135/10714 [1:14:54<37:42,  2.02it/s] 57%|█████▋    | 6136/10714 [1:14:54<37:35,  2.03it/s] 57%|█████▋    | 6137/10714 [1:14:55<37:30,  2.03it/s] 57%|█████▋    | 6138/10714 [1:14:55<37:25,  2.04it/s] 57%|█████▋    | 6139/10714 [1:14:56<37:28,  2.03it/s] 57%|█████▋    | 6140/10714 [1:14:56<37:25,  2.04it/s] 57%|█████▋    | 6141/10714 [1:14:56<37:21,  2.04it/s] 57%|█████▋    | 6142/10714 [1:14:57<37:19,  2.04it/s] 57%|█████▋    | 6143/10714 [1:14:57<37:19,  2.04it/s] 57%|█████▋    | 6144/10714 [1:14:58<37:19,  2.04it/s] 57%|█████▋    | 6145/10714 [1:14:58<37:19,  2.04it/s] 57%|█████▋    | 6146/10714 [1:14:59<37:18,  2.04it/s] 57%|█████▋    | 6147/10714 [1:14:59<37:19,  2.04it/s] 57%|█████▋    | 6148/10714 [1:15:00<37:20,  2.04it/s] 57%|█████▋    | 6149/10714 [1:15:00<37:19,  2.04it/s] 57%|█████▋    | 6150/10714 [1:15:01<37:14,  2.04it/s]                                                      {'loss': 3.4695, 'grad_norm': 0.2152692973613739, 'learning_rate': 0.0004581805592285801, 'epoch': 0.57}
- 57%|█████▋    | 6150/10714 [1:15:01<37:14,  2.04it/s] 57%|█████▋    | 6151/10714 [1:15:01<37:17,  2.04it/s] 57%|█████▋    | 6152/10714 [1:15:02<37:16,  2.04it/s] 57%|█████▋    | 6153/10714 [1:15:02<37:15,  2.04it/s] 57%|█████▋    | 6154/10714 [1:15:03<37:11,  2.04it/s] 57%|█████▋    | 6155/10714 [1:15:03<37:10,  2.04it/s] 57%|█████▋    | 6156/10714 [1:15:04<37:13,  2.04it/s] 57%|█████▋    | 6157/10714 [1:15:04<37:13,  2.04it/s] 57%|█████▋    | 6158/10714 [1:15:05<37:12,  2.04it/s] 57%|█████▋    | 6159/10714 [1:15:05<37:11,  2.04it/s] 57%|█████▋    | 6160/10714 [1:15:06<37:10,  2.04it/s] 58%|█████▊    | 6161/10714 [1:15:06<37:08,  2.04it/s] 58%|█████▊    | 6162/10714 [1:15:07<37:06,  2.04it/s] 58%|█████▊    | 6163/10714 [1:15:07<37:07,  2.04it/s] 58%|█████▊    | 6164/10714 [1:15:08<37:10,  2.04it/s] 58%|█████▊    | 6165/10714 [1:15:08<37:09,  2.04it/s] 58%|█████▊    | 6166/10714 [1:15:09<37:06,  2.04it/s] 58%|█████▊    | 6167/10714 [1:15:09<37:07,  2.04it/s] 58%|█████▊    | 6168/10714 [1:15:10<37:06,  2.04it/s] 58%|█████▊    | 6169/10714 [1:15:10<37:06,  2.04it/s] 58%|█████▊    | 6170/10714 [1:15:11<37:05,  2.04it/s] 58%|█████▊    | 6171/10714 [1:15:11<37:06,  2.04it/s] 58%|█████▊    | 6172/10714 [1:15:12<37:07,  2.04it/s] 58%|█████▊    | 6173/10714 [1:15:12<37:05,  2.04it/s] 58%|█████▊    | 6174/10714 [1:15:13<37:03,  2.04it/s] 58%|█████▊    | 6175/10714 [1:15:13<37:04,  2.04it/s]                                                      {'loss': 3.4545, 'grad_norm': 0.20202836394309998, 'learning_rate': 0.00045412346507888384, 'epoch': 0.58}
- 58%|█████▊    | 6175/10714 [1:15:13<37:04,  2.04it/s] 58%|█████▊    | 6176/10714 [1:15:14<37:05,  2.04it/s] 58%|█████▊    | 6177/10714 [1:15:14<37:05,  2.04it/s] 58%|█████▊    | 6178/10714 [1:15:15<37:05,  2.04it/s] 58%|█████▊    | 6179/10714 [1:15:15<37:05,  2.04it/s] 58%|█████▊    | 6180/10714 [1:15:16<37:03,  2.04it/s] 58%|█████▊    | 6181/10714 [1:15:16<36:59,  2.04it/s] 58%|█████▊    | 6182/10714 [1:15:17<37:02,  2.04it/s] 58%|█████▊    | 6183/10714 [1:15:17<36:59,  2.04it/s] 58%|█████▊    | 6184/10714 [1:15:18<36:56,  2.04it/s] 58%|█████▊    | 6185/10714 [1:15:18<36:59,  2.04it/s] 58%|█████▊    | 6186/10714 [1:15:19<36:57,  2.04it/s] 58%|█████▊    | 6187/10714 [1:15:19<36:54,  2.04it/s] 58%|█████▊    | 6188/10714 [1:15:20<36:52,  2.05it/s] 58%|█████▊    | 6189/10714 [1:15:20<36:50,  2.05it/s] 58%|█████▊    | 6190/10714 [1:15:20<36:54,  2.04it/s] 58%|█████▊    | 6191/10714 [1:15:21<36:53,  2.04it/s] 58%|█████▊    | 6192/10714 [1:15:21<36:55,  2.04it/s] 58%|█████▊    | 6193/10714 [1:15:22<36:52,  2.04it/s] 58%|█████▊    | 6194/10714 [1:15:22<36:52,  2.04it/s] 58%|█████▊    | 6195/10714 [1:15:23<36:52,  2.04it/s] 58%|█████▊    | 6196/10714 [1:15:23<36:49,  2.04it/s] 58%|█████▊    | 6197/10714 [1:15:24<36:54,  2.04it/s] 58%|█████▊    | 6198/10714 [1:15:24<36:54,  2.04it/s] 58%|█████▊    | 6199/10714 [1:15:25<36:52,  2.04it/s] 58%|█████▊    | 6200/10714 [1:15:25<36:54,  2.04it/s]{'loss': 3.4598, 'grad_norm': 0.22039338946342468, 'learning_rate': 0.0004500694148525587, 'epoch': 0.58}
-                                                       58%|█████▊    | 6200/10714 [1:15:25<36:54,  2.04it/s] 58%|█████▊    | 6201/10714 [1:15:26<36:55,  2.04it/s] 58%|█████▊    | 6202/10714 [1:15:26<36:52,  2.04it/s] 58%|█████▊    | 6203/10714 [1:15:27<36:49,  2.04it/s] 58%|█████▊    | 6204/10714 [1:15:27<36:48,  2.04it/s] 58%|█████▊    | 6205/10714 [1:15:28<36:51,  2.04it/s] 58%|█████▊    | 6206/10714 [1:15:28<36:47,  2.04it/s] 58%|█████▊    | 6207/10714 [1:15:29<36:45,  2.04it/s] 58%|█████▊    | 6208/10714 [1:15:29<36:42,  2.05it/s] 58%|█████▊    | 6209/10714 [1:15:30<36:44,  2.04it/s] 58%|█████▊    | 6210/10714 [1:15:30<36:45,  2.04it/s] 58%|█████▊    | 6211/10714 [1:15:31<36:42,  2.04it/s] 58%|█████▊    | 6212/10714 [1:15:31<36:39,  2.05it/s] 58%|█████▊    | 6213/10714 [1:15:32<36:39,  2.05it/s] 58%|█████▊    | 6214/10714 [1:15:32<36:41,  2.04it/s] 58%|█████▊    | 6215/10714 [1:15:33<36:41,  2.04it/s] 58%|█████▊    | 6216/10714 [1:15:33<36:38,  2.05it/s] 58%|█████▊    | 6217/10714 [1:15:34<36:38,  2.05it/s] 58%|█████▊    | 6218/10714 [1:15:34<36:38,  2.04it/s] 58%|█████▊    | 6219/10714 [1:15:35<36:38,  2.04it/s] 58%|█████▊    | 6220/10714 [1:15:35<36:36,  2.05it/s] 58%|█████▊    | 6221/10714 [1:15:36<36:34,  2.05it/s] 58%|█████▊    | 6222/10714 [1:15:36<36:32,  2.05it/s] 58%|█████▊    | 6223/10714 [1:15:37<36:33,  2.05it/s] 58%|█████▊    | 6224/10714 [1:15:37<36:36,  2.04it/s] 58%|█████▊    | 6225/10714 [1:15:38<36:36,  2.04it/s]                                                      {'loss': 3.4487, 'grad_norm': 0.19546379148960114, 'learning_rate': 0.0004460186775371869, 'epoch': 0.58}
- 58%|█████▊    | 6225/10714 [1:15:38<36:36,  2.04it/s] 58%|█████▊    | 6226/10714 [1:15:38<36:45,  2.03it/s] 58%|█████▊    | 6227/10714 [1:15:39<36:43,  2.04it/s] 58%|█████▊    | 6228/10714 [1:15:39<36:39,  2.04it/s] 58%|█████▊    | 6229/10714 [1:15:40<36:36,  2.04it/s] 58%|█████▊    | 6230/10714 [1:15:40<36:36,  2.04it/s] 58%|█████▊    | 6231/10714 [1:15:41<36:36,  2.04it/s] 58%|█████▊    | 6232/10714 [1:15:41<36:35,  2.04it/s] 58%|█████▊    | 6233/10714 [1:15:42<36:33,  2.04it/s] 58%|█████▊    | 6234/10714 [1:15:42<36:32,  2.04it/s] 58%|█████▊    | 6235/10714 [1:15:43<36:35,  2.04it/s] 58%|█████▊    | 6236/10714 [1:15:43<36:33,  2.04it/s] 58%|█████▊    | 6237/10714 [1:15:44<36:31,  2.04it/s] 58%|█████▊    | 6238/10714 [1:15:44<36:27,  2.05it/s] 58%|█████▊    | 6239/10714 [1:15:44<36:27,  2.05it/s] 58%|█████▊    | 6240/10714 [1:15:45<36:29,  2.04it/s] 58%|█████▊    | 6241/10714 [1:15:45<36:27,  2.04it/s] 58%|█████▊    | 6242/10714 [1:15:46<36:25,  2.05it/s] 58%|█████▊    | 6243/10714 [1:15:46<36:23,  2.05it/s] 58%|█████▊    | 6244/10714 [1:15:47<36:24,  2.05it/s] 58%|█████▊    | 6245/10714 [1:15:47<36:24,  2.05it/s] 58%|█████▊    | 6246/10714 [1:15:48<36:26,  2.04it/s] 58%|█████▊    | 6247/10714 [1:15:48<36:25,  2.04it/s] 58%|█████▊    | 6248/10714 [1:15:49<36:23,  2.05it/s] 58%|█████▊    | 6249/10714 [1:15:49<36:28,  2.04it/s] 58%|█████▊    | 6250/10714 [1:15:50<36:27,  2.04it/s]{'loss': 3.4517, 'grad_norm': 0.20605437457561493, 'learning_rate': 0.0004419715219005387, 'epoch': 0.58}
-                                                       58%|█████▊    | 6250/10714 [1:15:50<36:27,  2.04it/s] 58%|█████▊    | 6251/10714 [1:15:50<36:26,  2.04it/s] 58%|█████▊    | 6252/10714 [1:15:51<36:24,  2.04it/s] 58%|█████▊    | 6253/10714 [1:15:51<36:25,  2.04it/s] 58%|█████▊    | 6254/10714 [1:15:52<36:24,  2.04it/s] 58%|█████▊    | 6255/10714 [1:15:52<36:22,  2.04it/s] 58%|█████▊    | 6256/10714 [1:15:53<36:20,  2.04it/s] 58%|█████▊    | 6257/10714 [1:15:53<36:23,  2.04it/s] 58%|█████▊    | 6258/10714 [1:15:54<36:23,  2.04it/s] 58%|█████▊    | 6259/10714 [1:15:54<36:21,  2.04it/s] 58%|█████▊    | 6260/10714 [1:15:55<36:18,  2.04it/s] 58%|█████▊    | 6261/10714 [1:15:55<36:18,  2.04it/s] 58%|█████▊    | 6262/10714 [1:15:56<36:18,  2.04it/s] 58%|█████▊    | 6263/10714 [1:15:56<36:19,  2.04it/s] 58%|█████▊    | 6264/10714 [1:15:57<36:16,  2.04it/s] 58%|█████▊    | 6265/10714 [1:15:57<36:13,  2.05it/s] 58%|█████▊    | 6266/10714 [1:15:58<36:14,  2.05it/s] 58%|█████▊    | 6267/10714 [1:15:58<36:17,  2.04it/s] 59%|█████▊    | 6268/10714 [1:15:59<36:15,  2.04it/s] 59%|█████▊    | 6269/10714 [1:15:59<36:15,  2.04it/s] 59%|█████▊    | 6270/10714 [1:16:00<36:11,  2.05it/s] 59%|█████▊    | 6271/10714 [1:16:00<36:09,  2.05it/s] 59%|█████▊    | 6272/10714 [1:16:01<36:13,  2.04it/s] 59%|█████▊    | 6273/10714 [1:16:01<36:13,  2.04it/s] 59%|█████▊    | 6274/10714 [1:16:02<36:13,  2.04it/s] 59%|█████▊    | 6275/10714 [1:16:02<36:13,  2.04it/s]{'loss': 3.456, 'grad_norm': 0.20459134876728058, 'learning_rate': 0.0004379282164727383, 'epoch': 0.59}
-                                                       59%|█████▊    | 6275/10714 [1:16:02<36:13,  2.04it/s] 59%|█████▊    | 6276/10714 [1:16:03<36:16,  2.04it/s] 59%|█████▊    | 6277/10714 [1:16:03<36:17,  2.04it/s] 59%|█████▊    | 6278/10714 [1:16:04<36:14,  2.04it/s] 59%|█████▊    | 6279/10714 [1:16:04<36:12,  2.04it/s] 59%|█████▊    | 6280/10714 [1:16:05<36:11,  2.04it/s] 59%|█████▊    | 6281/10714 [1:16:05<36:14,  2.04it/s] 59%|█████▊    | 6282/10714 [1:16:06<36:12,  2.04it/s] 59%|█████▊    | 6283/10714 [1:16:06<36:12,  2.04it/s] 59%|█████▊    | 6284/10714 [1:16:07<36:12,  2.04it/s] 59%|█████▊    | 6285/10714 [1:16:07<36:11,  2.04it/s] 59%|█████▊    | 6286/10714 [1:16:07<36:08,  2.04it/s] 59%|█████▊    | 6287/10714 [1:16:08<36:05,  2.04it/s] 59%|█████▊    | 6288/10714 [1:16:08<36:04,  2.05it/s] 59%|█████▊    | 6289/10714 [1:16:09<36:07,  2.04it/s] 59%|█████▊    | 6290/10714 [1:16:09<36:06,  2.04it/s] 59%|█████▊    | 6291/10714 [1:16:10<36:04,  2.04it/s] 59%|█████▊    | 6292/10714 [1:16:10<36:02,  2.04it/s] 59%|█████▊    | 6293/10714 [1:16:11<36:00,  2.05it/s] 59%|█████▊    | 6294/10714 [1:16:11<36:01,  2.04it/s] 59%|█████▉    | 6295/10714 [1:16:12<36:00,  2.05it/s] 59%|█████▉    | 6296/10714 [1:16:12<36:00,  2.05it/s] 59%|█████▉    | 6297/10714 [1:16:13<36:01,  2.04it/s] 59%|█████▉    | 6298/10714 [1:16:13<36:01,  2.04it/s] 59%|█████▉    | 6299/10714 [1:16:14<36:03,  2.04it/s] 59%|█████▉    | 6300/10714 [1:16:14<36:04,  2.04it/s]                                                      {'loss': 3.4525, 'grad_norm': 0.20232276618480682, 'learning_rate': 0.00043388902952844725, 'epoch': 0.59}
- 59%|█████▉    | 6300/10714 [1:16:14<36:04,  2.04it/s] 59%|█████▉    | 6301/10714 [1:16:15<36:07,  2.04it/s] 59%|█████▉    | 6302/10714 [1:16:15<36:04,  2.04it/s] 59%|█████▉    | 6303/10714 [1:16:16<36:02,  2.04it/s] 59%|█████▉    | 6304/10714 [1:16:16<36:00,  2.04it/s] 59%|█████▉    | 6305/10714 [1:16:17<35:57,  2.04it/s] 59%|█████▉    | 6306/10714 [1:16:17<35:56,  2.04it/s] 59%|█████▉    | 6307/10714 [1:16:18<35:57,  2.04it/s] 59%|█████▉    | 6308/10714 [1:16:18<35:56,  2.04it/s] 59%|█████▉    | 6309/10714 [1:16:19<35:55,  2.04it/s] 59%|█████▉    | 6310/10714 [1:16:19<35:52,  2.05it/s] 59%|█████▉    | 6311/10714 [1:16:20<35:53,  2.04it/s] 59%|█████▉    | 6312/10714 [1:16:20<35:52,  2.04it/s] 59%|█████▉    | 6313/10714 [1:16:21<35:51,  2.05it/s] 59%|█████▉    | 6314/10714 [1:16:21<35:51,  2.04it/s] 59%|█████▉    | 6315/10714 [1:16:22<35:48,  2.05it/s] 59%|█████▉    | 6316/10714 [1:16:22<35:49,  2.05it/s] 59%|█████▉    | 6317/10714 [1:16:23<35:51,  2.04it/s] 59%|█████▉    | 6318/10714 [1:16:23<35:51,  2.04it/s] 59%|█████▉    | 6319/10714 [1:16:24<35:49,  2.04it/s] 59%|█████▉    | 6320/10714 [1:16:24<35:48,  2.05it/s] 59%|█████▉    | 6321/10714 [1:16:25<35:49,  2.04it/s] 59%|█████▉    | 6322/10714 [1:16:25<35:48,  2.04it/s] 59%|█████▉    | 6323/10714 [1:16:26<35:47,  2.04it/s] 59%|█████▉    | 6324/10714 [1:16:26<35:48,  2.04it/s] 59%|█████▉    | 6325/10714 [1:16:27<35:48,  2.04it/s]{'loss': 3.449, 'grad_norm': 0.2104666829109192, 'learning_rate': 0.000429854229069065, 'epoch': 0.59}                                                      
- 59%|█████▉    | 6325/10714 [1:16:27<35:48,  2.04it/s] 59%|█████▉    | 6326/10714 [1:16:27<35:48,  2.04it/s] 59%|█████▉    | 6327/10714 [1:16:28<35:46,  2.04it/s] 59%|█████▉    | 6328/10714 [1:16:28<35:44,  2.04it/s] 59%|█████▉    | 6329/10714 [1:16:29<35:46,  2.04it/s] 59%|█████▉    | 6330/10714 [1:16:29<35:48,  2.04it/s] 59%|█████▉    | 6331/10714 [1:16:30<35:46,  2.04it/s] 59%|█████▉    | 6332/10714 [1:16:30<35:43,  2.04it/s] 59%|█████▉    | 6333/10714 [1:16:30<35:43,  2.04it/s] 59%|█████▉    | 6334/10714 [1:16:31<35:43,  2.04it/s] 59%|█████▉    | 6335/10714 [1:16:31<35:45,  2.04it/s] 59%|█████▉    | 6336/10714 [1:16:32<35:43,  2.04it/s] 59%|█████▉    | 6337/10714 [1:16:32<35:43,  2.04it/s] 59%|█████▉    | 6338/10714 [1:16:33<35:43,  2.04it/s] 59%|█████▉    | 6339/10714 [1:16:33<35:43,  2.04it/s] 59%|█████▉    | 6340/10714 [1:16:34<35:41,  2.04it/s] 59%|█████▉    | 6341/10714 [1:16:34<35:41,  2.04it/s] 59%|█████▉    | 6342/10714 [1:16:35<35:40,  2.04it/s] 59%|█████▉    | 6343/10714 [1:16:35<35:41,  2.04it/s] 59%|█████▉    | 6344/10714 [1:16:36<35:40,  2.04it/s] 59%|█████▉    | 6345/10714 [1:16:36<35:39,  2.04it/s] 59%|█████▉    | 6346/10714 [1:16:37<35:37,  2.04it/s] 59%|█████▉    | 6347/10714 [1:16:37<35:38,  2.04it/s] 59%|█████▉    | 6348/10714 [1:16:38<35:39,  2.04it/s] 59%|█████▉    | 6349/10714 [1:16:38<35:38,  2.04it/s] 59%|█████▉    | 6350/10714 [1:16:39<35:38,  2.04it/s]{'loss': 3.4452, 'grad_norm': 0.2062339335680008, 'learning_rate': 0.00042582408280494535, 'epoch': 0.59}                                                      
- 59%|█████▉    | 6350/10714 [1:16:39<35:38,  2.04it/s] 59%|█████▉    | 6351/10714 [1:16:39<35:40,  2.04it/s] 59%|█████▉    | 6352/10714 [1:16:40<35:40,  2.04it/s] 59%|█████▉    | 6353/10714 [1:16:40<35:37,  2.04it/s] 59%|█████▉    | 6354/10714 [1:16:41<35:36,  2.04it/s] 59%|█████▉    | 6355/10714 [1:16:41<35:35,  2.04it/s] 59%|█████▉    | 6356/10714 [1:16:42<35:35,  2.04it/s] 59%|█████▉    | 6357/10714 [1:16:42<35:32,  2.04it/s] 59%|█████▉    | 6358/10714 [1:16:43<35:32,  2.04it/s] 59%|█████▉    | 6359/10714 [1:16:43<35:35,  2.04it/s] 59%|█████▉    | 6360/10714 [1:16:44<35:34,  2.04it/s] 59%|█████▉    | 6361/10714 [1:16:44<35:31,  2.04it/s] 59%|█████▉    | 6362/10714 [1:16:45<35:29,  2.04it/s] 59%|█████▉    | 6363/10714 [1:16:45<35:30,  2.04it/s] 59%|█████▉    | 6364/10714 [1:16:46<35:29,  2.04it/s] 59%|█████▉    | 6365/10714 [1:16:46<35:26,  2.04it/s] 59%|█████▉    | 6366/10714 [1:16:47<35:24,  2.05it/s] 59%|█████▉    | 6367/10714 [1:16:47<35:25,  2.05it/s] 59%|█████▉    | 6368/10714 [1:16:48<35:25,  2.04it/s] 59%|█████▉    | 6369/10714 [1:16:48<35:25,  2.04it/s] 59%|█████▉    | 6370/10714 [1:16:49<35:24,  2.04it/s] 59%|█████▉    | 6371/10714 [1:16:49<35:23,  2.05it/s] 59%|█████▉    | 6372/10714 [1:16:50<35:25,  2.04it/s] 59%|█████▉    | 6373/10714 [1:16:50<35:25,  2.04it/s] 59%|█████▉    | 6374/10714 [1:16:51<35:22,  2.04it/s] 60%|█████▉    | 6375/10714 [1:16:51<35:21,  2.05it/s]{'loss': 3.4489, 'grad_norm': 0.20007571578025818, 'learning_rate': 0.0004217988581376354, 'epoch': 0.6}                                                      
- 60%|█████▉    | 6375/10714 [1:16:51<35:21,  2.05it/s] 60%|█████▉    | 6376/10714 [1:16:52<35:23,  2.04it/s] 60%|█████▉    | 6377/10714 [1:16:52<35:23,  2.04it/s] 60%|█████▉    | 6378/10714 [1:16:53<35:23,  2.04it/s] 60%|█████▉    | 6379/10714 [1:16:53<35:22,  2.04it/s] 60%|█████▉    | 6380/10714 [1:16:54<35:21,  2.04it/s] 60%|█████▉    | 6381/10714 [1:16:54<35:19,  2.04it/s] 60%|█████▉    | 6382/10714 [1:16:54<35:21,  2.04it/s] 60%|█████▉    | 6383/10714 [1:16:55<35:19,  2.04it/s] 60%|█████▉    | 6384/10714 [1:16:55<35:17,  2.05it/s] 60%|█████▉    | 6385/10714 [1:16:56<35:17,  2.04it/s] 60%|█████▉    | 6386/10714 [1:16:56<35:15,  2.05it/s] 60%|█████▉    | 6387/10714 [1:16:57<35:15,  2.05it/s] 60%|█████▉    | 6388/10714 [1:16:57<35:15,  2.05it/s] 60%|█████▉    | 6389/10714 [1:16:58<35:14,  2.05it/s] 60%|█████▉    | 6390/10714 [1:16:58<35:14,  2.04it/s] 60%|█████▉    | 6391/10714 [1:16:59<35:15,  2.04it/s] 60%|█████▉    | 6392/10714 [1:16:59<35:15,  2.04it/s] 60%|█████▉    | 6393/10714 [1:17:00<35:14,  2.04it/s] 60%|█████▉    | 6394/10714 [1:17:00<35:12,  2.04it/s] 60%|█████▉    | 6395/10714 [1:17:01<35:12,  2.04it/s] 60%|█████▉    | 6396/10714 [1:17:01<35:13,  2.04it/s] 60%|█████▉    | 6397/10714 [1:17:02<35:13,  2.04it/s] 60%|█████▉    | 6398/10714 [1:17:02<35:10,  2.04it/s] 60%|█████▉    | 6399/10714 [1:17:03<35:11,  2.04it/s] 60%|█████▉    | 6400/10714 [1:17:03<35:11,  2.04it/s]{'loss': 3.439, 'grad_norm': 0.2062813639640808, 'learning_rate': 0.00041777882214213226, 'epoch': 0.6}
-                                                       60%|█████▉    | 6400/10714 [1:17:03<35:11,  2.04it/s] 60%|█████▉    | 6401/10714 [1:17:04<35:14,  2.04it/s] 60%|█████▉    | 6402/10714 [1:17:04<35:12,  2.04it/s] 60%|█████▉    | 6403/10714 [1:17:05<35:11,  2.04it/s] 60%|█████▉    | 6404/10714 [1:17:05<35:10,  2.04it/s] 60%|█████▉    | 6405/10714 [1:17:06<35:11,  2.04it/s] 60%|█████▉    | 6406/10714 [1:17:06<35:10,  2.04it/s] 60%|█████▉    | 6407/10714 [1:17:07<35:06,  2.04it/s] 60%|█████▉    | 6408/10714 [1:17:07<35:07,  2.04it/s] 60%|█████▉    | 6409/10714 [1:17:08<35:06,  2.04it/s] 60%|█████▉    | 6410/10714 [1:17:08<35:07,  2.04it/s] 60%|█████▉    | 6411/10714 [1:17:09<35:06,  2.04it/s] 60%|█████▉    | 6412/10714 [1:17:09<35:04,  2.04it/s] 60%|█████▉    | 6413/10714 [1:17:10<35:06,  2.04it/s] 60%|█████▉    | 6414/10714 [1:17:10<35:05,  2.04it/s] 60%|█████▉    | 6415/10714 [1:17:11<35:06,  2.04it/s] 60%|█████▉    | 6416/10714 [1:17:11<35:03,  2.04it/s] 60%|█████▉    | 6417/10714 [1:17:12<35:01,  2.04it/s] 60%|█████▉    | 6418/10714 [1:17:12<35:01,  2.04it/s] 60%|█████▉    | 6419/10714 [1:17:13<35:03,  2.04it/s] 60%|█████▉    | 6420/10714 [1:17:13<35:02,  2.04it/s] 60%|█████▉    | 6421/10714 [1:17:14<34:59,  2.04it/s] 60%|█████▉    | 6422/10714 [1:17:14<34:59,  2.04it/s] 60%|█████▉    | 6423/10714 [1:17:15<35:00,  2.04it/s] 60%|█████▉    | 6424/10714 [1:17:15<35:01,  2.04it/s] 60%|█████▉    | 6425/10714 [1:17:16<35:01,  2.04it/s]{'loss': 3.4381, 'grad_norm': 0.20025566220283508, 'learning_rate': 0.000413764241549163, 'epoch': 0.6}                                                      
- 60%|█████▉    | 6425/10714 [1:17:16<35:01,  2.04it/s] 60%|█████▉    | 6426/10714 [1:17:16<35:01,  2.04it/s] 60%|█████▉    | 6427/10714 [1:17:17<35:04,  2.04it/s] 60%|█████▉    | 6428/10714 [1:17:17<35:02,  2.04it/s] 60%|██████    | 6429/10714 [1:17:17<34:58,  2.04it/s] 60%|██████    | 6430/10714 [1:17:18<34:59,  2.04it/s] 60%|██████    | 6431/10714 [1:17:18<34:59,  2.04it/s] 60%|██████    | 6432/10714 [1:17:19<34:58,  2.04it/s] 60%|██████    | 6433/10714 [1:17:19<34:58,  2.04it/s] 60%|██████    | 6434/10714 [1:17:20<34:58,  2.04it/s] 60%|██████    | 6435/10714 [1:17:20<34:55,  2.04it/s] 60%|██████    | 6436/10714 [1:17:21<34:51,  2.05it/s] 60%|██████    | 6437/10714 [1:17:21<34:51,  2.05it/s] 60%|██████    | 6438/10714 [1:17:22<34:52,  2.04it/s] 60%|██████    | 6439/10714 [1:17:22<34:53,  2.04it/s] 60%|██████    | 6440/10714 [1:17:23<34:53,  2.04it/s] 60%|██████    | 6441/10714 [1:17:23<34:52,  2.04it/s] 60%|██████    | 6442/10714 [1:17:24<34:54,  2.04it/s] 60%|██████    | 6443/10714 [1:17:24<34:53,  2.04it/s] 60%|██████    | 6444/10714 [1:17:25<34:50,  2.04it/s] 60%|██████    | 6445/10714 [1:17:25<34:47,  2.05it/s] 60%|██████    | 6446/10714 [1:17:26<34:46,  2.05it/s] 60%|██████    | 6447/10714 [1:17:26<34:49,  2.04it/s] 60%|██████    | 6448/10714 [1:17:27<34:49,  2.04it/s] 60%|██████    | 6449/10714 [1:17:27<34:48,  2.04it/s] 60%|██████    | 6450/10714 [1:17:28<34:49,  2.04it/s]{'loss': 3.4499, 'grad_norm': 0.1998777985572815, 'learning_rate': 0.00040975538272748727, 'epoch': 0.6}
-                                                       60%|██████    | 6450/10714 [1:17:28<34:49,  2.04it/s] 60%|██████    | 6451/10714 [1:17:28<34:50,  2.04it/s] 60%|██████    | 6452/10714 [1:17:29<34:47,  2.04it/s] 60%|���█████    | 6453/10714 [1:17:29<34:45,  2.04it/s] 60%|██████    | 6454/10714 [1:17:30<34:45,  2.04it/s] 60%|██████    | 6455/10714 [1:17:30<34:43,  2.04it/s] 60%|██████    | 6456/10714 [1:17:31<34:42,  2.04it/s] 60%|██████    | 6457/10714 [1:17:31<34:43,  2.04it/s] 60%|██████    | 6458/10714 [1:17:32<34:43,  2.04it/s] 60%|██████    | 6459/10714 [1:17:32<34:43,  2.04it/s] 60%|██████    | 6460/10714 [1:17:33<34:43,  2.04it/s] 60%|██████    | 6461/10714 [1:17:33<34:43,  2.04it/s] 60%|██████    | 6462/10714 [1:17:34<34:43,  2.04it/s] 60%|██████    | 6463/10714 [1:17:34<34:43,  2.04it/s] 60%|██████    | 6464/10714 [1:17:35<34:40,  2.04it/s] 60%|██████    | 6465/10714 [1:17:35<34:37,  2.05it/s] 60%|██████    | 6466/10714 [1:17:36<34:34,  2.05it/s] 60%|██████    | 6467/10714 [1:17:36<34:34,  2.05it/s] 60%|██████    | 6468/10714 [1:17:37<34:35,  2.05it/s] 60%|██████    | 6469/10714 [1:17:37<34:37,  2.04it/s] 60%|██████    | 6470/10714 [1:17:38<34:35,  2.05it/s] 60%|██████    | 6471/10714 [1:17:38<34:33,  2.05it/s] 60%|██████    | 6472/10714 [1:17:39<34:33,  2.05it/s] 60%|██████    | 6473/10714 [1:17:39<34:31,  2.05it/s] 60%|██████    | 6474/10714 [1:17:40<34:32,  2.05it/s] 60%|██████    | 6475/10714 [1:17:40<34:32,  2.05it/s]{'loss': 3.4394, 'grad_norm': 0.2211194485425949, 'learning_rate': 0.00040575251166622263, 'epoch': 0.6}                                                      
- 60%|██████    | 6475/10714 [1:17:40<34:32,  2.05it/s] 60%|██████    | 6476/10714 [1:17:40<34:35,  2.04it/s] 60%|██████    | 6477/10714 [1:17:41<34:34,  2.04it/s] 60%|██████    | 6478/10714 [1:17:41<34:31,  2.04it/s] 60%|██████    | 6479/10714 [1:17:42<34:30,  2.05it/s] 60%|██████    | 6480/10714 [1:17:42<34:32,  2.04it/s] 60%|██████    | 6481/10714 [1:17:43<34:31,  2.04it/s] 61%|██████    | 6482/10714 [1:17:43<34:30,  2.04it/s] 61%|██████    | 6483/10714 [1:17:44<34:28,  2.05it/s] 61%|██████    | 6484/10714 [1:17:44<34:28,  2.04it/s] 61%|██████    | 6485/10714 [1:17:45<34:29,  2.04it/s] 61%|██████    | 6486/10714 [1:17:45<34:28,  2.04it/s] 61%|██████    | 6487/10714 [1:17:46<34:26,  2.05it/s] 61%|██████    | 6488/10714 [1:17:46<34:27,  2.04it/s] 61%|██████    | 6489/10714 [1:17:47<34:28,  2.04it/s] 61%|██████    | 6490/10714 [1:17:47<34:25,  2.04it/s] 61%|██████    | 6491/10714 [1:17:48<34:23,  2.05it/s] 61%|██████    | 6492/10714 [1:17:48<34:23,  2.05it/s] 61%|██████    | 6493/10714 [1:17:49<34:22,  2.05it/s] 61%|██████    | 6494/10714 [1:17:49<34:23,  2.04it/s] 61%|██████    | 6495/10714 [1:17:50<34:23,  2.05it/s] 61%|██████    | 6496/10714 [1:17:50<34:21,  2.05it/s] 61%|██████    | 6497/10714 [1:17:51<34:20,  2.05it/s] 61%|██████    | 6498/10714 [1:17:51<34:22,  2.04it/s] 61%|██████    | 6499/10714 [1:17:52<34:22,  2.04it/s] 61%|██████    | 6500/10714 [1:17:52<34:22,  2.04it/s]{'loss': 3.4414, 'grad_norm': 0.2133806347846985, 'learning_rate': 0.0004017558939571975, 'epoch': 0.61}
-                                                       61%|██████    | 6500/10714 [1:17:52<34:22,  2.04it/s] 61%|██████    | 6501/10714 [1:17:53<34:21,  2.04it/s] 61%|██████    | 6502/10714 [1:17:53<34:22,  2.04it/s] 61%|██████    | 6503/10714 [1:17:54<34:24,  2.04it/s] 61%|██████    | 6504/10714 [1:17:54<34:21,  2.04it/s] 61%|██████    | 6505/10714 [1:17:55<34:20,  2.04it/s] 61%|██████    | 6506/10714 [1:17:55<34:17,  2.05it/s] 61%|██████    | 6507/10714 [1:17:56<34:19,  2.04it/s] 61%|██████    | 6508/10714 [1:17:56<34:20,  2.04it/s] 61%|██████    | 6509/10714 [1:17:57<34:20,  2.04it/s] 61%|██████    | 6510/10714 [1:17:57<34:16,  2.04it/s] 61%|██████    | 6511/10714 [1:17:58<34:17,  2.04it/s] 61%|██████    | 6512/10714 [1:17:58<34:18,  2.04it/s] 61%|██████    | 6513/10714 [1:17:59<34:17,  2.04it/s] 61%|██████    | 6514/10714 [1:17:59<34:15,  2.04it/s] 61%|██████    | 6515/10714 [1:18:00<34:15,  2.04it/s] 61%|██████    | 6516/10714 [1:18:00<34:16,  2.04it/s] 61%|██████    | 6517/10714 [1:18:01<34:17,  2.04it/s] 61%|██████    | 6518/10714 [1:18:01<34:16,  2.04it/s] 61%|██████    | 6519/10714 [1:18:02<34:18,  2.04it/s] 61%|██████    | 6520/10714 [1:18:02<34:18,  2.04it/s] 61%|██████    | 6521/10714 [1:18:03<34:14,  2.04it/s] 61%|██████    | 6522/10714 [1:18:03<34:15,  2.04it/s] 61%|██████    | 6523/10714 [1:18:04<34:13,  2.04it/s] 61%|██████    | 6524/10714 [1:18:04<34:14,  2.04it/s] 61%|██████    | 6525/10714 [1:18:04<34:12,  2.04it/s]{'loss': 3.4376, 'grad_norm': 0.2115551084280014, 'learning_rate': 0.0003977657947773278, 'epoch': 0.61}
-                                                       61%|██████    | 6525/10714 [1:18:04<34:12,  2.04it/s] 61%|██████    | 6526/10714 [1:18:05<34:15,  2.04it/s] 61%|██████    | 6527/10714 [1:18:05<34:14,  2.04it/s] 61%|██████    | 6528/10714 [1:18:06<34:11,  2.04it/s] 61%|██████    | 6529/10714 [1:18:06<34:10,  2.04it/s] 61%|██████    | 6530/10714 [1:18:07<34:12,  2.04it/s] 61%|██████    | 6531/10714 [1:18:07<34:11,  2.04it/s] 61%|██████    | 6532/10714 [1:18:08<34:09,  2.04it/s] 61%|██████    | 6533/10714 [1:18:08<34:06,  2.04it/s] 61%|██████    | 6534/10714 [1:18:09<34:07,  2.04it/s] 61%|██████    | 6535/10714 [1:18:09<34:06,  2.04it/s] 61%|██████    | 6536/10714 [1:18:10<34:05,  2.04it/s] 61%|██████    | 6537/10714 [1:18:10<34:02,  2.05it/s] 61%|██████    | 6538/10714 [1:18:11<34:01,  2.05it/s] 61%|██████    | 6539/10714 [1:18:11<34:03,  2.04it/s] 61%|██████    | 6540/10714 [1:18:12<34:03,  2.04it/s] 61%|██████    | 6541/10714 [1:18:12<34:02,  2.04it/s] 61%|██████    | 6542/10714 [1:18:13<34:01,  2.04it/s] 61%|██████    | 6543/10714 [1:18:13<33:59,  2.05it/s] 61%|██████    | 6544/10714 [1:18:14<34:02,  2.04it/s] 61%|██████    | 6545/10714 [1:18:14<34:01,  2.04it/s] 61%|██████    | 6546/10714 [1:18:15<33:58,  2.04it/s] 61%|██████    | 6547/10714 [1:18:15<33:56,  2.05it/s] 61%|██████    | 6548/10714 [1:18:16<33:59,  2.04it/s] 61%|██████    | 6549/10714 [1:18:16<34:01,  2.04it/s] 61%|██████    | 6550/10714 [1:18:17<33:59,  2.04it/s]                                                      {'loss': 3.4321, 'grad_norm': 0.2049834132194519, 'learning_rate': 0.00039378247887102266, 'epoch': 0.61}
- 61%|██████    | 6550/10714 [1:18:17<33:59,  2.04it/s] 61%|██████    | 6551/10714 [1:18:17<33:58,  2.04it/s] 61%|██████    | 6552/10714 [1:18:18<33:57,  2.04it/s] 61%|██████    | 6553/10714 [1:18:18<33:58,  2.04it/s] 61%|██████    | 6554/10714 [1:18:19<33:59,  2.04it/s] 61%|██████    | 6555/10714 [1:18:19<33:57,  2.04it/s] 61%|██████    | 6556/10714 [1:18:20<33:56,  2.04it/s] 61%|██████    | 6557/10714 [1:18:20<33:57,  2.04it/s] 61%|██████    | 6558/10714 [1:18:21<33:56,  2.04it/s] 61%|██████    | 6559/10714 [1:18:21<33:55,  2.04it/s] 61%|██████    | 6560/10714 [1:18:22<33:54,  2.04it/s] 61%|██████    | 6561/10714 [1:18:22<33:53,  2.04it/s] 61%|██████    | 6562/10714 [1:18:23<33:53,  2.04it/s] 61%|██████▏   | 6563/10714 [1:18:23<33:53,  2.04it/s] 61%|██████▏   | 6564/10714 [1:18:24<33:52,  2.04it/s] 61%|██████▏   | 6565/10714 [1:18:24<33:51,  2.04it/s] 61%|██████▏   | 6566/10714 [1:18:25<33:53,  2.04it/s] 61%|██████▏   | 6567/10714 [1:18:25<33:53,  2.04it/s] 61%|██████▏   | 6568/10714 [1:18:26<33:52,  2.04it/s] 61%|██████▏   | 6569/10714 [1:18:26<33:54,  2.04it/s] 61%|██████▏   | 6570/10714 [1:18:27<33:51,  2.04it/s] 61%|██████▏   | 6571/10714 [1:18:27<33:49,  2.04it/s] 61%|██████▏   | 6572/10714 [1:18:28<33:51,  2.04it/s] 61%|██████▏   | 6573/10714 [1:18:28<33:51,  2.04it/s] 61%|██████▏   | 6574/10714 [1:18:28<33:47,  2.04it/s] 61%|██████▏   | 6575/10714 [1:18:29<33:47,  2.04it/s]{'loss': 3.4329, 'grad_norm': 0.20298875868320465, 'learning_rate': 0.0003898062105326196, 'epoch': 0.61}                                                      
- 61%|██████▏   | 6575/10714 [1:18:29<33:47,  2.04it/s] 61%|██████▏   | 6576/10714 [1:18:29<33:53,  2.04it/s] 61%|██████▏   | 6577/10714 [1:18:30<33:49,  2.04it/s] 61%|██████▏   | 6578/10714 [1:18:30<33:47,  2.04it/s] 61%|██████▏   | 6579/10714 [1:18:31<33:46,  2.04it/s] 61%|██████▏   | 6580/10714 [1:18:31<33:46,  2.04it/s] 61%|██████▏   | 6581/10714 [1:18:32<33:45,  2.04it/s] 61%|██████▏   | 6582/10714 [1:18:32<33:43,  2.04it/s] 61%|██████▏   | 6583/10714 [1:18:33<33:42,  2.04it/s] 61%|██████▏   | 6584/10714 [1:18:33<33:41,  2.04it/s] 61%|██████▏   | 6585/10714 [1:18:34<33:41,  2.04it/s] 61%|██████▏   | 6586/10714 [1:18:34<33:39,  2.04it/s] 61%|██████▏   | 6587/10714 [1:18:35<33:37,  2.05it/s] 61%|██████▏   | 6588/10714 [1:18:35<33:38,  2.04it/s] 61%|██████▏   | 6589/10714 [1:18:36<33:40,  2.04it/s] 62%|██████▏   | 6590/10714 [1:18:36<33:40,  2.04it/s] 62%|██████▏   | 6591/10714 [1:18:37<33:37,  2.04it/s] 62%|██████▏   | 6592/10714 [1:18:37<33:36,  2.04it/s] 62%|██████▏   | 6593/10714 [1:18:38<33:38,  2.04it/s] 62%|██████▏   | 6594/10714 [1:18:38<33:38,  2.04it/s] 62%|██████▏   | 6595/10714 [1:18:39<33:36,  2.04it/s] 62%|██████▏   | 6596/10714 [1:18:39<33:35,  2.04it/s] 62%|██████▏   | 6597/10714 [1:18:40<33:37,  2.04it/s] 62%|██████▏   | 6598/10714 [1:18:40<33:37,  2.04it/s] 62%|██████▏   | 6599/10714 [1:18:41<33:36,  2.04it/s] 62%|██████▏   | 6600/10714 [1:18:41<33:36,  2.04it/s]{'loss': 3.4342, 'grad_norm': 0.2168670892715454, 'learning_rate': 0.0003858372535888466, 'epoch': 0.62}                                                      
- 62%|██████▏   | 6600/10714 [1:18:41<33:36,  2.04it/s] 62%|██████▏   | 6601/10714 [1:18:42<33:37,  2.04it/s] 62%|██████▏   | 6602/10714 [1:18:42<33:35,  2.04it/s] 62%|██████▏   | 6603/10714 [1:18:43<33:36,  2.04it/s] 62%|██████▏   | 6604/10714 [1:18:43<33:34,  2.04it/s] 62%|██████▏   | 6605/10714 [1:18:44<33:33,  2.04it/s] 62%|██████▏   | 6606/10714 [1:18:44<33:31,  2.04it/s] 62%|██████▏   | 6607/10714 [1:18:45<33:33,  2.04it/s] 62%|██████▏   | 6608/10714 [1:18:45<33:36,  2.04it/s] 62%|██████▏   | 6609/10714 [1:18:46<33:31,  2.04it/s] 62%|██████▏   | 6610/10714 [1:18:46<33:29,  2.04it/s] 62%|██████▏   | 6611/10714 [1:18:47<33:29,  2.04it/s] 62%|██████▏   | 6612/10714 [1:18:47<33:27,  2.04it/s] 62%|██████▏   | 6613/10714 [1:18:48<33:28,  2.04it/s] 62%|██████▏   | 6614/10714 [1:18:48<33:28,  2.04it/s] 62%|██████▏   | 6615/10714 [1:18:49<33:28,  2.04it/s] 62%|██████▏   | 6616/10714 [1:18:49<33:27,  2.04it/s] 62%|██████▏   | 6617/10714 [1:18:50<33:27,  2.04it/s] 62%|██████▏   | 6618/10714 [1:18:50<33:27,  2.04it/s] 62%|██████▏   | 6619/10714 [1:18:51<33:25,  2.04it/s] 62%|██████▏   | 6620/10714 [1:18:51<33:24,  2.04it/s] 62%|██████▏   | 6621/10714 [1:18:52<33:26,  2.04it/s] 62%|██████▏   | 6622/10714 [1:18:52<33:25,  2.04it/s] 62%|██████▏   | 6623/10714 [1:18:52<33:24,  2.04it/s] 62%|██████▏   | 6624/10714 [1:18:53<33:23,  2.04it/s] 62%|██████▏   | 6625/10714 [1:18:53<33:23,  2.04it/s]{'loss': 3.4353, 'grad_norm': 0.20963019132614136, 'learning_rate': 0.00038187587138131915, 'epoch': 0.62}                                                      
- 62%|██████▏   | 6625/10714 [1:18:53<33:23,  2.04it/s] 62%|██████▏   | 6626/10714 [1:18:54<33:24,  2.04it/s] 62%|██████▏   | 6627/10714 [1:18:54<33:20,  2.04it/s] 62%|██████▏   | 6628/10714 [1:18:55<33:21,  2.04it/s] 62%|██████▏   | 6629/10714 [1:18:55<33:21,  2.04it/s] 62%|██████▏   | 6630/10714 [1:18:56<33:22,  2.04it/s] 62%|██████▏   | 6631/10714 [1:18:56<33:19,  2.04it/s] 62%|██████▏   | 6632/10714 [1:18:57<33:19,  2.04it/s] 62%|██████▏   | 6633/10714 [1:18:57<33:18,  2.04it/s] 62%|██████▏   | 6634/10714 [1:18:58<33:18,  2.04it/s] 62%|██████▏   | 6635/10714 [1:18:58<33:18,  2.04it/s] 62%|██████▏   | 6636/10714 [1:18:59<33:18,  2.04it/s] 62%|██████▏   | 6637/10714 [1:18:59<33:17,  2.04it/s] 62%|██████▏   | 6638/10714 [1:19:00<33:18,  2.04it/s] 62%|██████▏   | 6639/10714 [1:19:00<33:16,  2.04it/s] 62%|██████▏   | 6640/10714 [1:19:01<33:16,  2.04it/s] 62%|██████▏   | 6641/10714 [1:19:01<33:15,  2.04it/s] 62%|██████▏   | 6642/10714 [1:19:02<33:14,  2.04it/s] 62%|██████▏   | 6643/10714 [1:19:02<33:13,  2.04it/s] 62%|██████▏   | 6644/10714 [1:19:03<33:12,  2.04it/s] 62%|██████▏   | 6645/10714 [1:19:03<33:12,  2.04it/s] 62%|██████▏   | 6646/10714 [1:19:04<33:12,  2.04it/s] 62%|██████▏   | 6647/10714 [1:19:04<33:11,  2.04it/s] 62%|██████▏   | 6648/10714 [1:19:05<33:14,  2.04it/s] 62%|██████▏   | 6649/10714 [1:19:05<33:12,  2.04it/s] 62%|██████▏   | 6650/10714 [1:19:06<33:12,  2.04it/s]{'loss': 3.4308, 'grad_norm': 0.20353442430496216, 'learning_rate': 0.00037792232674906595, 'epoch': 0.62}
-                                                       62%|██████▏   | 6650/10714 [1:19:06<33:12,  2.04it/s] 62%|██████▏   | 6651/10714 [1:19:06<33:14,  2.04it/s] 62%|█���████▏   | 6652/10714 [1:19:07<33:12,  2.04it/s] 62%|██████▏   | 6653/10714 [1:19:07<33:12,  2.04it/s] 62%|██████▏   | 6654/10714 [1:19:08<33:08,  2.04it/s] 62%|██████▏   | 6655/10714 [1:19:08<33:06,  2.04it/s] 62%|██████▏   | 6656/10714 [1:19:09<33:07,  2.04it/s] 62%|██████▏   | 6657/10714 [1:19:09<33:08,  2.04it/s] 62%|██████▏   | 6658/10714 [1:19:10<33:09,  2.04it/s] 62%|██████▏   | 6659/10714 [1:19:10<33:08,  2.04it/s] 62%|██████▏   | 6660/10714 [1:19:11<33:08,  2.04it/s] 62%|██████▏   | 6661/10714 [1:19:11<33:06,  2.04it/s] 62%|██████▏   | 6662/10714 [1:19:12<33:04,  2.04it/s] 62%|██████▏   | 6663/10714 [1:19:12<33:04,  2.04it/s] 62%|██████▏   | 6664/10714 [1:19:13<33:03,  2.04it/s] 62%|██████▏   | 6665/10714 [1:19:13<33:05,  2.04it/s] 62%|██████▏   | 6666/10714 [1:19:14<33:04,  2.04it/s] 62%|██████▏   | 6667/10714 [1:19:14<33:03,  2.04it/s] 62%|██████▏   | 6668/10714 [1:19:15<33:03,  2.04it/s] 62%|██████▏   | 6669/10714 [1:19:15<33:01,  2.04it/s] 62%|██████▏   | 6670/10714 [1:19:16<32:58,  2.04it/s] 62%|██████▏   | 6671/10714 [1:19:16<32:58,  2.04it/s] 62%|██████▏   | 6672/10714 [1:19:16<32:58,  2.04it/s] 62%|██████▏   | 6673/10714 [1:19:17<32:59,  2.04it/s] 62%|██████▏   | 6674/10714 [1:19:17<32:56,  2.04it/s] 62%|██████▏   | 6675/10714 [1:19:18<32:56,  2.04it/s]{'loss': 3.4339, 'grad_norm': 0.2041735053062439, 'learning_rate': 0.00037397688201108975, 'epoch': 0.62}                                                      
- 62%|██████▏   | 6675/10714 [1:19:18<32:56,  2.04it/s] 62%|██████▏   | 6676/10714 [1:19:18<32:59,  2.04it/s] 62%|██████▏   | 6677/10714 [1:19:19<32:59,  2.04it/s] 62%|██████▏   | 6678/10714 [1:19:19<32:57,  2.04it/s] 62%|██████▏   | 6679/10714 [1:19:20<32:55,  2.04it/s] 62%|██████▏   | 6680/10714 [1:19:20<32:55,  2.04it/s] 62%|██████▏   | 6681/10714 [1:19:21<32:55,  2.04it/s] 62%|██████▏   | 6682/10714 [1:19:21<32:53,  2.04it/s] 62%|██████▏   | 6683/10714 [1:19:22<32:52,  2.04it/s] 62%|██████▏   | 6684/10714 [1:19:22<32:52,  2.04it/s] 62%|██████▏   | 6685/10714 [1:19:23<32:52,  2.04it/s] 62%|██████▏   | 6686/10714 [1:19:23<32:53,  2.04it/s] 62%|██████▏   | 6687/10714 [1:19:24<32:51,  2.04it/s] 62%|██████▏   | 6688/10714 [1:19:24<32:50,  2.04it/s] 62%|██████▏   | 6689/10714 [1:19:25<32:50,  2.04it/s] 62%|██████▏   | 6690/10714 [1:19:25<32:52,  2.04it/s] 62%|██████▏   | 6691/10714 [1:19:26<32:51,  2.04it/s] 62%|██████▏   | 6692/10714 [1:19:26<32:48,  2.04it/s] 62%|██████▏   | 6693/10714 [1:19:27<32:49,  2.04it/s] 62%|██████▏   | 6694/10714 [1:19:27<32:49,  2.04it/s] 62%|██████▏   | 6695/10714 [1:19:28<32:48,  2.04it/s] 62%|██████▏   | 6696/10714 [1:19:28<32:47,  2.04it/s] 63%|██████▎   | 6697/10714 [1:19:29<32:44,  2.04it/s] 63%|██████▎   | 6698/10714 [1:19:30<38:41,  1.73it/s] 63%|██████▎   | 6699/10714 [1:19:30<36:53,  1.81it/s] 63%|██████▎   | 6700/10714 [1:19:31<35:40,  1.88it/s]                                                      {'loss': 3.4309, 'grad_norm': 0.19412840902805328, 'learning_rate': 0.0003700397989489632, 'epoch': 0.63}
- 63%|██████▎   | 6700/10714 [1:19:31<35:40,  1.88it/s] 63%|██████▎   | 6701/10714 [1:19:31<34:53,  1.92it/s] 63%|██████▎   | 6702/10714 [1:19:31<34:10,  1.96it/s] 63%|██████▎   | 6703/10714 [1:19:32<33:44,  1.98it/s] 63%|██████▎   | 6704/10714 [1:19:32<33:26,  2.00it/s] 63%|██████▎   | 6705/10714 [1:19:33<33:13,  2.01it/s] 63%|██████▎   | 6706/10714 [1:19:33<33:05,  2.02it/s] 63%|██████▎   | 6707/10714 [1:19:34<32:59,  2.02it/s] 63%|██████▎   | 6708/10714 [1:19:34<32:53,  2.03it/s] 63%|██████▎   | 6709/10714 [1:19:35<32:51,  2.03it/s] 63%|██████▎   | 6710/10714 [1:19:35<32:48,  2.03it/s] 63%|██████▎   | 6711/10714 [1:19:36<32:46,  2.04it/s] 63%|██████▎   | 6712/10714 [1:19:36<32:43,  2.04it/s] 63%|██████▎   | 6713/10714 [1:19:37<32:41,  2.04it/s] 63%|██████▎   | 6714/10714 [1:19:37<32:40,  2.04it/s] 63%|██████▎   | 6715/10714 [1:19:38<32:41,  2.04it/s] 63%|██████▎   | 6716/10714 [1:19:38<32:40,  2.04it/s] 63%|██████▎   | 6717/10714 [1:19:39<32:39,  2.04it/s] 63%|██████▎   | 6718/10714 [1:19:39<32:37,  2.04it/s] 63%|██████▎   | 6719/10714 [1:19:40<32:38,  2.04it/s] 63%|██████▎   | 6720/10714 [1:19:40<32:36,  2.04it/s] 63%|██████▎   | 6721/10714 [1:19:41<32:33,  2.04it/s] 63%|██████▎   | 6722/10714 [1:19:41<32:33,  2.04it/s] 63%|██████▎   | 6723/10714 [1:19:42<32:34,  2.04it/s] 63%|██████▎   | 6724/10714 [1:19:42<32:33,  2.04it/s] 63%|██████▎   | 6725/10714 [1:19:43<32:31,  2.04it/s]{'loss': 3.4346, 'grad_norm': 0.21056586503982544, 'learning_rate': 0.0003661113387894587, 'epoch': 0.63}
-                                                       63%|██████▎   | 6725/10714 [1:19:43<32:31,  2.04it/s] 63%|██████▎   | 6726/10714 [1:19:43<32:36,  2.04it/s] 63%|██████▎   | 6727/10714 [1:19:44<32:35,  2.04it/s] 63%|██████▎   | 6728/10714 [1:19:45<38:02,  1.75it/s] 63%|██████▎   | 6729/10714 [1:19:45<36:21,  1.83it/s] 63%|██████▎   | 6730/10714 [1:19:45<35:11,  1.89it/s] 63%|██████▎   | 6731/10714 [1:19:46<34:22,  1.93it/s] 63%|██████▎   | 6732/10714 [1:19:46<33:49,  1.96it/s] 63%|██████▎   | 6733/10714 [1:19:47<33:21,  1.99it/s] 63%|██████▎   | 6734/10714 [1:19:47<33:03,  2.01it/s] 63%|██████▎   | 6735/10714 [1:19:48<32:52,  2.02it/s] 63%|██████▎   | 6736/10714 [1:19:48<32:47,  2.02it/s] 63%|██████▎   | 6737/10714 [1:19:49<32:40,  2.03it/s] 63%|██████▎   | 6738/10714 [1:19:49<32:33,  2.04it/s] 63%|██████▎   | 6739/10714 [1:19:50<32:27,  2.04it/s] 63%|██████▎   | 6740/10714 [1:19:50<32:27,  2.04it/s] 63%|██████▎   | 6741/10714 [1:19:51<32:24,  2.04it/s] 63%|██████▎   | 6742/10714 [1:19:51<32:28,  2.04it/s] 63%|██████▎   | 6743/10714 [1:19:52<32:25,  2.04it/s] 63%|██████▎   | 6744/10714 [1:19:52<32:23,  2.04it/s] 63%|██████▎   | 6745/10714 [1:19:53<32:21,  2.04it/s] 63%|██████▎   | 6746/10714 [1:19:53<32:17,  2.05it/s] 63%|██████▎   | 6747/10714 [1:19:54<32:15,  2.05it/s] 63%|██████▎   | 6748/10714 [1:19:54<32:19,  2.05it/s] 63%|██████▎   | 6749/10714 [1:19:55<32:18,  2.05it/s] 63%|██████▎   | 6750/10714 [1:19:55<32:18,  2.04it/s]{'loss': 3.4372, 'grad_norm': 0.21861456334590912, 'learning_rate': 0.00036219176218721605, 'epoch': 0.63}                                                      
- 63%|██████▎   | 6750/10714 [1:19:55<32:18,  2.04it/s] 63%|██████▎   | 6751/10714 [1:19:56<32:18,  2.04it/s] 63%|██████▎   | 6752/10714 [1:19:56<32:18,  2.04it/s] 63%|██████▎   | 6753/10714 [1:19:57<32:18,  2.04it/s] 63%|██████▎   | 6754/10714 [1:19:57<32:17,  2.04it/s] 63%|██████▎   | 6755/10714 [1:19:58<32:15,  2.05it/s] 63%|██████▎   | 6756/10714 [1:19:58<32:13,  2.05it/s] 63%|██████▎   | 6757/10714 [1:19:59<32:15,  2.04it/s] 63%|██████▎   | 6758/10714 [1:19:59<32:15,  2.04it/s] 63%|██████▎   | 6759/10714 [1:20:00<32:14,  2.04it/s] 63%|██████▎   | 6760/10714 [1:20:00<32:12,  2.05it/s] 63%|██████▎   | 6761/10714 [1:20:01<32:11,  2.05it/s] 63%|██████▎   | 6762/10714 [1:20:01<32:11,  2.05it/s] 63%|██████▎   | 6763/10714 [1:20:02<32:13,  2.04it/s] 63%|██████▎   | 6764/10714 [1:20:02<32:11,  2.05it/s] 63%|██████▎   | 6765/10714 [1:20:03<32:10,  2.05it/s] 63%|██████▎   | 6766/10714 [1:20:03<32:13,  2.04it/s] 63%|██████▎   | 6767/10714 [1:20:04<32:14,  2.04it/s] 63%|██████▎   | 6768/10714 [1:20:04<32:12,  2.04it/s] 63%|██████▎   | 6769/10714 [1:20:05<32:10,  2.04it/s] 63%|██████▎   | 6770/10714 [1:20:05<32:10,  2.04it/s] 63%|██████▎   | 6771/10714 [1:20:06<32:12,  2.04it/s] 63%|██████▎   | 6772/10714 [1:20:06<32:09,  2.04it/s] 63%|██████▎   | 6773/10714 [1:20:07<32:07,  2.05it/s] 63%|██████▎   | 6774/10714 [1:20:07<32:04,  2.05it/s] 63%|██████▎   | 6775/10714 [1:20:07<32:04,  2.05it/s]{'loss': 3.4241, 'grad_norm': 0.20623211562633514, 'learning_rate': 0.00035828132920744826, 'epoch': 0.63}                                                      
- 63%|██████▎   | 6775/10714 [1:20:07<32:04,  2.05it/s] 63%|██████▎   | 6776/10714 [1:20:08<32:09,  2.04it/s] 63%|██████▎   | 6777/10714 [1:20:08<32:05,  2.04it/s] 63%|██████▎   | 6778/10714 [1:20:09<32:04,  2.04it/s] 63%|██████▎   | 6779/10714 [1:20:09<32:04,  2.04it/s] 63%|██████▎   | 6780/10714 [1:20:10<32:06,  2.04it/s] 63%|██████▎   | 6781/10714 [1:20:10<32:06,  2.04it/s] 63%|██████▎   | 6782/10714 [1:20:11<32:05,  2.04it/s] 63%|██████▎   | 6783/10714 [1:20:11<32:06,  2.04it/s] 63%|██████▎   | 6784/10714 [1:20:12<32:06,  2.04it/s] 63%|██████▎   | 6785/10714 [1:20:12<32:05,  2.04it/s] 63%|██████▎   | 6786/10714 [1:20:13<32:04,  2.04it/s] 63%|██████▎   | 6787/10714 [1:20:13<32:04,  2.04it/s] 63%|██████▎   | 6788/10714 [1:20:14<32:04,  2.04it/s] 63%|██████▎   | 6789/10714 [1:20:14<32:02,  2.04it/s] 63%|██████▎   | 6790/10714 [1:20:15<32:01,  2.04it/s] 63%|██████▎   | 6791/10714 [1:20:15<32:01,  2.04it/s] 63%|██████▎   | 6792/10714 [1:20:16<32:01,  2.04it/s] 63%|██████▎   | 6793/10714 [1:20:16<31:59,  2.04it/s] 63%|██████▎   | 6794/10714 [1:20:17<31:56,  2.05it/s] 63%|██████▎   | 6795/10714 [1:20:17<31:54,  2.05it/s] 63%|██████▎   | 6796/10714 [1:20:18<31:57,  2.04it/s] 63%|██████▎   | 6797/10714 [1:20:18<31:57,  2.04it/s] 63%|██████▎   | 6798/10714 [1:20:19<31:56,  2.04it/s] 63%|██████▎   | 6799/10714 [1:20:19<31:53,  2.05it/s] 63%|██████▎   | 6800/10714 [1:20:20<31:53,  2.05it/s]{'loss': 3.4196, 'grad_norm': 0.2044699639081955, 'learning_rate': 0.00035438029930868575, 'epoch': 0.63}                                                      
- 63%|██████▎   | 6800/10714 [1:20:20<31:53,  2.05it/s] 63%|██████▎   | 6801/10714 [1:20:20<31:56,  2.04it/s] 63%|██████▎   | 6802/10714 [1:20:21<31:55,  2.04it/s] 63%|██████▎   | 6803/10714 [1:20:21<31:52,  2.04it/s] 64%|██████▎   | 6804/10714 [1:20:22<31:50,  2.05it/s] 64%|██████▎   | 6805/10714 [1:20:22<31:50,  2.05it/s] 64%|██████▎   | 6806/10714 [1:20:23<31:55,  2.04it/s] 64%|██████▎   | 6807/10714 [1:20:23<31:53,  2.04it/s] 64%|██████▎   | 6808/10714 [1:20:24<31:52,  2.04it/s] 64%|██████▎   | 6809/10714 [1:20:24<31:53,  2.04it/s] 64%|██████▎   | 6810/10714 [1:20:25<31:53,  2.04it/s] 64%|██████▎   | 6811/10714 [1:20:25<31:52,  2.04it/s] 64%|██████▎   | 6812/10714 [1:20:26<31:48,  2.04it/s] 64%|██████▎   | 6813/10714 [1:20:26<31:47,  2.04it/s] 64%|██████▎   | 6814/10714 [1:20:27<31:46,  2.05it/s] 64%|██████▎   | 6815/10714 [1:20:27<31:47,  2.04it/s] 64%|██████▎   | 6816/10714 [1:20:28<31:48,  2.04it/s] 64%|██████▎   | 6817/10714 [1:20:28<31:48,  2.04it/s] 64%|██████▎   | 6818/10714 [1:20:29<31:47,  2.04it/s] 64%|██████▎   | 6819/10714 [1:20:29<31:46,  2.04it/s] 64%|██████▎   | 6820/10714 [1:20:30<31:46,  2.04it/s] 64%|██████▎   | 6821/10714 [1:20:30<31:45,  2.04it/s] 64%|██████▎   | 6822/10714 [1:20:30<31:44,  2.04it/s] 64%|██████▎   | 6823/10714 [1:20:31<31:44,  2.04it/s] 64%|██████▎   | 6824/10714 [1:20:31<31:43,  2.04it/s] 64%|██████▎   | 6825/10714 [1:20:32<31:45,  2.04it/s]                                                      {'loss': 3.4296, 'grad_norm': 0.2013712078332901, 'learning_rate': 0.00035048893132556163, 'epoch': 0.64}
- 64%|██████▎   | 6825/10714 [1:20:32<31:45,  2.04it/s] 64%|██████▎   | 6826/10714 [1:20:32<31:47,  2.04it/s] 64%|██████▎   | 6827/10714 [1:20:33<31:45,  2.04it/s] 64%|██████▎   | 6828/10714 [1:20:33<31:48,  2.04it/s] 64%|██████▎   | 6829/10714 [1:20:34<31:46,  2.04it/s] 64%|██████▎   | 6830/10714 [1:20:34<31:45,  2.04it/s] 64%|██████▍   | 6831/10714 [1:20:35<31:43,  2.04it/s] 64%|██████▍   | 6832/10714 [1:20:35<31:43,  2.04it/s] 64%|██████▍   | 6833/10714 [1:20:36<31:41,  2.04it/s] 64%|██████▍   | 6834/10714 [1:20:36<31:40,  2.04it/s] 64%|██████▍   | 6835/10714 [1:20:37<31:41,  2.04it/s] 64%|██████▍   | 6836/10714 [1:20:37<31:41,  2.04it/s] 64%|██████▍   | 6837/10714 [1:20:38<31:39,  2.04it/s] 64%|██████▍   | 6838/10714 [1:20:38<31:38,  2.04it/s] 64%|██████▍   | 6839/10714 [1:20:39<31:36,  2.04it/s] 64%|██████▍   | 6840/10714 [1:20:39<31:37,  2.04it/s] 64%|██████▍   | 6841/10714 [1:20:40<31:36,  2.04it/s] 64%|██████▍   | 6842/10714 [1:20:40<31:33,  2.04it/s] 64%|██████▍   | 6843/10714 [1:20:41<31:32,  2.05it/s] 64%|██████▍   | 6844/10714 [1:20:41<31:29,  2.05it/s] 64%|██████▍   | 6845/10714 [1:20:42<31:31,  2.05it/s] 64%|██████▍   | 6846/10714 [1:20:42<31:33,  2.04it/s] 64%|██████▍   | 6847/10714 [1:20:43<31:32,  2.04it/s] 64%|██████▍   | 6848/10714 [1:20:43<31:32,  2.04it/s] 64%|██████▍   | 6849/10714 [1:20:44<31:30,  2.04it/s] 64%|██████▍   | 6850/10714 [1:20:44<31:31,  2.04it/s]{'loss': 3.4183, 'grad_norm': 0.2047080099582672, 'learning_rate': 0.00034660748345163763, 'epoch': 0.64}
-                                                       64%|██████▍   | 6850/10714 [1:20:44<31:31,  2.04it/s] 64%|██████▍   | 6851/10714 [1:20:45<31:34,  2.04it/s] 64%|██████▍   | 6852/10714 [1:20:45<31:30,  2.04it/s] 64%|██████▍   | 6853/10714 [1:20:46<31:27,  2.05it/s] 64%|██████▍   | 6854/10714 [1:20:46<31:27,  2.04it/s] 64%|██████▍   | 6855/10714 [1:20:47<31:28,  2.04it/s] 64%|██████▍   | 6856/10714 [1:20:47<31:27,  2.04it/s] 64%|██████▍   | 6857/10714 [1:20:48<31:24,  2.05it/s] 64%|██████▍   | 6858/10714 [1:20:48<31:25,  2.05it/s] 64%|██████▍   | 6859/10714 [1:20:49<31:27,  2.04it/s] 64%|██████▍   | 6860/10714 [1:20:49<31:26,  2.04it/s] 64%|██████▍   | 6861/10714 [1:20:50<31:25,  2.04it/s] 64%|██████▍   | 6862/10714 [1:20:50<31:23,  2.05it/s] 64%|██████▍   | 6863/10714 [1:20:51<31:21,  2.05it/s] 64%|██████▍   | 6864/10714 [1:20:51<31:22,  2.05it/s] 64%|██████▍   | 6865/10714 [1:20:52<31:22,  2.04it/s] 64%|██████▍   | 6866/10714 [1:20:52<31:22,  2.04it/s] 64%|██████▍   | 6867/10714 [1:20:53<31:20,  2.05it/s] 64%|██████▍   | 6868/10714 [1:20:53<31:21,  2.04it/s] 64%|██████▍   | 6869/10714 [1:20:54<31:21,  2.04it/s] 64%|██████▍   | 6870/10714 [1:20:54<31:19,  2.05it/s] 64%|██████▍   | 6871/10714 [1:20:54<31:19,  2.04it/s] 64%|██████▍   | 6872/10714 [1:20:55<31:20,  2.04it/s] 64%|██████▍   | 6873/10714 [1:20:55<31:20,  2.04it/s] 64%|██████▍   | 6874/10714 [1:20:56<31:17,  2.04it/s] 64%|██████▍   | 6875/10714 [1:20:56<31:15,  2.05it/s]                                                      {'loss': 3.423, 'grad_norm': 0.21516570448875427, 'learning_rate': 0.0003427362132222727, 'epoch': 0.64}
- 64%|██████▍   | 6875/10714 [1:20:56<31:15,  2.05it/s] 64%|██████▍   | 6876/10714 [1:20:57<31:17,  2.04it/s] 64%|██████▍   | 6877/10714 [1:20:57<31:16,  2.05it/s] 64%|██████▍   | 6878/10714 [1:20:58<31:17,  2.04it/s] 64%|██████▍   | 6879/10714 [1:20:58<31:16,  2.04it/s] 64%|██████▍   | 6880/10714 [1:20:59<31:16,  2.04it/s] 64%|██████▍   | 6881/10714 [1:20:59<31:15,  2.04it/s] 64%|██████▍   | 6882/10714 [1:21:00<31:13,  2.04it/s] 64%|██████▍   | 6883/10714 [1:21:00<31:13,  2.04it/s] 64%|██████▍   | 6884/10714 [1:21:01<31:15,  2.04it/s] 64%|██████▍   | 6885/10714 [1:21:01<31:14,  2.04it/s] 64%|██████▍   | 6886/10714 [1:21:02<31:15,  2.04it/s] 64%|██████▍   | 6887/10714 [1:21:02<31:14,  2.04it/s] 64%|██████▍   | 6888/10714 [1:21:03<31:16,  2.04it/s] 64%|██████▍   | 6889/10714 [1:21:03<31:15,  2.04it/s] 64%|██████▍   | 6890/10714 [1:21:04<31:12,  2.04it/s] 64%|██████▍   | 6891/10714 [1:21:04<31:11,  2.04it/s] 64%|██████▍   | 6892/10714 [1:21:05<31:10,  2.04it/s] 64%|██████▍   | 6893/10714 [1:21:05<31:12,  2.04it/s] 64%|██████▍   | 6894/10714 [1:21:06<31:10,  2.04it/s] 64%|██████▍   | 6895/10714 [1:21:06<31:07,  2.04it/s] 64%|██████▍   | 6896/10714 [1:21:07<31:08,  2.04it/s] 64%|██████▍   | 6897/10714 [1:21:07<31:09,  2.04it/s] 64%|██████▍   | 6898/10714 [1:21:08<31:08,  2.04it/s] 64%|██████▍   | 6899/10714 [1:21:08<31:05,  2.04it/s] 64%|██████▍   | 6900/10714 [1:21:09<31:03,  2.05it/s]                                                      {'loss': 3.4258, 'grad_norm': 0.19639217853546143, 'learning_rate': 0.00033887537749753604, 'epoch': 0.64}
- 64%|██████▍   | 6900/10714 [1:21:09<31:03,  2.05it/s] 64%|██████▍   | 6901/10714 [1:21:09<31:07,  2.04it/s] 64%|██████▍   | 6902/10714 [1:21:10<31:06,  2.04it/s] 64%|██████▍   | 6903/10714 [1:21:10<31:04,  2.04it/s] 64%|██████▍   | 6904/10714 [1:21:11<31:02,  2.05it/s] 64%|██████▍   | 6905/10714 [1:21:11<31:01,  2.05it/s] 64%|██████▍   | 6906/10714 [1:21:12<31:03,  2.04it/s] 64%|██████▍   | 6907/10714 [1:21:12<31:03,  2.04it/s] 64%|██████▍   | 6908/10714 [1:21:13<31:03,  2.04it/s] 64%|██████▍   | 6909/10714 [1:21:13<31:05,  2.04it/s] 64%|██████▍   | 6910/10714 [1:21:14<31:04,  2.04it/s] 65%|██████▍   | 6911/10714 [1:21:14<31:03,  2.04it/s] 65%|██████▍   | 6912/10714 [1:21:15<30:59,  2.04it/s] 65%|██████▍   | 6913/10714 [1:21:15<30:59,  2.04it/s] 65%|██████▍   | 6914/10714 [1:21:16<31:00,  2.04it/s] 65%|██████▍   | 6915/10714 [1:21:16<31:00,  2.04it/s] 65%|██████▍   | 6916/10714 [1:21:17<30:58,  2.04it/s] 65%|██████▍   | 6917/10714 [1:21:17<30:57,  2.04it/s] 65%|██████▍   | 6918/10714 [1:21:17<30:57,  2.04it/s] 65%|██████▍   | 6919/10714 [1:21:18<30:57,  2.04it/s] 65%|██████▍   | 6920/10714 [1:21:18<30:55,  2.04it/s] 65%|██████▍   | 6921/10714 [1:21:19<30:54,  2.05it/s] 65%|██████▍   | 6922/10714 [1:21:19<30:55,  2.04it/s] 65%|██████▍   | 6923/10714 [1:21:20<30:56,  2.04it/s] 65%|██████▍   | 6924/10714 [1:21:20<30:55,  2.04it/s] 65%|██████▍   | 6925/10714 [1:21:21<30:52,  2.05it/s]{'loss': 3.4225, 'grad_norm': 0.21190005540847778, 'learning_rate': 0.0003350252324451635, 'epoch': 0.65}                                                      
- 65%|██████▍   | 6925/10714 [1:21:21<30:52,  2.05it/s] 65%|██████▍   | 6926/10714 [1:21:21<30:56,  2.04it/s] 65%|██████▍   | 6927/10714 [1:21:22<30:54,  2.04it/s] 65%|██████▍   | 6928/10714 [1:21:22<30:54,  2.04it/s] 65%|██████▍   | 6929/10714 [1:21:23<30:52,  2.04it/s] 65%|██████▍   | 6930/10714 [1:21:23<30:50,  2.04it/s] 65%|██████▍   | 6931/10714 [1:21:24<30:50,  2.04it/s] 65%|██████▍   | 6932/10714 [1:21:24<30:52,  2.04it/s] 65%|██████▍   | 6933/10714 [1:21:25<30:52,  2.04it/s] 65%|██████▍   | 6934/10714 [1:21:25<30:50,  2.04it/s] 65%|██████▍   | 6935/10714 [1:21:26<30:48,  2.04it/s] 65%|██████▍   | 6936/10714 [1:21:26<30:49,  2.04it/s] 65%|██████▍   | 6937/10714 [1:21:27<30:49,  2.04it/s] 65%|██████▍   | 6938/10714 [1:21:27<30:47,  2.04it/s] 65%|██████▍   | 6939/10714 [1:21:28<30:46,  2.04it/s] 65%|██████▍   | 6940/10714 [1:21:28<30:46,  2.04it/s] 65%|██████▍   | 6941/10714 [1:21:29<30:46,  2.04it/s] 65%|██████▍   | 6942/10714 [1:21:29<30:45,  2.04it/s] 65%|██████▍   | 6943/10714 [1:21:30<30:43,  2.05it/s] 65%|██████▍   | 6944/10714 [1:21:30<30:45,  2.04it/s] 65%|██████▍   | 6945/10714 [1:21:31<30:44,  2.04it/s] 65%|██████▍   | 6946/10714 [1:21:31<30:44,  2.04it/s] 65%|██████▍   | 6947/10714 [1:21:32<30:42,  2.04it/s] 65%|██████▍   | 6948/10714 [1:21:32<30:43,  2.04it/s] 65%|██████▍   | 6949/10714 [1:21:33<30:44,  2.04it/s] 65%|██████▍   | 6950/10714 [1:21:33<30:44,  2.04it/s]{'loss': 3.4205, 'grad_norm': 0.20182937383651733, 'learning_rate': 0.00033118603352356193, 'epoch': 0.65}                                                      
- 65%|██████▍   | 6950/10714 [1:21:33<30:44,  2.04it/s] 65%|██████▍   | 6951/10714 [1:21:34<30:44,  2.04it/s] 65%|██████▍   | 6952/10714 [1:21:34<30:43,  2.04it/s] 65%|██████▍   | 6953/10714 [1:21:35<30:42,  2.04it/s] 65%|██████▍   | 6954/10714 [1:21:35<30:41,  2.04it/s] 65%|██████▍   | 6955/10714 [1:21:36<30:41,  2.04it/s] 65%|██████▍   | 6956/10714 [1:21:36<30:41,  2.04it/s] 65%|██████▍   | 6957/10714 [1:21:37<30:39,  2.04it/s] 65%|██████▍   | 6958/10714 [1:21:37<30:38,  2.04it/s] 65%|██████▍   | 6959/10714 [1:21:38<30:37,  2.04it/s] 65%|██████▍   | 6960/10714 [1:21:38<30:37,  2.04it/s] 65%|██████▍   | 6961/10714 [1:21:39<30:39,  2.04it/s] 65%|██████▍   | 6962/10714 [1:21:39<30:38,  2.04it/s] 65%|██████▍   | 6963/10714 [1:21:40<30:38,  2.04it/s] 65%|██████▍   | 6964/10714 [1:21:40<30:38,  2.04it/s] 65%|██████▌   | 6965/10714 [1:21:41<30:36,  2.04it/s] 65%|██████▌   | 6966/10714 [1:21:41<30:35,  2.04it/s] 65%|██████▌   | 6967/10714 [1:21:41<30:33,  2.04it/s] 65%|██████▌   | 6968/10714 [1:21:42<30:32,  2.04it/s] 65%|██████▌   | 6969/10714 [1:21:42<30:33,  2.04it/s] 65%|██████▌   | 6970/10714 [1:21:43<30:33,  2.04it/s] 65%|██████▌   | 6971/10714 [1:21:43<30:32,  2.04it/s] 65%|██████▌   | 6972/10714 [1:21:44<30:31,  2.04it/s] 65%|██████▌   | 6973/10714 [1:21:44<30:33,  2.04it/s] 65%|██████▌   | 6974/10714 [1:21:45<30:30,  2.04it/s] 65%|██████▌   | 6975/10714 [1:21:45<30:28,  2.04it/s]{'loss': 3.4183, 'grad_norm': 0.2013201117515564, 'learning_rate': 0.0003273580354648582, 'epoch': 0.65}                                                      
- 65%|██████▌   | 6975/10714 [1:21:45<30:28,  2.04it/s] 65%|██████▌   | 6976/10714 [1:21:46<30:32,  2.04it/s] 65%|██████▌   | 6977/10714 [1:21:46<30:32,  2.04it/s] 65%|██████▌   | 6978/10714 [1:21:47<30:28,  2.04it/s] 65%|██████▌   | 6979/10714 [1:21:47<30:28,  2.04it/s] 65%|██████▌   | 6980/10714 [1:21:48<30:27,  2.04it/s] 65%|██████▌   | 6981/10714 [1:21:48<30:27,  2.04it/s] 65%|██████▌   | 6982/10714 [1:21:49<30:27,  2.04it/s] 65%|██████▌   | 6983/10714 [1:21:49<30:25,  2.04it/s] 65%|██████▌   | 6984/10714 [1:21:50<30:24,  2.04it/s] 65%|██████▌   | 6985/10714 [1:21:50<30:23,  2.05it/s] 65%|██████▌   | 6986/10714 [1:21:51<30:25,  2.04it/s] 65%|██████▌   | 6987/10714 [1:21:51<30:24,  2.04it/s] 65%|██████▌   | 6988/10714 [1:21:52<30:22,  2.04it/s] 65%|██████▌   | 6989/10714 [1:21:52<30:23,  2.04it/s] 65%|██████▌   | 6990/10714 [1:21:53<30:23,  2.04it/s] 65%|██████▌   | 6991/10714 [1:21:53<30:21,  2.04it/s] 65%|██████▌   | 6992/10714 [1:21:54<30:21,  2.04it/s] 65%|██████▌   | 6993/10714 [1:21:54<30:19,  2.05it/s] 65%|██████▌   | 6994/10714 [1:21:55<30:18,  2.05it/s] 65%|██████▌   | 6995/10714 [1:21:55<30:18,  2.04it/s] 65%|██████▌   | 6996/10714 [1:21:56<30:18,  2.04it/s] 65%|██████▌   | 6997/10714 [1:21:56<30:17,  2.05it/s] 65%|██████▌   | 6998/10714 [1:21:57<30:15,  2.05it/s] 65%|██████▌   | 6999/10714 [1:21:57<30:15,  2.05it/s] 65%|██████▌   | 7000/10714 [1:21:58<30:17,  2.04it/s]{'loss': 3.4197, 'grad_norm': 0.20925794541835785, 'learning_rate': 0.00032354149225799847, 'epoch': 0.65}
-                                                       65%|██████▌   | 7000/10714 [1:21:58<30:17,  2.04it/s] 65%|██████▌   | 7001/10714 [1:21:58<30:19,  2.04it/s] 65%|██████▌   | 7002/10714 [1:21:59<30:16,  2.04it/s] 65%|██████▌   | 7003/10714 [1:21:59<30:14,  2.05it/s] 65%|██████▌   | 7004/10714 [1:22:00<30:14,  2.04it/s] 65%|██████▌   | 7005/10714 [1:22:00<30:16,  2.04it/s] 65%|██████▌   | 7006/10714 [1:22:01<30:16,  2.04it/s] 65%|██████▌   | 7007/10714 [1:22:01<30:15,  2.04it/s] 65%|██████▌   | 7008/10714 [1:22:02<30:14,  2.04it/s] 65%|██████▌   | 7009/10714 [1:22:02<30:14,  2.04it/s] 65%|██████▌   | 7010/10714 [1:22:03<30:13,  2.04it/s] 65%|██████▌   | 7011/10714 [1:22:03<30:15,  2.04it/s] 65%|██████▌   | 7012/10714 [1:22:04<30:14,  2.04it/s] 65%|██████▌   | 7013/10714 [1:22:04<30:11,  2.04it/s] 65%|██████▌   | 7014/10714 [1:22:04<30:10,  2.04it/s] 65%|██████▌   | 7015/10714 [1:22:05<30:07,  2.05it/s] 65%|██████▌   | 7016/10714 [1:22:05<30:07,  2.05it/s] 65%|██████▌   | 7017/10714 [1:22:06<30:08,  2.04it/s] 66%|██████▌   | 7018/10714 [1:22:06<30:08,  2.04it/s] 66%|██████▌   | 7019/10714 [1:22:07<30:08,  2.04it/s] 66%|██████▌   | 7020/10714 [1:22:07<30:08,  2.04it/s] 66%|██████▌   | 7021/10714 [1:22:08<30:08,  2.04it/s] 66%|██████▌   | 7022/10714 [1:22:08<30:07,  2.04it/s] 66%|██████▌   | 7023/10714 [1:22:09<30:07,  2.04it/s] 66%|██████▌   | 7024/10714 [1:22:09<30:05,  2.04it/s] 66%|██████▌   | 7025/10714 [1:22:10<30:05,  2.04it/s]{'loss': 3.4116, 'grad_norm': 0.2082912027835846, 'learning_rate': 0.00031973665713189544, 'epoch': 0.66}                                                      
- 66%|██████▌   | 7025/10714 [1:22:10<30:05,  2.04it/s] 66%|██████▌   | 7026/10714 [1:22:10<30:07,  2.04it/s] 66%|██████▌   | 7027/10714 [1:22:11<30:07,  2.04it/s] 66%|██████▌   | 7028/10714 [1:22:11<30:07,  2.04it/s] 66%|██████▌   | 7029/10714 [1:22:12<30:04,  2.04it/s] 66%|██████▌   | 7030/10714 [1:22:12<30:03,  2.04it/s] 66%|██████▌   | 7031/10714 [1:22:13<30:03,  2.04it/s] 66%|██████▌   | 7032/10714 [1:22:13<30:03,  2.04it/s] 66%|██████▌   | 7033/10714 [1:22:14<30:02,  2.04it/s] 66%|██████▌   | 7034/10714 [1:22:14<30:01,  2.04it/s] 66%|██████▌   | 7035/10714 [1:22:15<29:59,  2.04it/s] 66%|██████▌   | 7036/10714 [1:22:15<30:52,  1.99it/s] 66%|██████▌   | 7037/10714 [1:22:16<30:34,  2.00it/s] 66%|██████▌   | 7038/10714 [1:22:16<30:24,  2.02it/s] 66%|██████▌   | 7039/10714 [1:22:17<30:19,  2.02it/s] 66%|██████▌   | 7040/10714 [1:22:17<30:10,  2.03it/s] 66%|██████▌   | 7041/10714 [1:22:18<30:05,  2.03it/s] 66%|██████▌   | 7042/10714 [1:22:18<30:02,  2.04it/s] 66%|██████▌   | 7043/10714 [1:22:19<30:01,  2.04it/s] 66%|██████▌   | 7044/10714 [1:22:19<29:59,  2.04it/s] 66%|██████▌   | 7045/10714 [1:22:20<29:55,  2.04it/s] 66%|██████▌   | 7046/10714 [1:22:20<29:56,  2.04it/s] 66%|██████▌   | 7047/10714 [1:22:21<29:56,  2.04it/s] 66%|██████▌   | 7048/10714 [1:22:21<29:55,  2.04it/s] 66%|██████▌   | 7049/10714 [1:22:22<29:53,  2.04it/s] 66%|██████▌   | 7050/10714 [1:22:22<29:50,  2.05it/s]{'loss': 3.4197, 'grad_norm': 0.2139197736978531, 'learning_rate': 0.00031594378253862717, 'epoch': 0.66}
-                                                       66%|██████▌   | 7050/10714 [1:22:22<29:50,  2.05it/s] 66%|██████▌   | 7051/10714 [1:22:23<29:54,  2.04it/s] 66%|██████▌   | 7052/10714 [1:22:23<29:53,  2.04it/s] 66%|██████▌   | 7053/10714 [1:22:24<29:51,  2.04it/s] 66%|██████▌   | 7054/10714 [1:22:24<29:50,  2.04it/s] 66%|██████▌   | 7055/10714 [1:22:25<29:50,  2.04it/s] 66%|██████▌   | 7056/10714 [1:22:25<29:52,  2.04it/s] 66%|██████▌   | 7057/10714 [1:22:26<29:50,  2.04it/s] 66%|██████▌   | 7058/10714 [1:22:26<29:48,  2.04it/s] 66%|██████▌   | 7059/10714 [1:22:27<29:48,  2.04it/s] 66%|██████▌   | 7060/10714 [1:22:27<29:48,  2.04it/s] 66%|██████▌   | 7061/10714 [1:22:28<29:48,  2.04it/s] 66%|██████▌   | 7062/10714 [1:22:28<29:47,  2.04it/s] 66%|██████▌   | 7063/10714 [1:22:29<29:45,  2.04it/s] 66%|██████▌   | 7064/10714 [1:22:29<29:47,  2.04it/s] 66%|██████▌   | 7065/10714 [1:22:29<29:47,  2.04it/s] 66%|██████▌   | 7066/10714 [1:22:30<29:46,  2.04it/s] 66%|██████▌   | 7067/10714 [1:22:30<29:44,  2.04it/s] 66%|██████▌   | 7068/10714 [1:22:31<29:42,  2.04it/s] 66%|██████▌   | 7069/10714 [1:22:31<29:44,  2.04it/s] 66%|██████▌   | 7070/10714 [1:22:32<29:44,  2.04it/s] 66%|██████▌   | 7071/10714 [1:22:32<29:43,  2.04it/s] 66%|██████▌   | 7072/10714 [1:22:33<29:42,  2.04it/s] 66%|██████▌   | 7073/10714 [1:22:33<29:43,  2.04it/s] 66%|██████▌   | 7074/10714 [1:22:34<29:46,  2.04it/s] 66%|██████▌   | 7075/10714 [1:22:34<29:45,  2.04it/s]                                                      {'loss': 3.4248, 'grad_norm': 0.2115294188261032, 'learning_rate': 0.0003121631201366858, 'epoch': 0.66}
- 66%|██████▌   | 7075/10714 [1:22:34<29:45,  2.04it/s] 66%|██████▌   | 7076/10714 [1:22:35<29:45,  2.04it/s] 66%|██████▌   | 7077/10714 [1:22:35<29:44,  2.04it/s] 66%|██████▌   | 7078/10714 [1:22:36<29:42,  2.04it/s] 66%|██████▌   | 7079/10714 [1:22:36<29:40,  2.04it/s] 66%|██████▌   | 7080/10714 [1:22:37<29:40,  2.04it/s] 66%|██████▌   | 7081/10714 [1:22:37<29:40,  2.04it/s] 66%|██████▌   | 7082/10714 [1:22:38<29:38,  2.04it/s] 66%|██████▌   | 7083/10714 [1:22:38<29:37,  2.04it/s] 66%|██████▌   | 7084/10714 [1:22:39<29:38,  2.04it/s] 66%|██████▌   | 7085/10714 [1:22:39<29:38,  2.04it/s] 66%|██████▌   | 7086/10714 [1:22:40<29:38,  2.04it/s] 66%|██████▌   | 7087/10714 [1:22:40<29:36,  2.04it/s] 66%|██████▌   | 7088/10714 [1:22:41<29:33,  2.04it/s] 66%|██████▌   | 7089/10714 [1:22:41<29:33,  2.04it/s] 66%|██████▌   | 7090/10714 [1:22:42<29:35,  2.04it/s] 66%|██████▌   | 7091/10714 [1:22:42<29:34,  2.04it/s] 66%|██████▌   | 7092/10714 [1:22:43<29:32,  2.04it/s] 66%|██████▌   | 7093/10714 [1:22:43<29:31,  2.04it/s] 66%|██████▌   | 7094/10714 [1:22:44<29:32,  2.04it/s] 66%|██████▌   | 7095/10714 [1:22:44<29:33,  2.04it/s] 66%|██████▌   | 7096/10714 [1:22:45<29:31,  2.04it/s] 66%|██████▌   | 7097/10714 [1:22:45<29:29,  2.04it/s] 66%|██████▌   | 7098/10714 [1:22:46<29:27,  2.05it/s] 66%|██████▋   | 7099/10714 [1:22:46<29:30,  2.04it/s] 66%|██████▋   | 7100/10714 [1:22:47<29:29,  2.04it/s]                                                      {'loss': 3.4177, 'grad_norm': 0.21162062883377075, 'learning_rate': 0.00030839492077428107, 'epoch': 0.66}
- 66%|██████▋   | 7100/10714 [1:22:47<29:29,  2.04it/s] 66%|██████▋   | 7101/10714 [1:22:47<29:37,  2.03it/s] 66%|██████▋   | 7102/10714 [1:22:48<29:35,  2.03it/s] 66%|██████▋   | 7103/10714 [1:22:48<29:31,  2.04it/s] 66%|██████▋   | 7104/10714 [1:22:49<29:28,  2.04it/s] 66%|██████▋   | 7105/10714 [1:22:49<30:02,  2.00it/s] 66%|██████▋   | 7106/10714 [1:22:50<29:50,  2.02it/s] 66%|██████▋   | 7107/10714 [1:22:50<29:41,  2.03it/s] 66%|██████▋   | 7108/10714 [1:22:51<29:35,  2.03it/s] 66%|██████▋   | 7109/10714 [1:22:51<29:32,  2.03it/s] 66%|██████▋   | 7110/10714 [1:22:52<29:29,  2.04it/s] 66%|██████▋   | 7111/10714 [1:22:52<29:25,  2.04it/s] 66%|██████▋   | 7112/10714 [1:22:53<29:22,  2.04it/s] 66%|██████▋   | 7113/10714 [1:22:53<29:20,  2.05it/s] 66%|██████▋   | 7114/10714 [1:22:54<29:22,  2.04it/s] 66%|██████▋   | 7115/10714 [1:22:54<29:22,  2.04it/s] 66%|██████▋   | 7116/10714 [1:22:55<29:21,  2.04it/s] 66%|██████▋   | 7117/10714 [1:22:55<29:20,  2.04it/s] 66%|██████▋   | 7118/10714 [1:22:55<29:20,  2.04it/s] 66%|██████▋   | 7119/10714 [1:22:56<29:21,  2.04it/s] 66%|██████▋   | 7120/10714 [1:22:56<29:20,  2.04it/s] 66%|██████▋   | 7121/10714 [1:22:57<29:19,  2.04it/s] 66%|██████▋   | 7122/10714 [1:22:57<29:17,  2.04it/s] 66%|██████▋   | 7123/10714 [1:22:58<29:18,  2.04it/s] 66%|██████▋   | 7124/10714 [1:22:58<29:18,  2.04it/s] 67%|██████▋   | 7125/10714 [1:22:59<29:17,  2.04it/s]                                                      {'loss': 3.415, 'grad_norm': 0.21037805080413818, 'learning_rate': 0.00030463943447269545, 'epoch': 0.67}
- 67%|██████▋   | 7125/10714 [1:22:59<29:17,  2.04it/s] 67%|██████▋   | 7126/10714 [1:22:59<29:19,  2.04it/s] 67%|██████▋   | 7127/10714 [1:23:00<29:17,  2.04it/s] 67%|██████▋   | 7128/10714 [1:23:00<29:15,  2.04it/s] 67%|██████▋   | 7129/10714 [1:23:01<29:12,  2.05it/s] 67%|██████▋   | 7130/10714 [1:23:01<29:12,  2.04it/s] 67%|██████▋   | 7131/10714 [1:23:02<29:14,  2.04it/s] 67%|██████▋   | 7132/10714 [1:23:02<29:13,  2.04it/s] 67%|██████▋   | 7133/10714 [1:23:03<29:14,  2.04it/s] 67%|██████▋   | 7134/10714 [1:23:03<29:14,  2.04it/s] 67%|██████▋   | 7135/10714 [1:23:04<29:13,  2.04it/s] 67%|██████▋   | 7136/10714 [1:23:04<29:11,  2.04it/s] 67%|██████▋   | 7137/10714 [1:23:05<29:11,  2.04it/s] 67%|██████▋   | 7138/10714 [1:23:05<29:10,  2.04it/s] 67%|██████▋   | 7139/10714 [1:23:06<29:09,  2.04it/s] 67%|██████▋   | 7140/10714 [1:23:06<29:09,  2.04it/s] 67%|██████▋   | 7141/10714 [1:23:07<29:09,  2.04it/s] 67%|██████▋   | 7142/10714 [1:23:07<29:10,  2.04it/s] 67%|██████▋   | 7143/10714 [1:23:08<29:08,  2.04it/s] 67%|██████▋   | 7144/10714 [1:23:08<29:07,  2.04it/s] 67%|██████▋   | 7145/10714 [1:23:09<29:06,  2.04it/s] 67%|██████▋   | 7146/10714 [1:23:09<29:07,  2.04it/s] 67%|██████▋   | 7147/10714 [1:23:10<29:06,  2.04it/s] 67%|██████▋   | 7148/10714 [1:23:10<29:04,  2.04it/s] 67%|██████▋   | 7149/10714 [1:23:11<29:02,  2.05it/s] 67%|██████▋   | 7150/10714 [1:23:11<29:02,  2.05it/s]{'loss': 3.4119, 'grad_norm': 0.20293261110782623, 'learning_rate': 0.0003008969104096958, 'epoch': 0.67}                                                      
- 67%|██████▋   | 7150/10714 [1:23:11<29:02,  2.05it/s] 67%|██████▋   | 7151/10714 [1:23:12<29:06,  2.04it/s] 67%|██████▋   | 7152/10714 [1:23:12<29:05,  2.04it/s] 67%|██████▋   | 7153/10714 [1:23:13<29:03,  2.04it/s] 67%|██████▋   | 7154/10714 [1:23:13<29:02,  2.04it/s] 67%|██████▋   | 7155/10714 [1:23:14<29:01,  2.04it/s] 67%|██████▋   | 7156/10714 [1:23:14<29:01,  2.04it/s] 67%|██████▋   | 7157/10714 [1:23:15<29:02,  2.04it/s] 67%|██████▋   | 7158/10714 [1:23:15<29:03,  2.04it/s] 67%|██████▋   | 7159/10714 [1:23:16<29:02,  2.04it/s] 67%|██████▋   | 7160/10714 [1:23:16<29:00,  2.04it/s] 67%|██████▋   | 7161/10714 [1:23:17<29:00,  2.04it/s] 67%|██████▋   | 7162/10714 [1:23:17<28:59,  2.04it/s] 67%|██████▋   | 7163/10714 [1:23:18<28:58,  2.04it/s] 67%|██████▋   | 7164/10714 [1:23:18<28:58,  2.04it/s] 67%|██████▋   | 7165/10714 [1:23:18<28:56,  2.04it/s] 67%|██████▋   | 7166/10714 [1:23:19<28:56,  2.04it/s] 67%|██████▋   | 7167/10714 [1:23:19<28:57,  2.04it/s] 67%|██████▋   | 7168/10714 [1:23:20<28:56,  2.04it/s] 67%|██████▋   | 7169/10714 [1:23:20<28:56,  2.04it/s] 67%|██████▋   | 7170/10714 [1:23:21<28:55,  2.04it/s] 67%|██████▋   | 7171/10714 [1:23:21<28:55,  2.04it/s] 67%|██████▋   | 7172/10714 [1:23:22<28:53,  2.04it/s] 67%|██████▋   | 7173/10714 [1:23:22<28:55,  2.04it/s] 67%|██████▋   | 7174/10714 [1:23:23<28:55,  2.04it/s] 67%|██████▋   | 7175/10714 [1:23:23<28:54,  2.04it/s]{'loss': 3.4166, 'grad_norm': 0.19617551565170288, 'learning_rate': 0.0002971675969030003, 'epoch': 0.67}
-                                                       67%|��█████▋   | 7175/10714 [1:23:23<28:54,  2.04it/s] 67%|██████▋   | 7176/10714 [1:23:24<28:54,  2.04it/s] 67%|██████▋   | 7177/10714 [1:23:24<28:54,  2.04it/s] 67%|██████▋   | 7178/10714 [1:23:25<28:55,  2.04it/s] 67%|██████▋   | 7179/10714 [1:23:25<28:53,  2.04it/s] 67%|██████▋   | 7180/10714 [1:23:26<28:51,  2.04it/s] 67%|██████▋   | 7181/10714 [1:23:26<28:51,  2.04it/s] 67%|██████▋   | 7182/10714 [1:23:27<28:50,  2.04it/s] 67%|██████▋   | 7183/10714 [1:23:27<28:49,  2.04it/s] 67%|██████▋   | 7184/10714 [1:23:28<28:49,  2.04it/s] 67%|██████▋   | 7185/10714 [1:23:28<28:48,  2.04it/s] 67%|██████▋   | 7186/10714 [1:23:29<28:48,  2.04it/s] 67%|██████▋   | 7187/10714 [1:23:29<28:46,  2.04it/s] 67%|██████▋   | 7188/10714 [1:23:30<28:45,  2.04it/s] 67%|██████▋   | 7189/10714 [1:23:30<28:46,  2.04it/s] 67%|██████▋   | 7190/10714 [1:23:31<28:45,  2.04it/s] 67%|██████▋   | 7191/10714 [1:23:31<28:44,  2.04it/s] 67%|██████▋   | 7192/10714 [1:23:32<28:41,  2.05it/s] 67%|██████▋   | 7193/10714 [1:23:32<28:42,  2.04it/s] 67%|██████▋   | 7194/10714 [1:23:33<28:42,  2.04it/s] 67%|██████▋   | 7195/10714 [1:23:33<28:42,  2.04it/s] 67%|██████▋   | 7196/10714 [1:23:34<28:40,  2.04it/s] 67%|██████▋   | 7197/10714 [1:23:34<28:41,  2.04it/s] 67%|██████▋   | 7198/10714 [1:23:35<28:43,  2.04it/s] 67%|██████▋   | 7199/10714 [1:23:35<28:42,  2.04it/s] 67%|██████▋   | 7200/10714 [1:23:36<28:41,  2.04it/s]{'loss': 3.4112, 'grad_norm': 0.1963549703359604, 'learning_rate': 0.00029345174139380206, 'epoch': 0.67}                                                      
- 67%|██████▋   | 7200/10714 [1:23:36<28:41,  2.04it/s] 67%|██████▋   | 7201/10714 [1:23:36<28:42,  2.04it/s] 67%|██████▋   | 7202/10714 [1:23:37<28:41,  2.04it/s] 67%|██████▋   | 7203/10714 [1:23:37<28:40,  2.04it/s] 67%|██████▋   | 7204/10714 [1:23:38<28:38,  2.04it/s] 67%|██████▋   | 7205/10714 [1:23:38<28:37,  2.04it/s] 67%|██████▋   | 7206/10714 [1:23:39<28:38,  2.04it/s] 67%|██████▋   | 7207/10714 [1:23:39<28:38,  2.04it/s] 67%|██████▋   | 7208/10714 [1:23:40<28:37,  2.04it/s] 67%|██████▋   | 7209/10714 [1:23:40<28:36,  2.04it/s] 67%|██████▋   | 7210/10714 [1:23:41<28:35,  2.04it/s] 67%|██████▋   | 7211/10714 [1:23:41<28:34,  2.04it/s] 67%|██████▋   | 7212/10714 [1:23:42<28:35,  2.04it/s] 67%|██████▋   | 7213/10714 [1:23:42<28:35,  2.04it/s] 67%|██████▋   | 7214/10714 [1:23:42<28:35,  2.04it/s] 67%|██████▋   | 7215/10714 [1:23:43<28:33,  2.04it/s] 67%|██████▋   | 7216/10714 [1:23:43<28:33,  2.04it/s] 67%|██████▋   | 7217/10714 [1:23:44<28:32,  2.04it/s] 67%|██████▋   | 7218/10714 [1:23:44<28:32,  2.04it/s] 67%|██████▋   | 7219/10714 [1:23:45<28:32,  2.04it/s] 67%|██████▋   | 7220/10714 [1:23:45<28:32,  2.04it/s] 67%|██████▋   | 7221/10714 [1:23:46<28:31,  2.04it/s] 67%|██████▋   | 7222/10714 [1:23:46<28:31,  2.04it/s] 67%|██████▋   | 7223/10714 [1:23:47<28:30,  2.04it/s] 67%|██████▋   | 7224/10714 [1:23:47<28:30,  2.04it/s] 67%|██████▋   | 7225/10714 [1:23:48<28:28,  2.04it/s]                                                      {'loss': 3.4041, 'grad_norm': 0.20626524090766907, 'learning_rate': 0.0002897495904303513, 'epoch': 0.67}
- 67%|██████▋   | 7225/10714 [1:23:48<28:28,  2.04it/s] 67%|██████▋   | 7226/10714 [1:23:48<28:29,  2.04it/s] 67%|██████▋   | 7227/10714 [1:23:49<28:29,  2.04it/s] 67%|██████▋   | 7228/10714 [1:23:49<28:27,  2.04it/s] 67%|██████▋   | 7229/10714 [1:23:50<28:26,  2.04it/s] 67%|██████▋   | 7230/10714 [1:23:50<28:23,  2.05it/s] 67%|██████▋   | 7231/10714 [1:23:51<28:23,  2.04it/s] 68%|██████▊   | 7232/10714 [1:23:51<28:25,  2.04it/s] 68%|██████▊   | 7233/10714 [1:23:52<28:25,  2.04it/s] 68%|██████▊   | 7234/10714 [1:23:52<28:23,  2.04it/s] 68%|██████▊   | 7235/10714 [1:23:53<28:20,  2.05it/s] 68%|██████▊   | 7236/10714 [1:23:53<28:19,  2.05it/s] 68%|██████▊   | 7237/10714 [1:23:54<28:20,  2.04it/s] 68%|██████▊   | 7238/10714 [1:23:54<28:20,  2.04it/s] 68%|██████▊   | 7239/10714 [1:23:55<28:21,  2.04it/s] 68%|██████▊   | 7240/10714 [1:23:55<28:19,  2.04it/s] 68%|██████▊   | 7241/10714 [1:23:56<28:19,  2.04it/s] 68%|██████▊   | 7242/10714 [1:23:56<28:19,  2.04it/s] 68%|██████▊   | 7243/10714 [1:23:57<28:17,  2.04it/s] 68%|██████▊   | 7244/10714 [1:23:57<28:16,  2.05it/s] 68%|██████▊   | 7245/10714 [1:23:58<28:14,  2.05it/s] 68%|██████▊   | 7246/10714 [1:23:58<28:11,  2.05it/s] 68%|██████▊   | 7247/10714 [1:23:59<28:15,  2.04it/s] 68%|██████▊   | 7248/10714 [1:23:59<28:16,  2.04it/s] 68%|██████▊   | 7249/10714 [1:24:00<28:15,  2.04it/s] 68%|██████▊   | 7250/10714 [1:24:00<28:14,  2.04it/s]{'loss': 3.4143, 'grad_norm': 0.19602344930171967, 'learning_rate': 0.0002860613896515982, 'epoch': 0.68}
-                                                       68%|██████▊   | 7250/10714 [1:24:00<28:14,  2.04it/s] 68%|██████▊   | 7251/10714 [1:24:01<28:17,  2.04it/s] 68%|██████▊   | 7252/10714 [1:24:01<28:16,  2.04it/s] 68%|██████▊   | 7253/10714 [1:24:02<28:15,  2.04it/s] 68%|██████▊   | 7254/10714 [1:24:02<28:14,  2.04it/s] 68%|██████▊   | 7255/10714 [1:24:03<28:14,  2.04it/s] 68%|██████▊   | 7256/10714 [1:24:03<28:14,  2.04it/s] 68%|██████▊   | 7257/10714 [1:24:04<28:12,  2.04it/s] 68%|██████▊   | 7258/10714 [1:24:04<28:10,  2.04it/s] 68%|██████▊   | 7259/10714 [1:24:05<28:11,  2.04it/s] 68%|██████▊   | 7260/10714 [1:24:05<28:10,  2.04it/s] 68%|██████▊   | 7261/10714 [1:24:06<28:09,  2.04it/s] 68%|██████▊   | 7262/10714 [1:24:06<28:06,  2.05it/s] 68%|██████▊   | 7263/10714 [1:24:06<28:05,  2.05it/s] 68%|██████▊   | 7264/10714 [1:24:07<28:08,  2.04it/s] 68%|██████▊   | 7265/10714 [1:24:07<28:08,  2.04it/s] 68%|██████▊   | 7266/10714 [1:24:08<28:08,  2.04it/s] 68%|██████▊   | 7267/10714 [1:24:08<28:07,  2.04it/s] 68%|██████▊   | 7268/10714 [1:24:09<28:06,  2.04it/s] 68%|██████▊   | 7269/10714 [1:24:09<28:06,  2.04it/s] 68%|██████▊   | 7270/10714 [1:24:10<28:05,  2.04it/s] 68%|██████▊   | 7271/10714 [1:24:10<28:03,  2.04it/s] 68%|██████▊   | 7272/10714 [1:24:11<28:05,  2.04it/s] 68%|██████▊   | 7273/10714 [1:24:11<28:05,  2.04it/s] 68%|██████▊   | 7274/10714 [1:24:12<28:03,  2.04it/s] 68%|██████▊   | 7275/10714 [1:24:12<28:03,  2.04it/s]{'loss': 3.4142, 'grad_norm': 0.1989254504442215, 'learning_rate': 0.00028238738377089206, 'epoch': 0.68}                                                      
- 68%|██████▊   | 7275/10714 [1:24:12<28:03,  2.04it/s] 68%|██████▊   | 7276/10714 [1:24:13<28:08,  2.04it/s] 68%|██████▊   | 7277/10714 [1:24:13<28:06,  2.04it/s] 68%|██████▊   | 7278/10714 [1:24:14<28:02,  2.04it/s] 68%|██████▊   | 7279/10714 [1:24:14<28:01,  2.04it/s] 68%|██████▊   | 7280/10714 [1:24:15<28:01,  2.04it/s] 68%|██████▊   | 7281/10714 [1:24:15<28:02,  2.04it/s] 68%|██████▊   | 7282/10714 [1:24:16<28:01,  2.04it/s] 68%|██████▊   | 7283/10714 [1:24:16<28:00,  2.04it/s] 68%|██████▊   | 7284/10714 [1:24:17<28:01,  2.04it/s] 68%|██████▊   | 7285/10714 [1:24:17<27:57,  2.04it/s] 68%|██████▊   | 7286/10714 [1:24:18<27:56,  2.04it/s] 68%|██████▊   | 7287/10714 [1:24:18<27:57,  2.04it/s] 68%|██████▊   | 7288/10714 [1:24:19<27:57,  2.04it/s] 68%|██████▊   | 7289/10714 [1:24:19<27:57,  2.04it/s] 68%|██████▊   | 7290/10714 [1:24:20<27:53,  2.05it/s] 68%|██████▊   | 7291/10714 [1:24:20<27:52,  2.05it/s] 68%|██████▊   | 7292/10714 [1:24:21<27:51,  2.05it/s] 68%|██████▊   | 7293/10714 [1:24:21<27:52,  2.05it/s] 68%|██████▊   | 7294/10714 [1:24:22<27:53,  2.04it/s] 68%|██████▊   | 7295/10714 [1:24:22<27:51,  2.04it/s] 68%|██████▊   | 7296/10714 [1:24:23<27:52,  2.04it/s] 68%|██████▊   | 7297/10714 [1:24:23<27:52,  2.04it/s] 68%|██████▊   | 7298/10714 [1:24:24<27:51,  2.04it/s] 68%|██████▊   | 7299/10714 [1:24:24<27:51,  2.04it/s] 68%|██████▊   | 7300/10714 [1:24:25<27:52,  2.04it/s]{'loss': 3.4127, 'grad_norm': 0.21638084948062897, 'learning_rate': 0.00027872781655974695, 'epoch': 0.68}
-                                                       68%|██████▊   | 7300/10714 [1:24:25<27:52,  2.04it/s] 68%|██████▊   | 7301/10714 [1:24:25<27:54,  2.04it/s] 68%|██████▊   | 7302/10714 [1:24:26<27:51,  2.04it/s] 68%|██████▊   | 7303/10714 [1:24:26<27:50,  2.04it/s] 68%|██████▊   | 7304/10714 [1:24:27<27:49,  2.04it/s] 68%|██████▊   | 7305/10714 [1:24:27<27:49,  2.04it/s] 68%|██████▊   | 7306/10714 [1:24:28<27:48,  2.04it/s] 68%|██████▊   | 7307/10714 [1:24:28<27:47,  2.04it/s] 68%|██████▊   | 7308/10714 [1:24:29<27:47,  2.04it/s] 68%|██████▊   | 7309/10714 [1:24:29<27:47,  2.04it/s] 68%|██████▊   | 7310/10714 [1:24:29<27:45,  2.04it/s] 68%|██████▊   | 7311/10714 [1:24:30<27:44,  2.05it/s] 68%|██████▊   | 7312/10714 [1:24:30<27:45,  2.04it/s] 68%|██████▊   | 7313/10714 [1:24:31<27:45,  2.04it/s] 68%|██████▊   | 7314/10714 [1:24:31<27:45,  2.04it/s] 68%|██████▊   | 7315/10714 [1:24:32<27:46,  2.04it/s] 68%|██████▊   | 7316/10714 [1:24:32<27:46,  2.04it/s] 68%|██████▊   | 7317/10714 [1:24:33<27:44,  2.04it/s] 68%|██████▊   | 7318/10714 [1:24:33<27:40,  2.04it/s] 68%|██████▊   | 7319/10714 [1:24:34<27:40,  2.05it/s] 68%|██████▊   | 7320/10714 [1:24:34<27:39,  2.05it/s] 68%|██████▊   | 7321/10714 [1:24:35<27:40,  2.04it/s] 68%|██████▊   | 7322/10714 [1:24:35<27:39,  2.04it/s] 68%|██████▊   | 7323/10714 [1:24:36<27:37,  2.05it/s] 68%|██████▊   | 7324/10714 [1:24:36<27:36,  2.05it/s] 68%|██████▊   | 7325/10714 [1:24:37<27:35,  2.05it/s]{'loss': 3.4013, 'grad_norm': 0.20928381383419037, 'learning_rate': 0.00027508293083166604, 'epoch': 0.68}
-                                                       68%|██████▊   | 7325/10714 [1:24:37<27:35,  2.05it/s] 68%|██████▊   | 7326/10714 [1:24:37<27:38,  2.04it/s] 68%|██████▊   | 7327/10714 [1:24:38<27:37,  2.04it/s] 68%|██████▊   | 7328/10714 [1:24:38<27:33,  2.05it/s] 68%|██████▊   | 7329/10714 [1:24:39<27:33,  2.05it/s] 68%|██████▊   | 7330/10714 [1:24:39<27:35,  2.04it/s] 68%|██████▊   | 7331/10714 [1:24:40<27:35,  2.04it/s] 68%|██████▊   | 7332/10714 [1:24:40<27:34,  2.04it/s] 68%|██████▊   | 7333/10714 [1:24:41<27:31,  2.05it/s] 68%|██████▊   | 7334/10714 [1:24:41<27:33,  2.04it/s] 68%|██████▊   | 7335/10714 [1:24:42<27:32,  2.04it/s] 68%|██████▊   | 7336/10714 [1:24:42<27:33,  2.04it/s] 68%|██████▊   | 7337/10714 [1:24:43<27:32,  2.04it/s] 68%|██████▊   | 7338/10714 [1:24:43<27:30,  2.05it/s] 68%|██████▊   | 7339/10714 [1:24:44<27:32,  2.04it/s] 69%|██████▊   | 7340/10714 [1:24:44<27:33,  2.04it/s] 69%|██████▊   | 7341/10714 [1:24:45<27:31,  2.04it/s] 69%|██████▊   | 7342/10714 [1:24:45<27:31,  2.04it/s] 69%|██████▊   | 7343/10714 [1:24:46<27:29,  2.04it/s] 69%|██████▊   | 7344/10714 [1:24:46<27:29,  2.04it/s] 69%|██████▊   | 7345/10714 [1:24:47<27:28,  2.04it/s] 69%|██████▊   | 7346/10714 [1:24:47<27:26,  2.05it/s] 69%|██████▊   | 7347/10714 [1:24:48<27:27,  2.04it/s] 69%|██████▊   | 7348/10714 [1:24:48<27:27,  2.04it/s] 69%|██████▊   | 7349/10714 [1:24:49<27:28,  2.04it/s] 69%|██████▊   | 7350/10714 [1:24:49<27:27,  2.04it/s]{'loss': 3.4003, 'grad_norm': 0.2073660045862198, 'learning_rate': 0.0002714529684260311, 'epoch': 0.69}                                                      
- 69%|██████▊   | 7350/10714 [1:24:49<27:27,  2.04it/s] 69%|██████▊   | 7351/10714 [1:24:50<27:29,  2.04it/s] 69%|██████▊   | 7352/10714 [1:24:50<27:28,  2.04it/s] 69%|██████▊   | 7353/10714 [1:24:51<27:26,  2.04it/s] 69%|██████▊   | 7354/10714 [1:24:51<27:25,  2.04it/s] 69%|██████▊   | 7355/10714 [1:24:52<27:23,  2.04it/s] 69%|██████▊   | 7356/10714 [1:24:52<27:26,  2.04it/s] 69%|██████▊   | 7357/10714 [1:24:52<27:24,  2.04it/s] 69%|██████▊   | 7358/10714 [1:24:53<27:22,  2.04it/s] 69%|██████▊   | 7359/10714 [1:24:53<27:22,  2.04it/s] 69%|██████▊   | 7360/10714 [1:24:54<27:21,  2.04it/s] 69%|██████▊   | 7361/10714 [1:24:54<27:21,  2.04it/s] 69%|██████▊   | 7362/10714 [1:24:55<27:20,  2.04it/s] 69%|██████▊   | 7363/10714 [1:24:55<27:18,  2.05it/s] 69%|██████▊   | 7364/10714 [1:24:56<27:19,  2.04it/s] 69%|██████▊   | 7365/10714 [1:24:56<27:19,  2.04it/s] 69%|██████▉   | 7366/10714 [1:24:57<27:20,  2.04it/s] 69%|██████▉   | 7367/10714 [1:24:57<27:19,  2.04it/s] 69%|██████▉   | 7368/10714 [1:24:58<27:17,  2.04it/s] 69%|██████▉   | 7369/10714 [1:24:58<27:18,  2.04it/s] 69%|██████▉   | 7370/10714 [1:24:59<27:18,  2.04it/s] 69%|██████▉   | 7371/10714 [1:24:59<27:16,  2.04it/s] 69%|██████▉   | 7372/10714 [1:25:00<27:14,  2.04it/s] 69%|██████▉   | 7373/10714 [1:25:00<27:11,  2.05it/s] 69%|██████▉   | 7374/10714 [1:25:01<27:12,  2.05it/s] 69%|██████▉   | 7375/10714 [1:25:01<27:12,  2.04it/s]{'loss': 3.4083, 'grad_norm': 0.2048829048871994, 'learning_rate': 0.00026783817019205723, 'epoch': 0.69}                                                      
- 69%|██████▉   | 7375/10714 [1:25:01<27:12,  2.04it/s] 69%|██████▉   | 7376/10714 [1:25:02<27:13,  2.04it/s] 69%|██████▉   | 7377/10714 [1:25:02<27:11,  2.05it/s] 69%|██████▉   | 7378/10714 [1:25:03<27:10,  2.05it/s] 69%|██████▉   | 7379/10714 [1:25:03<27:11,  2.04it/s] 69%|██████▉   | 7380/10714 [1:25:04<27:13,  2.04it/s] 69%|██████▉   | 7381/10714 [1:25:04<27:11,  2.04it/s] 69%|██████▉   | 7382/10714 [1:25:05<27:08,  2.05it/s] 69%|██████▉   | 7383/10714 [1:25:05<27:07,  2.05it/s] 69%|██████▉   | 7384/10714 [1:25:06<27:08,  2.05it/s] 69%|██████▉   | 7385/10714 [1:25:06<27:08,  2.04it/s] 69%|██████▉   | 7386/10714 [1:25:07<27:08,  2.04it/s] 69%|██████▉   | 7387/10714 [1:25:07<27:07,  2.04it/s] 69%|██████▉   | 7388/10714 [1:25:08<27:05,  2.05it/s] 69%|██████▉   | 7389/10714 [1:25:08<27:06,  2.04it/s] 69%|██████▉   | 7390/10714 [1:25:09<27:07,  2.04it/s] 69%|██████▉   | 7391/10714 [1:25:09<27:08,  2.04it/s] 69%|██████▉   | 7392/10714 [1:25:10<27:08,  2.04it/s] 69%|██████▉   | 7393/10714 [1:25:10<27:06,  2.04it/s] 69%|██████▉   | 7394/10714 [1:25:11<27:06,  2.04it/s] 69%|██████▉   | 7395/10714 [1:25:11<27:06,  2.04it/s] 69%|██████▉   | 7396/10714 [1:25:12<27:05,  2.04it/s] 69%|██████▉   | 7397/10714 [1:25:12<27:05,  2.04it/s] 69%|██████▉   | 7398/10714 [1:25:13<27:04,  2.04it/s] 69%|██████▉   | 7399/10714 [1:25:13<27:03,  2.04it/s] 69%|██████▉   | 7400/10714 [1:25:14<27:03,  2.04it/s]{'loss': 3.408, 'grad_norm': 0.2030574083328247, 'learning_rate': 0.00026423877597281067, 'epoch': 0.69}                                                      
- 69%|██████▉   | 7400/10714 [1:25:14<27:03,  2.04it/s] 69%|██████▉   | 7401/10714 [1:25:14<27:05,  2.04it/s] 69%|██████▉   | 7402/10714 [1:25:15<27:04,  2.04it/s] 69%|██████▉   | 7403/10714 [1:25:15<27:03,  2.04it/s] 69%|██████▉   | 7404/10714 [1:25:15<27:01,  2.04it/s] 69%|██████▉   | 7405/10714 [1:25:16<27:02,  2.04it/s] 69%|██████▉   | 7406/10714 [1:25:17<31:29,  1.75it/s] 69%|██████▉   | 7407/10714 [1:25:17<30:11,  1.83it/s] 69%|██████▉   | 7408/10714 [1:25:18<29:13,  1.89it/s] 69%|██████▉   | 7409/10714 [1:25:18<28:33,  1.93it/s] 69%|██████▉   | 7410/10714 [1:25:19<28:03,  1.96it/s] 69%|██████▉   | 7411/10714 [1:25:19<27:41,  1.99it/s] 69%|██████▉   | 7412/10714 [1:25:20<27:28,  2.00it/s] 69%|██████▉   | 7413/10714 [1:25:20<27:18,  2.01it/s] 69%|██████▉   | 7414/10714 [1:25:21<27:09,  2.02it/s] 69%|██████▉   | 7415/10714 [1:25:21<27:03,  2.03it/s] 69%|██████▉   | 7416/10714 [1:25:22<26:57,  2.04it/s] 69%|██████▉   | 7417/10714 [1:25:22<26:56,  2.04it/s] 69%|██████▉   | 7418/10714 [1:25:23<26:56,  2.04it/s] 69%|██████▉   | 7419/10714 [1:25:23<26:54,  2.04it/s] 69%|██████▉   | 7420/10714 [1:25:24<26:53,  2.04it/s] 69%|██████▉   | 7421/10714 [1:25:24<26:50,  2.04it/s] 69%|██████▉   | 7422/10714 [1:25:25<26:50,  2.04it/s] 69%|██████▉   | 7423/10714 [1:25:25<26:48,  2.05it/s] 69%|██████▉   | 7424/10714 [1:25:26<26:48,  2.05it/s] 69%|██████▉   | 7425/10714 [1:25:26<26:48,  2.04it/s]{'loss': 3.4112, 'grad_norm': 0.20575560629367828, 'learning_rate': 0.0002606550245892967, 'epoch': 0.69}                                                      
- 69%|██████▉   | 7425/10714 [1:25:26<26:48,  2.04it/s] 69%|██████▉   | 7426/10714 [1:25:27<26:49,  2.04it/s] 69%|██████▉   | 7427/10714 [1:25:27<26:48,  2.04it/s] 69%|██████▉   | 7428/10714 [1:25:28<26:48,  2.04it/s] 69%|██████▉   | 7429/10714 [1:25:28<26:46,  2.04it/s] 69%|██████▉   | 7430/10714 [1:25:28<26:48,  2.04it/s] 69%|██████▉   | 7431/10714 [1:25:29<26:47,  2.04it/s] 69%|██████▉   | 7432/10714 [1:25:29<26:47,  2.04it/s] 69%|██████▉   | 7433/10714 [1:25:30<26:43,  2.05it/s] 69%|██████▉   | 7434/10714 [1:25:30<26:42,  2.05it/s] 69%|██████▉   | 7435/10714 [1:25:31<26:44,  2.04it/s] 69%|██████▉   | 7436/10714 [1:25:31<26:46,  2.04it/s] 69%|██████▉   | 7437/10714 [1:25:32<31:09,  1.75it/s] 69%|██████▉   | 7438/10714 [1:25:33<29:51,  1.83it/s] 69%|██████▉   | 7439/10714 [1:25:33<28:55,  1.89it/s] 69%|██████▉   | 7440/10714 [1:25:34<28:14,  1.93it/s] 69%|██████▉   | 7441/10714 [1:25:34<27:47,  1.96it/s] 69%|██████▉   | 7442/10714 [1:25:35<27:27,  1.99it/s] 69%|██████▉   | 7443/10714 [1:25:35<27:13,  2.00it/s] 69%|██████▉   | 7444/10714 [1:25:36<27:01,  2.02it/s] 69%|██████▉   | 7445/10714 [1:25:36<26:54,  2.02it/s] 69%|██████▉   | 7446/10714 [1:25:37<26:52,  2.03it/s] 70%|██████▉   | 7447/10714 [1:25:37<26:47,  2.03it/s] 70%|██████▉   | 7448/10714 [1:25:38<26:43,  2.04it/s] 70%|██████▉   | 7449/10714 [1:25:38<26:40,  2.04it/s] 70%|██████▉   | 7450/10714 [1:25:39<26:40,  2.04it/s]                                                      {'loss': 3.4056, 'grad_norm': 0.2079186886548996, 'learning_rate': 0.0002570871538246132, 'epoch': 0.7}
- 70%|██████▉   | 7450/10714 [1:25:39<26:40,  2.04it/s] 70%|██████▉   | 7451/10714 [1:25:39<26:39,  2.04it/s] 70%|██████▉   | 7452/10714 [1:25:40<26:36,  2.04it/s] 70%|██████▉   | 7453/10714 [1:25:40<26:34,  2.05it/s] 70%|██████▉   | 7454/10714 [1:25:41<26:35,  2.04it/s] 70%|██████▉   | 7455/10714 [1:25:41<26:35,  2.04it/s] 70%|██████▉   | 7456/10714 [1:25:41<26:34,  2.04it/s] 70%|██████▉   | 7457/10714 [1:25:42<26:32,  2.05it/s] 70%|██████▉   | 7458/10714 [1:25:42<26:33,  2.04it/s] 70%|██████▉   | 7459/10714 [1:25:43<26:35,  2.04it/s] 70%|██████▉   | 7460/10714 [1:25:43<26:32,  2.04it/s] 70%|██████▉   | 7461/10714 [1:25:44<26:32,  2.04it/s] 70%|██████▉   | 7462/10714 [1:25:44<26:30,  2.04it/s] 70%|██████▉   | 7463/10714 [1:25:45<26:30,  2.04it/s] 70%|██████▉   | 7464/10714 [1:25:45<26:30,  2.04it/s] 70%|██████▉   | 7465/10714 [1:25:46<26:28,  2.05it/s] 70%|██████▉   | 7466/10714 [1:25:46<26:27,  2.05it/s] 70%|██████▉   | 7467/10714 [1:25:47<26:27,  2.04it/s] 70%|██████▉   | 7468/10714 [1:25:47<26:29,  2.04it/s] 70%|██████▉   | 7469/10714 [1:25:48<26:28,  2.04it/s] 70%|██████▉   | 7470/10714 [1:25:48<26:25,  2.05it/s] 70%|██████▉   | 7471/10714 [1:25:49<26:23,  2.05it/s] 70%|██████▉   | 7472/10714 [1:25:49<26:22,  2.05it/s] 70%|██████▉   | 7473/10714 [1:25:50<26:24,  2.05it/s] 70%|██████▉   | 7474/10714 [1:25:50<26:24,  2.04it/s] 70%|██████▉   | 7475/10714 [1:25:51<26:22,  2.05it/s]{'loss': 3.412, 'grad_norm': 0.20893797278404236, 'learning_rate': 0.00025353540040817346, 'epoch': 0.7}                                                      
- 70%|██████▉   | 7475/10714 [1:25:51<26:22,  2.05it/s] 70%|██████▉   | 7476/10714 [1:25:51<26:25,  2.04it/s] 70%|██████▉   | 7477/10714 [1:25:52<26:25,  2.04it/s] 70%|██████▉   | 7478/10714 [1:25:52<26:24,  2.04it/s] 70%|██████▉   | 7479/10714 [1:25:53<26:21,  2.05it/s] 70%|██████▉   | 7480/10714 [1:25:53<26:20,  2.05it/s] 70%|██████▉   | 7481/10714 [1:25:54<26:21,  2.04it/s] 70%|██████▉   | 7482/10714 [1:25:54<26:21,  2.04it/s] 70%|██████▉   | 7483/10714 [1:25:55<26:21,  2.04it/s] 70%|██████▉   | 7484/10714 [1:25:55<26:19,  2.05it/s] 70%|██████▉   | 7485/10714 [1:25:56<26:18,  2.05it/s] 70%|██████▉   | 7486/10714 [1:25:56<26:19,  2.04it/s] 70%|██████▉   | 7487/10714 [1:25:57<26:19,  2.04it/s] 70%|██████▉   | 7488/10714 [1:25:57<26:17,  2.04it/s] 70%|██████▉   | 7489/10714 [1:25:58<26:16,  2.05it/s] 70%|██████▉   | 7490/10714 [1:25:58<26:14,  2.05it/s] 70%|██████▉   | 7491/10714 [1:25:59<26:16,  2.04it/s] 70%|██████▉   | 7492/10714 [1:25:59<26:16,  2.04it/s] 70%|██████▉   | 7493/10714 [1:26:00<26:16,  2.04it/s] 70%|██████▉   | 7494/10714 [1:26:00<26:14,  2.05it/s] 70%|██████▉   | 7495/10714 [1:26:01<26:14,  2.04it/s] 70%|██████▉   | 7496/10714 [1:26:01<26:14,  2.04it/s] 70%|██████▉   | 7497/10714 [1:26:02<26:13,  2.04it/s] 70%|██████▉   | 7498/10714 [1:26:02<26:13,  2.04it/s] 70%|██████▉   | 7499/10714 [1:26:03<26:11,  2.05it/s] 70%|███████   | 7500/10714 [1:26:03<26:10,  2.05it/s]                                                      {'loss': 3.3985, 'grad_norm': 0.19850435853004456, 'learning_rate': 0.0002500000000000001, 'epoch': 0.7}
- 70%|███████   | 7500/10714 [1:26:03<26:10,  2.05it/s] 70%|███████   | 7501/10714 [1:26:04<26:15,  2.04it/s] 70%|███████   | 7502/10714 [1:26:04<26:11,  2.04it/s] 70%|███████   | 7503/10714 [1:26:04<26:09,  2.05it/s] 70%|███████   | 7504/10714 [1:26:05<26:07,  2.05it/s] 70%|███████   | 7505/10714 [1:26:05<26:06,  2.05it/s] 70%|███████   | 7506/10714 [1:26:06<26:07,  2.05it/s] 70%|███████   | 7507/10714 [1:26:06<26:08,  2.04it/s] 70%|███████   | 7508/10714 [1:26:07<26:06,  2.05it/s] 70%|███████   | 7509/10714 [1:26:07<26:06,  2.05it/s] 70%|███████   | 7510/10714 [1:26:08<26:04,  2.05it/s] 70%|███████   | 7511/10714 [1:26:08<26:05,  2.05it/s] 70%|███████   | 7512/10714 [1:26:09<26:04,  2.05it/s] 70%|███████   | 7513/10714 [1:26:09<26:04,  2.05it/s] 70%|███████   | 7514/10714 [1:26:10<26:04,  2.05it/s] 70%|███████   | 7515/10714 [1:26:10<26:03,  2.05it/s] 70%|███████   | 7516/10714 [1:26:11<26:04,  2.04it/s] 70%|███████   | 7517/10714 [1:26:11<26:05,  2.04it/s] 70%|███████   | 7518/10714 [1:26:12<26:04,  2.04it/s] 70%|███████   | 7519/10714 [1:26:12<26:03,  2.04it/s] 70%|███████   | 7520/10714 [1:26:13<26:02,  2.04it/s] 70%|███████   | 7521/10714 [1:26:13<26:02,  2.04it/s] 70%|███████   | 7522/10714 [1:26:14<26:01,  2.04it/s] 70%|███████   | 7523/10714 [1:26:14<26:01,  2.04it/s] 70%|███████   | 7524/10714 [1:26:15<25:58,  2.05it/s] 70%|███████   | 7525/10714 [1:26:15<25:57,  2.05it/s]                                                      {'loss': 3.3975, 'grad_norm': 0.19483023881912231, 'learning_rate': 0.0002464811871750871, 'epoch': 0.7}
- 70%|███████   | 7525/10714 [1:26:15<25:57,  2.05it/s] 70%|███████   | 7526/10714 [1:26:16<26:02,  2.04it/s] 70%|███████   | 7527/10714 [1:26:16<26:00,  2.04it/s] 70%|███████   | 7528/10714 [1:26:17<26:01,  2.04it/s] 70%|███████   | 7529/10714 [1:26:17<25:58,  2.04it/s] 70%|███████   | 7530/10714 [1:26:18<25:59,  2.04it/s] 70%|███████   | 7531/10714 [1:26:18<25:58,  2.04it/s] 70%|███████   | 7532/10714 [1:26:19<25:56,  2.04it/s] 70%|███████   | 7533/10714 [1:26:19<25:55,  2.05it/s] 70%|███████   | 7534/10714 [1:26:20<25:56,  2.04it/s] 70%|███████   | 7535/10714 [1:26:20<25:56,  2.04it/s] 70%|███████   | 7536/10714 [1:26:21<25:54,  2.04it/s] 70%|███████   | 7537/10714 [1:26:21<25:51,  2.05it/s] 70%|███████   | 7538/10714 [1:26:22<25:49,  2.05it/s] 70%|███████   | 7539/10714 [1:26:22<25:50,  2.05it/s] 70%|███████   | 7540/10714 [1:26:23<25:52,  2.05it/s] 70%|███████   | 7541/10714 [1:26:23<25:51,  2.05it/s] 70%|███████   | 7542/10714 [1:26:24<25:50,  2.05it/s] 70%|███████   | 7543/10714 [1:26:24<25:48,  2.05it/s] 70%|███████   | 7544/10714 [1:26:25<25:50,  2.04it/s] 70%|███████   | 7545/10714 [1:26:25<25:51,  2.04it/s] 70%|███████   | 7546/10714 [1:26:26<25:49,  2.04it/s] 70%|███████   | 7547/10714 [1:26:26<25:47,  2.05it/s] 70%|███████   | 7548/10714 [1:26:26<25:47,  2.05it/s] 70%|███████   | 7549/10714 [1:26:27<25:46,  2.05it/s] 70%|███████   | 7550/10714 [1:26:27<25:47,  2.05it/s]{'loss': 3.3983, 'grad_norm': 0.19885829091072083, 'learning_rate': 0.0002429791954078373, 'epoch': 0.7}
-                                                       70%|███████   | 7550/10714 [1:26:27<25:47,  2.05it/s] 70%|███████   | 7551/10714 [1:26:28<25:49,  2.04it/s] 70%|███████   | 7552/10714 [1:26:28<25:55,  2.03it/s] 70%|███████   | 7553/10714 [1:26:29<25:52,  2.04it/s] 71%|███████   | 7554/10714 [1:26:29<25:50,  2.04it/s] 71%|███████   | 7555/10714 [1:26:30<25:47,  2.04it/s] 71%|███████   | 7556/10714 [1:26:30<25:46,  2.04it/s] 71%|███████   | 7557/10714 [1:26:31<25:47,  2.04it/s] 71%|███████   | 7558/10714 [1:26:31<25:46,  2.04it/s] 71%|███████   | 7559/10714 [1:26:32<25:46,  2.04it/s] 71%|███████   | 7560/10714 [1:26:32<25:45,  2.04it/s] 71%|███████   | 7561/10714 [1:26:33<25:43,  2.04it/s] 71%|███████   | 7562/10714 [1:26:33<25:39,  2.05it/s] 71%|███████   | 7563/10714 [1:26:34<25:38,  2.05it/s] 71%|███████   | 7564/10714 [1:26:34<25:38,  2.05it/s] 71%|███████   | 7565/10714 [1:26:35<25:38,  2.05it/s] 71%|███████   | 7566/10714 [1:26:35<25:38,  2.05it/s] 71%|███████   | 7567/10714 [1:26:36<25:40,  2.04it/s] 71%|███████   | 7568/10714 [1:26:36<25:41,  2.04it/s] 71%|███████   | 7569/10714 [1:26:37<25:39,  2.04it/s] 71%|███████   | 7570/10714 [1:26:37<25:37,  2.04it/s] 71%|███████   | 7571/10714 [1:26:38<25:37,  2.04it/s] 71%|███████   | 7572/10714 [1:26:38<25:36,  2.04it/s] 71%|███████   | 7573/10714 [1:26:39<25:37,  2.04it/s] 71%|███████   | 7574/10714 [1:26:39<25:35,  2.04it/s] 71%|███████   | 7575/10714 [1:26:40<25:33,  2.05it/s]{'loss': 3.392, 'grad_norm': 0.20688961446285248, 'learning_rate': 0.00023949425705657135, 'epoch': 0.71}
-                                                       71%|███████   | 7575/10714 [1:26:40<25:33,  2.05it/s] 71%|███████   | 7576/10714 [1:26:40<25:37,  2.04it/s] 71%|███████   | 7577/10714 [1:26:41<25:36,  2.04it/s] 71%|███████   | 7578/10714 [1:26:41<25:34,  2.04it/s] 71%|███████   | 7579/10714 [1:26:42<25:32,  2.05it/s] 71%|███████   | 7580/10714 [1:26:42<25:32,  2.05it/s] 71%|███████   | 7581/10714 [1:26:43<25:33,  2.04it/s] 71%|███████   | 7582/10714 [1:26:43<25:34,  2.04it/s] 71%|███████   | 7583/10714 [1:26:44<25:31,  2.04it/s] 71%|███████   | 7584/10714 [1:26:44<25:32,  2.04it/s] 71%|███████   | 7585/10714 [1:26:45<25:31,  2.04it/s] 71%|███████   | 7586/10714 [1:26:45<25:30,  2.04it/s] 71%|███████   | 7587/10714 [1:26:46<25:30,  2.04it/s] 71%|███████   | 7588/10714 [1:26:46<25:28,  2.05it/s] 71%|███████   | 7589/10714 [1:26:47<25:28,  2.04it/s] 71%|███████   | 7590/10714 [1:26:47<25:28,  2.04it/s] 71%|███████   | 7591/10714 [1:26:48<25:27,  2.05it/s] 71%|███████   | 7592/10714 [1:26:48<25:29,  2.04it/s] 71%|███████   | 7593/10714 [1:26:49<25:32,  2.04it/s] 71%|███████   | 7594/10714 [1:26:49<25:29,  2.04it/s] 71%|███████   | 7595/10714 [1:26:49<25:27,  2.04it/s] 71%|███████   | 7596/10714 [1:26:50<25:26,  2.04it/s] 71%|███████   | 7597/10714 [1:26:50<25:25,  2.04it/s] 71%|███████   | 7598/10714 [1:26:51<25:24,  2.04it/s] 71%|███████   | 7599/10714 [1:26:51<25:22,  2.05it/s] 71%|███████   | 7600/10714 [1:26:52<25:20,  2.05it/s]                                                      {'loss': 3.3874, 'grad_norm': 0.21475844085216522, 'learning_rate': 0.00023602660334810866, 'epoch': 0.71}
- 71%|███████   | 7600/10714 [1:26:52<25:20,  2.05it/s] 71%|███████   | 7601/10714 [1:26:52<25:30,  2.03it/s] 71%|███████   | 7602/10714 [1:26:53<25:28,  2.04it/s] 71%|███████   | 7603/10714 [1:26:53<25:26,  2.04it/s] 71%|███████   | 7604/10714 [1:26:54<25:26,  2.04it/s] 71%|███████   | 7605/10714 [1:26:54<25:23,  2.04it/s] 71%|███████   | 7606/10714 [1:26:55<25:21,  2.04it/s] 71%|███████   | 7607/10714 [1:26:55<25:21,  2.04it/s] 71%|███████   | 7608/10714 [1:26:56<25:19,  2.04it/s] 71%|███████   | 7609/10714 [1:26:56<25:20,  2.04it/s] 71%|███████   | 7610/10714 [1:26:57<25:19,  2.04it/s] 71%|███████   | 7611/10714 [1:26:57<25:17,  2.04it/s] 71%|███████   | 7612/10714 [1:26:58<25:18,  2.04it/s] 71%|███████   | 7613/10714 [1:26:58<25:18,  2.04it/s] 71%|███████   | 7614/10714 [1:26:59<25:16,  2.04it/s] 71%|███████   | 7615/10714 [1:26:59<25:15,  2.05it/s] 71%|███████   | 7616/10714 [1:27:00<25:12,  2.05it/s] 71%|███████   | 7617/10714 [1:27:00<25:12,  2.05it/s] 71%|███████   | 7618/10714 [1:27:01<25:13,  2.05it/s] 71%|███████   | 7619/10714 [1:27:01<25:13,  2.04it/s] 71%|███████   | 7620/10714 [1:27:02<25:12,  2.05it/s] 71%|███████   | 7621/10714 [1:27:02<25:10,  2.05it/s] 71%|███████   | 7622/10714 [1:27:03<25:10,  2.05it/s] 71%|███████   | 7623/10714 [1:27:03<25:11,  2.04it/s] 71%|███████   | 7624/10714 [1:27:04<25:11,  2.04it/s] 71%|███████   | 7625/10714 [1:27:04<25:10,  2.05it/s]{'loss': 3.4016, 'grad_norm': 0.19918444752693176, 'learning_rate': 0.00023257646436242852, 'epoch': 0.71}                                                      
- 71%|███████   | 7625/10714 [1:27:04<25:10,  2.05it/s] 71%|███████   | 7626/10714 [1:27:05<25:11,  2.04it/s] 71%|███████   | 7627/10714 [1:27:05<25:11,  2.04it/s] 71%|███████   | 7628/10714 [1:27:06<25:10,  2.04it/s] 71%|███████   | 7629/10714 [1:27:06<25:09,  2.04it/s] 71%|███████   | 7630/10714 [1:27:07<25:06,  2.05it/s] 71%|███████   | 7631/10714 [1:27:07<25:04,  2.05it/s] 71%|███████   | 7632/10714 [1:27:08<25:04,  2.05it/s] 71%|███████   | 7633/10714 [1:27:08<25:04,  2.05it/s] 71%|███████▏  | 7634/10714 [1:27:09<25:05,  2.05it/s] 71%|███████▏  | 7635/10714 [1:27:09<25:06,  2.04it/s] 71%|███████▏  | 7636/10714 [1:27:10<25:04,  2.05it/s] 71%|███████▏  | 7637/10714 [1:27:10<25:02,  2.05it/s] 71%|███████▏  | 7638/10714 [1:27:11<25:01,  2.05it/s] 71%|███████▏  | 7639/10714 [1:27:11<25:02,  2.05it/s] 71%|███████▏  | 7640/10714 [1:27:12<25:03,  2.05it/s] 71%|███████▏  | 7641/10714 [1:27:12<25:02,  2.05it/s] 71%|███████▏  | 7642/10714 [1:27:12<25:00,  2.05it/s] 71%|███████▏  | 7643/10714 [1:27:13<24:59,  2.05it/s] 71%|███████▏  | 7644/10714 [1:27:13<24:59,  2.05it/s] 71%|███████▏  | 7645/10714 [1:27:14<25:00,  2.05it/s] 71%|███████▏  | 7646/10714 [1:27:14<24:59,  2.05it/s] 71%|███████▏  | 7647/10714 [1:27:15<24:58,  2.05it/s] 71%|███████▏  | 7648/10714 [1:27:15<24:57,  2.05it/s] 71%|███████▏  | 7649/10714 [1:27:16<24:58,  2.05it/s] 71%|███████▏  | 7650/10714 [1:27:16<24:57,  2.05it/s]{'loss': 3.3943, 'grad_norm': 0.2027641385793686, 'learning_rate': 0.00022914406901740103, 'epoch': 0.71}                                                      
- 71%|███████▏  | 7650/10714 [1:27:16<24:57,  2.05it/s] 71%|███████▏  | 7651/10714 [1:27:17<24:58,  2.04it/s] 71%|███████▏  | 7652/10714 [1:27:17<24:56,  2.05it/s] 71%|███████▏  | 7653/10714 [1:27:18<24:55,  2.05it/s] 71%|███████▏  | 7654/10714 [1:27:18<24:55,  2.05it/s] 71%|███████▏  | 7655/10714 [1:27:19<24:54,  2.05it/s] 71%|███████▏  | 7656/10714 [1:27:19<24:53,  2.05it/s] 71%|███████▏  | 7657/10714 [1:27:20<24:53,  2.05it/s] 71%|███████▏  | 7658/10714 [1:27:20<24:52,  2.05it/s] 71%|███████▏  | 7659/10714 [1:27:21<24:52,  2.05it/s] 71%|███████▏  | 7660/10714 [1:27:21<24:51,  2.05it/s] 72%|███████▏  | 7661/10714 [1:27:22<24:52,  2.05it/s] 72%|███████▏  | 7662/10714 [1:27:22<24:52,  2.04it/s] 72%|███████▏  | 7663/10714 [1:27:23<24:50,  2.05it/s] 72%|███████▏  | 7664/10714 [1:27:23<24:48,  2.05it/s] 72%|███████▏  | 7665/10714 [1:27:24<24:49,  2.05it/s] 72%|███████▏  | 7666/10714 [1:27:24<24:48,  2.05it/s] 72%|███████▏  | 7667/10714 [1:27:25<24:51,  2.04it/s] 72%|███████▏  | 7668/10714 [1:27:25<24:49,  2.04it/s] 72%|███████▏  | 7669/10714 [1:27:26<24:48,  2.05it/s] 72%|███████▏  | 7670/10714 [1:27:26<24:47,  2.05it/s] 72%|███████▏  | 7671/10714 [1:27:27<24:45,  2.05it/s] 72%|███████▏  | 7672/10714 [1:27:27<24:47,  2.04it/s] 72%|███████▏  | 7673/10714 [1:27:28<24:47,  2.04it/s] 72%|███████▏  | 7674/10714 [1:27:28<24:47,  2.04it/s] 72%|███████▏  | 7675/10714 [1:27:29<24:45,  2.05it/s]{'loss': 3.3986, 'grad_norm': 0.20415233075618744, 'learning_rate': 0.0002257296450536005, 'epoch': 0.72}
-                                                       72%|███████▏  | 7675/10714 [1:27:29<24:45,  2.05it/s] 72%|███████▏  | 7676/10714 [1:27:29<24:48,  2.04it/s] 72%|███████▏  | 7677/10714 [1:27:30<24:47,  2.04it/s] 72%|███████▏  | 7678/10714 [1:27:30<24:47,  2.04it/s] 72%|███████▏  | 7679/10714 [1:27:31<24:45,  2.04it/s] 72%|███████▏  | 7680/10714 [1:27:31<24:44,  2.04it/s] 72%|███████▏  | 7681/10714 [1:27:32<24:44,  2.04it/s] 72%|███████▏  | 7682/10714 [1:27:32<24:44,  2.04it/s] 72%|███████▏  | 7683/10714 [1:27:33<24:42,  2.04it/s] 72%|███████▏  | 7684/10714 [1:27:33<24:44,  2.04it/s] 72%|███████▏  | 7685/10714 [1:27:34<24:44,  2.04it/s] 72%|███████▏  | 7686/10714 [1:27:34<24:42,  2.04it/s] 72%|███████▏  | 7687/10714 [1:27:34<24:41,  2.04it/s] 72%|███████▏  | 7688/10714 [1:27:35<24:38,  2.05it/s] 72%|███████▏  | 7689/10714 [1:27:35<24:37,  2.05it/s] 72%|███████▏  | 7690/10714 [1:27:36<24:38,  2.05it/s] 72%|███████▏  | 7691/10714 [1:27:36<24:38,  2.05it/s] 72%|███████▏  | 7692/10714 [1:27:37<24:37,  2.04it/s] 72%|███████▏  | 7693/10714 [1:27:37<24:36,  2.05it/s] 72%|███████▏  | 7694/10714 [1:27:38<24:36,  2.05it/s] 72%|███████▏  | 7695/10714 [1:27:38<24:35,  2.05it/s] 72%|███████▏  | 7696/10714 [1:27:39<24:36,  2.04it/s] 72%|███████▏  | 7697/10714 [1:27:39<24:36,  2.04it/s] 72%|███████▏  | 7698/10714 [1:27:40<24:35,  2.04it/s] 72%|███████▏  | 7699/10714 [1:27:40<24:36,  2.04it/s] 72%|███████▏  | 7700/10714 [1:27:41<24:35,  2.04it/s]{'loss': 3.3938, 'grad_norm': 0.206635519862175, 'learning_rate': 0.00022233341901919457, 'epoch': 0.72}
-                                                       72%|███████▏  | 7700/10714 [1:27:41<24:35,  2.04it/s] 72%|███████▏  | 7701/10714 [1:27:41<24:36,  2.04it/s] 72%|███████▏  | 7702/10714 [1:27:42<24:35,  2.04it/s] 72%|███████▏  | 7703/10714 [1:27:42<24:34,  2.04it/s] 72%|███████▏  | 7704/10714 [1:27:43<24:34,  2.04it/s] 72%|███████▏  | 7705/10714 [1:27:43<24:31,  2.05it/s] 72%|███████▏  | 7706/10714 [1:27:44<24:30,  2.05it/s] 72%|███████▏  | 7707/10714 [1:27:44<24:29,  2.05it/s] 72%|███████▏  | 7708/10714 [1:27:45<24:28,  2.05it/s] 72%|███████▏  | 7709/10714 [1:27:45<24:31,  2.04it/s] 72%|███████▏  | 7710/10714 [1:27:46<24:30,  2.04it/s] 72%|███████▏  | 7711/10714 [1:27:46<24:28,  2.05it/s] 72%|███████▏  | 7712/10714 [1:27:47<24:27,  2.05it/s] 72%|███████▏  | 7713/10714 [1:27:47<24:27,  2.05it/s] 72%|███████▏  | 7714/10714 [1:27:48<24:27,  2.04it/s] 72%|███████▏  | 7715/10714 [1:27:48<24:27,  2.04it/s] 72%|███████▏  | 7716/10714 [1:27:49<24:26,  2.04it/s] 72%|███████▏  | 7717/10714 [1:27:49<24:25,  2.04it/s] 72%|███████▏  | 7718/10714 [1:27:50<24:24,  2.05it/s] 72%|███████▏  | 7719/10714 [1:27:50<24:24,  2.04it/s] 72%|███████▏  | 7720/10714 [1:27:51<24:22,  2.05it/s] 72%|███████▏  | 7721/10714 [1:27:51<24:22,  2.05it/s] 72%|███████▏  | 7722/10714 [1:27:52<24:23,  2.05it/s] 72%|███████▏  | 7723/10714 [1:27:52<24:22,  2.05it/s] 72%|███████▏  | 7724/10714 [1:27:53<24:22,  2.04it/s] 72%|███████▏  | 7725/10714 [1:27:53<24:21,  2.05it/s]{'loss': 3.3927, 'grad_norm': 0.20193547010421753, 'learning_rate': 0.00021895561625491107, 'epoch': 0.72}
-                                                       72%|███████▏  | 7725/10714 [1:27:53<24:21,  2.05it/s] 72%|███████▏  | 7726/10714 [1:27:54<24:23,  2.04it/s] 72%|███████▏  | 7727/10714 [1:27:54<24:22,  2.04it/s] 72%|███████▏  | 7728/10714 [1:27:55<24:21,  2.04it/s] 72%|███████▏  | 7729/10714 [1:27:55<24:20,  2.04it/s] 72%|███████▏  | 7730/10714 [1:27:56<24:20,  2.04it/s] 72%|███████▏  | 7731/10714 [1:27:56<24:18,  2.04it/s] 72%|███████▏  | 7732/10714 [1:27:56<24:19,  2.04it/s] 72%|███████▏  | 7733/10714 [1:27:57<24:18,  2.04it/s] 72%|███████▏  | 7734/10714 [1:27:57<24:19,  2.04it/s] 72%|███████▏  | 7735/10714 [1:27:58<24:18,  2.04it/s] 72%|███████▏  | 7736/10714 [1:27:58<24:17,  2.04it/s] 72%|███████▏  | 7737/10714 [1:27:59<24:16,  2.04it/s] 72%|███████▏  | 7738/10714 [1:27:59<24:16,  2.04it/s] 72%|███████▏  | 7739/10714 [1:28:00<24:15,  2.04it/s] 72%|███████▏  | 7740/10714 [1:28:00<24:14,  2.04it/s] 72%|███████▏  | 7741/10714 [1:28:01<24:15,  2.04it/s] 72%|███████▏  | 7742/10714 [1:28:01<24:14,  2.04it/s] 72%|███████▏  | 7743/10714 [1:28:02<24:11,  2.05it/s] 72%|███████▏  | 7744/10714 [1:28:02<24:12,  2.05it/s] 72%|███████▏  | 7745/10714 [1:28:03<24:11,  2.05it/s] 72%|███████▏  | 7746/10714 [1:28:03<24:11,  2.04it/s] 72%|███████▏  | 7747/10714 [1:28:04<24:10,  2.05it/s] 72%|███████▏  | 7748/10714 [1:28:04<24:09,  2.05it/s] 72%|███████▏  | 7749/10714 [1:28:05<24:09,  2.05it/s] 72%|███████▏  | 7750/10714 [1:28:05<24:11,  2.04it/s]                                                      {'loss': 3.3936, 'grad_norm': 0.20532052218914032, 'learning_rate': 0.00021559646087908885, 'epoch': 0.72}
- 72%|███████▏  | 7750/10714 [1:28:05<24:11,  2.04it/s] 72%|███████▏  | 7751/10714 [1:28:06<24:11,  2.04it/s] 72%|███████▏  | 7752/10714 [1:28:06<24:10,  2.04it/s] 72%|███████▏  | 7753/10714 [1:28:07<24:08,  2.04it/s] 72%|███████▏  | 7754/10714 [1:28:07<24:08,  2.04it/s] 72%|███████▏  | 7755/10714 [1:28:08<24:07,  2.04it/s] 72%|███████▏  | 7756/10714 [1:28:08<24:05,  2.05it/s] 72%|███████▏  | 7757/10714 [1:28:09<24:04,  2.05it/s] 72%|███████▏  | 7758/10714 [1:28:09<24:03,  2.05it/s] 72%|███████▏  | 7759/10714 [1:28:10<24:04,  2.05it/s] 72%|███████▏  | 7760/10714 [1:28:10<24:04,  2.04it/s] 72%|███████▏  | 7761/10714 [1:28:11<24:04,  2.04it/s] 72%|███████▏  | 7762/10714 [1:28:11<24:01,  2.05it/s] 72%|███████▏  | 7763/10714 [1:28:12<24:02,  2.05it/s] 72%|███████▏  | 7764/10714 [1:28:12<24:02,  2.05it/s] 72%|███████▏  | 7765/10714 [1:28:13<24:03,  2.04it/s] 72%|███████▏  | 7766/10714 [1:28:13<24:01,  2.04it/s] 72%|███████▏  | 7767/10714 [1:28:14<24:00,  2.05it/s] 73%|███████▎  | 7768/10714 [1:28:14<23:59,  2.05it/s] 73%|███████▎  | 7769/10714 [1:28:15<24:00,  2.05it/s] 73%|███████▎  | 7770/10714 [1:28:15<24:00,  2.04it/s] 73%|███████▎  | 7771/10714 [1:28:16<23:59,  2.04it/s] 73%|███████▎  | 7772/10714 [1:28:16<23:57,  2.05it/s] 73%|███████▎  | 7773/10714 [1:28:17<23:56,  2.05it/s] 73%|███████▎  | 7774/10714 [1:28:17<23:56,  2.05it/s] 73%|███████▎  | 7775/10714 [1:28:18<23:56,  2.05it/s]                                                      {'loss': 3.3862, 'grad_norm': 0.20231583714485168, 'learning_rate': 0.00021225617577280587, 'epoch': 0.73}
- 73%|███████▎  | 7775/10714 [1:28:18<23:56,  2.05it/s] 73%|███████▎  | 7776/10714 [1:28:18<23:58,  2.04it/s] 73%|███████▎  | 7777/10714 [1:28:19<23:57,  2.04it/s] 73%|███████▎  | 7778/10714 [1:28:19<23:56,  2.04it/s] 73%|███████▎  | 7779/10714 [1:28:19<23:55,  2.04it/s] 73%|███████▎  | 7780/10714 [1:28:20<23:55,  2.04it/s] 73%|███████▎  | 7781/10714 [1:28:20<23:54,  2.04it/s] 73%|███████▎  | 7782/10714 [1:28:21<23:53,  2.04it/s] 73%|███████▎  | 7783/10714 [1:28:21<23:53,  2.04it/s] 73%|███████▎  | 7784/10714 [1:28:22<23:53,  2.04it/s] 73%|███████▎  | 7785/10714 [1:28:22<23:54,  2.04it/s] 73%|███████▎  | 7786/10714 [1:28:23<23:52,  2.04it/s] 73%|███████▎  | 7787/10714 [1:28:23<23:51,  2.04it/s] 73%|███████▎  | 7788/10714 [1:28:24<23:51,  2.04it/s] 73%|███████▎  | 7789/10714 [1:28:24<23:50,  2.04it/s] 73%|███████▎  | 7790/10714 [1:28:25<23:52,  2.04it/s] 73%|███████▎  | 7791/10714 [1:28:25<23:49,  2.04it/s] 73%|███████▎  | 7792/10714 [1:28:26<23:50,  2.04it/s] 73%|███████▎  | 7793/10714 [1:28:26<23:50,  2.04it/s] 73%|███████▎  | 7794/10714 [1:28:27<23:50,  2.04it/s] 73%|███████▎  | 7795/10714 [1:28:27<23:48,  2.04it/s] 73%|███████▎  | 7796/10714 [1:28:28<23:46,  2.05it/s] 73%|███████▎  | 7797/10714 [1:28:28<23:46,  2.04it/s] 73%|███████▎  | 7798/10714 [1:28:29<23:46,  2.04it/s] 73%|███████▎  | 7799/10714 [1:28:29<23:45,  2.04it/s] 73%|███████▎  | 7800/10714 [1:28:30<23:46,  2.04it/s]{'loss': 3.3884, 'grad_norm': 0.20673999190330505, 'learning_rate': 0.00020893498256509082, 'epoch': 0.73}
-                                                       73%|███████▎  | 7800/10714 [1:28:30<23:46,  2.04it/s] 73%|███████▎  | 7801/10714 [1:28:30<23:47,  2.04it/s] 73%|███████▎  | 7802/10714 [1:28:31<23:47,  2.04it/s] 73%|███████▎  | 7803/10714 [1:28:31<23:47,  2.04it/s] 73%|███████▎  | 7804/10714 [1:28:32<23:45,  2.04it/s] 73%|███████▎  | 7805/10714 [1:28:32<23:43,  2.04it/s] 73%|███████▎  | 7806/10714 [1:28:33<23:42,  2.04it/s] 73%|███████▎  | 7807/10714 [1:28:33<23:42,  2.04it/s] 73%|███████▎  | 7808/10714 [1:28:34<23:42,  2.04it/s] 73%|███████▎  | 7809/10714 [1:28:34<23:42,  2.04it/s] 73%|███████▎  | 7810/10714 [1:28:35<23:41,  2.04it/s] 73%|███████▎  | 7811/10714 [1:28:35<23:41,  2.04it/s] 73%|███████▎  | 7812/10714 [1:28:36<23:41,  2.04it/s] 73%|███████▎  | 7813/10714 [1:28:36<23:41,  2.04it/s] 73%|███████▎  | 7814/10714 [1:28:37<23:39,  2.04it/s] 73%|███████▎  | 7815/10714 [1:28:37<23:40,  2.04it/s] 73%|███████▎  | 7816/10714 [1:28:38<23:38,  2.04it/s] 73%|███████▎  | 7817/10714 [1:28:38<23:40,  2.04it/s] 73%|███████▎  | 7818/10714 [1:28:39<23:39,  2.04it/s] 73%|███████▎  | 7819/10714 [1:28:39<23:37,  2.04it/s] 73%|███████▎  | 7820/10714 [1:28:40<23:36,  2.04it/s] 73%|███████▎  | 7821/10714 [1:28:40<23:36,  2.04it/s] 73%|███████▎  | 7822/10714 [1:28:41<23:34,  2.04it/s] 73%|███████▎  | 7823/10714 [1:28:41<23:33,  2.04it/s] 73%|███████▎  | 7824/10714 [1:28:42<23:32,  2.05it/s] 73%|███████▎  | 7825/10714 [1:28:42<23:33,  2.04it/s]{'loss': 3.3901, 'grad_norm': 0.2043955773115158, 'learning_rate': 0.0002056331016182198, 'epoch': 0.73}                                                      
- 73%|███████▎  | 7825/10714 [1:28:42<23:33,  2.04it/s] 73%|███████▎  | 7826/10714 [1:28:42<23:33,  2.04it/s] 73%|███████▎  | 7827/10714 [1:28:43<23:33,  2.04it/s] 73%|███████▎  | 7828/10714 [1:28:43<23:33,  2.04it/s] 73%|███████▎  | 7829/10714 [1:28:44<23:33,  2.04it/s] 73%|███████▎  | 7830/10714 [1:28:44<23:31,  2.04it/s] 73%|███████▎  | 7831/10714 [1:28:45<23:29,  2.05it/s] 73%|███████▎  | 7832/10714 [1:28:45<23:29,  2.04it/s] 73%|███████▎  | 7833/10714 [1:28:46<23:27,  2.05it/s] 73%|███████▎  | 7834/10714 [1:28:46<23:27,  2.05it/s] 73%|███████▎  | 7835/10714 [1:28:47<23:28,  2.04it/s] 73%|███████▎  | 7836/10714 [1:28:47<23:27,  2.04it/s] 73%|███████▎  | 7837/10714 [1:28:48<23:26,  2.04it/s] 73%|███████▎  | 7838/10714 [1:28:48<23:25,  2.05it/s] 73%|███████▎  | 7839/10714 [1:28:49<23:25,  2.05it/s] 73%|███████▎  | 7840/10714 [1:28:49<23:25,  2.05it/s] 73%|███████▎  | 7841/10714 [1:28:50<23:23,  2.05it/s] 73%|███████▎  | 7842/10714 [1:28:50<23:25,  2.04it/s] 73%|███████▎  | 7843/10714 [1:28:51<23:25,  2.04it/s] 73%|███████▎  | 7844/10714 [1:28:51<23:25,  2.04it/s] 73%|███████▎  | 7845/10714 [1:28:52<23:22,  2.04it/s] 73%|███████▎  | 7846/10714 [1:28:52<23:20,  2.05it/s] 73%|███████▎  | 7847/10714 [1:28:53<23:19,  2.05it/s] 73%|███████▎  | 7848/10714 [1:28:53<23:21,  2.04it/s] 73%|███████▎  | 7849/10714 [1:28:54<23:21,  2.04it/s] 73%|███████▎  | 7850/10714 [1:28:54<23:20,  2.04it/s]{'loss': 3.3934, 'grad_norm': 0.20574209094047546, 'learning_rate': 0.00020235075201309265, 'epoch': 0.73}                                                      
- 73%|███████▎  | 7850/10714 [1:28:54<23:20,  2.04it/s] 73%|███████▎  | 7851/10714 [1:28:55<23:21,  2.04it/s] 73%|███████▎  | 7852/10714 [1:28:55<23:22,  2.04it/s] 73%|███████▎  | 7853/10714 [1:28:56<23:21,  2.04it/s] 73%|███████▎  | 7854/10714 [1:28:56<23:20,  2.04it/s] 73%|███████▎  | 7855/10714 [1:28:57<23:19,  2.04it/s] 73%|███████▎  | 7856/10714 [1:28:57<23:18,  2.04it/s] 73%|███████▎  | 7857/10714 [1:28:58<23:20,  2.04it/s] 73%|███████▎  | 7858/10714 [1:28:58<23:18,  2.04it/s] 73%|███████▎  | 7859/10714 [1:28:59<23:16,  2.04it/s] 73%|███████▎  | 7860/10714 [1:28:59<23:16,  2.04it/s] 73%|███████▎  | 7861/10714 [1:29:00<23:15,  2.04it/s] 73%|███████▎  | 7862/10714 [1:29:00<23:15,  2.04it/s] 73%|███████▎  | 7863/10714 [1:29:01<23:13,  2.05it/s] 73%|███████▎  | 7864/10714 [1:29:01<23:12,  2.05it/s] 73%|███████▎  | 7865/10714 [1:29:02<23:12,  2.05it/s] 73%|███████▎  | 7866/10714 [1:29:02<23:12,  2.05it/s] 73%|███████▎  | 7867/10714 [1:29:03<23:14,  2.04it/s] 73%|███████▎  | 7868/10714 [1:29:03<23:12,  2.04it/s] 73%|███████▎  | 7869/10714 [1:29:04<23:11,  2.04it/s] 73%|███████▎  | 7870/10714 [1:29:04<23:11,  2.04it/s] 73%|███████▎  | 7871/10714 [1:29:05<23:11,  2.04it/s] 73%|███████▎  | 7872/10714 [1:29:05<23:09,  2.05it/s] 73%|███████▎  | 7873/10714 [1:29:05<23:07,  2.05it/s] 73%|███████▎  | 7874/10714 [1:29:06<23:06,  2.05it/s] 74%|███████▎  | 7875/10714 [1:29:06<23:06,  2.05it/s]{'loss': 3.3887, 'grad_norm': 0.21283115446567535, 'learning_rate': 0.00019908815153469938, 'epoch': 0.74}                                                      
- 74%|███████▎  | 7875/10714 [1:29:06<23:06,  2.05it/s] 74%|███████▎  | 7876/10714 [1:29:07<23:08,  2.04it/s] 74%|███████▎  | 7877/10714 [1:29:07<23:37,  2.00it/s] 74%|███████▎  | 7878/10714 [1:29:08<23:28,  2.01it/s] 74%|███████▎  | 7879/10714 [1:29:08<23:19,  2.03it/s] 74%|███████▎  | 7880/10714 [1:29:09<23:12,  2.03it/s] 74%|███████▎  | 7881/10714 [1:29:09<23:09,  2.04it/s] 74%|███████▎  | 7882/10714 [1:29:10<23:07,  2.04it/s] 74%|███████▎  | 7883/10714 [1:29:10<23:07,  2.04it/s] 74%|███████▎  | 7884/10714 [1:29:11<23:05,  2.04it/s] 74%|███████▎  | 7885/10714 [1:29:11<23:03,  2.04it/s] 74%|███████▎  | 7886/10714 [1:29:12<23:00,  2.05it/s] 74%|███████▎  | 7887/10714 [1:29:12<22:59,  2.05it/s] 74%|███████▎  | 7888/10714 [1:29:13<23:00,  2.05it/s] 74%|███████▎  | 7889/10714 [1:29:13<23:00,  2.05it/s] 74%|███████▎  | 7890/10714 [1:29:14<23:00,  2.05it/s] 74%|███████▎  | 7891/10714 [1:29:14<22:58,  2.05it/s] 74%|███████▎  | 7892/10714 [1:29:15<22:59,  2.05it/s] 74%|███████▎  | 7893/10714 [1:29:15<23:00,  2.04it/s] 74%|███████▎  | 7894/10714 [1:29:16<23:00,  2.04it/s] 74%|███████▎  | 7895/10714 [1:29:16<22:59,  2.04it/s] 74%|███████▎  | 7896/10714 [1:29:17<22:57,  2.05it/s] 74%|███████▎  | 7897/10714 [1:29:17<22:57,  2.04it/s] 74%|███████▎  | 7898/10714 [1:29:18<22:57,  2.04it/s] 74%|███████▎  | 7899/10714 [1:29:18<22:56,  2.05it/s] 74%|███████▎  | 7900/10714 [1:29:19<22:55,  2.05it/s]                                                      {'loss': 3.386, 'grad_norm': 0.20847003161907196, 'learning_rate': 0.0001958455166576683, 'epoch': 0.74}
- 74%|███████▎  | 7900/10714 [1:29:19<22:55,  2.05it/s] 74%|███████▎  | 7901/10714 [1:29:19<22:56,  2.04it/s] 74%|███████▍  | 7902/10714 [1:29:20<22:57,  2.04it/s] 74%|███████▍  | 7903/10714 [1:29:20<22:55,  2.04it/s] 74%|███████▍  | 7904/10714 [1:29:21<22:54,  2.04it/s] 74%|███████▍  | 7905/10714 [1:29:21<22:52,  2.05it/s] 74%|███████▍  | 7906/10714 [1:29:22<22:52,  2.05it/s] 74%|███████▍  | 7907/10714 [1:29:22<22:52,  2.04it/s] 74%|███████▍  | 7908/10714 [1:29:23<22:52,  2.04it/s] 74%|███████▍  | 7909/10714 [1:29:23<22:52,  2.04it/s] 74%|███████▍  | 7910/10714 [1:29:24<22:50,  2.05it/s] 74%|███████▍  | 7911/10714 [1:29:24<22:48,  2.05it/s] 74%|███████▍  | 7912/10714 [1:29:25<22:49,  2.05it/s] 74%|███████▍  | 7913/10714 [1:29:25<22:49,  2.04it/s] 74%|███████▍  | 7914/10714 [1:29:26<22:49,  2.04it/s] 74%|███████▍  | 7915/10714 [1:29:26<22:48,  2.04it/s] 74%|███████▍  | 7916/10714 [1:29:27<22:46,  2.05it/s] 74%|███████▍  | 7917/10714 [1:29:27<22:46,  2.05it/s] 74%|███████▍  | 7918/10714 [1:29:28<22:44,  2.05it/s] 74%|███████▍  | 7919/10714 [1:29:28<22:46,  2.05it/s] 74%|███████▍  | 7920/10714 [1:29:28<22:46,  2.04it/s] 74%|███████▍  | 7921/10714 [1:29:29<22:44,  2.05it/s] 74%|███████▍  | 7922/10714 [1:29:29<22:45,  2.05it/s] 74%|███████▍  | 7923/10714 [1:29:30<22:44,  2.05it/s] 74%|███████▍  | 7924/10714 [1:29:30<22:44,  2.05it/s] 74%|███████▍  | 7925/10714 [1:29:31<22:43,  2.05it/s]                                                      {'loss': 3.3792, 'grad_norm': 0.20836904644966125, 'learning_rate': 0.00019262306253190286, 'epoch': 0.74}
- 74%|███████▍  | 7925/10714 [1:29:31<22:43,  2.05it/s] 74%|███████▍  | 7926/10714 [1:29:31<22:44,  2.04it/s] 74%|███████▍  | 7927/10714 [1:29:32<22:43,  2.04it/s] 74%|███████▍  | 7928/10714 [1:29:32<22:42,  2.04it/s] 74%|███████▍  | 7929/10714 [1:29:33<22:42,  2.04it/s] 74%|███████▍  | 7930/10714 [1:29:33<22:42,  2.04it/s] 74%|███████▍  | 7931/10714 [1:29:34<22:42,  2.04it/s] 74%|███████▍  | 7932/10714 [1:29:34<22:41,  2.04it/s] 74%|███████▍  | 7933/10714 [1:29:35<22:40,  2.04it/s] 74%|███████▍  | 7934/10714 [1:29:35<22:40,  2.04it/s] 74%|███████▍  | 7935/10714 [1:29:36<22:40,  2.04it/s] 74%|███████▍  | 7936/10714 [1:29:36<22:38,  2.04it/s] 74%|███████▍  | 7937/10714 [1:29:37<22:36,  2.05it/s] 74%|███████▍  | 7938/10714 [1:29:37<22:35,  2.05it/s] 74%|███████▍  | 7939/10714 [1:29:38<22:34,  2.05it/s] 74%|███████▍  | 7940/10714 [1:29:38<22:36,  2.04it/s] 74%|███████▍  | 7941/10714 [1:29:39<22:36,  2.04it/s] 74%|███████▍  | 7942/10714 [1:29:39<22:36,  2.04it/s] 74%|███████▍  | 7943/10714 [1:29:40<22:35,  2.04it/s] 74%|███████▍  | 7944/10714 [1:29:40<22:35,  2.04it/s] 74%|███████▍  | 7945/10714 [1:29:41<22:34,  2.04it/s] 74%|███████▍  | 7946/10714 [1:29:41<22:33,  2.04it/s] 74%|███████▍  | 7947/10714 [1:29:42<22:33,  2.04it/s] 74%|███████▍  | 7948/10714 [1:29:42<22:32,  2.05it/s] 74%|███████▍  | 7949/10714 [1:29:43<22:33,  2.04it/s] 74%|███████▍  | 7950/10714 [1:29:43<22:32,  2.04it/s]{'loss': 3.3876, 'grad_norm': 0.1984364539384842, 'learning_rate': 0.00018942100296830827, 'epoch': 0.74}
-                                                       74%|███████▍  | 7950/10714 [1:29:43<22:32,  2.04it/s] 74%|███████▍  | 7951/10714 [1:29:44<22:33,  2.04it/s] 74%|███████▍  | 7952/10714 [1:29:44<22:32,  2.04it/s] 74%|███████▍  | 7953/10714 [1:29:45<22:32,  2.04it/s] 74%|███████▍  | 7954/10714 [1:29:45<22:30,  2.04it/s] 74%|███████▍  | 7955/10714 [1:29:46<22:30,  2.04it/s] 74%|███████▍  | 7956/10714 [1:29:46<22:29,  2.04it/s] 74%|███████▍  | 7957/10714 [1:29:47<22:29,  2.04it/s] 74%|███████▍  | 7958/10714 [1:29:47<22:29,  2.04it/s] 74%|███████▍  | 7959/10714 [1:29:48<22:27,  2.04it/s] 74%|███████▍  | 7960/10714 [1:29:48<22:28,  2.04it/s] 74%|███████▍  | 7961/10714 [1:29:49<22:27,  2.04it/s] 74%|███████▍  | 7962/10714 [1:29:49<22:27,  2.04it/s] 74%|███████▍  | 7963/10714 [1:29:50<22:25,  2.04it/s] 74%|███████▍  | 7964/10714 [1:29:50<22:25,  2.04it/s] 74%|███████▍  | 7965/10714 [1:29:51<22:24,  2.04it/s] 74%|███████▍  | 7966/10714 [1:29:51<22:23,  2.05it/s] 74%|███████▍  | 7967/10714 [1:29:51<22:24,  2.04it/s] 74%|███████▍  | 7968/10714 [1:29:52<22:24,  2.04it/s] 74%|███████▍  | 7969/10714 [1:29:52<22:23,  2.04it/s] 74%|███████▍  | 7970/10714 [1:29:53<22:21,  2.05it/s] 74%|███████▍  | 7971/10714 [1:29:53<22:19,  2.05it/s] 74%|███████▍  | 7972/10714 [1:29:54<22:20,  2.05it/s] 74%|███████▍  | 7973/10714 [1:29:54<22:19,  2.05it/s] 74%|███████▍  | 7974/10714 [1:29:55<22:20,  2.04it/s] 74%|███████▍  | 7975/10714 [1:29:55<22:20,  2.04it/s]{'loss': 3.3785, 'grad_norm': 0.20072618126869202, 'learning_rate': 0.00018623955042460234, 'epoch': 0.74}                                                      
- 74%|███████▍  | 7975/10714 [1:29:55<22:20,  2.04it/s] 74%|███████▍  | 7976/10714 [1:29:56<22:21,  2.04it/s] 74%|███████▍  | 7977/10714 [1:29:56<22:22,  2.04it/s] 74%|███████▍  | 7978/10714 [1:29:57<22:21,  2.04it/s] 74%|███████▍  | 7979/10714 [1:29:57<22:20,  2.04it/s] 74%|███████▍  | 7980/10714 [1:29:58<22:17,  2.04it/s] 74%|███████▍  | 7981/10714 [1:29:58<22:17,  2.04it/s] 75%|███████▍  | 7982/10714 [1:29:59<22:17,  2.04it/s] 75%|███████▍  | 7983/10714 [1:29:59<22:18,  2.04it/s] 75%|███████▍  | 7984/10714 [1:30:00<22:17,  2.04it/s] 75%|███████▍  | 7985/10714 [1:30:00<22:17,  2.04it/s] 75%|███████▍  | 7986/10714 [1:30:01<22:14,  2.04it/s] 75%|███████▍  | 7987/10714 [1:30:01<22:13,  2.04it/s] 75%|███████▍  | 7988/10714 [1:30:02<22:12,  2.05it/s] 75%|███████▍  | 7989/10714 [1:30:02<22:12,  2.05it/s] 75%|███████▍  | 7990/10714 [1:30:03<22:12,  2.04it/s] 75%|███████▍  | 7991/10714 [1:30:03<22:11,  2.05it/s] 75%|███████▍  | 7992/10714 [1:30:04<22:10,  2.05it/s] 75%|███████▍  | 7993/10714 [1:30:04<22:09,  2.05it/s] 75%|███████▍  | 7994/10714 [1:30:05<22:10,  2.04it/s] 75%|███████▍  | 7995/10714 [1:30:05<22:09,  2.04it/s] 75%|███████▍  | 7996/10714 [1:30:06<22:08,  2.05it/s] 75%|███████▍  | 7997/10714 [1:30:06<22:07,  2.05it/s] 75%|███████▍  | 7998/10714 [1:30:07<22:07,  2.05it/s] 75%|███████▍  | 7999/10714 [1:30:07<22:07,  2.05it/s] 75%|███████▍  | 8000/10714 [1:30:08<22:06,  2.05it/s]                                                      {'loss': 3.3795, 'grad_norm': 0.20682862401008606, 'learning_rate': 0.00018307891599122128, 'epoch': 0.75}
- 75%|███████▍  | 8000/10714 [1:30:08<22:06,  2.05it/s] 75%|███████▍  | 8001/10714 [1:30:08<22:10,  2.04it/s] 75%|███████▍  | 8002/10714 [1:30:09<22:11,  2.04it/s] 75%|███████▍  | 8003/10714 [1:30:09<22:09,  2.04it/s] 75%|███████▍  | 8004/10714 [1:30:10<22:07,  2.04it/s] 75%|███████▍  | 8005/10714 [1:30:10<22:06,  2.04it/s] 75%|███████▍  | 8006/10714 [1:30:11<22:06,  2.04it/s] 75%|███████▍  | 8007/10714 [1:30:11<22:06,  2.04it/s] 75%|███████▍  | 8008/10714 [1:30:12<22:04,  2.04it/s] 75%|███████▍  | 8009/10714 [1:30:12<22:03,  2.04it/s] 75%|███████▍  | 8010/10714 [1:30:13<22:04,  2.04it/s] 75%|███████▍  | 8011/10714 [1:30:13<22:03,  2.04it/s] 75%|███████▍  | 8012/10714 [1:30:14<22:01,  2.04it/s] 75%|███████▍  | 8013/10714 [1:30:14<21:59,  2.05it/s] 75%|███████▍  | 8014/10714 [1:30:14<21:59,  2.05it/s] 75%|███████▍  | 8015/10714 [1:30:15<21:59,  2.05it/s] 75%|███████▍  | 8016/10714 [1:30:15<21:59,  2.04it/s] 75%|███���███▍  | 8017/10714 [1:30:16<21:59,  2.04it/s] 75%|███████▍  | 8018/10714 [1:30:16<21:59,  2.04it/s] 75%|███████▍  | 8019/10714 [1:30:17<21:58,  2.04it/s] 75%|███████▍  | 8020/10714 [1:30:17<21:59,  2.04it/s] 75%|███████▍  | 8021/10714 [1:30:18<21:57,  2.04it/s] 75%|███████▍  | 8022/10714 [1:30:18<21:56,  2.04it/s] 75%|███████▍  | 8023/10714 [1:30:19<21:57,  2.04it/s] 75%|███████▍  | 8024/10714 [1:30:19<21:56,  2.04it/s] 75%|███████▍  | 8025/10714 [1:30:20<21:55,  2.04it/s]{'loss': 3.3814, 'grad_norm': 0.211261585354805, 'learning_rate': 0.00017993930937731245, 'epoch': 0.75}                                                      
- 75%|███████▍  | 8025/10714 [1:30:20<21:55,  2.04it/s] 75%|███████▍  | 8026/10714 [1:30:20<21:56,  2.04it/s] 75%|███████▍  | 8027/10714 [1:30:21<21:55,  2.04it/s] 75%|███████▍  | 8028/10714 [1:30:21<21:54,  2.04it/s] 75%|███████▍  | 8029/10714 [1:30:22<21:54,  2.04it/s] 75%|███████▍  | 8030/10714 [1:30:22<21:52,  2.04it/s] 75%|███████▍  | 8031/10714 [1:30:23<21:51,  2.05it/s] 75%|███████▍  | 8032/10714 [1:30:23<21:53,  2.04it/s] 75%|███████▍  | 8033/10714 [1:30:24<21:54,  2.04it/s] 75%|███████▍  | 8034/10714 [1:30:24<21:53,  2.04it/s] 75%|███████▍  | 8035/10714 [1:30:25<21:51,  2.04it/s] 75%|███████▌  | 8036/10714 [1:30:25<21:50,  2.04it/s] 75%|███████▌  | 8037/10714 [1:30:26<21:50,  2.04it/s] 75%|███████▌  | 8038/10714 [1:30:26<21:48,  2.04it/s] 75%|███████▌  | 8039/10714 [1:30:27<21:46,  2.05it/s] 75%|███████▌  | 8040/10714 [1:30:27<21:45,  2.05it/s] 75%|███████▌  | 8041/10714 [1:30:28<21:44,  2.05it/s] 75%|███████▌  | 8042/10714 [1:30:28<21:46,  2.05it/s] 75%|███████▌  | 8043/10714 [1:30:30<44:58,  1.01s/it] 75%|███████▌  | 8044/10714 [1:30:31<37:59,  1.17it/s] 75%|███████▌  | 8045/10714 [1:30:31<33:06,  1.34it/s] 75%|███████▌  | 8046/10714 [1:30:32<29:43,  1.50it/s] 75%|███████▌  | 8047/10714 [1:30:32<27:19,  1.63it/s] 75%|███████▌  | 8048/10714 [1:30:33<25:38,  1.73it/s] 75%|███████▌  | 8049/10714 [1:30:33<24:25,  1.82it/s] 75%|███████▌  | 8050/10714 [1:30:34<23:36,  1.88it/s]                                                      {'loss': 3.3876, 'grad_norm': 0.20885494351387024, 'learning_rate': 0.00017682093889681983, 'epoch': 0.75}
- 75%|███████▌  | 8050/10714 [1:30:34<23:36,  1.88it/s] 75%|███████▌  | 8051/10714 [1:30:34<23:04,  1.92it/s] 75%|███████▌  | 8052/10714 [1:30:35<22:39,  1.96it/s] 75%|███████▌  | 8053/10714 [1:30:35<22:20,  1.98it/s] 75%|███████▌  | 8054/10714 [1:30:36<22:06,  2.01it/s] 75%|███████▌  | 8055/10714 [1:30:36<21:57,  2.02it/s] 75%|███████▌  | 8056/10714 [1:30:37<21:52,  2.03it/s] 75%|███████▌  | 8057/10714 [1:30:37<21:48,  2.03it/s] 75%|███████▌  | 8058/10714 [1:30:38<21:45,  2.03it/s] 75%|███████▌  | 8059/10714 [1:30:38<21:41,  2.04it/s] 75%|███████▌  | 8060/10714 [1:30:39<21:38,  2.04it/s] 75%|███████▌  | 8061/10714 [1:30:39<21:38,  2.04it/s] 75%|███████▌  | 8062/10714 [1:30:40<21:37,  2.04it/s] 75%|███████▌  | 8063/10714 [1:30:40<21:36,  2.04it/s] 75%|███████▌  | 8064/10714 [1:30:41<21:35,  2.05it/s] 75%|███████▌  | 8065/10714 [1:30:41<21:34,  2.05it/s] 75%|███████▌  | 8066/10714 [1:30:42<21:33,  2.05it/s] 75%|███████▌  | 8067/10714 [1:30:42<21:33,  2.05it/s] 75%|███████▌  | 8068/10714 [1:30:43<21:34,  2.04it/s] 75%|███████▌  | 8069/10714 [1:30:43<21:33,  2.04it/s] 75%|███████▌  | 8070/10714 [1:30:44<21:32,  2.05it/s] 75%|███████▌  | 8071/10714 [1:30:44<21:31,  2.05it/s] 75%|███████▌  | 8072/10714 [1:30:45<21:30,  2.05it/s] 75%|███████▌  | 8073/10714 [1:30:45<21:32,  2.04it/s] 75%|███████▌  | 8074/10714 [1:30:46<21:31,  2.04it/s] 75%|███████▌  | 8075/10714 [1:30:46<21:30,  2.05it/s]{'loss': 3.3848, 'grad_norm': 0.20734010636806488, 'learning_rate': 0.00017372401145466382, 'epoch': 0.75}                                                      
- 75%|███████▌  | 8075/10714 [1:30:46<21:30,  2.05it/s] 75%|███████▌  | 8076/10714 [1:30:47<21:32,  2.04it/s] 75%|███████▌  | 8077/10714 [1:30:47<21:31,  2.04it/s] 75%|███████▌  | 8078/10714 [1:30:48<21:30,  2.04it/s] 75%|███████▌  | 8079/10714 [1:30:48<21:28,  2.04it/s] 75%|███████▌  | 8080/10714 [1:30:48<21:27,  2.05it/s] 75%|███████▌  | 8081/10714 [1:30:49<21:27,  2.04it/s] 75%|███████▌  | 8082/10714 [1:30:49<21:26,  2.05it/s] 75%|███████▌  | 8083/10714 [1:30:50<21:25,  2.05it/s] 75%|███████▌  | 8084/10714 [1:30:50<21:24,  2.05it/s] 75%|███████▌  | 8085/10714 [1:30:51<21:24,  2.05it/s] 75%|███████▌  | 8086/10714 [1:30:51<21:24,  2.05it/s] 75%|███████▌  | 8087/10714 [1:30:52<21:23,  2.05it/s] 75%|███████▌  | 8088/10714 [1:30:52<21:22,  2.05it/s] 75%|███████▌  | 8089/10714 [1:30:53<21:22,  2.05it/s] 76%|███████▌  | 8090/10714 [1:30:53<21:22,  2.05it/s] 76%|███████▌  | 8091/10714 [1:30:54<21:22,  2.05it/s] 76%|███████▌  | 8092/10714 [1:30:54<21:21,  2.05it/s] 76%|███████▌  | 8093/10714 [1:30:55<21:20,  2.05it/s] 76%|███████▌  | 8094/10714 [1:30:55<21:20,  2.05it/s] 76%|███████▌  | 8095/10714 [1:30:56<21:19,  2.05it/s] 76%|███████▌  | 8096/10714 [1:30:56<21:18,  2.05it/s] 76%|███████▌  | 8097/10714 [1:30:57<21:18,  2.05it/s] 76%|███████▌  | 8098/10714 [1:30:57<21:18,  2.05it/s] 76%|███████▌  | 8099/10714 [1:30:58<21:15,  2.05it/s] 76%|███████▌  | 8100/10714 [1:30:58<21:16,  2.05it/s]{'loss': 3.386, 'grad_norm': 0.20356173813343048, 'learning_rate': 0.00017064873253301143, 'epoch': 0.76}                                                      
- 76%|███████▌  | 8100/10714 [1:30:58<21:16,  2.05it/s] 76%|███████▌  | 8101/10714 [1:30:59<21:18,  2.04it/s] 76%|███████▌  | 8102/10714 [1:30:59<21:17,  2.04it/s] 76%|███████▌  | 8103/10714 [1:31:00<21:17,  2.04it/s] 76%|███████▌  | 8104/10714 [1:31:00<21:17,  2.04it/s] 76%|███████▌  | 8105/10714 [1:31:01<21:18,  2.04it/s] 76%|███████▌  | 8106/10714 [1:31:01<21:16,  2.04it/s] 76%|███████▌  | 8107/10714 [1:31:02<21:14,  2.05it/s] 76%|███████▌  | 8108/10714 [1:31:02<21:15,  2.04it/s] 76%|███████▌  | 8109/10714 [1:31:03<21:15,  2.04it/s] 76%|███████▌  | 8110/10714 [1:31:03<21:14,  2.04it/s] 76%|███████▌  | 8111/10714 [1:31:04<21:13,  2.04it/s] 76%|███████▌  | 8112/10714 [1:31:04<21:11,  2.05it/s] 76%|███████▌  | 8113/10714 [1:31:05<21:10,  2.05it/s] 76%|███████▌  | 8114/10714 [1:31:05<21:10,  2.05it/s] 76%|███████▌  | 8115/10714 [1:31:06<24:45,  1.75it/s] 76%|███████▌  | 8116/10714 [1:31:06<23:42,  1.83it/s] 76%|███████▌  | 8117/10714 [1:31:07<22:56,  1.89it/s] 76%|███████▌  | 8118/10714 [1:31:07<22:23,  1.93it/s] 76%|███████▌  | 8119/10714 [1:31:08<22:00,  1.96it/s] 76%|███████▌  | 8120/10714 [1:31:08<21:44,  1.99it/s] 76%|███████▌  | 8121/10714 [1:31:09<21:34,  2.00it/s] 76%|███████▌  | 8122/10714 [1:31:09<21:25,  2.02it/s] 76%|███████▌  | 8123/10714 [1:31:10<21:20,  2.02it/s] 76%|███████▌  | 8124/10714 [1:31:10<21:17,  2.03it/s] 76%|███████▌  | 8125/10714 [1:31:11<21:13,  2.03it/s]{'loss': 3.3837, 'grad_norm': 0.2084011286497116, 'learning_rate': 0.00016759530617764334, 'epoch': 0.76}                                                      
- 76%|███████▌  | 8125/10714 [1:31:11<21:13,  2.03it/s] 76%|███████▌  | 8126/10714 [1:31:11<21:12,  2.03it/s] 76%|███████▌  | 8127/10714 [1:31:12<21:09,  2.04it/s] 76%|███████▌  | 8128/10714 [1:31:12<21:07,  2.04it/s] 76%|███████▌  | 8129/10714 [1:31:13<21:05,  2.04it/s] 76%|███████▌  | 8130/10714 [1:31:13<21:05,  2.04it/s] 76%|███████▌  | 8131/10714 [1:31:14<21:05,  2.04it/s] 76%|███████▌  | 8132/10714 [1:31:14<21:03,  2.04it/s] 76%|███████▌  | 8133/10714 [1:31:15<21:02,  2.04it/s] 76%|███████▌  | 8134/10714 [1:31:15<21:02,  2.04it/s] 76%|███████▌  | 8135/10714 [1:31:16<21:01,  2.04it/s] 76%|███████▌  | 8136/10714 [1:31:16<21:00,  2.05it/s] 76%|███████▌  | 8137/10714 [1:31:17<20:59,  2.05it/s] 76%|███████▌  | 8138/10714 [1:31:17<20:59,  2.04it/s] 76%|███████▌  | 8139/10714 [1:31:18<20:59,  2.04it/s] 76%|███████▌  | 8140/10714 [1:31:18<20:59,  2.04it/s] 76%|███████▌  | 8141/10714 [1:31:19<20:59,  2.04it/s] 76%|███████▌  | 8142/10714 [1:31:19<20:58,  2.04it/s] 76%|███████▌  | 8143/10714 [1:31:20<20:57,  2.04it/s] 76%|███████▌  | 8144/10714 [1:31:20<20:57,  2.04it/s] 76%|███████▌  | 8145/10714 [1:31:21<20:55,  2.05it/s] 76%|███████▌  | 8146/10714 [1:31:21<20:54,  2.05it/s] 76%|███████▌  | 8147/10714 [1:31:22<20:54,  2.05it/s] 76%|███████▌  | 8148/10714 [1:31:22<20:55,  2.04it/s] 76%|███████▌  | 8149/10714 [1:31:23<20:55,  2.04it/s] 76%|███████▌  | 8150/10714 [1:31:23<20:54,  2.04it/s]                                                      {'loss': 3.3912, 'grad_norm': 0.19845351576805115, 'learning_rate': 0.0001645639349844153, 'epoch': 0.76}
- 76%|███████▌  | 8150/10714 [1:31:23<20:54,  2.04it/s] 76%|███████▌  | 8151/10714 [1:31:24<24:29,  1.74it/s] 76%|███████▌  | 8152/10714 [1:31:24<23:25,  1.82it/s] 76%|███████▌  | 8153/10714 [1:31:25<22:39,  1.88it/s] 76%|███████▌  | 8154/10714 [1:31:25<22:07,  1.93it/s] 76%|███████▌  | 8155/10714 [1:31:26<21:44,  1.96it/s] 76%|███████▌  | 8156/10714 [1:31:26<21:27,  1.99it/s] 76%|███████▌  | 8157/10714 [1:31:27<21:15,  2.00it/s] 76%|███████▌  | 8158/10714 [1:31:27<21:08,  2.02it/s] 76%|███████▌  | 8159/10714 [1:31:28<21:02,  2.02it/s] 76%|███████▌  | 8160/10714 [1:31:28<20:57,  2.03it/s] 76%|███████▌  | 8161/10714 [1:31:29<20:52,  2.04it/s] 76%|███████▌  | 8162/10714 [1:31:29<20:51,  2.04it/s] 76%|███████▌  | 8163/10714 [1:31:30<20:51,  2.04it/s] 76%|███████▌  | 8164/10714 [1:31:30<20:49,  2.04it/s] 76%|███████▌  | 8165/10714 [1:31:31<20:47,  2.04it/s] 76%|███████▌  | 8166/10714 [1:31:31<20:46,  2.04it/s] 76%|███████▌  | 8167/10714 [1:31:32<20:46,  2.04it/s] 76%|███████▌  | 8168/10714 [1:31:32<20:45,  2.04it/s] 76%|███████▌  | 8169/10714 [1:31:33<20:44,  2.05it/s] 76%|███████▋  | 8170/10714 [1:31:33<20:42,  2.05it/s] 76%|███████▋  | 8171/10714 [1:31:34<20:41,  2.05it/s] 76%|███████▋  | 8172/10714 [1:31:34<20:41,  2.05it/s] 76%|███████▋  | 8173/10714 [1:31:35<20:42,  2.05it/s] 76%|███████▋  | 8174/10714 [1:31:35<20:41,  2.05it/s] 76%|███████▋  | 8175/10714 [1:31:36<20:42,  2.04it/s]                                                      {'loss': 3.3756, 'grad_norm': 0.20803391933441162, 'learning_rate': 0.00016155482008581507, 'epoch': 0.76}
- 76%|███████▋  | 8175/10714 [1:31:36<20:42,  2.04it/s] 76%|███████▋  | 8176/10714 [1:31:36<20:46,  2.04it/s] 76%|███████▋  | 8177/10714 [1:31:36<20:46,  2.04it/s] 76%|███████▋  | 8178/10714 [1:31:37<20:43,  2.04it/s] 76%|███████▋  | 8179/10714 [1:31:37<20:41,  2.04it/s] 76%|███████▋  | 8180/10714 [1:31:38<20:41,  2.04it/s] 76%|███████▋  | 8181/10714 [1:31:38<20:40,  2.04it/s] 76%|███████▋  | 8182/10714 [1:31:39<20:39,  2.04it/s] 76%|███████▋  | 8183/10714 [1:31:39<20:37,  2.04it/s] 76%|███████▋  | 8184/10714 [1:31:40<20:36,  2.05it/s] 76%|███████▋  | 8185/10714 [1:31:40<20:35,  2.05it/s] 76%|███████▋  | 8186/10714 [1:31:41<20:37,  2.04it/s] 76%|███████▋  | 8187/10714 [1:31:41<20:36,  2.04it/s] 76%|███████▋  | 8188/10714 [1:31:42<20:35,  2.04it/s] 76%|███████▋  | 8189/10714 [1:31:42<20:33,  2.05it/s] 76%|███████▋  | 8190/10714 [1:31:43<20:32,  2.05it/s] 76%|███████▋  | 8191/10714 [1:31:43<20:33,  2.05it/s] 76%|███████▋  | 8192/10714 [1:31:44<20:33,  2.04it/s] 76%|███████▋  | 8193/10714 [1:31:44<20:32,  2.04it/s] 76%|███████▋  | 8194/10714 [1:31:45<20:31,  2.05it/s] 76%|███████▋  | 8195/10714 [1:31:45<20:30,  2.05it/s] 76%|███████▋  | 8196/10714 [1:31:46<20:31,  2.04it/s] 77%|███████▋  | 8197/10714 [1:31:46<20:31,  2.04it/s] 77%|███████▋  | 8198/10714 [1:31:47<20:30,  2.04it/s] 77%|███████▋  | 8199/10714 [1:31:47<20:28,  2.05it/s] 77%|███████▋  | 8200/10714 [1:31:48<20:29,  2.05it/s]{'loss': 3.3691, 'grad_norm': 0.2042785882949829, 'learning_rate': 0.00015856816113761878, 'epoch': 0.77}
-                                                       77%|███████▋  | 8200/10714 [1:31:48<20:29,  2.05it/s] 77%|███████▋  | 8201/10714 [1:31:48<20:31,  2.04it/s] 77%|███████▋  | 8202/10714 [1:31:49<20:31,  2.04it/s] 77%|███████▋  | 8203/10714 [1:31:49<20:28,  2.04it/s] 77%|███████▋  | 8204/10714 [1:31:50<20:26,  2.05it/s] 77%|███████▋  | 8205/10714 [1:31:50<20:25,  2.05it/s] 77%|███████▋  | 8206/10714 [1:31:51<20:25,  2.05it/s] 77%|███████▋  | 8207/10714 [1:31:51<20:26,  2.04it/s] 77%|███████▋  | 8208/10714 [1:31:52<20:26,  2.04it/s] 77%|███████▋  | 8209/10714 [1:31:52<20:25,  2.04it/s] 77%|███████▋  | 8210/10714 [1:31:53<20:24,  2.04it/s] 77%|███████▋  | 8211/10714 [1:31:53<20:25,  2.04it/s] 77%|███████▋  | 8212/10714 [1:31:54<20:24,  2.04it/s] 77%|███████▋  | 8213/10714 [1:31:54<20:23,  2.04it/s] 77%|███████▋  | 8214/10714 [1:31:55<20:22,  2.04it/s] 77%|███████▋  | 8215/10714 [1:31:55<20:21,  2.05it/s] 77%|███████▋  | 8216/10714 [1:31:56<20:22,  2.04it/s] 77%|███████▋  | 8217/10714 [1:31:56<20:21,  2.04it/s] 77%|███████▋  | 8218/10714 [1:31:57<20:19,  2.05it/s] 77%|███████▋  | 8219/10714 [1:31:57<20:19,  2.05it/s] 77%|███████▋  | 8220/10714 [1:31:58<20:19,  2.05it/s] 77%|███████▋  | 8221/10714 [1:31:58<20:19,  2.04it/s] 77%|███████▋  | 8222/10714 [1:31:59<20:18,  2.05it/s] 77%|███████▋  | 8223/10714 [1:31:59<20:17,  2.05it/s] 77%|███████▋  | 8224/10714 [1:31:59<20:17,  2.05it/s] 77%|███████▋  | 8225/10714 [1:32:00<20:18,  2.04it/s]{'loss': 3.3746, 'grad_norm': 0.20218425989151, 'learning_rate': 0.00015560415630564223, 'epoch': 0.77}                                                      
- 77%|███████▋  | 8225/10714 [1:32:00<20:18,  2.04it/s] 77%|███████▋  | 8226/10714 [1:32:00<20:18,  2.04it/s] 77%|███████▋  | 8227/10714 [1:32:01<20:18,  2.04it/s] 77%|███████▋  | 8228/10714 [1:32:01<20:17,  2.04it/s] 77%|███████▋  | 8229/10714 [1:32:02<20:17,  2.04it/s] 77%|███████▋  | 8230/10714 [1:32:02<20:16,  2.04it/s] 77%|███████▋  | 8231/10714 [1:32:03<20:14,  2.04it/s] 77%|███████▋  | 8232/10714 [1:32:03<20:14,  2.04it/s] 77%|███████▋  | 8233/10714 [1:32:04<20:13,  2.04it/s] 77%|███████▋  | 8234/10714 [1:32:04<20:14,  2.04it/s] 77%|███████▋  | 8235/10714 [1:32:05<20:13,  2.04it/s] 77%|███████▋  | 8236/10714 [1:32:05<20:12,  2.04it/s] 77%|███████▋  | 8237/10714 [1:32:06<20:11,  2.04it/s] 77%|███████▋  | 8238/10714 [1:32:06<20:11,  2.04it/s] 77%|███████▋  | 8239/10714 [1:32:07<20:12,  2.04it/s] 77%|███████▋  | 8240/10714 [1:32:07<20:10,  2.04it/s] 77%|███████▋  | 8241/10714 [1:32:08<20:09,  2.04it/s] 77%|███████▋  | 8242/10714 [1:32:08<20:10,  2.04it/s] 77%|███████▋  | 8243/10714 [1:32:09<20:10,  2.04it/s] 77%|███████▋  | 8244/10714 [1:32:09<20:10,  2.04it/s] 77%|███████▋  | 8245/10714 [1:32:10<20:09,  2.04it/s] 77%|███████▋  | 8246/10714 [1:32:10<20:08,  2.04it/s] 77%|███████▋  | 8247/10714 [1:32:11<20:07,  2.04it/s] 77%|███████▋  | 8248/10714 [1:32:11<20:04,  2.05it/s] 77%|███████▋  | 8249/10714 [1:32:12<20:03,  2.05it/s] 77%|███████▋  | 8250/10714 [1:32:12<20:05,  2.04it/s]                                                      {'loss': 3.3719, 'grad_norm': 0.1999349743127823, 'learning_rate': 0.00015266300225259317, 'epoch': 0.77}
- 77%|███████▋  | 8250/10714 [1:32:12<20:05,  2.04it/s] 77%|███████▋  | 8251/10714 [1:32:13<20:07,  2.04it/s] 77%|███████▋  | 8252/10714 [1:32:13<20:05,  2.04it/s] 77%|███████▋  | 8253/10714 [1:32:14<20:04,  2.04it/s] 77%|███████▋  | 8254/10714 [1:32:14<20:04,  2.04it/s] 77%|███████▋  | 8255/10714 [1:32:15<20:04,  2.04it/s] 77%|███████▋  | 8256/10714 [1:32:15<20:03,  2.04it/s] 77%|███████▋  | 8257/10714 [1:32:16<20:02,  2.04it/s] 77%|███████▋  | 8258/10714 [1:32:16<20:02,  2.04it/s] 77%|███████▋  | 8259/10714 [1:32:17<20:01,  2.04it/s] 77%|███████▋  | 8260/10714 [1:32:17<20:02,  2.04it/s] 77%|███████▋  | 8261/10714 [1:32:18<20:02,  2.04it/s] 77%|███████▋  | 8262/10714 [1:32:18<20:01,  2.04it/s] 77%|███████▋  | 8263/10714 [1:32:19<20:00,  2.04it/s] 77%|███████▋  | 8264/10714 [1:32:19<19:59,  2.04it/s] 77%|███████▋  | 8265/10714 [1:32:21<35:00,  1.17it/s] 77%|███████▋  | 8266/10714 [1:32:21<30:29,  1.34it/s] 77%|███████▋  | 8267/10714 [1:32:22<27:19,  1.49it/s] 77%|███████▋  | 8268/10714 [1:32:22<25:05,  1.62it/s] 77%|███████▋  | 8269/10714 [1:32:23<23:32,  1.73it/s] 77%|███████▋  | 8270/10714 [1:32:23<22:26,  1.82it/s] 77%|███████▋  | 8271/10714 [1:32:24<21:40,  1.88it/s] 77%|███████▋  | 8272/10714 [1:32:24<21:08,  1.92it/s] 77%|███████▋  | 8273/10714 [1:32:25<20:46,  1.96it/s] 77%|███████▋  | 8274/10714 [1:32:25<20:30,  1.98it/s] 77%|███████▋  | 8275/10714 [1:32:26<20:19,  2.00it/s]                                                      {'loss': 3.3788, 'grad_norm': 0.20333151519298553, 'learning_rate': 0.00014974489412502247, 'epoch': 0.77}
- 77%|███████▋  | 8275/10714 [1:32:26<20:19,  2.00it/s] 77%|███████▋  | 8276/10714 [1:32:26<20:12,  2.01it/s] 77%|███████▋  | 8277/10714 [1:32:27<20:05,  2.02it/s] 77%|███████▋  | 8278/10714 [1:32:27<20:00,  2.03it/s] 77%|███████▋  | 8279/10714 [1:32:28<19:57,  2.03it/s] 77%|███████▋  | 8280/10714 [1:32:28<19:55,  2.04it/s] 77%|███████▋  | 8281/10714 [1:32:29<19:53,  2.04it/s] 77%|███████▋  | 8282/10714 [1:32:29<19:51,  2.04it/s] 77%|███████▋  | 8283/10714 [1:32:30<19:50,  2.04it/s] 77%|███████▋  | 8284/10714 [1:32:30<19:49,  2.04it/s] 77%|███████▋  | 8285/10714 [1:32:31<19:48,  2.04it/s] 77%|███████▋  | 8286/10714 [1:32:31<19:47,  2.04it/s] 77%|███████▋  | 8287/10714 [1:32:32<19:46,  2.04it/s] 77%|███████▋  | 8288/10714 [1:32:32<19:46,  2.04it/s] 77%|███████▋  | 8289/10714 [1:32:33<19:45,  2.04it/s] 77%|███████▋  | 8290/10714 [1:32:33<19:45,  2.05it/s] 77%|███████▋  | 8291/10714 [1:32:34<19:45,  2.04it/s] 77%|███████▋  | 8292/10714 [1:32:34<19:45,  2.04it/s] 77%|███████▋  | 8293/10714 [1:32:34<19:44,  2.04it/s] 77%|███████▋  | 8294/10714 [1:32:37<41:34,  1.03s/it] 77%|███████▋  | 8295/10714 [1:32:37<35:01,  1.15it/s] 77%|███████▋  | 8296/10714 [1:32:38<30:26,  1.32it/s] 77%|███████▋  | 8297/10714 [1:32:38<27:11,  1.48it/s] 77%|███████▋  | 8298/10714 [1:32:39<24:57,  1.61it/s] 77%|███████▋  | 8299/10714 [1:32:39<23:23,  1.72it/s] 77%|███████▋  | 8300/10714 [1:32:40<22:16,  1.81it/s]                                                      {'loss': 3.3839, 'grad_norm': 0.19560369849205017, 'learning_rate': 0.00014685002554037623, 'epoch': 0.77}
- 77%|███████▋  | 8300/10714 [1:32:40<22:16,  1.81it/s] 77%|███████▋  | 8301/10714 [1:32:40<21:34,  1.86it/s] 77%|███████▋  | 8302/10714 [1:32:41<20:59,  1.92it/s] 77%|███████▋  | 8303/10714 [1:32:41<20:35,  1.95it/s] 78%|███████▊  | 8304/10714 [1:32:42<20:18,  1.98it/s] 78%|███████▊  | 8305/10714 [1:32:42<20:06,  2.00it/s] 78%|███████▊  | 8306/10714 [1:32:43<19:59,  2.01it/s] 78%|███████▊  | 8307/10714 [1:32:43<19:52,  2.02it/s] 78%|███████▊  | 8308/10714 [1:32:44<19:46,  2.03it/s] 78%|███████▊  | 8309/10714 [1:32:44<19:42,  2.03it/s] 78%|███████▊  | 8310/10714 [1:32:45<19:40,  2.04it/s] 78%|███████▊  | 8311/10714 [1:32:45<19:39,  2.04it/s] 78%|███████▊  | 8312/10714 [1:32:46<19:39,  2.04it/s] 78%|███████▊  | 8313/10714 [1:32:46<19:36,  2.04it/s] 78%|███████▊  | 8314/10714 [1:32:47<19:35,  2.04it/s] 78%|███████▊  | 8315/10714 [1:32:47<19:35,  2.04it/s] 78%|███████▊  | 8316/10714 [1:32:48<19:34,  2.04it/s] 78%|███████▊  | 8317/10714 [1:32:48<19:33,  2.04it/s] 78%|███████▊  | 8318/10714 [1:32:49<19:31,  2.04it/s] 78%|███████▊  | 8319/10714 [1:32:49<19:31,  2.04it/s] 78%|███████▊  | 8320/10714 [1:32:50<19:31,  2.04it/s] 78%|███████▊  | 8321/10714 [1:32:50<19:31,  2.04it/s] 78%|███████▊  | 8322/10714 [1:32:50<19:29,  2.05it/s] 78%|███████▊  | 8323/10714 [1:32:51<19:28,  2.05it/s] 78%|███████▊  | 8324/10714 [1:32:51<19:29,  2.04it/s] 78%|███████▊  | 8325/10714 [1:32:52<19:29,  2.04it/s]                                                      {'loss': 3.3753, 'grad_norm': 0.2022765427827835, 'learning_rate': 0.0001439785885741493, 'epoch': 0.78}
- 78%|███████▊  | 8325/10714 [1:32:52<19:29,  2.04it/s] 78%|███████▊  | 8326/10714 [1:32:52<19:29,  2.04it/s] 78%|███████▊  | 8327/10714 [1:32:53<19:28,  2.04it/s] 78%|███████▊  | 8328/10714 [1:32:53<19:29,  2.04it/s] 78%|███████▊  | 8329/10714 [1:32:54<19:28,  2.04it/s] 78%|███████▊  | 8330/10714 [1:32:54<19:27,  2.04it/s] 78%|███████▊  | 8331/10714 [1:32:55<19:27,  2.04it/s] 78%|███████▊  | 8332/10714 [1:32:55<19:26,  2.04it/s] 78%|███████▊  | 8333/10714 [1:32:56<19:26,  2.04it/s] 78%|███████▊  | 8334/10714 [1:32:56<19:26,  2.04it/s] 78%|███████▊  | 8335/10714 [1:32:57<19:23,  2.04it/s] 78%|███████▊  | 8336/10714 [1:32:57<19:22,  2.05it/s] 78%|███████▊  | 8337/10714 [1:32:58<19:20,  2.05it/s] 78%|███████▊  | 8338/10714 [1:32:58<19:22,  2.04it/s] 78%|███████▊  | 8339/10714 [1:32:59<19:22,  2.04it/s] 78%|███████▊  | 8340/10714 [1:32:59<19:21,  2.04it/s] 78%|███████▊  | 8341/10714 [1:33:00<19:19,  2.05it/s] 78%|███████▊  | 8342/10714 [1:33:00<19:21,  2.04it/s] 78%|███████▊  | 8343/10714 [1:33:01<19:19,  2.04it/s] 78%|███████▊  | 8344/10714 [1:33:01<19:18,  2.05it/s] 78%|███████▊  | 8345/10714 [1:33:02<19:17,  2.05it/s] 78%|███████▊  | 8346/10714 [1:33:02<19:18,  2.04it/s] 78%|███████▊  | 8347/10714 [1:33:03<19:17,  2.04it/s] 78%|███████▊  | 8348/10714 [1:33:03<19:16,  2.05it/s] 78%|███████▊  | 8349/10714 [1:33:04<19:15,  2.05it/s] 78%|███████▊  | 8350/10714 [1:33:04<19:14,  2.05it/s]                                                      {'loss': 3.3793, 'grad_norm': 0.2034672200679779, 'learning_rate': 0.00014113077374714055, 'epoch': 0.78}
- 78%|███████▊  | 8350/10714 [1:33:04<19:14,  2.05it/s] 78%|███████▊  | 8351/10714 [1:33:05<19:16,  2.04it/s] 78%|███████▊  | 8352/10714 [1:33:05<19:15,  2.04it/s] 78%|███████▊  | 8353/10714 [1:33:06<19:15,  2.04it/s] 78%|███████▊  | 8354/10714 [1:33:06<19:13,  2.05it/s] 78%|███████▊  | 8355/10714 [1:33:07<19:11,  2.05it/s] 78%|███████▊  | 8356/10714 [1:33:07<19:11,  2.05it/s] 78%|███████▊  | 8357/10714 [1:33:08<19:12,  2.05it/s] 78%|███████▊  | 8358/10714 [1:33:08<19:12,  2.04it/s] 78%|███████▊  | 8359/10714 [1:33:09<19:10,  2.05it/s] 78%|███████▊  | 8360/10714 [1:33:09<19:10,  2.05it/s] 78%|███████▊  | 8361/10714 [1:33:10<19:09,  2.05it/s] 78%|███████▊  | 8362/10714 [1:33:10<19:09,  2.05it/s] 78%|███████▊  | 8363/10714 [1:33:11<19:08,  2.05it/s] 78%|███████▊  | 8364/10714 [1:33:11<19:07,  2.05it/s] 78%|███████▊  | 8365/10714 [1:33:12<19:06,  2.05it/s] 78%|███████▊  | 8366/10714 [1:33:12<19:06,  2.05it/s] 78%|███████▊  | 8367/10714 [1:33:12<19:07,  2.05it/s] 78%|███████▊  | 8368/10714 [1:33:13<19:07,  2.04it/s] 78%|███████▊  | 8369/10714 [1:33:13<19:06,  2.05it/s] 78%|███████▊  | 8370/10714 [1:33:14<19:04,  2.05it/s] 78%|███████▊  | 8371/10714 [1:33:14<19:04,  2.05it/s] 78%|███████▊  | 8372/10714 [1:33:15<19:03,  2.05it/s] 78%|███████▊  | 8373/10714 [1:33:15<19:04,  2.05it/s] 78%|███████▊  | 8374/10714 [1:33:16<19:05,  2.04it/s] 78%|███████▊  | 8375/10714 [1:33:16<19:04,  2.04it/s]                                                      {'loss': 3.3706, 'grad_norm': 0.20231470465660095, 'learning_rate': 0.0001383067700128123, 'epoch': 0.78}
- 78%|███████▊  | 8375/10714 [1:33:16<19:04,  2.04it/s] 78%|███████▊  | 8376/10714 [1:33:17<19:06,  2.04it/s] 78%|███████▊  | 8377/10714 [1:33:17<19:04,  2.04it/s] 78%|███████▊  | 8378/10714 [1:33:18<19:04,  2.04it/s] 78%|███████▊  | 8379/10714 [1:33:18<19:05,  2.04it/s] 78%|███████▊  | 8380/10714 [1:33:19<19:03,  2.04it/s] 78%|███████▊  | 8381/10714 [1:33:19<19:01,  2.04it/s] 78%|███████▊  | 8382/10714 [1:33:20<19:00,  2.04it/s] 78%|███████▊  | 8383/10714 [1:33:20<19:00,  2.04it/s] 78%|███████▊  | 8384/10714 [1:33:21<19:01,  2.04it/s] 78%|███████▊  | 8385/10714 [1:33:21<19:00,  2.04it/s] 78%|███████▊  | 8386/10714 [1:33:22<18:58,  2.04it/s] 78%|███████▊  | 8387/10714 [1:33:22<18:58,  2.04it/s] 78%|███████▊  | 8388/10714 [1:33:23<18:57,  2.04it/s] 78%|███████▊  | 8389/10714 [1:33:23<18:57,  2.04it/s] 78%|███████▊  | 8390/10714 [1:33:24<18:56,  2.05it/s] 78%|███████▊  | 8391/10714 [1:33:24<18:56,  2.04it/s] 78%|███████▊  | 8392/10714 [1:33:25<18:56,  2.04it/s] 78%|███████▊  | 8393/10714 [1:33:25<18:55,  2.04it/s] 78%|███████▊  | 8394/10714 [1:33:29<59:39,  1.54s/it] 78%|███████▊  | 8395/10714 [1:33:30<47:25,  1.23s/it] 78%|███████▊  | 8396/10714 [1:33:30<38:51,  1.01s/it] 78%|███████▊  | 8397/10714 [1:33:31<32:50,  1.18it/s] 78%|███████▊  | 8398/10714 [1:33:31<28:39,  1.35it/s] 78%|███████▊  | 8399/10714 [1:33:32<25:42,  1.50it/s] 78%|███████▊  | 8400/10714 [1:33:32<23:38,  1.63it/s]{'loss': 3.377, 'grad_norm': 0.19667035341262817, 'learning_rate': 0.00013550676474475277, 'epoch': 0.78}                                                      
- 78%|███████▊  | 8400/10714 [1:33:32<23:38,  1.63it/s] 78%|███████▊  | 8401/10714 [1:33:33<22:17,  1.73it/s] 78%|███████▊  | 8402/10714 [1:33:33<21:14,  1.81it/s] 78%|███████▊  | 8403/10714 [1:33:34<20:30,  1.88it/s] 78%|███████▊  | 8404/10714 [1:33:34<19:59,  1.93it/s] 78%|███████▊  | 8405/10714 [1:33:35<19:38,  1.96it/s] 78%|███████▊  | 8406/10714 [1:33:35<19:22,  1.98it/s] 78%|███████▊  | 8407/10714 [1:33:36<19:13,  2.00it/s] 78%|███████▊  | 8408/10714 [1:33:36<19:05,  2.01it/s] 78%|███████▊  | 8409/10714 [1:33:37<18:59,  2.02it/s] 78%|███████▊  | 8410/10714 [1:33:37<18:55,  2.03it/s] 79%|███████▊  | 8411/10714 [1:33:38<18:51,  2.03it/s] 79%|███████▊  | 8412/10714 [1:33:38<18:48,  2.04it/s] 79%|███████▊  | 8413/10714 [1:33:39<18:48,  2.04it/s] 79%|███████▊  | 8414/10714 [1:33:39<18:47,  2.04it/s] 79%|███████▊  | 8415/10714 [1:33:40<18:46,  2.04it/s] 79%|███████▊  | 8416/10714 [1:33:40<18:44,  2.04it/s] 79%|███████▊  | 8417/10714 [1:33:40<18:43,  2.04it/s] 79%|███████▊  | 8418/10714 [1:33:41<18:44,  2.04it/s] 79%|███████▊  | 8419/10714 [1:33:41<18:44,  2.04it/s] 79%|███████▊  | 8420/10714 [1:33:42<18:41,  2.05it/s] 79%|███████▊  | 8421/10714 [1:33:42<18:40,  2.05it/s] 79%|███████▊  | 8422/10714 [1:33:43<18:40,  2.05it/s] 79%|███████▊  | 8423/10714 [1:33:43<18:41,  2.04it/s] 79%|███████▊  | 8424/10714 [1:33:44<18:41,  2.04it/s] 79%|███████▊  | 8425/10714 [1:33:44<18:39,  2.05it/s]{'loss': 3.3805, 'grad_norm': 0.2117246389389038, 'learning_rate': 0.00013273094372424405, 'epoch': 0.79}
-                                                       79%|███████▊  | 8425/10714 [1:33:44<18:39,  2.05it/s] 79%|███████▊  | 8426/10714 [1:33:45<18:40,  2.04it/s] 79%|███████▊  | 8427/10714 [1:33:45<18:41,  2.04it/s] 79%|███████▊  | 8428/10714 [1:33:46<18:40,  2.04it/s] 79%|███████▊  | 8429/10714 [1:33:46<18:37,  2.04it/s] 79%|███████▊  | 8430/10714 [1:33:47<18:36,  2.05it/s] 79%|███████▊  | 8431/10714 [1:33:47<18:37,  2.04it/s] 79%|███████▊  | 8432/10714 [1:33:48<18:38,  2.04it/s] 79%|███████▊  | 8433/10714 [1:33:48<18:36,  2.04it/s] 79%|███████▊  | 8434/10714 [1:33:49<18:35,  2.04it/s] 79%|███████▊  | 8435/10714 [1:33:49<18:35,  2.04it/s] 79%|███████▊  | 8436/10714 [1:33:50<18:35,  2.04it/s] 79%|███████▊  | 8437/10714 [1:33:50<18:34,  2.04it/s] 79%|███████▉  | 8438/10714 [1:33:51<18:33,  2.04it/s] 79%|███████▉  | 8439/10714 [1:33:51<18:31,  2.05it/s] 79%|███████▉  | 8440/10714 [1:33:52<18:31,  2.05it/s] 79%|███████▉  | 8441/10714 [1:33:52<18:32,  2.04it/s] 79%|███████▉  | 8442/10714 [1:33:53<18:31,  2.04it/s] 79%|███████▉  | 8443/10714 [1:33:53<18:30,  2.05it/s] 79%|███████▉  | 8444/10714 [1:33:54<18:28,  2.05it/s] 79%|███████▉  | 8445/10714 [1:33:54<18:27,  2.05it/s] 79%|███████▉  | 8446/10714 [1:33:55<18:27,  2.05it/s] 79%|███████▉  | 8447/10714 [1:33:55<18:27,  2.05it/s] 79%|███████▉  | 8448/10714 [1:33:56<18:27,  2.05it/s] 79%|███████▉  | 8449/10714 [1:33:56<18:26,  2.05it/s] 79%|███████▉  | 8450/10714 [1:33:57<18:25,  2.05it/s]{'loss': 3.3626, 'grad_norm': 0.1976718306541443, 'learning_rate': 0.0001299794911279353, 'epoch': 0.79}                                                      
- 79%|███████▉  | 8450/10714 [1:33:57<18:25,  2.05it/s] 79%|███████▉  | 8451/10714 [1:33:57<18:27,  2.04it/s] 79%|███████▉  | 8452/10714 [1:33:58<18:27,  2.04it/s] 79%|███████▉  | 8453/10714 [1:33:58<18:26,  2.04it/s] 79%|███████▉  | 8454/10714 [1:33:59<18:25,  2.05it/s] 79%|███████▉  | 8455/10714 [1:33:59<18:25,  2.04it/s] 79%|███████▉  | 8456/10714 [1:34:00<18:25,  2.04it/s] 79%|███████▉  | 8457/10714 [1:34:00<18:24,  2.04it/s] 79%|███████▉  | 8458/10714 [1:34:01<18:24,  2.04it/s] 79%|███████▉  | 8459/10714 [1:34:01<18:23,  2.04it/s] 79%|███████▉  | 8460/10714 [1:34:02<18:23,  2.04it/s] 79%|███████▉  | 8461/10714 [1:34:02<18:22,  2.04it/s] 79%|███████▉  | 8462/10714 [1:34:02<18:21,  2.04it/s] 79%|███████▉  | 8463/10714 [1:34:03<18:20,  2.05it/s] 79%|███████▉  | 8464/10714 [1:34:03<18:19,  2.05it/s] 79%|███████▉  | 8465/10714 [1:34:04<18:20,  2.04it/s] 79%|███████▉  | 8466/10714 [1:34:04<18:19,  2.04it/s] 79%|███████▉  | 8467/10714 [1:34:05<18:19,  2.04it/s] 79%|███████▉  | 8468/10714 [1:34:05<18:17,  2.05it/s] 79%|███████▉  | 8469/10714 [1:34:06<18:17,  2.05it/s] 79%|███████▉  | 8470/10714 [1:34:06<18:17,  2.04it/s] 79%|███████▉  | 8471/10714 [1:34:07<18:17,  2.04it/s] 79%|███████▉  | 8472/10714 [1:34:07<18:17,  2.04it/s] 79%|███████▉  | 8473/10714 [1:34:08<18:16,  2.04it/s] 79%|███████▉  | 8474/10714 [1:34:08<18:14,  2.05it/s] 79%|███████▉  | 8475/10714 [1:34:09<18:12,  2.05it/s]{'loss': 3.3629, 'grad_norm': 0.20510850846767426, 'learning_rate': 0.00012725258951562258, 'epoch': 0.79}                                                      
- 79%|███████▉  | 8475/10714 [1:34:09<18:12,  2.05it/s] 79%|███████▉  | 8476/10714 [1:34:09<18:17,  2.04it/s] 79%|███████▉  | 8477/10714 [1:34:10<18:16,  2.04it/s] 79%|███████▉  | 8478/10714 [1:34:10<18:15,  2.04it/s] 79%|███████▉  | 8479/10714 [1:34:11<18:12,  2.05it/s] 79%|███████▉  | 8480/10714 [1:34:11<18:13,  2.04it/s] 79%|███████▉  | 8481/10714 [1:34:12<18:13,  2.04it/s] 79%|███████▉  | 8482/10714 [1:34:12<18:12,  2.04it/s] 79%|███████▉  | 8483/10714 [1:34:13<18:10,  2.05it/s] 79%|███████▉  | 8484/10714 [1:34:13<18:10,  2.05it/s] 79%|███████▉  | 8485/10714 [1:34:14<18:09,  2.05it/s] 79%|███████▉  | 8486/10714 [1:34:14<18:09,  2.05it/s] 79%|███████▉  | 8487/10714 [1:34:15<18:09,  2.04it/s] 79%|███████▉  | 8488/10714 [1:34:15<18:09,  2.04it/s] 79%|███████▉  | 8489/10714 [1:34:16<18:07,  2.05it/s] 79%|███████▉  | 8490/10714 [1:34:16<18:07,  2.05it/s] 79%|███████▉  | 8491/10714 [1:34:17<18:07,  2.04it/s] 79%|███████▉  | 8492/10714 [1:34:17<18:07,  2.04it/s] 79%|███████▉  | 8493/10714 [1:34:18<18:06,  2.04it/s] 79%|███████▉  | 8494/10714 [1:34:18<18:05,  2.05it/s] 79%|███████▉  | 8495/10714 [1:34:19<18:05,  2.05it/s] 79%|███████▉  | 8496/10714 [1:34:19<18:04,  2.04it/s] 79%|███████▉  | 8497/10714 [1:34:20<18:04,  2.04it/s] 79%|███████▉  | 8498/10714 [1:34:20<18:03,  2.05it/s] 79%|███████▉  | 8499/10714 [1:34:21<18:02,  2.05it/s] 79%|███████▉  | 8500/10714 [1:34:21<18:01,  2.05it/s]                                                      {'loss': 3.3703, 'grad_norm': 0.2125074714422226, 'learning_rate': 0.00012455041981813614, 'epoch': 0.79}
- 79%|███████▉  | 8500/10714 [1:34:21<18:01,  2.05it/s] 79%|███████▉  | 8501/10714 [1:34:22<18:04,  2.04it/s] 79%|███████▉  | 8502/10714 [1:34:22<18:01,  2.04it/s] 79%|███████▉  | 8503/10714 [1:34:23<18:00,  2.05it/s] 79%|███████▉  | 8504/10714 [1:34:23<17:58,  2.05it/s] 79%|███████▉  | 8505/10714 [1:34:24<17:59,  2.05it/s] 79%|███████▉  | 8506/10714 [1:34:24<17:59,  2.05it/s] 79%|███████▉  | 8507/10714 [1:34:25<17:58,  2.05it/s] 79%|███████▉  | 8508/10714 [1:34:25<17:58,  2.05it/s] 79%|███████▉  | 8509/10714 [1:34:25<17:58,  2.04it/s] 79%|███████▉  | 8510/10714 [1:34:26<17:56,  2.05it/s] 79%|███████▉  | 8511/10714 [1:34:26<17:56,  2.05it/s] 79%|███████▉  | 8512/10714 [1:34:27<17:56,  2.05it/s] 79%|███████▉  | 8513/10714 [1:34:27<17:54,  2.05it/s] 79%|███████▉  | 8514/10714 [1:34:28<17:55,  2.05it/s] 79%|███████▉  | 8515/10714 [1:34:28<17:53,  2.05it/s] 79%|███████▉  | 8516/10714 [1:34:29<17:54,  2.05it/s] 79%|███████▉  | 8517/10714 [1:34:29<17:53,  2.05it/s] 80%|███████▉  | 8518/10714 [1:34:30<17:53,  2.05it/s] 80%|███████▉  | 8519/10714 [1:34:30<17:51,  2.05it/s] 80%|███████▉  | 8520/10714 [1:34:31<17:52,  2.05it/s] 80%|███████▉  | 8521/10714 [1:34:31<17:52,  2.05it/s] 80%|███████▉  | 8522/10714 [1:34:32<17:51,  2.05it/s] 80%|███████▉  | 8523/10714 [1:34:32<17:50,  2.05it/s] 80%|███████▉  | 8524/10714 [1:34:33<17:50,  2.05it/s] 80%|███████▉  | 8525/10714 [1:34:33<17:50,  2.05it/s]{'loss': 3.3665, 'grad_norm': 0.19857852160930634, 'learning_rate': 0.00012187316132533527, 'epoch': 0.8}
-                                                       80%|███████▉  | 8525/10714 [1:34:33<17:50,  2.05it/s] 80%|███████▉  | 8526/10714 [1:34:34<17:55,  2.03it/s] 80%|███████▉  | 8527/10714 [1:34:34<17:52,  2.04it/s] 80%|███████▉  | 8528/10714 [1:34:35<17:51,  2.04it/s] 80%|███████▉  | 8529/10714 [1:34:35<17:51,  2.04it/s] 80%|███████▉  | 8530/10714 [1:34:36<17:48,  2.04it/s] 80%|███████▉  | 8531/10714 [1:34:36<17:47,  2.04it/s] 80%|███████▉  | 8532/10714 [1:34:37<17:46,  2.05it/s] 80%|███████▉  | 8533/10714 [1:34:37<17:46,  2.04it/s] 80%|███████▉  | 8534/10714 [1:34:38<17:46,  2.04it/s] 80%|███████▉  | 8535/10714 [1:34:38<17:44,  2.05it/s] 80%|███████▉  | 8536/10714 [1:34:39<17:44,  2.05it/s] 80%|███████▉  | 8537/10714 [1:34:39<17:42,  2.05it/s] 80%|███████▉  | 8538/10714 [1:34:40<17:43,  2.05it/s] 80%|███████▉  | 8539/10714 [1:34:40<17:44,  2.04it/s] 80%|███████▉  | 8540/10714 [1:34:41<17:42,  2.05it/s] 80%|███████▉  | 8541/10714 [1:34:41<17:42,  2.04it/s] 80%|███████▉  | 8542/10714 [1:34:42<17:41,  2.05it/s] 80%|███████▉  | 8543/10714 [1:34:42<17:41,  2.05it/s] 80%|███████▉  | 8544/10714 [1:34:43<17:41,  2.04it/s] 80%|███████▉  | 8545/10714 [1:34:43<17:40,  2.05it/s] 80%|███████▉  | 8546/10714 [1:34:44<17:39,  2.05it/s] 80%|███████▉  | 8547/10714 [1:34:44<17:38,  2.05it/s] 80%|███████▉  | 8548/10714 [1:34:45<17:39,  2.05it/s] 80%|███████▉  | 8549/10714 [1:34:45<17:38,  2.04it/s] 80%|███████▉  | 8550/10714 [1:34:46<17:38,  2.05it/s]{'loss': 3.361, 'grad_norm': 0.2040063738822937, 'learning_rate': 0.00011922099167421269, 'epoch': 0.8}                                                      
- 80%|███████▉  | 8550/10714 [1:34:46<17:38,  2.05it/s] 80%|███████▉  | 8551/10714 [1:34:46<17:38,  2.04it/s] 80%|███████▉  | 8552/10714 [1:34:47<17:37,  2.04it/s] 80%|███████▉  | 8553/10714 [1:34:47<17:37,  2.04it/s] 80%|███████▉  | 8554/10714 [1:34:47<17:37,  2.04it/s] 80%|███████▉  | 8555/10714 [1:34:48<17:36,  2.04it/s] 80%|███████▉  | 8556/10714 [1:34:48<17:35,  2.04it/s] 80%|███████▉  | 8557/10714 [1:34:49<17:35,  2.04it/s] 80%|███████▉  | 8558/10714 [1:34:49<17:35,  2.04it/s] 80%|███████▉  | 8559/10714 [1:34:50<17:34,  2.04it/s] 80%|███████▉  | 8560/10714 [1:34:50<17:34,  2.04it/s] 80%|███████▉  | 8561/10714 [1:34:51<17:33,  2.04it/s] 80%|███████▉  | 8562/10714 [1:34:51<17:32,  2.04it/s] 80%|███████▉  | 8563/10714 [1:34:52<17:32,  2.04it/s] 80%|███████▉  | 8564/10714 [1:34:52<17:31,  2.04it/s] 80%|███████▉  | 8565/10714 [1:34:53<17:30,  2.05it/s] 80%|███████▉  | 8566/10714 [1:34:53<17:30,  2.04it/s] 80%|███████▉  | 8567/10714 [1:34:54<17:29,  2.05it/s] 80%|███████▉  | 8568/10714 [1:34:54<17:29,  2.04it/s] 80%|███████▉  | 8569/10714 [1:34:55<17:29,  2.04it/s] 80%|███████▉  | 8570/10714 [1:34:55<17:27,  2.05it/s] 80%|███████▉  | 8571/10714 [1:34:56<17:27,  2.05it/s] 80%|████████  | 8572/10714 [1:34:56<17:26,  2.05it/s] 80%|████████  | 8573/10714 [1:34:57<17:26,  2.05it/s] 80%|████████  | 8574/10714 [1:34:57<17:26,  2.04it/s] 80%|████████  | 8575/10714 [1:34:58<17:25,  2.05it/s]                                                      {'loss': 3.3706, 'grad_norm': 0.19950763881206512, 'learning_rate': 0.00011659408683710793, 'epoch': 0.8}
- 80%|████████  | 8575/10714 [1:34:58<17:25,  2.05it/s] 80%|████████  | 8576/10714 [1:34:58<17:26,  2.04it/s] 80%|████████  | 8577/10714 [1:34:59<17:24,  2.05it/s] 80%|████████  | 8578/10714 [1:34:59<17:24,  2.05it/s] 80%|████████  | 8579/10714 [1:35:00<17:24,  2.04it/s] 80%|████████  | 8580/10714 [1:35:00<17:23,  2.04it/s] 80%|████████  | 8581/10714 [1:35:01<17:23,  2.04it/s] 80%|████████  | 8582/10714 [1:35:01<17:22,  2.05it/s] 80%|████████  | 8583/10714 [1:35:02<17:21,  2.05it/s] 80%|████████  | 8584/10714 [1:35:02<17:21,  2.05it/s] 80%|████████  | 8585/10714 [1:35:03<17:20,  2.05it/s] 80%|████████  | 8586/10714 [1:35:03<17:20,  2.05it/s] 80%|████████  | 8587/10714 [1:35:04<17:19,  2.05it/s] 80%|████████  | 8588/10714 [1:35:04<17:18,  2.05it/s] 80%|████████  | 8589/10714 [1:35:05<17:18,  2.05it/s] 80%|████████  | 8590/10714 [1:35:05<17:17,  2.05it/s] 80%|████████  | 8591/10714 [1:35:06<17:18,  2.04it/s] 80%|████████  | 8592/10714 [1:35:06<17:17,  2.05it/s] 80%|████████  | 8593/10714 [1:35:07<17:19,  2.04it/s] 80%|████████  | 8594/10714 [1:35:07<17:17,  2.04it/s] 80%|████████  | 8595/10714 [1:35:08<17:17,  2.04it/s] 80%|████████  | 8596/10714 [1:35:08<17:17,  2.04it/s] 80%|████████  | 8597/10714 [1:35:09<17:16,  2.04it/s] 80%|████████  | 8598/10714 [1:35:09<17:16,  2.04it/s] 80%|████████  | 8599/10714 [1:35:09<17:14,  2.04it/s] 80%|████████  | 8600/10714 [1:35:10<17:12,  2.05it/s]{'loss': 3.3664, 'grad_norm': 0.20517845451831818, 'learning_rate': 0.00011399262111003188, 'epoch': 0.8}                                                      
- 80%|████████  | 8600/10714 [1:35:10<17:12,  2.05it/s] 80%|████████  | 8601/10714 [1:35:10<17:13,  2.04it/s] 80%|████████  | 8602/10714 [1:35:11<17:13,  2.04it/s] 80%|████████  | 8603/10714 [1:35:11<17:12,  2.04it/s] 80%|████████  | 8604/10714 [1:35:12<17:12,  2.04it/s] 80%|████████  | 8605/10714 [1:35:12<17:11,  2.04it/s] 80%|████████  | 8606/10714 [1:35:13<17:12,  2.04it/s] 80%|████████  | 8607/10714 [1:35:13<17:10,  2.04it/s] 80%|████████  | 8608/10714 [1:35:14<17:10,  2.04it/s] 80%|████████  | 8609/10714 [1:35:14<17:09,  2.04it/s] 80%|████████  | 8610/10714 [1:35:15<17:08,  2.05it/s] 80%|████████  | 8611/10714 [1:35:15<17:08,  2.04it/s] 80%|████████  | 8612/10714 [1:35:16<17:06,  2.05it/s] 80%|████████  | 8613/10714 [1:35:16<17:06,  2.05it/s] 80%|████████  | 8614/10714 [1:35:17<17:06,  2.05it/s] 80%|████████  | 8615/10714 [1:35:17<17:05,  2.05it/s] 80%|████████  | 8616/10714 [1:35:18<17:05,  2.05it/s] 80%|████████  | 8617/10714 [1:35:18<17:05,  2.05it/s] 80%|████████  | 8618/10714 [1:35:19<17:05,  2.04it/s] 80%|████████  | 8619/10714 [1:35:19<17:04,  2.04it/s] 80%|████████  | 8620/10714 [1:35:20<17:04,  2.04it/s] 80%|████████  | 8621/10714 [1:35:20<17:04,  2.04it/s] 80%|████████  | 8622/10714 [1:35:21<17:03,  2.04it/s] 80%|████████  | 8623/10714 [1:35:21<17:02,  2.04it/s] 80%|████████  | 8624/10714 [1:35:22<17:02,  2.04it/s] 81%|████████  | 8625/10714 [1:35:22<17:01,  2.04it/s]                                                      {'loss': 3.3775, 'grad_norm': 0.1989929974079132, 'learning_rate': 0.00011141676710110194, 'epoch': 0.81}
- 81%|████████  | 8625/10714 [1:35:22<17:01,  2.04it/s] 81%|████████  | 8626/10714 [1:35:23<17:02,  2.04it/s] 81%|████████  | 8627/10714 [1:35:23<17:01,  2.04it/s] 81%|████████  | 8628/10714 [1:35:24<16:59,  2.05it/s] 81%|████████  | 8629/10714 [1:35:24<17:00,  2.04it/s] 81%|████████  | 8630/10714 [1:35:25<17:00,  2.04it/s] 81%|████████  | 8631/10714 [1:35:25<16:59,  2.04it/s] 81%|████████  | 8632/10714 [1:35:26<16:57,  2.05it/s] 81%|████████  | 8633/10714 [1:35:26<16:57,  2.05it/s] 81%|████████  | 8634/10714 [1:35:27<16:58,  2.04it/s] 81%|████████  | 8635/10714 [1:35:27<16:57,  2.04it/s] 81%|████████  | 8636/10714 [1:35:28<16:56,  2.04it/s] 81%|████████  | 8637/10714 [1:35:28<16:55,  2.04it/s] 81%|████████  | 8638/10714 [1:35:29<16:55,  2.05it/s] 81%|████████  | 8639/10714 [1:35:29<16:55,  2.04it/s] 81%|████████  | 8640/10714 [1:35:30<16:55,  2.04it/s] 81%|████████  | 8641/10714 [1:35:30<16:54,  2.04it/s] 81%|████████  | 8642/10714 [1:35:31<16:53,  2.05it/s] 81%|████████  | 8643/10714 [1:35:31<16:52,  2.05it/s] 81%|████████  | 8644/10714 [1:35:32<16:53,  2.04it/s] 81%|████████  | 8645/10714 [1:35:32<16:52,  2.04it/s] 81%|████████  | 8646/10714 [1:35:32<16:52,  2.04it/s] 81%|████████  | 8647/10714 [1:35:33<16:52,  2.04it/s] 81%|████████  | 8648/10714 [1:35:33<16:51,  2.04it/s] 81%|████████  | 8649/10714 [1:35:34<16:50,  2.04it/s] 81%|████████  | 8650/10714 [1:35:34<16:50,  2.04it/s]{'loss': 3.3623, 'grad_norm': 0.19855369627475739, 'learning_rate': 0.00010886669571908936, 'epoch': 0.81}
-                                                       81%|████████  | 8650/10714 [1:35:34<16:50,  2.04it/s] 81%|████████  | 8651/10714 [1:35:35<16:52,  2.04it/s] 81%|████████  | 8652/10714 [1:35:35<16:50,  2.04it/s] 81%|████████  | 8653/10714 [1:35:36<16:49,  2.04it/s] 81%|████████  | 8654/10714 [1:35:36<16:48,  2.04it/s] 81%|████████  | 8655/10714 [1:35:37<16:47,  2.04it/s] 81%|████████  | 8656/10714 [1:35:37<16:48,  2.04it/s] 81%|████████  | 8657/10714 [1:35:38<16:46,  2.04it/s] 81%|████████  | 8658/10714 [1:35:38<16:45,  2.05it/s] 81%|████████  | 8659/10714 [1:35:39<16:45,  2.04it/s] 81%|████████  | 8660/10714 [1:35:39<16:45,  2.04it/s] 81%|████████  | 8661/10714 [1:35:40<16:44,  2.04it/s] 81%|████████  | 8662/10714 [1:35:40<16:43,  2.05it/s] 81%|████████  | 8663/10714 [1:35:41<16:42,  2.05it/s] 81%|████████  | 8664/10714 [1:35:41<16:43,  2.04it/s] 81%|████████  | 8665/10714 [1:35:42<16:43,  2.04it/s] 81%|████████  | 8666/10714 [1:35:42<16:43,  2.04it/s] 81%|████████  | 8667/10714 [1:35:43<16:43,  2.04it/s] 81%|████████  | 8668/10714 [1:35:43<16:43,  2.04it/s] 81%|████████  | 8669/10714 [1:35:44<16:42,  2.04it/s] 81%|████████  | 8670/10714 [1:35:44<16:40,  2.04it/s] 81%|████████  | 8671/10714 [1:35:45<16:40,  2.04it/s] 81%|████████  | 8672/10714 [1:35:45<16:40,  2.04it/s] 81%|████████  | 8673/10714 [1:35:46<16:39,  2.04it/s] 81%|████████  | 8674/10714 [1:35:46<16:38,  2.04it/s] 81%|████████  | 8675/10714 [1:35:47<16:37,  2.04it/s]{'loss': 3.3548, 'grad_norm': 0.19539983570575714, 'learning_rate': 0.00010634257616207976, 'epoch': 0.81}                                                      
- 81%|████████  | 8675/10714 [1:35:47<16:37,  2.04it/s] 81%|████████  | 8676/10714 [1:35:47<16:39,  2.04it/s] 81%|████████  | 8677/10714 [1:35:48<16:37,  2.04it/s] 81%|████████  | 8678/10714 [1:35:48<16:36,  2.04it/s] 81%|████████  | 8679/10714 [1:35:49<16:36,  2.04it/s] 81%|████████  | 8680/10714 [1:35:49<16:36,  2.04it/s] 81%|████████  | 8681/10714 [1:35:50<16:36,  2.04it/s] 81%|████████  | 8682/10714 [1:35:50<16:35,  2.04it/s] 81%|████████  | 8683/10714 [1:35:51<16:34,  2.04it/s] 81%|████████  | 8684/10714 [1:35:51<16:34,  2.04it/s] 81%|████████  | 8685/10714 [1:35:52<16:33,  2.04it/s] 81%|████████  | 8686/10714 [1:35:52<16:31,  2.05it/s] 81%|████████  | 8687/10714 [1:35:53<16:30,  2.05it/s] 81%|████████  | 8688/10714 [1:35:53<16:30,  2.05it/s] 81%|████████  | 8689/10714 [1:35:54<16:31,  2.04it/s] 81%|████████  | 8690/10714 [1:35:54<16:30,  2.04it/s] 81%|████████  | 8691/10714 [1:35:55<16:29,  2.04it/s] 81%|████████  | 8692/10714 [1:35:55<16:29,  2.04it/s] 81%|████████  | 8693/10714 [1:35:55<16:29,  2.04it/s] 81%|████████  | 8694/10714 [1:35:56<16:29,  2.04it/s] 81%|████████  | 8695/10714 [1:35:56<16:27,  2.04it/s] 81%|████████  | 8696/10714 [1:35:57<16:26,  2.05it/s] 81%|████████  | 8697/10714 [1:35:57<16:26,  2.04it/s] 81%|████████  | 8698/10714 [1:35:58<16:26,  2.04it/s] 81%|████████  | 8699/10714 [1:35:58<16:26,  2.04it/s] 81%|████████  | 8700/10714 [1:35:59<16:25,  2.04it/s]                                                      {'loss': 3.3595, 'grad_norm': 0.20252270996570587, 'learning_rate': 0.0001038445759062463, 'epoch': 0.81}
- 81%|████████  | 8700/10714 [1:35:59<16:25,  2.04it/s] 81%|████████  | 8701/10714 [1:35:59<16:26,  2.04it/s] 81%|████████  | 8702/10714 [1:36:00<16:25,  2.04it/s] 81%|████████  | 8703/10714 [1:36:00<16:24,  2.04it/s] 81%|████████  | 8704/10714 [1:36:01<16:24,  2.04it/s] 81%|████████  | 8705/10714 [1:36:01<16:23,  2.04it/s] 81%|████████▏ | 8706/10714 [1:36:02<16:22,  2.04it/s] 81%|████████▏ | 8707/10714 [1:36:02<16:22,  2.04it/s] 81%|████████▏ | 8708/10714 [1:36:03<16:20,  2.04it/s] 81%|████████▏ | 8709/10714 [1:36:03<16:21,  2.04it/s] 81%|████████▏ | 8710/10714 [1:36:04<16:21,  2.04it/s] 81%|████████▏ | 8711/10714 [1:36:04<16:19,  2.04it/s] 81%|████████▏ | 8712/10714 [1:36:05<16:19,  2.04it/s] 81%|████████▏ | 8713/10714 [1:36:05<16:18,  2.04it/s] 81%|████████▏ | 8714/10714 [1:36:06<16:18,  2.04it/s] 81%|████████▏ | 8715/10714 [1:36:06<16:19,  2.04it/s] 81%|████████▏ | 8716/10714 [1:36:07<16:17,  2.04it/s] 81%|████████▏ | 8717/10714 [1:36:07<16:17,  2.04it/s] 81%|████████▏ | 8718/10714 [1:36:08<16:16,  2.04it/s] 81%|████████▏ | 8719/10714 [1:36:08<16:16,  2.04it/s] 81%|████████▏ | 8720/10714 [1:36:09<16:16,  2.04it/s] 81%|████████▏ | 8721/10714 [1:36:09<16:14,  2.04it/s] 81%|████████▏ | 8722/10714 [1:36:10<16:14,  2.04it/s] 81%|████████▏ | 8723/10714 [1:36:10<16:13,  2.05it/s] 81%|████████▏ | 8724/10714 [1:36:11<16:13,  2.04it/s] 81%|████████▏ | 8725/10714 [1:36:11<16:13,  2.04it/s]                                                      {'loss': 3.3643, 'grad_norm': 0.1973154991865158, 'learning_rate': 0.00010137286069473788, 'epoch': 0.81}
- 81%|████████▏ | 8725/10714 [1:36:11<16:13,  2.04it/s] 81%|████████▏ | 8726/10714 [1:36:12<16:14,  2.04it/s] 81%|████████▏ | 8727/10714 [1:36:12<16:13,  2.04it/s] 81%|████████▏ | 8728/10714 [1:36:13<16:13,  2.04it/s] 81%|████████▏ | 8729/10714 [1:36:13<16:12,  2.04it/s] 81%|████████▏ | 8730/10714 [1:36:14<16:11,  2.04it/s] 81%|████████▏ | 8731/10714 [1:36:14<16:10,  2.04it/s] 82%|████████▏ | 8732/10714 [1:36:15<16:10,  2.04it/s] 82%|████████▏ | 8733/10714 [1:36:15<16:10,  2.04it/s] 82%|████████▏ | 8734/10714 [1:36:16<16:10,  2.04it/s] 82%|████████▏ | 8735/10714 [1:36:16<16:09,  2.04it/s] 82%|████████▏ | 8736/10714 [1:36:17<16:08,  2.04it/s] 82%|████████▏ | 8737/10714 [1:36:17<16:08,  2.04it/s] 82%|████████▏ | 8738/10714 [1:36:18<16:08,  2.04it/s] 82%|████████▏ | 8739/10714 [1:36:18<16:07,  2.04it/s] 82%|████████▏ | 8740/10714 [1:36:19<16:06,  2.04it/s] 82%|████████▏ | 8741/10714 [1:36:19<16:07,  2.04it/s] 82%|████████▏ | 8742/10714 [1:36:19<16:06,  2.04it/s] 82%|████████▏ | 8743/10714 [1:36:20<16:04,  2.04it/s] 82%|████████▏ | 8744/10714 [1:36:20<16:03,  2.04it/s] 82%|████████▏ | 8745/10714 [1:36:21<16:03,  2.04it/s] 82%|████████▏ | 8746/10714 [1:36:21<16:03,  2.04it/s] 82%|████████▏ | 8747/10714 [1:36:22<16:02,  2.04it/s] 82%|████████▏ | 8748/10714 [1:36:22<16:00,  2.05it/s] 82%|████████▏ | 8749/10714 [1:36:23<16:00,  2.05it/s] 82%|████████▏ | 8750/10714 [1:36:23<16:00,  2.04it/s]{'loss': 3.3532, 'grad_norm': 0.1928315907716751, 'learning_rate': 9.892759452668205e-05, 'epoch': 0.82}                                                      
- 82%|████████▏ | 8750/10714 [1:36:23<16:00,  2.04it/s] 82%|████████▏ | 8751/10714 [1:36:24<16:01,  2.04it/s] 82%|████████▏ | 8752/10714 [1:36:24<16:00,  2.04it/s] 82%|████████▏ | 8753/10714 [1:36:25<16:00,  2.04it/s] 82%|████████▏ | 8754/10714 [1:36:25<16:00,  2.04it/s] 82%|████████▏ | 8755/10714 [1:36:26<16:00,  2.04it/s] 82%|████████▏ | 8756/10714 [1:36:26<15:58,  2.04it/s] 82%|████████▏ | 8757/10714 [1:36:27<15:58,  2.04it/s] 82%|████████▏ | 8758/10714 [1:36:27<15:58,  2.04it/s] 82%|████████▏ | 8759/10714 [1:36:28<15:58,  2.04it/s] 82%|████████▏ | 8760/10714 [1:36:28<15:56,  2.04it/s] 82%|████████▏ | 8761/10714 [1:36:29<15:55,  2.04it/s] 82%|████████▏ | 8762/10714 [1:36:29<15:55,  2.04it/s] 82%|████████▏ | 8763/10714 [1:36:30<15:55,  2.04it/s] 82%|████████▏ | 8764/10714 [1:36:30<15:55,  2.04it/s] 82%|████████▏ | 8765/10714 [1:36:31<15:54,  2.04it/s] 82%|████████▏ | 8766/10714 [1:36:31<15:54,  2.04it/s] 82%|████████▏ | 8767/10714 [1:36:32<15:54,  2.04it/s] 82%|████████▏ | 8768/10714 [1:36:32<15:53,  2.04it/s] 82%|████████▏ | 8769/10714 [1:36:33<15:53,  2.04it/s] 82%|████████▏ | 8770/10714 [1:36:33<15:52,  2.04it/s] 82%|████████▏ | 8771/10714 [1:36:34<15:51,  2.04it/s] 82%|████████▏ | 8772/10714 [1:36:34<15:50,  2.04it/s] 82%|████████▏ | 8773/10714 [1:36:35<15:51,  2.04it/s] 82%|████████▏ | 8774/10714 [1:36:35<15:50,  2.04it/s] 82%|████████▏ | 8775/10714 [1:36:36<15:50,  2.04it/s]{'loss': 3.3657, 'grad_norm': 0.20265619456768036, 'learning_rate': 9.65089396463033e-05, 'epoch': 0.82}
-                                                       82%|████████▏ | 8775/10714 [1:36:36<15:50,  2.04it/s] 82%|████████▏ | 8776/10714 [1:36:36<15:49,  2.04it/s] 82%|████████▏ | 8777/10714 [1:36:37<15:47,  2.04it/s] 82%|█████���██▏ | 8778/10714 [1:36:37<15:47,  2.04it/s] 82%|████████▏ | 8779/10714 [1:36:38<15:46,  2.04it/s] 82%|████████▏ | 8780/10714 [1:36:38<15:46,  2.04it/s] 82%|████████▏ | 8781/10714 [1:36:39<15:46,  2.04it/s] 82%|████████▏ | 8782/10714 [1:36:39<15:44,  2.05it/s] 82%|████████▏ | 8783/10714 [1:36:40<15:44,  2.04it/s] 82%|████████▏ | 8784/10714 [1:36:40<15:44,  2.04it/s] 82%|████████▏ | 8785/10714 [1:36:41<15:44,  2.04it/s] 82%|████████▏ | 8786/10714 [1:36:41<15:43,  2.04it/s] 82%|████████▏ | 8787/10714 [1:36:42<15:43,  2.04it/s] 82%|████████▏ | 8788/10714 [1:36:42<15:43,  2.04it/s] 82%|████████▏ | 8789/10714 [1:36:42<15:42,  2.04it/s] 82%|████████▏ | 8790/10714 [1:36:43<15:41,  2.04it/s] 82%|████████▏ | 8791/10714 [1:36:43<15:41,  2.04it/s] 82%|████████▏ | 8792/10714 [1:36:44<15:41,  2.04it/s] 82%|████████▏ | 8793/10714 [1:36:44<15:39,  2.04it/s] 82%|████████▏ | 8794/10714 [1:36:45<15:38,  2.05it/s] 82%|████████▏ | 8795/10714 [1:36:45<15:39,  2.04it/s] 82%|████████▏ | 8796/10714 [1:36:46<15:38,  2.04it/s] 82%|████████▏ | 8797/10714 [1:36:46<15:38,  2.04it/s] 82%|████████▏ | 8798/10714 [1:36:47<15:37,  2.04it/s] 82%|████████▏ | 8799/10714 [1:36:47<15:36,  2.05it/s] 82%|████████▏ | 8800/10714 [1:36:48<15:36,  2.04it/s]{'loss': 3.3726, 'grad_norm': 0.19370976090431213, 'learning_rate': 9.411705653215863e-05, 'epoch': 0.82}
-                                                       82%|████████▏ | 8800/10714 [1:36:48<15:36,  2.04it/s] 82%|████████▏ | 8801/10714 [1:36:48<15:37,  2.04it/s] 82%|████████▏ | 8802/10714 [1:36:49<15:36,  2.04it/s] 82%|████████▏ | 8803/10714 [1:36:49<15:36,  2.04it/s] 82%|████████▏ | 8804/10714 [1:36:50<15:36,  2.04it/s] 82%|████████▏ | 8805/10714 [1:36:50<15:35,  2.04it/s] 82%|████████▏ | 8806/10714 [1:36:51<15:35,  2.04it/s] 82%|████████▏ | 8807/10714 [1:36:51<15:34,  2.04it/s] 82%|████████▏ | 8808/10714 [1:36:52<15:33,  2.04it/s] 82%|████████▏ | 8809/10714 [1:36:52<15:32,  2.04it/s] 82%|████████▏ | 8810/10714 [1:36:53<15:31,  2.04it/s] 82%|████████▏ | 8811/10714 [1:36:53<15:31,  2.04it/s] 82%|████████▏ | 8812/10714 [1:36:54<15:31,  2.04it/s] 82%|████████▏ | 8813/10714 [1:36:54<15:30,  2.04it/s] 82%|████████▏ | 8814/10714 [1:36:55<15:29,  2.04it/s] 82%|████████▏ | 8815/10714 [1:36:55<15:29,  2.04it/s] 82%|████████▏ | 8816/10714 [1:36:56<15:28,  2.04it/s] 82%|████████▏ | 8817/10714 [1:36:56<15:28,  2.04it/s] 82%|████████▏ | 8818/10714 [1:36:57<15:27,  2.05it/s] 82%|████████▏ | 8819/10714 [1:36:57<15:26,  2.05it/s] 82%|████████▏ | 8820/10714 [1:36:58<15:25,  2.05it/s] 82%|████████▏ | 8821/10714 [1:36:58<15:26,  2.04it/s] 82%|████████▏ | 8822/10714 [1:36:59<15:26,  2.04it/s] 82%|████████▏ | 8823/10714 [1:36:59<17:59,  1.75it/s] 82%|████████▏ | 8824/10714 [1:37:00<17:12,  1.83it/s] 82%|████████▏ | 8825/10714 [1:37:00<16:40,  1.89it/s]{'loss': 3.3677, 'grad_norm': 0.20852132141590118, 'learning_rate': 9.175210388648919e-05, 'epoch': 0.82}
-                                                       82%|████████▏ | 8825/10714 [1:37:00<16:40,  1.89it/s] 82%|████████▏ | 8826/10714 [1:37:01<16:18,  1.93it/s] 82%|████████▏ | 8827/10714 [1:37:01<16:01,  1.96it/s] 82%|████████▏ | 8828/10714 [1:37:02<15:48,  1.99it/s] 82%|████████▏ | 8829/10714 [1:37:02<15:42,  2.00it/s] 82%|████████▏ | 8830/10714 [1:37:03<15:36,  2.01it/s] 82%|████████▏ | 8831/10714 [1:37:03<15:30,  2.02it/s] 82%|████████▏ | 8832/10714 [1:37:04<15:27,  2.03it/s] 82%|████████▏ | 8833/10714 [1:37:04<15:24,  2.04it/s] 82%|████████▏ | 8834/10714 [1:37:05<15:23,  2.04it/s] 82%|████████▏ | 8835/10714 [1:37:05<15:21,  2.04it/s] 82%|████████▏ | 8836/10714 [1:37:06<15:20,  2.04it/s] 82%|████████▏ | 8837/10714 [1:37:06<15:19,  2.04it/s] 82%|████████▏ | 8838/10714 [1:37:07<15:19,  2.04it/s] 82%|████████▏ | 8839/10714 [1:37:07<15:18,  2.04it/s] 83%|████████▎ | 8840/10714 [1:37:08<15:17,  2.04it/s] 83%|████████▎ | 8841/10714 [1:37:08<15:17,  2.04it/s] 83%|████████▎ | 8842/10714 [1:37:09<15:16,  2.04it/s] 83%|████████▎ | 8843/10714 [1:37:09<15:16,  2.04it/s] 83%|████████▎ | 8844/10714 [1:37:10<15:15,  2.04it/s] 83%|████████▎ | 8845/10714 [1:37:10<15:14,  2.04it/s] 83%|████████▎ | 8846/10714 [1:37:11<15:13,  2.04it/s] 83%|████████▎ | 8847/10714 [1:37:11<15:14,  2.04it/s] 83%|████████▎ | 8848/10714 [1:37:12<15:13,  2.04it/s] 83%|████████▎ | 8849/10714 [1:37:12<15:12,  2.04it/s] 83%|████████▎ | 8850/10714 [1:37:13<15:11,  2.05it/s]{'loss': 3.3657, 'grad_norm': 0.20896366238594055, 'learning_rate': 8.941423862469056e-05, 'epoch': 0.83}
-                                                       83%|████████▎ | 8850/10714 [1:37:13<15:11,  2.05it/s] 83%|████████▎ | 8851/10714 [1:37:13<15:12,  2.04it/s] 83%|████████▎ | 8852/10714 [1:37:14<15:13,  2.04it/s] 83%|████████▎ | 8853/10714 [1:37:14<15:12,  2.04it/s] 83%|████████▎ | 8854/10714 [1:37:15<15:10,  2.04it/s] 83%|████████▎ | 8855/10714 [1:37:15<15:10,  2.04it/s] 83%|████████▎ | 8856/10714 [1:37:16<15:11,  2.04it/s] 83%|████████▎ | 8857/10714 [1:37:16<15:09,  2.04it/s] 83%|████████▎ | 8858/10714 [1:37:17<15:07,  2.04it/s] 83%|████████▎ | 8859/10714 [1:37:17<15:08,  2.04it/s] 83%|████████▎ | 8860/10714 [1:37:18<17:43,  1.74it/s] 83%|████████▎ | 8861/10714 [1:37:18<16:56,  1.82it/s] 83%|████████▎ | 8862/10714 [1:37:19<16:22,  1.89it/s] 83%|████████▎ | 8863/10714 [1:37:19<15:58,  1.93it/s] 83%|████████▎ | 8864/10714 [1:37:20<15:41,  1.97it/s] 83%|████████▎ | 8865/10714 [1:37:20<15:30,  1.99it/s] 83%|████████▎ | 8866/10714 [1:37:21<15:23,  2.00it/s] 83%|████████▎ | 8867/10714 [1:37:21<15:16,  2.02it/s] 83%|████████▎ | 8868/10714 [1:37:22<15:11,  2.02it/s] 83%|████████▎ | 8869/10714 [1:37:22<15:08,  2.03it/s] 83%|████████▎ | 8870/10714 [1:37:23<15:06,  2.03it/s] 83%|████████▎ | 8871/10714 [1:37:23<15:06,  2.03it/s] 83%|████████▎ | 8872/10714 [1:37:24<15:04,  2.04it/s] 83%|████████▎ | 8873/10714 [1:37:24<15:02,  2.04it/s] 83%|████████▎ | 8874/10714 [1:37:25<15:02,  2.04it/s] 83%|████████▎ | 8875/10714 [1:37:25<15:02,  2.04it/s]                                                      {'loss': 3.3611, 'grad_norm': 0.2016196846961975, 'learning_rate': 8.710361586490162e-05, 'epoch': 0.83}
- 83%|████████▎ | 8875/10714 [1:37:25<15:02,  2.04it/s] 83%|████████▎ | 8876/10714 [1:37:26<15:01,  2.04it/s] 83%|████████▎ | 8877/10714 [1:37:26<15:00,  2.04it/s] 83%|████████▎ | 8878/10714 [1:37:27<14:59,  2.04it/s] 83%|████████▎ | 8879/10714 [1:37:27<14:59,  2.04it/s] 83%|████████▎ | 8880/10714 [1:37:28<14:58,  2.04it/s] 83%|████████▎ | 8881/10714 [1:37:28<14:57,  2.04it/s] 83%|████████▎ | 8882/10714 [1:37:29<14:57,  2.04it/s] 83%|████████▎ | 8883/10714 [1:37:29<14:56,  2.04it/s] 83%|████████▎ | 8884/10714 [1:37:30<14:56,  2.04it/s] 83%|████████▎ | 8885/10714 [1:37:30<14:55,  2.04it/s] 83%|████████▎ | 8886/10714 [1:37:31<14:54,  2.04it/s] 83%|████████▎ | 8887/10714 [1:37:31<14:54,  2.04it/s] 83%|████████▎ | 8888/10714 [1:37:32<14:54,  2.04it/s] 83%|████████▎ | 8889/10714 [1:37:32<14:52,  2.04it/s] 83%|████████▎ | 8890/10714 [1:37:32<14:53,  2.04it/s] 83%|████████▎ | 8891/10714 [1:37:33<14:53,  2.04it/s] 83%|████████▎ | 8892/10714 [1:37:33<14:51,  2.04it/s] 83%|████████▎ | 8893/10714 [1:37:34<14:50,  2.05it/s] 83%|████████▎ | 8894/10714 [1:37:34<14:51,  2.04it/s] 83%|████████▎ | 8895/10714 [1:37:35<14:50,  2.04it/s] 83%|████████▎ | 8896/10714 [1:37:35<14:49,  2.04it/s] 83%|████████▎ | 8897/10714 [1:37:36<14:48,  2.04it/s] 83%|████████▎ | 8898/10714 [1:37:36<14:48,  2.04it/s] 83%|████████▎ | 8899/10714 [1:37:37<14:48,  2.04it/s] 83%|████████▎ | 8900/10714 [1:37:37<14:47,  2.04it/s]                                                      {'loss': 3.3577, 'grad_norm': 0.20019753277301788, 'learning_rate': 8.482038891771188e-05, 'epoch': 0.83}
- 83%|████████▎ | 8900/10714 [1:37:37<14:47,  2.04it/s] 83%|████████▎ | 8901/10714 [1:37:38<14:52,  2.03it/s] 83%|████████��� | 8902/10714 [1:37:38<14:50,  2.04it/s] 83%|████████▎ | 8903/10714 [1:37:39<14:48,  2.04it/s] 83%|████████▎ | 8904/10714 [1:37:39<14:46,  2.04it/s] 83%|████████▎ | 8905/10714 [1:37:40<14:46,  2.04it/s] 83%|████████▎ | 8906/10714 [1:37:40<14:46,  2.04it/s] 83%|████████▎ | 8907/10714 [1:37:41<14:45,  2.04it/s] 83%|████████▎ | 8908/10714 [1:37:41<14:43,  2.04it/s] 83%|████████▎ | 8909/10714 [1:37:42<14:42,  2.05it/s] 83%|████████▎ | 8910/10714 [1:37:42<14:42,  2.04it/s] 83%|████████▎ | 8911/10714 [1:37:43<14:42,  2.04it/s] 83%|████████▎ | 8912/10714 [1:37:43<14:41,  2.04it/s] 83%|████████▎ | 8913/10714 [1:37:44<14:40,  2.04it/s] 83%|████████▎ | 8914/10714 [1:37:44<14:40,  2.04it/s] 83%|████████▎ | 8915/10714 [1:37:45<14:40,  2.04it/s] 83%|████████▎ | 8916/10714 [1:37:45<14:40,  2.04it/s] 83%|████████▎ | 8917/10714 [1:37:46<14:41,  2.04it/s] 83%|████████▎ | 8918/10714 [1:37:46<14:40,  2.04it/s] 83%|████████▎ | 8919/10714 [1:37:47<14:39,  2.04it/s] 83%|████████▎ | 8920/10714 [1:37:47<14:39,  2.04it/s] 83%|████████▎ | 8921/10714 [1:37:48<14:38,  2.04it/s] 83%|████████▎ | 8922/10714 [1:37:48<14:38,  2.04it/s] 83%|████████▎ | 8923/10714 [1:37:49<14:36,  2.04it/s] 83%|████████▎ | 8924/10714 [1:37:49<14:35,  2.04it/s] 83%|████████▎ | 8925/10714 [1:37:50<14:34,  2.05it/s]{'loss': 3.358, 'grad_norm': 0.20007620751857758, 'learning_rate': 8.25647092759898e-05, 'epoch': 0.83}                                                      
- 83%|████████▎ | 8925/10714 [1:37:50<14:34,  2.05it/s] 83%|████████▎ | 8926/10714 [1:37:50<14:36,  2.04it/s] 83%|████████▎ | 8927/10714 [1:37:51<14:35,  2.04it/s] 83%|████████▎ | 8928/10714 [1:37:51<14:34,  2.04it/s] 83%|████████▎ | 8929/10714 [1:37:52<14:32,  2.05it/s] 83%|████████▎ | 8930/10714 [1:37:52<14:32,  2.04it/s] 83%|████████▎ | 8931/10714 [1:37:53<14:32,  2.04it/s] 83%|████████▎ | 8932/10714 [1:37:53<14:33,  2.04it/s] 83%|████████▎ | 8933/10714 [1:37:54<14:31,  2.04it/s] 83%|████████▎ | 8934/10714 [1:37:54<14:31,  2.04it/s] 83%|████████▎ | 8935/10714 [1:37:55<14:30,  2.04it/s] 83%|████████▎ | 8936/10714 [1:37:55<14:30,  2.04it/s] 83%|████████▎ | 8937/10714 [1:37:56<14:29,  2.04it/s] 83%|████████▎ | 8938/10714 [1:37:56<14:30,  2.04it/s] 83%|████████▎ | 8939/10714 [1:37:56<14:28,  2.04it/s] 83%|████████▎ | 8940/10714 [1:37:57<14:29,  2.04it/s] 83%|████████▎ | 8941/10714 [1:37:57<14:28,  2.04it/s] 83%|████████▎ | 8942/10714 [1:37:58<14:26,  2.04it/s] 83%|████████▎ | 8943/10714 [1:37:58<14:26,  2.04it/s] 83%|████████▎ | 8944/10714 [1:37:59<14:25,  2.04it/s] 83%|████████▎ | 8945/10714 [1:37:59<14:26,  2.04it/s] 83%|████████▎ | 8946/10714 [1:38:00<14:25,  2.04it/s] 84%|████████▎ | 8947/10714 [1:38:00<14:24,  2.04it/s] 84%|████████▎ | 8948/10714 [1:38:01<14:24,  2.04it/s] 84%|████████▎ | 8949/10714 [1:38:01<14:25,  2.04it/s] 84%|████████▎ | 8950/10714 [1:38:02<14:23,  2.04it/s]                                                      {'loss': 3.3577, 'grad_norm': 0.19821810722351074, 'learning_rate': 8.033672660483077e-05, 'epoch': 0.84}
- 84%|████████▎ | 8950/10714 [1:38:02<14:23,  2.04it/s] 84%|████████▎ | 8951/10714 [1:38:02<14:23,  2.04it/s] 84%|████████▎ | 8952/10714 [1:38:03<14:23,  2.04it/s] 84%|████████▎ | 8953/10714 [1:38:03<14:23,  2.04it/s] 84%|████████▎ | 8954/10714 [1:38:04<14:22,  2.04it/s] 84%|████████▎ | 8955/10714 [1:38:04<14:21,  2.04it/s] 84%|████████▎ | 8956/10714 [1:38:05<14:21,  2.04it/s] 84%|████████▎ | 8957/10714 [1:38:05<14:21,  2.04it/s] 84%|████████▎ | 8958/10714 [1:38:06<14:20,  2.04it/s] 84%|████████▎ | 8959/10714 [1:38:06<14:19,  2.04it/s] 84%|████████▎ | 8960/10714 [1:38:07<14:18,  2.04it/s] 84%|████████▎ | 8961/10714 [1:38:07<14:18,  2.04it/s] 84%|████████▎ | 8962/10714 [1:38:08<14:17,  2.04it/s] 84%|████████▎ | 8963/10714 [1:38:08<14:17,  2.04it/s] 84%|████████▎ | 8964/10714 [1:38:09<14:17,  2.04it/s] 84%|████████▎ | 8965/10714 [1:38:09<14:17,  2.04it/s] 84%|████████▎ | 8966/10714 [1:38:10<14:16,  2.04it/s] 84%|████████▎ | 8967/10714 [1:38:10<14:15,  2.04it/s] 84%|████████▎ | 8968/10714 [1:38:11<14:15,  2.04it/s] 84%|████████▎ | 8969/10714 [1:38:11<14:14,  2.04it/s] 84%|████████▎ | 8970/10714 [1:38:12<14:13,  2.04it/s] 84%|████████▎ | 8971/10714 [1:38:12<14:13,  2.04it/s] 84%|████████▎ | 8972/10714 [1:38:13<14:13,  2.04it/s] 84%|████████▍ | 8973/10714 [1:38:13<14:13,  2.04it/s] 84%|████████▍ | 8974/10714 [1:38:14<14:11,  2.04it/s] 84%|████████▍ | 8975/10714 [1:38:14<14:11,  2.04it/s]{'loss': 3.3522, 'grad_norm': 0.21116216480731964, 'learning_rate': 7.81365887316271e-05, 'epoch': 0.84}
-                                                       84%|████████▍ | 8975/10714 [1:38:14<14:11,  2.04it/s] 84%|████████▍ | 8976/10714 [1:38:15<14:12,  2.04it/s] 84%|████████▍ | 8977/10714 [1:38:15<14:11,  2.04it/s] 84%|████████▍ | 8978/10714 [1:38:16<14:09,  2.04it/s] 84%|████████▍ | 8979/10714 [1:38:16<14:09,  2.04it/s] 84%|████████▍ | 8980/10714 [1:38:17<14:09,  2.04it/s] 84%|████████▍ | 8981/10714 [1:38:17<14:09,  2.04it/s] 84%|████████▍ | 8982/10714 [1:38:18<14:08,  2.04it/s] 84%|████████▍ | 8983/10714 [1:38:18<14:08,  2.04it/s] 84%|████████▍ | 8984/10714 [1:38:19<14:07,  2.04it/s] 84%|████████▍ | 8985/10714 [1:38:19<14:06,  2.04it/s] 84%|████████▍ | 8986/10714 [1:38:20<14:05,  2.04it/s] 84%|████████▍ | 8987/10714 [1:38:20<14:04,  2.04it/s] 84%|████████▍ | 8988/10714 [1:38:20<14:04,  2.04it/s] 84%|████████▍ | 8989/10714 [1:38:21<14:04,  2.04it/s] 84%|████████▍ | 8990/10714 [1:38:21<14:03,  2.04it/s] 84%|████████▍ | 8991/10714 [1:38:22<14:02,  2.05it/s] 84%|████████▍ | 8992/10714 [1:38:22<14:01,  2.05it/s] 84%|████████▍ | 8993/10714 [1:38:23<14:01,  2.04it/s] 84%|████████▍ | 8994/10714 [1:38:23<14:02,  2.04it/s] 84%|████████▍ | 8995/10714 [1:38:24<14:01,  2.04it/s] 84%|████████▍ | 8996/10714 [1:38:24<14:01,  2.04it/s] 84%|████████▍ | 8997/10714 [1:38:25<14:00,  2.04it/s] 84%|████████▍ | 8998/10714 [1:38:25<13:59,  2.04it/s] 84%|████████▍ | 8999/10714 [1:38:26<13:59,  2.04it/s] 84%|████████▍ | 9000/10714 [1:38:26<13:58,  2.04it/s]{'loss': 3.3622, 'grad_norm': 0.19860811531543732, 'learning_rate': 7.596444163625938e-05, 'epoch': 0.84}
-                                                       84%|████████▍ | 9000/10714 [1:38:26<13:58,  2.04it/s] 84%|████████▍ | 9001/10714 [1:38:27<13:59,  2.04it/s] 84%|████████▍ | 9002/10714 [1:38:27<13:58,  2.04it/s] 84%|████████▍ | 9003/10714 [1:38:28<13:58,  2.04it/s] 84%|████████▍ | 9004/10714 [1:38:28<13:57,  2.04it/s] 84%|████████▍ | 9005/10714 [1:38:29<13:56,  2.04it/s] 84%|████████▍ | 9006/10714 [1:38:29<13:56,  2.04it/s] 84%|████████▍ | 9007/10714 [1:38:30<13:55,  2.04it/s] 84%|████████▍ | 9008/10714 [1:38:30<13:54,  2.04it/s] 84%|████████▍ | 9009/10714 [1:38:31<13:54,  2.04it/s] 84%|████████▍ | 9010/10714 [1:38:31<13:54,  2.04it/s] 84%|████████▍ | 9011/10714 [1:38:32<13:53,  2.04it/s] 84%|████████▍ | 9012/10714 [1:38:32<13:52,  2.04it/s] 84%|████████▍ | 9013/10714 [1:38:33<13:53,  2.04it/s] 84%|████████▍ | 9014/10714 [1:38:33<13:52,  2.04it/s] 84%|████████▍ | 9015/10714 [1:38:34<13:51,  2.04it/s] 84%|████████▍ | 9016/10714 [1:38:34<13:51,  2.04it/s] 84%|████████▍ | 9017/10714 [1:38:35<13:50,  2.04it/s] 84%|████████▍ | 9018/10714 [1:38:35<13:49,  2.04it/s] 84%|████████▍ | 9019/10714 [1:38:36<13:49,  2.04it/s] 84%|████████▍ | 9020/10714 [1:38:36<13:49,  2.04it/s] 84%|████████▍ | 9021/10714 [1:38:37<13:49,  2.04it/s] 84%|████████▍ | 9022/10714 [1:38:37<13:48,  2.04it/s] 84%|████████▍ | 9023/10714 [1:38:38<13:47,  2.04it/s] 84%|████████▍ | 9024/10714 [1:38:38<13:47,  2.04it/s] 84%|████████▍ | 9025/10714 [1:38:39<13:46,  2.04it/s]                                                      {'loss': 3.3592, 'grad_norm': 0.19785620272159576, 'learning_rate': 7.382042944141076e-05, 'epoch': 0.84}
- 84%|████████▍ | 9025/10714 [1:38:39<13:46,  2.04it/s] 84%|████████▍ | 9026/10714 [1:38:39<13:47,  2.04it/s] 84%|████████▍ | 9027/10714 [1:38:40<13:46,  2.04it/s] 84%|████████▍ | 9028/10714 [1:38:40<13:45,  2.04it/s] 84%|████████▍ | 9029/10714 [1:38:41<13:46,  2.04it/s] 84%|████████▍ | 9030/10714 [1:38:41<13:45,  2.04it/s] 84%|████████▍ | 9031/10714 [1:38:42<13:44,  2.04it/s] 84%|████████▍ | 9032/10714 [1:38:42<13:43,  2.04it/s] 84%|████████▍ | 9033/10714 [1:38:43<13:43,  2.04it/s] 84%|████████▍ | 9034/10714 [1:38:43<13:41,  2.04it/s] 84%|████████▍ | 9035/10714 [1:38:43<13:41,  2.04it/s] 84%|████████▍ | 9036/10714 [1:38:44<13:41,  2.04it/s] 84%|████████▍ | 9037/10714 [1:38:44<13:41,  2.04it/s] 84%|████████▍ | 9038/10714 [1:38:45<13:40,  2.04it/s] 84%|████████▍ | 9039/10714 [1:38:45<13:39,  2.04it/s] 84%|████████▍ | 9040/10714 [1:38:46<13:40,  2.04it/s] 84%|████████▍ | 9041/10714 [1:38:46<13:39,  2.04it/s] 84%|████████▍ | 9042/10714 [1:38:47<13:38,  2.04it/s] 84%|████████▍ | 9043/10714 [1:38:47<13:37,  2.04it/s] 84%|████████▍ | 9044/10714 [1:38:48<13:37,  2.04it/s] 84%|████████▍ | 9045/10714 [1:38:48<13:36,  2.04it/s] 84%|████████▍ | 9046/10714 [1:38:49<13:36,  2.04it/s] 84%|████████▍ | 9047/10714 [1:38:49<13:35,  2.04it/s] 84%|████████▍ | 9048/10714 [1:38:50<13:35,  2.04it/s] 84%|████████▍ | 9049/10714 [1:38:50<13:34,  2.04it/s] 84%|████████▍ | 9050/10714 [1:38:51<13:33,  2.04it/s]                                                      {'loss': 3.3626, 'grad_norm': 0.20144714415073395, 'learning_rate': 7.170469440300447e-05, 'epoch': 0.84}
- 84%|████████▍ | 9050/10714 [1:38:51<13:33,  2.04it/s] 84%|████████▍ | 9051/10714 [1:38:51<13:34,  2.04it/s] 84%|████████▍ | 9052/10714 [1:38:52<13:33,  2.04it/s] 84%|████████▍ | 9053/10714 [1:38:52<13:33,  2.04it/s] 85%|████████▍ | 9054/10714 [1:38:53<13:33,  2.04it/s] 85%|████████▍ | 9055/10714 [1:38:53<13:32,  2.04it/s] 85%|████████▍ | 9056/10714 [1:38:54<13:31,  2.04it/s] 85%|████████▍ | 9057/10714 [1:38:54<13:31,  2.04it/s] 85%|████████▍ | 9058/10714 [1:38:55<13:30,  2.04it/s] 85%|████████▍ | 9059/10714 [1:38:55<13:28,  2.05it/s] 85%|████████▍ | 9060/10714 [1:38:56<13:29,  2.04it/s] 85%|████████▍ | 9061/10714 [1:38:56<13:28,  2.04it/s] 85%|████████▍ | 9062/10714 [1:38:57<13:30,  2.04it/s] 85%|████████▍ | 9063/10714 [1:38:57<13:28,  2.04it/s] 85%|████████▍ | 9064/10714 [1:38:58<13:27,  2.04it/s] 85%|████████▍ | 9065/10714 [1:38:58<13:27,  2.04it/s] 85%|████████▍ | 9066/10714 [1:38:59<13:27,  2.04it/s] 85%|████████▍ | 9067/10714 [1:38:59<13:26,  2.04it/s] 85%|████████▍ | 9068/10714 [1:39:00<13:26,  2.04it/s] 85%|████████▍ | 9069/10714 [1:39:00<13:25,  2.04it/s] 85%|████████▍ | 9070/10714 [1:39:01<13:25,  2.04it/s] 85%|████████▍ | 9071/10714 [1:39:01<13:24,  2.04it/s] 85%|████████▍ | 9072/10714 [1:39:02<13:24,  2.04it/s] 85%|████████▍ | 9073/10714 [1:39:02<13:23,  2.04it/s] 85%|████████▍ | 9074/10714 [1:39:03<13:22,  2.04it/s] 85%|████████▍ | 9075/10714 [1:39:03<13:22,  2.04it/s]{'loss': 3.3529, 'grad_norm': 0.19937346875667572, 'learning_rate': 6.961737690076497e-05, 'epoch': 0.85}
-                                                       85%|████████▍ | 9075/10714 [1:39:03<13:22,  2.04it/s] 85%|████████▍ | 9076/10714 [1:39:04<13:23,  2.04it/s] 85%|████████▍ | 9077/10714 [1:39:04<13:22,  2.04it/s] 85%|████████▍ | 9078/10714 [1:39:05<13:21,  2.04it/s] 85%|████████▍ | 9079/10714 [1:39:05<13:21,  2.04it/s] 85%|████████▍ | 9080/10714 [1:39:06<13:21,  2.04it/s] 85%|████████▍ | 9081/10714 [1:39:06<13:19,  2.04it/s] 85%|████████▍ | 9082/10714 [1:39:07<13:19,  2.04it/s] 85%|████████▍ | 9083/10714 [1:39:07<13:18,  2.04it/s] 85%|████████▍ | 9084/10714 [1:39:07<13:18,  2.04it/s] 85%|████████▍ | 9085/10714 [1:39:08<13:17,  2.04it/s] 85%|████████▍ | 9086/10714 [1:39:08<13:17,  2.04it/s] 85%|████████▍ | 9087/10714 [1:39:09<13:17,  2.04it/s] 85%|████████▍ | 9088/10714 [1:39:09<13:17,  2.04it/s] 85%|████████▍ | 9089/10714 [1:39:10<13:17,  2.04it/s] 85%|████████▍ | 9090/10714 [1:39:10<13:16,  2.04it/s] 85%|████████▍ | 9091/10714 [1:39:11<13:15,  2.04it/s] 85%|████████▍ | 9092/10714 [1:39:11<13:14,  2.04it/s] 85%|████████▍ | 9093/10714 [1:39:12<13:13,  2.04it/s] 85%|████████▍ | 9094/10714 [1:39:12<13:13,  2.04it/s] 85%|████████▍ | 9095/10714 [1:39:13<13:12,  2.04it/s] 85%|████████▍ | 9096/10714 [1:39:13<13:12,  2.04it/s] 85%|████████▍ | 9097/10714 [1:39:14<13:12,  2.04it/s] 85%|████████▍ | 9098/10714 [1:39:14<13:11,  2.04it/s] 85%|████████▍ | 9099/10714 [1:39:15<13:11,  2.04it/s] 85%|████████▍ | 9100/10714 [1:39:15<13:11,  2.04it/s]{'loss': 3.3627, 'grad_norm': 0.19961635768413544, 'learning_rate': 6.755861542890362e-05, 'epoch': 0.85}                                                      
- 85%|████████▍ | 9100/10714 [1:39:15<13:11,  2.04it/s] 85%|████████▍ | 9101/10714 [1:39:16<13:11,  2.04it/s] 85%|████████▍ | 9102/10714 [1:39:16<13:09,  2.04it/s] 85%|████████▍ | 9103/10714 [1:39:17<13:08,  2.04it/s] 85%|████████▍ | 9104/10714 [1:39:17<13:08,  2.04it/s] 85%|████████▍ | 9105/10714 [1:39:18<13:08,  2.04it/s] 85%|████████▍ | 9106/10714 [1:39:18<13:07,  2.04it/s] 85%|████████▌ | 9107/10714 [1:39:19<13:06,  2.04it/s] 85%|████████▌ | 9108/10714 [1:39:19<13:05,  2.05it/s] 85%|████████▌ | 9109/10714 [1:39:20<13:04,  2.04it/s] 85%|████████▌ | 9110/10714 [1:39:20<13:04,  2.04it/s] 85%|████████▌ | 9111/10714 [1:39:21<13:03,  2.05it/s] 85%|████████▌ | 9112/10714 [1:39:21<13:02,  2.05it/s] 85%|████████▌ | 9113/10714 [1:39:22<13:01,  2.05it/s] 85%|████████▌ | 9114/10714 [1:39:22<13:01,  2.05it/s] 85%|████████▌ | 9115/10714 [1:39:23<13:00,  2.05it/s] 85%|████████▌ | 9116/10714 [1:39:23<13:01,  2.05it/s] 85%|████████▌ | 9117/10714 [1:39:24<13:00,  2.05it/s] 85%|████████▌ | 9118/10714 [1:39:24<12:59,  2.05it/s] 85%|████████▌ | 9119/10714 [1:39:25<12:59,  2.05it/s] 85%|████████▌ | 9120/10714 [1:39:25<12:59,  2.04it/s] 85%|████████▌ | 9121/10714 [1:39:26<12:59,  2.04it/s] 85%|████████▌ | 9122/10714 [1:39:26<12:59,  2.04it/s] 85%|████████▌ | 9123/10714 [1:39:27<12:58,  2.04it/s] 85%|████████▌ | 9124/10714 [1:39:27<12:57,  2.04it/s] 85%|████████▌ | 9125/10714 [1:39:28<12:57,  2.04it/s]{'loss': 3.3548, 'grad_norm': 0.19959846138954163, 'learning_rate': 6.552854658692969e-05, 'epoch': 0.85}                                                      
- 85%|████████▌ | 9125/10714 [1:39:28<12:57,  2.04it/s] 85%|████████▌ | 9126/10714 [1:39:28<12:59,  2.04it/s] 85%|████████▌ | 9127/10714 [1:39:29<12:57,  2.04it/s] 85%|████████▌ | 9128/10714 [1:39:29<12:57,  2.04it/s] 85%|████████▌ | 9129/10714 [1:39:30<12:57,  2.04it/s] 85%|████████▌ | 9130/10714 [1:39:30<12:57,  2.04it/s] 85%|████████▌ | 9131/10714 [1:39:31<12:55,  2.04it/s] 85%|████████▌ | 9132/10714 [1:39:31<12:54,  2.04it/s] 85%|████████▌ | 9133/10714 [1:39:31<12:54,  2.04it/s] 85%|████████▌ | 9134/10714 [1:39:32<12:54,  2.04it/s] 85%|████████▌ | 9135/10714 [1:39:32<12:52,  2.04it/s] 85%|████████▌ | 9136/10714 [1:39:33<12:51,  2.04it/s] 85%|████████▌ | 9137/10714 [1:39:33<12:51,  2.04it/s] 85%|████████▌ | 9138/10714 [1:39:34<12:52,  2.04it/s] 85%|████████▌ | 9139/10714 [1:39:34<12:51,  2.04it/s] 85%|████████▌ | 9140/10714 [1:39:35<12:50,  2.04it/s] 85%|████████▌ | 9141/10714 [1:39:35<12:49,  2.04it/s] 85%|████████▌ | 9142/10714 [1:39:36<12:50,  2.04it/s] 85%|████████▌ | 9143/10714 [1:39:36<12:49,  2.04it/s] 85%|████████▌ | 9144/10714 [1:39:37<12:48,  2.04it/s] 85%|████████▌ | 9145/10714 [1:39:37<12:47,  2.04it/s] 85%|████████▌ | 9146/10714 [1:39:38<12:48,  2.04it/s] 85%|████████▌ | 9147/10714 [1:39:38<12:48,  2.04it/s] 85%|████████▌ | 9148/10714 [1:39:39<12:46,  2.04it/s] 85%|████████▌ | 9149/10714 [1:39:39<12:46,  2.04it/s] 85%|████████▌ | 9150/10714 [1:39:40<12:45,  2.04it/s]{'loss': 3.3457, 'grad_norm': 0.19692201912403107, 'learning_rate': 6.352730507058724e-05, 'epoch': 0.85}
-                                                       85%|████████▌ | 9150/10714 [1:39:40<12:45,  2.04it/s] 85%|████████▌ | 9151/10714 [1:39:40<12:46,  2.04it/s] 85%|████████▌ | 9152/10714 [1:39:41<12:45,  2.04it/s] 85%|████████▌ | 9153/10714 [1:39:41<12:43,  2.04it/s] 85%|████████▌ | 9154/10714 [1:39:42<12:44,  2.04it/s] 85%|████████▌ | 9155/10714 [1:39:42<12:43,  2.04it/s] 85%|████████▌ | 9156/10714 [1:39:43<12:42,  2.04it/s] 85%|████████▌ | 9157/10714 [1:39:43<12:41,  2.05it/s] 85%|████████▌ | 9158/10714 [1:39:44<12:40,  2.05it/s] 85%|████████▌ | 9159/10714 [1:39:44<12:40,  2.04it/s] 85%|████████▌ | 9160/10714 [1:39:45<12:40,  2.04it/s] 86%|████████▌ | 9161/10714 [1:39:45<12:40,  2.04it/s] 86%|████████▌ | 9162/10714 [1:39:46<12:39,  2.04it/s] 86%|████████▌ | 9163/10714 [1:39:46<12:40,  2.04it/s] 86%|████████▌ | 9164/10714 [1:39:47<12:39,  2.04it/s] 86%|████████▌ | 9165/10714 [1:39:47<12:38,  2.04it/s] 86%|████████▌ | 9166/10714 [1:39:48<12:37,  2.04it/s] 86%|████████▌ | 9167/10714 [1:39:48<12:37,  2.04it/s] 86%|████████▌ | 9168/10714 [1:39:49<12:37,  2.04it/s] 86%|████████▌ | 9169/10714 [1:39:49<12:35,  2.04it/s] 86%|████████▌ | 9170/10714 [1:39:50<12:35,  2.04it/s] 86%|████████▌ | 9171/10714 [1:39:50<12:44,  2.02it/s] 86%|████████▌ | 9172/10714 [1:39:51<12:42,  2.02it/s] 86%|████████▌ | 9173/10714 [1:39:51<12:39,  2.03it/s] 86%|████████▌ | 9174/10714 [1:39:52<12:36,  2.04it/s] 86%|████████▌ | 9175/10714 [1:39:52<12:35,  2.04it/s]{'loss': 3.3498, 'grad_norm': 0.20171920955181122, 'learning_rate': 6.155502366291705e-05, 'epoch': 0.86}                                                      
- 86%|████████▌ | 9175/10714 [1:39:52<12:35,  2.04it/s] 86%|████████▌ | 9176/10714 [1:39:53<12:35,  2.04it/s] 86%|████████▌ | 9177/10714 [1:39:53<12:33,  2.04it/s] 86%|████████▌ | 9178/10714 [1:39:54<12:31,  2.04it/s] 86%|████████▌ | 9179/10714 [1:39:54<12:32,  2.04it/s] 86%|████████▌ | 9180/10714 [1:39:55<12:31,  2.04it/s] 86%|████████▌ | 9181/10714 [1:39:55<12:30,  2.04it/s] 86%|████████▌ | 9182/10714 [1:39:55<12:29,  2.04it/s] 86%|████████▌ | 9183/10714 [1:39:56<12:29,  2.04it/s] 86%|████████▌ | 9184/10714 [1:39:56<12:29,  2.04it/s] 86%|████████▌ | 9185/10714 [1:39:57<12:28,  2.04it/s] 86%|████████▌ | 9186/10714 [1:39:57<12:27,  2.04it/s] 86%|████████▌ | 9187/10714 [1:39:58<12:27,  2.04it/s] 86%|████████▌ | 9188/10714 [1:39:58<12:27,  2.04it/s] 86%|████████▌ | 9189/10714 [1:39:59<12:27,  2.04it/s] 86%|████████▌ | 9190/10714 [1:39:59<12:26,  2.04it/s] 86%|████████▌ | 9191/10714 [1:40:00<12:25,  2.04it/s] 86%|████████▌ | 9192/10714 [1:40:00<12:25,  2.04it/s] 86%|████████▌ | 9193/10714 [1:40:01<12:24,  2.04it/s] 86%|████████▌ | 9194/10714 [1:40:01<12:23,  2.04it/s] 86%|████████▌ | 9195/10714 [1:40:02<12:23,  2.04it/s] 86%|████████▌ | 9196/10714 [1:40:02<12:24,  2.04it/s] 86%|████████▌ | 9197/10714 [1:40:03<12:22,  2.04it/s] 86%|████████▌ | 9198/10714 [1:40:03<12:21,  2.05it/s] 86%|████████▌ | 9199/10714 [1:40:04<12:19,  2.05it/s] 86%|████████▌ | 9200/10714 [1:40:04<12:19,  2.05it/s]                                                      {'loss': 3.3545, 'grad_norm': 0.19640760123729706, 'learning_rate': 5.961183322544744e-05, 'epoch': 0.86}
- 86%|████████▌ | 9200/10714 [1:40:04<12:19,  2.05it/s] 86%|████████▌ | 9201/10714 [1:40:05<12:21,  2.04it/s] 86%|████████▌ | 9202/10714 [1:40:05<12:19,  2.04it/s] 86%|████████▌ | 9203/10714 [1:40:06<12:19,  2.04it/s] 86%|████████▌ | 9204/10714 [1:40:06<12:18,  2.04it/s] 86%|████████▌ | 9205/10714 [1:40:07<12:18,  2.04it/s] 86%|████████▌ | 9206/10714 [1:40:07<12:17,  2.04it/s] 86%|████████▌ | 9207/10714 [1:40:08<12:17,  2.04it/s] 86%|████████▌ | 9208/10714 [1:40:08<12:16,  2.04it/s] 86%|████████▌ | 9209/10714 [1:40:09<12:15,  2.04it/s] 86%|████████▌ | 9210/10714 [1:40:09<12:15,  2.04it/s] 86%|████████▌ | 9211/10714 [1:40:10<12:15,  2.04it/s] 86%|████████▌ | 9212/10714 [1:40:10<12:15,  2.04it/s] 86%|████████▌ | 9213/10714 [1:40:11<12:15,  2.04it/s] 86%|██████��█▌ | 9214/10714 [1:40:11<12:14,  2.04it/s] 86%|████████▌ | 9215/10714 [1:40:12<12:14,  2.04it/s] 86%|████████▌ | 9216/10714 [1:40:12<12:13,  2.04it/s] 86%|████████▌ | 9217/10714 [1:40:13<12:13,  2.04it/s] 86%|████████▌ | 9218/10714 [1:40:13<12:12,  2.04it/s] 86%|████████▌ | 9219/10714 [1:40:14<12:12,  2.04it/s] 86%|████████▌ | 9220/10714 [1:40:14<12:11,  2.04it/s] 86%|████████▌ | 9221/10714 [1:40:15<12:11,  2.04it/s] 86%|████████▌ | 9222/10714 [1:40:15<12:10,  2.04it/s] 86%|████████▌ | 9223/10714 [1:40:16<12:09,  2.04it/s] 86%|████████▌ | 9224/10714 [1:40:16<12:09,  2.04it/s] 86%|████████▌ | 9225/10714 [1:40:17<12:08,  2.04it/s]{'loss': 3.3499, 'grad_norm': 0.20011121034622192, 'learning_rate': 5.769786268951116e-05, 'epoch': 0.86}
-                                                       86%|████████▌ | 9225/10714 [1:40:17<12:08,  2.04it/s] 86%|████████▌ | 9226/10714 [1:40:17<12:08,  2.04it/s] 86%|████████▌ | 9227/10714 [1:40:18<12:08,  2.04it/s] 86%|████████▌ | 9228/10714 [1:40:18<12:07,  2.04it/s] 86%|████████▌ | 9229/10714 [1:40:19<12:07,  2.04it/s] 86%|████████▌ | 9230/10714 [1:40:19<12:06,  2.04it/s] 86%|████████▌ | 9231/10714 [1:40:19<12:06,  2.04it/s] 86%|████████▌ | 9232/10714 [1:40:20<12:05,  2.04it/s] 86%|████████▌ | 9233/10714 [1:40:20<12:04,  2.04it/s] 86%|████████▌ | 9234/10714 [1:40:21<12:03,  2.04it/s] 86%|████████▌ | 9235/10714 [1:40:21<12:03,  2.04it/s] 86%|████████▌ | 9236/10714 [1:40:22<12:03,  2.04it/s] 86%|████████▌ | 9237/10714 [1:40:22<12:02,  2.04it/s] 86%|████████▌ | 9238/10714 [1:40:23<12:02,  2.04it/s] 86%|████████▌ | 9239/10714 [1:40:23<12:02,  2.04it/s] 86%|████████▌ | 9240/10714 [1:40:24<12:01,  2.04it/s] 86%|████████▋ | 9241/10714 [1:40:24<12:00,  2.04it/s] 86%|████████▋ | 9242/10714 [1:40:25<11:59,  2.04it/s] 86%|████████▋ | 9243/10714 [1:40:25<11:59,  2.05it/s] 86%|████████▋ | 9244/10714 [1:40:26<11:59,  2.04it/s] 86%|████████▋ | 9245/10714 [1:40:26<11:59,  2.04it/s] 86%|████████▋ | 9246/10714 [1:40:27<11:58,  2.04it/s] 86%|████████▋ | 9247/10714 [1:40:27<11:56,  2.05it/s] 86%|████████▋ | 9248/10714 [1:40:28<11:57,  2.04it/s] 86%|████████▋ | 9249/10714 [1:40:28<11:56,  2.04it/s] 86%|████████▋ | 9250/10714 [1:40:29<11:55,  2.05it/s]                                                      {'loss': 3.3521, 'grad_norm': 0.19718071818351746, 'learning_rate': 5.581323904769059e-05, 'epoch': 0.86}
- 86%|████████▋ | 9250/10714 [1:40:29<11:55,  2.05it/s] 86%|████████▋ | 9251/10714 [1:40:29<11:55,  2.04it/s] 86%|████████▋ | 9252/10714 [1:40:30<11:55,  2.04it/s] 86%|████████▋ | 9253/10714 [1:40:30<11:55,  2.04it/s] 86%|████████▋ | 9254/10714 [1:40:31<11:54,  2.04it/s] 86%|████████▋ | 9255/10714 [1:40:31<11:54,  2.04it/s] 86%|████████▋ | 9256/10714 [1:40:32<11:53,  2.04it/s] 86%|████████▋ | 9257/10714 [1:40:32<11:52,  2.04it/s] 86%|████████▋ | 9258/10714 [1:40:33<11:52,  2.04it/s] 86%|████████▋ | 9259/10714 [1:40:33<11:51,  2.04it/s] 86%|████████▋ | 9260/10714 [1:40:34<11:51,  2.04it/s] 86%|████████▋ | 9261/10714 [1:40:34<11:50,  2.04it/s] 86%|████████▋ | 9262/10714 [1:40:35<11:51,  2.04it/s] 86%|████████▋ | 9263/10714 [1:40:35<11:51,  2.04it/s] 86%|████████▋ | 9264/10714 [1:40:36<11:49,  2.04it/s] 86%|████████▋ | 9265/10714 [1:40:36<11:49,  2.04it/s] 86%|████████▋ | 9266/10714 [1:40:37<11:48,  2.04it/s] 86%|████████▋ | 9267/10714 [1:40:37<11:48,  2.04it/s] 87%|████████▋ | 9268/10714 [1:40:38<11:48,  2.04it/s] 87%|████████▋ | 9269/10714 [1:40:38<11:46,  2.04it/s] 87%|████████▋ | 9270/10714 [1:40:39<11:47,  2.04it/s] 87%|████████▋ | 9271/10714 [1:40:39<11:47,  2.04it/s] 87%|████████▋ | 9272/10714 [1:40:40<11:46,  2.04it/s] 87%|████████▋ | 9273/10714 [1:40:40<11:44,  2.05it/s] 87%|████████▋ | 9274/10714 [1:40:41<11:43,  2.05it/s] 87%|████████▋ | 9275/10714 [1:40:41<11:43,  2.04it/s]{'loss': 3.3533, 'grad_norm': 0.19250185787677765, 'learning_rate': 5.395808734539231e-05, 'epoch': 0.87}
-                                                       87%|████████▋ | 9275/10714 [1:40:41<11:43,  2.04it/s] 87%|████████▋ | 9276/10714 [1:40:42<11:44,  2.04it/s] 87%|████████▋ | 9277/10714 [1:40:42<11:43,  2.04it/s] 87%|████████▋ | 9278/10714 [1:40:42<11:43,  2.04it/s] 87%|████████▋ | 9279/10714 [1:40:43<11:42,  2.04it/s] 87%|████████▋ | 9280/10714 [1:40:43<11:42,  2.04it/s] 87%|████████▋ | 9281/10714 [1:40:44<11:41,  2.04it/s] 87%|████████▋ | 9282/10714 [1:40:44<11:39,  2.05it/s] 87%|████████▋ | 9283/10714 [1:40:45<11:39,  2.05it/s] 87%|████████▋ | 9284/10714 [1:40:45<11:38,  2.05it/s] 87%|████████▋ | 9285/10714 [1:40:46<11:39,  2.04it/s] 87%|████████▋ | 9286/10714 [1:40:46<11:38,  2.04it/s] 87%|████████▋ | 9287/10714 [1:40:47<11:37,  2.04it/s] 87%|████████▋ | 9288/10714 [1:40:47<11:36,  2.05it/s] 87%|████████▋ | 9289/10714 [1:40:48<11:35,  2.05it/s] 87%|████████▋ | 9290/10714 [1:40:48<11:36,  2.05it/s] 87%|████████▋ | 9291/10714 [1:40:49<11:35,  2.05it/s] 87%|████████▋ | 9292/10714 [1:40:49<11:35,  2.05it/s] 87%|████████▋ | 9293/10714 [1:40:50<11:34,  2.05it/s] 87%|████████▋ | 9294/10714 [1:40:50<11:34,  2.05it/s] 87%|████████▋ | 9295/10714 [1:40:51<11:34,  2.04it/s] 87%|████████▋ | 9296/10714 [1:40:51<11:35,  2.04it/s] 87%|████████▋ | 9297/10714 [1:40:52<11:33,  2.04it/s] 87%|████████▋ | 9298/10714 [1:40:52<11:33,  2.04it/s] 87%|████████▋ | 9299/10714 [1:40:53<11:32,  2.04it/s] 87%|████████▋ | 9300/10714 [1:40:53<11:31,  2.04it/s]                                                      {'loss': 3.3422, 'grad_norm': 0.19844426214694977, 'learning_rate': 5.213253067254931e-05, 'epoch': 0.87}
- 87%|████████▋ | 9300/10714 [1:40:53<11:31,  2.04it/s] 87%|████████▋ | 9301/10714 [1:40:54<11:32,  2.04it/s] 87%|████████▋ | 9302/10714 [1:40:54<11:31,  2.04it/s] 87%|████████▋ | 9303/10714 [1:40:55<11:31,  2.04it/s] 87%|████████▋ | 9304/10714 [1:40:55<11:30,  2.04it/s] 87%|████████▋ | 9305/10714 [1:40:56<11:29,  2.04it/s] 87%|████████▋ | 9306/10714 [1:40:56<11:28,  2.04it/s] 87%|████████▋ | 9307/10714 [1:40:57<11:29,  2.04it/s] 87%|████████▋ | 9308/10714 [1:40:57<11:28,  2.04it/s] 87%|████████▋ | 9309/10714 [1:40:58<11:27,  2.04it/s] 87%|████████▋ | 9310/10714 [1:40:58<11:27,  2.04it/s] 87%|████████▋ | 9311/10714 [1:40:59<11:27,  2.04it/s] 87%|████████▋ | 9312/10714 [1:40:59<11:27,  2.04it/s] 87%|████████▋ | 9313/10714 [1:41:00<11:26,  2.04it/s] 87%|████████▋ | 9314/10714 [1:41:00<11:25,  2.04it/s] 87%|████████▋ | 9315/10714 [1:41:01<11:25,  2.04it/s] 87%|████████▋ | 9316/10714 [1:41:01<11:24,  2.04it/s] 87%|████████▋ | 9317/10714 [1:41:02<11:23,  2.04it/s] 87%|████████▋ | 9318/10714 [1:41:02<11:27,  2.03it/s] 87%|████████▋ | 9319/10714 [1:41:03<11:25,  2.04it/s] 87%|████████▋ | 9320/10714 [1:41:03<11:24,  2.04it/s] 87%|████████▋ | 9321/10714 [1:41:04<11:23,  2.04it/s] 87%|████████▋ | 9322/10714 [1:41:04<11:22,  2.04it/s] 87%|████████▋ | 9323/10714 [1:41:05<11:22,  2.04it/s] 87%|████████▋ | 9324/10714 [1:41:05<11:20,  2.04it/s] 87%|████████▋ | 9325/10714 [1:41:05<11:19,  2.04it/s]{'loss': 3.3473, 'grad_norm': 0.1956811398267746, 'learning_rate': 5.033669015545489e-05, 'epoch': 0.87}                                                      
- 87%|████████▋ | 9325/10714 [1:41:05<11:19,  2.04it/s] 87%|████████▋ | 9326/10714 [1:41:06<11:21,  2.04it/s] 87%|████████▋ | 9327/10714 [1:41:06<11:20,  2.04it/s] 87%|████████▋ | 9328/10714 [1:41:07<11:19,  2.04it/s] 87%|████████▋ | 9329/10714 [1:41:07<11:19,  2.04it/s] 87%|████████▋ | 9330/10714 [1:41:08<11:18,  2.04it/s] 87%|████████▋ | 9331/10714 [1:41:08<11:18,  2.04it/s] 87%|████████▋ | 9332/10714 [1:41:09<11:17,  2.04it/s] 87%|████████▋ | 9333/10714 [1:41:09<11:16,  2.04it/s] 87%|████████▋ | 9334/10714 [1:41:10<11:16,  2.04it/s] 87%|████████▋ | 9335/10714 [1:41:10<11:14,  2.04it/s] 87%|████████▋ | 9336/10714 [1:41:11<11:14,  2.04it/s] 87%|████████▋ | 9337/10714 [1:41:11<11:14,  2.04it/s] 87%|████████▋ | 9338/10714 [1:41:12<11:14,  2.04it/s] 87%|████████▋ | 9339/10714 [1:41:12<11:13,  2.04it/s] 87%|████████▋ | 9340/10714 [1:41:13<11:12,  2.04it/s] 87%|████████▋ | 9341/10714 [1:41:13<11:11,  2.04it/s] 87%|████████▋ | 9342/10714 [1:41:14<11:11,  2.04it/s] 87%|████████▋ | 9343/10714 [1:41:14<11:11,  2.04it/s] 87%|████████▋ | 9344/10714 [1:41:15<11:10,  2.04it/s] 87%|████████▋ | 9345/10714 [1:41:15<11:10,  2.04it/s] 87%|████████▋ | 9346/10714 [1:41:16<11:10,  2.04it/s] 87%|████████▋ | 9347/10714 [1:41:16<11:09,  2.04it/s] 87%|████████▋ | 9348/10714 [1:41:17<11:08,  2.04it/s] 87%|████████▋ | 9349/10714 [1:41:17<11:06,  2.05it/s] 87%|████████▋ | 9350/10714 [1:41:18<11:07,  2.04it/s]{'loss': 3.3535, 'grad_norm': 0.19369512796401978, 'learning_rate': 4.857068494872563e-05, 'epoch': 0.87}                                                      
- 87%|████████▋ | 9350/10714 [1:41:18<11:07,  2.04it/s] 87%|████████▋ | 9351/10714 [1:41:18<11:07,  2.04it/s] 87%|████████▋ | 9352/10714 [1:41:19<11:06,  2.04it/s] 87%|████████▋ | 9353/10714 [1:41:19<11:05,  2.04it/s] 87%|████████▋ | 9354/10714 [1:41:20<11:05,  2.04it/s] 87%|████████▋ | 9355/10714 [1:41:20<11:04,  2.04it/s] 87%|████████▋ | 9356/10714 [1:41:21<11:04,  2.04it/s] 87%|████████▋ | 9357/10714 [1:41:21<11:02,  2.05it/s] 87%|████████▋ | 9358/10714 [1:41:22<11:02,  2.05it/s] 87%|████████▋ | 9359/10714 [1:41:22<11:03,  2.04it/s] 87%|████████▋ | 9360/10714 [1:41:23<11:02,  2.05it/s] 87%|████████▋ | 9361/10714 [1:41:23<11:02,  2.04it/s] 87%|████████▋ | 9362/10714 [1:41:24<11:02,  2.04it/s] 87%|████████▋ | 9363/10714 [1:41:24<11:01,  2.04it/s] 87%|████████▋ | 9364/10714 [1:41:25<11:00,  2.04it/s] 87%|████████▋ | 9365/10714 [1:41:25<10:59,  2.05it/s] 87%|████████▋ | 9366/10714 [1:41:26<10:58,  2.05it/s] 87%|████████▋ | 9367/10714 [1:41:26<10:57,  2.05it/s] 87%|████████▋ | 9368/10714 [1:41:27<10:58,  2.05it/s] 87%|████████▋ | 9369/10714 [1:41:27<10:58,  2.04it/s] 87%|████████▋ | 9370/10714 [1:41:28<10:56,  2.05it/s] 87%|████████▋ | 9371/10714 [1:41:28<10:55,  2.05it/s] 87%|████████▋ | 9372/10714 [1:41:28<10:55,  2.05it/s] 87%|████████▋ | 9373/10714 [1:41:29<10:55,  2.05it/s] 87%|████████▋ | 9374/10714 [1:41:29<10:55,  2.05it/s] 88%|████████▊ | 9375/10714 [1:41:30<10:54,  2.05it/s]{'loss': 3.3553, 'grad_norm': 0.1964215189218521, 'learning_rate': 4.683463222739481e-05, 'epoch': 0.88}
-                                                       88%|████████▊ | 9375/10714 [1:41:30<10:54,  2.05it/s] 88%|████████▊ | 9376/10714 [1:41:30<10:54,  2.04it/s] 88%|████████▊ | 9377/10714 [1:41:31<10:54,  2.04it/s] 88%|████████▊ | 9378/10714 [1:41:31<10:54,  2.04it/s] 88%|████████▊ | 9379/10714 [1:41:32<10:53,  2.04it/s] 88%|████████▊ | 9380/10714 [1:41:32<10:51,  2.05it/s] 88%|████████▊ | 9381/10714 [1:41:33<10:51,  2.05it/s] 88%|████████▊ | 9382/10714 [1:41:33<10:51,  2.05it/s] 88%|████████▊ | 9383/10714 [1:41:34<10:50,  2.05it/s] 88%|████████▊ | 9384/10714 [1:41:34<10:50,  2.05it/s] 88%|████████▊ | 9385/10714 [1:41:35<10:49,  2.05it/s] 88%|████████▊ | 9386/10714 [1:41:35<10:49,  2.04it/s] 88%|████████▊ | 9387/10714 [1:41:36<10:49,  2.04it/s] 88%|████████▊ | 9388/10714 [1:41:36<10:48,  2.04it/s] 88%|████████▊ | 9389/10714 [1:41:37<10:48,  2.04it/s] 88%|████████▊ | 9390/10714 [1:41:37<10:47,  2.04it/s] 88%|████████▊ | 9391/10714 [1:41:38<10:48,  2.04it/s] 88%|████████▊ | 9392/10714 [1:41:38<10:47,  2.04it/s] 88%|████████▊ | 9393/10714 [1:41:39<10:46,  2.04it/s] 88%|████████▊ | 9394/10714 [1:41:39<10:46,  2.04it/s] 88%|████████▊ | 9395/10714 [1:41:40<10:46,  2.04it/s] 88%|████████▊ | 9396/10714 [1:41:40<10:45,  2.04it/s] 88%|████████▊ | 9397/10714 [1:41:41<10:44,  2.04it/s] 88%|████████▊ | 9398/10714 [1:41:41<10:43,  2.04it/s] 88%|████████▊ | 9399/10714 [1:41:42<10:42,  2.05it/s] 88%|████████▊ | 9400/10714 [1:41:42<10:42,  2.05it/s]                                                      {'loss': 3.3522, 'grad_norm': 0.2035166323184967, 'learning_rate': 4.512864717913906e-05, 'epoch': 0.88}
- 88%|████████▊ | 9400/10714 [1:41:42<10:42,  2.05it/s] 88%|████████▊ | 9401/10714 [1:41:43<10:42,  2.04it/s] 88%|████████▊ | 9402/10714 [1:41:43<10:42,  2.04it/s] 88%|████████▊ | 9403/10714 [1:41:44<10:41,  2.04it/s] 88%|████████▊ | 9404/10714 [1:41:44<10:41,  2.04it/s] 88%|████████▊ | 9405/10714 [1:41:45<10:41,  2.04it/s] 88%|████████▊ | 9406/10714 [1:41:45<10:40,  2.04it/s] 88%|████████▊ | 9407/10714 [1:41:46<10:39,  2.04it/s] 88%|████████▊ | 9408/10714 [1:41:46<10:38,  2.04it/s] 88%|████████▊ | 9409/10714 [1:41:47<10:38,  2.04it/s] 88%|████████▊ | 9410/10714 [1:41:47<10:38,  2.04it/s] 88%|████████▊ | 9411/10714 [1:41:48<10:37,  2.04it/s] 88%|████████▊ | 9412/10714 [1:41:48<10:36,  2.04it/s] 88%|████████▊ | 9413/10714 [1:41:49<10:36,  2.04it/s] 88%|████████▊ | 9414/10714 [1:41:49<10:36,  2.04it/s] 88%|████████▊ | 9415/10714 [1:41:50<10:35,  2.04it/s] 88%|████████▊ | 9416/10714 [1:41:50<10:34,  2.05it/s] 88%|████████▊ | 9417/10714 [1:41:51<10:34,  2.04it/s] 88%|████████▊ | 9418/10714 [1:41:51<10:33,  2.04it/s] 88%|████████▊ | 9419/10714 [1:41:51<10:34,  2.04it/s] 88%|████████▊ | 9420/10714 [1:41:52<10:33,  2.04it/s] 88%|████████▊ | 9421/10714 [1:41:52<10:32,  2.04it/s] 88%|████████▊ | 9422/10714 [1:41:53<10:31,  2.04it/s] 88%|████████▊ | 9423/10714 [1:41:53<10:31,  2.04it/s] 88%|████████▊ | 9424/10714 [1:41:54<10:31,  2.04it/s] 88%|████████▊ | 9425/10714 [1:41:54<10:30,  2.04it/s]{'loss': 3.3488, 'grad_norm': 0.19944709539413452, 'learning_rate': 4.345284299663421e-05, 'epoch': 0.88}
-                                                       88%|████████▊ | 9425/10714 [1:41:54<10:30,  2.04it/s] 88%|████████▊ | 9426/10714 [1:41:55<10:31,  2.04it/s] 88%|████████▊ | 9427/10714 [1:41:55<10:30,  2.04it/s] 88%|████████▊ | 9428/10714 [1:41:56<10:29,  2.04it/s] 88%|████████▊ | 9429/10714 [1:41:56<10:29,  2.04it/s] 88%|████████▊ | 9430/10714 [1:41:57<10:28,  2.04it/s] 88%|████████▊ | 9431/10714 [1:41:57<10:28,  2.04it/s] 88%|████████▊ | 9432/10714 [1:41:58<10:27,  2.04it/s] 88%|████████▊ | 9433/10714 [1:41:58<10:26,  2.04it/s] 88%|████████▊ | 9434/10714 [1:41:59<10:26,  2.04it/s] 88%|████████▊ | 9435/10714 [1:41:59<10:26,  2.04it/s] 88%|████████▊ | 9436/10714 [1:42:00<10:26,  2.04it/s] 88%|████████▊ | 9437/10714 [1:42:00<10:25,  2.04it/s] 88%|████████▊ | 9438/10714 [1:42:01<10:25,  2.04it/s] 88%|████████▊ | 9439/10714 [1:42:01<10:25,  2.04it/s] 88%|████████▊ | 9440/10714 [1:42:02<10:24,  2.04it/s] 88%|████████▊ | 9441/10714 [1:42:02<10:23,  2.04it/s] 88%|████████▊ | 9442/10714 [1:42:03<10:23,  2.04it/s] 88%|████████▊ | 9443/10714 [1:42:03<10:22,  2.04it/s] 88%|████████▊ | 9444/10714 [1:42:04<10:22,  2.04it/s] 88%|████████▊ | 9445/10714 [1:42:04<10:21,  2.04it/s] 88%|████████▊ | 9446/10714 [1:42:05<10:21,  2.04it/s] 88%|████████▊ | 9447/10714 [1:42:05<10:21,  2.04it/s] 88%|████████▊ | 9448/10714 [1:42:06<10:20,  2.04it/s] 88%|████████▊ | 9449/10714 [1:42:06<10:19,  2.04it/s] 88%|████████▊ | 9450/10714 [1:42:07<10:19,  2.04it/s]                                                      {'loss': 3.3599, 'grad_norm': 0.19658316671848297, 'learning_rate': 4.18073308700459e-05, 'epoch': 0.88}
- 88%|████████▊ | 9450/10714 [1:42:07<10:19,  2.04it/s] 88%|████████▊ | 9451/10714 [1:42:07<10:19,  2.04it/s] 88%|████████▊ | 9452/10714 [1:42:08<10:17,  2.04it/s] 88%|████████▊ | 9453/10714 [1:42:08<10:17,  2.04it/s] 88%|████████▊ | 9454/10714 [1:42:09<10:16,  2.04it/s] 88%|████████▊ | 9455/10714 [1:42:09<10:16,  2.04it/s] 88%|████████▊ | 9456/10714 [1:42:10<10:15,  2.04it/s] 88%|████████▊ | 9457/10714 [1:42:10<10:14,  2.05it/s] 88%|████████▊ | 9458/10714 [1:42:11<10:14,  2.04it/s] 88%|████████▊ | 9459/10714 [1:42:11<10:13,  2.04it/s] 88%|████████▊ | 9460/10714 [1:42:12<10:13,  2.04it/s] 88%|████████▊ | 9461/10714 [1:42:12<10:12,  2.04it/s] 88%|████████▊ | 9462/10714 [1:42:13<10:11,  2.05it/s] 88%|████████▊ | 9463/10714 [1:42:13<10:11,  2.05it/s] 88%|████████▊ | 9464/10714 [1:42:14<10:10,  2.05it/s] 88%|████████▊ | 9465/10714 [1:42:14<10:10,  2.04it/s] 88%|████████▊ | 9466/10714 [1:42:14<10:10,  2.04it/s] 88%|████████▊ | 9467/10714 [1:42:15<10:10,  2.04it/s] 88%|████████▊ | 9468/10714 [1:42:15<10:10,  2.04it/s] 88%|████████▊ | 9469/10714 [1:42:16<10:09,  2.04it/s] 88%|████████▊ | 9470/10714 [1:42:16<10:08,  2.04it/s] 88%|████████▊ | 9471/10714 [1:42:17<10:08,  2.04it/s] 88%|████████▊ | 9472/10714 [1:42:17<10:08,  2.04it/s] 88%|████████▊ | 9473/10714 [1:42:18<10:07,  2.04it/s] 88%|████████▊ | 9474/10714 [1:42:18<10:06,  2.05it/s] 88%|████████▊ | 9475/10714 [1:42:19<10:05,  2.05it/s]                                                      {'loss': 3.3594, 'grad_norm': 0.20293858647346497, 'learning_rate': 4.019221997965206e-05, 'epoch': 0.88}
- 88%|████████▊ | 9475/10714 [1:42:19<10:05,  2.05it/s] 88%|████████▊ | 9476/10714 [1:42:19<10:08,  2.03it/s] 88%|████████▊ | 9477/10714 [1:42:20<10:07,  2.04it/s] 88%|████████▊ | 9478/10714 [1:42:20<10:06,  2.04it/s] 88%|████████▊ | 9479/10714 [1:42:21<10:05,  2.04it/s] 88%|████████▊ | 9480/10714 [1:42:21<10:05,  2.04it/s] 88%|████████▊ | 9481/10714 [1:42:22<10:04,  2.04it/s] 89%|████████▊ | 9482/10714 [1:42:22<10:03,  2.04it/s] 89%|████████▊ | 9483/10714 [1:42:23<10:02,  2.04it/s] 89%|████████▊ | 9484/10714 [1:42:23<10:01,  2.04it/s] 89%|████████▊ | 9485/10714 [1:42:24<10:01,  2.04it/s] 89%|████████▊ | 9486/10714 [1:42:24<10:01,  2.04it/s] 89%|████████▊ | 9487/10714 [1:42:25<10:00,  2.04it/s] 89%|████████▊ | 9488/10714 [1:42:25<09:59,  2.04it/s] 89%|████████▊ | 9489/10714 [1:42:26<09:59,  2.04it/s] 89%|████████▊ | 9490/10714 [1:42:26<09:59,  2.04it/s] 89%|████████▊ | 9491/10714 [1:42:27<09:58,  2.04it/s] 89%|████████▊ | 9492/10714 [1:42:27<09:57,  2.04it/s] 89%|████████▊ | 9493/10714 [1:42:28<09:57,  2.04it/s] 89%|████████▊ | 9494/10714 [1:42:28<09:56,  2.04it/s] 89%|████████▊ | 9495/10714 [1:42:29<09:56,  2.04it/s] 89%|████████▊ | 9496/10714 [1:42:29<09:56,  2.04it/s] 89%|████████▊ | 9497/10714 [1:42:30<09:55,  2.04it/s] 89%|████████▊ | 9498/10714 [1:42:30<09:54,  2.04it/s] 89%|████████▊ | 9499/10714 [1:42:31<09:54,  2.04it/s] 89%|████████▊ | 9500/10714 [1:42:31<09:53,  2.04it/s]{'loss': 3.3456, 'grad_norm': 0.19470559060573578, 'learning_rate': 3.86076174885977e-05, 'epoch': 0.89}                                                      
- 89%|████████▊ | 9500/10714 [1:42:31<09:53,  2.04it/s] 89%|████████▊ | 9501/10714 [1:42:32<09:56,  2.04it/s] 89%|████████▊ | 9502/10714 [1:42:32<09:54,  2.04it/s] 89%|████████▊ | 9503/10714 [1:42:33<09:54,  2.04it/s] 89%|████████▊ | 9504/10714 [1:42:33<09:52,  2.04it/s] 89%|████████▊ | 9505/10714 [1:42:34<09:51,  2.04it/s] 89%|████████▊ | 9506/10714 [1:42:34<09:51,  2.04it/s] 89%|████████▊ | 9507/10714 [1:42:35<09:50,  2.04it/s] 89%|████████▊ | 9508/10714 [1:42:35<09:49,  2.04it/s] 89%|████████▉ | 9509/10714 [1:42:36<09:49,  2.04it/s] 89%|████████▉ | 9510/10714 [1:42:36<09:49,  2.04it/s] 89%|████████▉ | 9511/10714 [1:42:37<09:49,  2.04it/s] 89%|████████▉ | 9512/10714 [1:42:37<09:48,  2.04it/s] 89%|████████▉ | 9513/10714 [1:42:38<09:47,  2.04it/s] 89%|████████▉ | 9514/10714 [1:42:38<09:47,  2.04it/s] 89%|████████▉ | 9515/10714 [1:42:38<09:46,  2.04it/s] 89%|████████▉ | 9516/10714 [1:42:39<09:45,  2.04it/s] 89%|████████▉ | 9517/10714 [1:42:39<09:45,  2.04it/s] 89%|████████▉ | 9518/10714 [1:42:40<09:45,  2.04it/s] 89%|████████▉ | 9519/10714 [1:42:40<09:45,  2.04it/s] 89%|████████▉ | 9520/10714 [1:42:41<09:45,  2.04it/s] 89%|████████▉ | 9521/10714 [1:42:41<09:44,  2.04it/s] 89%|████████▉ | 9522/10714 [1:42:42<09:43,  2.04it/s] 89%|████████▉ | 9523/10714 [1:42:42<09:42,  2.04it/s] 89%|████████▉ | 9524/10714 [1:42:43<09:41,  2.04it/s] 89%|████████▉ | 9525/10714 [1:42:43<09:42,  2.04it/s]{'loss': 3.3459, 'grad_norm': 0.1979287713766098, 'learning_rate': 3.70536285357862e-05, 'epoch': 0.89}                                                      
- 89%|████████▉ | 9525/10714 [1:42:43<09:42,  2.04it/s] 89%|████████▉ | 9526/10714 [1:42:44<09:43,  2.04it/s] 89%|████████▉ | 9527/10714 [1:42:44<09:41,  2.04it/s] 89%|████████▉ | 9528/10714 [1:42:45<09:41,  2.04it/s] 89%|████████▉ | 9529/10714 [1:42:45<09:41,  2.04it/s] 89%|████████▉ | 9530/10714 [1:42:46<09:40,  2.04it/s] 89%|████████▉ | 9531/10714 [1:42:46<09:38,  2.04it/s] 89%|████████▉ | 9532/10714 [1:42:47<11:14,  1.75it/s] 89%|████████▉ | 9533/10714 [1:42:48<10:45,  1.83it/s] 89%|████████▉ | 9534/10714 [1:42:48<10:25,  1.89it/s] 89%|████████▉ | 9535/10714 [1:42:49<10:11,  1.93it/s] 89%|████████▉ | 9536/10714 [1:42:49<10:00,  1.96it/s] 89%|████████▉ | 9537/10714 [1:42:50<09:52,  1.99it/s] 89%|████████▉ | 9538/10714 [1:42:50<09:46,  2.00it/s] 89%|████████▉ | 9539/10714 [1:42:51<09:42,  2.02it/s] 89%|████████▉ | 9540/10714 [1:42:51<09:39,  2.02it/s] 89%|████████▉ | 9541/10714 [1:42:51<09:37,  2.03it/s] 89%|████████▉ | 9542/10714 [1:42:52<09:35,  2.04it/s] 89%|████████▉ | 9543/10714 [1:42:52<09:33,  2.04it/s] 89%|████████▉ | 9544/10714 [1:42:53<09:33,  2.04it/s] 89%|████████▉ | 9545/10714 [1:42:53<09:32,  2.04it/s] 89%|████████▉ | 9546/10714 [1:42:54<09:32,  2.04it/s] 89%|████████▉ | 9547/10714 [1:42:54<09:31,  2.04it/s] 89%|████████▉ | 9548/10714 [1:42:55<09:30,  2.04it/s] 89%|████████▉ | 9549/10714 [1:42:55<09:29,  2.05it/s] 89%|████████▉ | 9550/10714 [1:42:56<09:29,  2.04it/s]{'loss': 3.3479, 'grad_norm': 0.2006266862154007, 'learning_rate': 3.553035622890205e-05, 'epoch': 0.89}                                                      
- 89%|████████▉ | 9550/10714 [1:42:56<09:29,  2.04it/s] 89%|████████▉ | 9551/10714 [1:42:56<09:29,  2.04it/s] 89%|████████▉ | 9552/10714 [1:42:57<09:28,  2.04it/s] 89%|████████▉ | 9553/10714 [1:42:57<09:28,  2.04it/s] 89%|████████▉ | 9554/10714 [1:42:58<09:27,  2.04it/s] 89%|████████▉ | 9555/10714 [1:42:58<09:27,  2.04it/s] 89%|████████▉ | 9556/10714 [1:42:59<09:27,  2.04it/s] 89%|████████▉ | 9557/10714 [1:42:59<09:26,  2.04it/s] 89%|████████▉ | 9558/10714 [1:43:00<09:25,  2.04it/s] 89%|████████▉ | 9559/10714 [1:43:00<09:25,  2.04it/s] 89%|████████▉ | 9560/10714 [1:43:01<09:25,  2.04it/s] 89%|████████▉ | 9561/10714 [1:43:01<09:24,  2.04it/s] 89%|████████▉ | 9562/10714 [1:43:02<09:23,  2.04it/s] 89%|████████▉ | 9563/10714 [1:43:02<09:23,  2.04it/s] 89%|████████▉ | 9564/10714 [1:43:03<09:22,  2.04it/s] 89%|████████▉ | 9565/10714 [1:43:03<09:22,  2.04it/s] 89%|████████▉ | 9566/10714 [1:43:04<09:21,  2.04it/s] 89%|████████▉ | 9567/10714 [1:43:04<09:21,  2.04it/s] 89%|████████▉ | 9568/10714 [1:43:05<09:21,  2.04it/s] 89%|████████▉ | 9569/10714 [1:43:05<09:20,  2.04it/s] 89%|████████▉ | 9570/10714 [1:43:06<09:19,  2.04it/s] 89%|████████▉ | 9571/10714 [1:43:06<09:18,  2.05it/s] 89%|████████▉ | 9572/10714 [1:43:07<09:17,  2.05it/s] 89%|████████▉ | 9573/10714 [1:43:07<09:18,  2.04it/s] 89%|████████▉ | 9574/10714 [1:43:08<10:51,  1.75it/s] 89%|████████▉ | 9575/10714 [1:43:08<10:22,  1.83it/s]{'loss': 3.3498, 'grad_norm': 0.1948370486497879, 'learning_rate': 3.403790163756992e-05, 'epoch': 0.89}
-                                                       89%|████████▉ | 9575/10714 [1:43:08<10:22,  1.83it/s] 89%|████████▉ | 9576/10714 [1:43:09<10:03,  1.88it/s] 89%|████████▉ | 9577/10714 [1:43:09<09:48,  1.93it/s] 89%|████████▉ | 9578/10714 [1:43:10<09:38,  1.96it/s] 89%|████████▉ | 9579/10714 [1:43:10<09:32,  1.98it/s] 89%|████████▉ | 9580/10714 [1:43:11<09:27,  2.00it/s] 89%|████████▉ | 9581/10714 [1:43:11<09:22,  2.01it/s] 89%|████████▉ | 9582/10714 [1:43:12<09:20,  2.02it/s] 89%|████████▉ | 9583/10714 [1:43:12<09:17,  2.03it/s] 89%|████████▉ | 9584/10714 [1:43:13<09:16,  2.03it/s] 89%|████████▉ | 9585/10714 [1:43:13<09:14,  2.04it/s] 89%|████████▉ | 9586/10714 [1:43:14<09:13,  2.04it/s] 89%|████████▉ | 9587/10714 [1:43:14<09:12,  2.04it/s] 89%|████████▉ | 9588/10714 [1:43:15<09:12,  2.04it/s] 89%|████████▉ | 9589/10714 [1:43:15<09:11,  2.04it/s] 90%|████████▉ | 9590/10714 [1:43:16<09:10,  2.04it/s] 90%|████████▉ | 9591/10714 [1:43:16<09:10,  2.04it/s] 90%|████████▉ | 9592/10714 [1:43:17<09:09,  2.04it/s] 90%|████████▉ | 9593/10714 [1:43:17<09:08,  2.04it/s] 90%|████████▉ | 9594/10714 [1:43:18<09:08,  2.04it/s] 90%|████████▉ | 9595/10714 [1:43:18<09:07,  2.04it/s] 90%|████████▉ | 9596/10714 [1:43:19<09:07,  2.04it/s] 90%|████████▉ | 9597/10714 [1:43:19<09:06,  2.04it/s] 90%|████████▉ | 9598/10714 [1:43:20<09:06,  2.04it/s] 90%|████████▉ | 9599/10714 [1:43:20<09:06,  2.04it/s] 90%|████████▉ | 9600/10714 [1:43:21<09:05,  2.04it/s]{'loss': 3.3525, 'grad_norm': 0.19337140023708344, 'learning_rate': 3.257636378664935e-05, 'epoch': 0.9}
-                                                       90%|████████▉ | 9600/10714 [1:43:21<09:05,  2.04it/s] 90%|████████▉ | 9601/10714 [1:43:21<09:05,  2.04it/s] 90%|████████▉ | 9602/10714 [1:43:22<09:04,  2.04it/s] 90%|████████▉ | 9603/10714 [1:43:22<09:03,  2.04it/s] 90%|████████▉ | 9604/10714 [1:43:23<09:03,  2.04it/s] 90%|████████▉ | 9605/10714 [1:43:23<09:02,  2.04it/s] 90%|████████▉ | 9606/10714 [1:43:24<09:02,  2.04it/s] 90%|████████▉ | 9607/10714 [1:43:24<09:01,  2.04it/s] 90%|████████▉ | 9608/10714 [1:43:25<09:00,  2.04it/s] 90%|████████▉ | 9609/10714 [1:43:25<09:00,  2.04it/s] 90%|████████▉ | 9610/10714 [1:43:26<08:59,  2.05it/s] 90%|████████▉ | 9611/10714 [1:43:26<08:59,  2.05it/s] 90%|████████▉ | 9612/10714 [1:43:27<08:59,  2.04it/s] 90%|████████▉ | 9613/10714 [1:43:27<08:59,  2.04it/s] 90%|████████▉ | 9614/10714 [1:43:28<08:57,  2.04it/s] 90%|████████▉ | 9615/10714 [1:43:28<08:56,  2.05it/s] 90%|████████▉ | 9616/10714 [1:43:28<08:55,  2.05it/s] 90%|████████▉ | 9617/10714 [1:43:29<08:56,  2.04it/s] 90%|████████▉ | 9618/10714 [1:43:29<08:56,  2.04it/s] 90%|████████▉ | 9619/10714 [1:43:30<08:55,  2.04it/s] 90%|████████▉ | 9620/10714 [1:43:30<08:54,  2.05it/s] 90%|████████▉ | 9621/10714 [1:43:31<08:54,  2.04it/s] 90%|████████▉ | 9622/10714 [1:43:31<08:54,  2.04it/s] 90%|████████▉ | 9623/10714 [1:43:32<08:53,  2.04it/s] 90%|████████▉ | 9624/10714 [1:43:32<08:52,  2.05it/s] 90%|████████▉ | 9625/10714 [1:43:33<08:51,  2.05it/s]{'loss': 3.3555, 'grad_norm': 0.19783975183963776, 'learning_rate': 3.114583964966311e-05, 'epoch': 0.9}
-                                                       90%|████████▉ | 9625/10714 [1:43:33<08:51,  2.05it/s] 90%|████████▉ | 9626/10714 [1:43:33<08:52,  2.04it/s] 90%|████████▉ | 9627/10714 [1:43:34<08:52,  2.04it/s] 90%|████████▉ | 9628/10714 [1:43:34<08:51,  2.04it/s] 90%|████████▉ | 9629/10714 [1:43:35<08:51,  2.04it/s] 90%|████████▉ | 9630/10714 [1:43:35<08:50,  2.04it/s] 90%|████████▉ | 9631/10714 [1:43:36<08:50,  2.04it/s] 90%|████████▉ | 9632/10714 [1:43:36<08:48,  2.05it/s] 90%|████████▉ | 9633/10714 [1:43:37<08:47,  2.05it/s] 90%|████████▉ | 9634/10714 [1:43:37<08:47,  2.05it/s] 90%|████████▉ | 9635/10714 [1:43:38<08:47,  2.04it/s] 90%|████████▉ | 9636/10714 [1:43:38<08:47,  2.04it/s] 90%|████████▉ | 9637/10714 [1:43:39<08:47,  2.04it/s] 90%|████████▉ | 9638/10714 [1:43:39<08:46,  2.04it/s] 90%|████████▉ | 9639/10714 [1:43:40<08:46,  2.04it/s] 90%|████████▉ | 9640/10714 [1:43:40<08:45,  2.04it/s] 90%|████████▉ | 9641/10714 [1:43:41<08:44,  2.04it/s] 90%|████████▉ | 9642/10714 [1:43:41<08:44,  2.05it/s] 90%|█████████ | 9643/10714 [1:43:42<08:43,  2.05it/s] 90%|█████████ | 9644/10714 [1:43:42<08:44,  2.04it/s] 90%|█████████ | 9645/10714 [1:43:43<08:43,  2.04it/s] 90%|█████████ | 9646/10714 [1:43:43<08:41,  2.05it/s] 90%|█████████ | 9647/10714 [1:43:44<08:41,  2.05it/s] 90%|█████████ | 9648/10714 [1:43:44<08:41,  2.05it/s] 90%|█████████ | 9649/10714 [1:43:45<08:40,  2.05it/s] 90%|█████████ | 9650/10714 [1:43:45<08:39,  2.05it/s]{'loss': 3.3496, 'grad_norm': 0.20331090688705444, 'learning_rate': 2.974642414236439e-05, 'epoch': 0.9}                                                      
- 90%|█████████ | 9650/10714 [1:43:45<08:39,  2.05it/s] 90%|█████████ | 9651/10714 [1:43:46<08:39,  2.05it/s] 90%|█████████ | 9652/10714 [1:43:46<08:39,  2.04it/s] 90%|█████████ | 9653/10714 [1:43:47<08:39,  2.04it/s] 90%|█████████ | 9654/10714 [1:43:47<08:39,  2.04it/s] 90%|█████████ | 9655/10714 [1:43:48<08:38,  2.04it/s] 90%|█████████ | 9656/10714 [1:43:48<08:37,  2.05it/s] 90%|█████████ | 9657/10714 [1:43:49<08:36,  2.05it/s] 90%|█████████ | 9658/10714 [1:43:49<08:36,  2.04it/s] 90%|█████████ | 9659/10714 [1:43:50<08:36,  2.04it/s] 90%|█████████ | 9660/10714 [1:43:50<08:36,  2.04it/s] 90%|█████████ | 9661/10714 [1:43:50<08:36,  2.04it/s] 90%|█████████ | 9662/10714 [1:43:51<08:35,  2.04it/s] 90%|█████████ | 9663/10714 [1:43:51<08:34,  2.04it/s] 90%|█████████ | 9664/10714 [1:43:52<08:33,  2.04it/s] 90%|█████████ | 9665/10714 [1:43:52<08:33,  2.04it/s] 90%|█████████ | 9666/10714 [1:43:53<08:33,  2.04it/s] 90%|█████████ | 9667/10714 [1:43:53<08:32,  2.04it/s] 90%|█████████ | 9668/10714 [1:43:54<08:31,  2.04it/s] 90%|█████████ | 9669/10714 [1:43:54<08:31,  2.04it/s] 90%|█████████ | 9670/10714 [1:43:55<08:31,  2.04it/s] 90%|█████████ | 9671/10714 [1:43:55<08:31,  2.04it/s] 90%|█████████ | 9672/10714 [1:43:56<08:30,  2.04it/s] 90%|█████████ | 9673/10714 [1:43:56<08:29,  2.04it/s] 90%|█████████ | 9674/10714 [1:43:57<08:29,  2.04it/s] 90%|█████████ | 9675/10714 [1:43:57<08:28,  2.04it/s]                                                      {'loss': 3.349, 'grad_norm': 0.1940516233444214, 'learning_rate': 2.8378210116438207e-05, 'epoch': 0.9}
- 90%|█████████ | 9675/10714 [1:43:57<08:28,  2.04it/s] 90%|█████████ | 9676/10714 [1:43:58<08:29,  2.04it/s] 90%|█████████ | 9677/10714 [1:43:58<08:29,  2.03it/s] 90%|█████████ | 9678/10714 [1:43:59<08:28,  2.04it/s] 90%|█████████ | 9679/10714 [1:43:59<08:27,  2.04it/s] 90%|█████████ | 9680/10714 [1:44:00<08:26,  2.04it/s] 90%|█████████ | 9681/10714 [1:44:00<08:25,  2.04it/s] 90%|█████████ | 9682/10714 [1:44:01<08:25,  2.04it/s] 90%|█████████ | 9683/10714 [1:44:01<08:24,  2.04it/s] 90%|█████████ | 9684/10714 [1:44:02<08:24,  2.04it/s] 90%|█████████ | 9685/10714 [1:44:02<08:23,  2.04it/s] 90%|█████████ | 9686/10714 [1:44:03<08:23,  2.04it/s] 90%|█████████ | 9687/10714 [1:44:03<08:22,  2.04it/s] 90%|█████████ | 9688/10714 [1:44:04<08:22,  2.04it/s] 90%|█████████ | 9689/10714 [1:44:04<08:21,  2.04it/s] 90%|█████████ | 9690/10714 [1:44:05<08:20,  2.04it/s] 90%|█████████ | 9691/10714 [1:44:05<08:20,  2.05it/s] 90%|█████████ | 9692/10714 [1:44:06<08:20,  2.04it/s] 90%|█████████ | 9693/10714 [1:44:06<08:20,  2.04it/s] 90%|█████████ | 9694/10714 [1:44:07<08:20,  2.04it/s] 90%|█████████ | 9695/10714 [1:44:07<08:19,  2.04it/s] 90%|█████████ | 9696/10714 [1:44:08<08:18,  2.04it/s] 91%|█████████ | 9697/10714 [1:44:08<08:18,  2.04it/s] 91%|█████████ | 9698/10714 [1:44:09<08:17,  2.04it/s] 91%|█████████ | 9699/10714 [1:44:09<08:17,  2.04it/s] 91%|█████████ | 9700/10714 [1:44:10<08:16,  2.04it/s]{'loss': 3.3486, 'grad_norm': 0.19918730854988098, 'learning_rate': 2.704128835334052e-05, 'epoch': 0.91}                                                      
- 91%|█████████ | 9700/10714 [1:44:10<08:16,  2.04it/s] 91%|█████████ | 9701/10714 [1:44:10<08:16,  2.04it/s] 91%|█████████ | 9702/10714 [1:44:11<08:15,  2.04it/s] 91%|█████████ | 9703/10714 [1:44:11<08:15,  2.04it/s] 91%|█████████ | 9704/10714 [1:44:12<08:15,  2.04it/s] 91%|█████████ | 9705/10714 [1:44:12<08:14,  2.04it/s] 91%|█████████ | 9706/10714 [1:44:13<08:13,  2.04it/s] 91%|█████████ | 9707/10714 [1:44:13<08:12,  2.04it/s] 91%|█████████ | 9708/10714 [1:44:14<08:12,  2.04it/s] 91%|█████████ | 9709/10714 [1:44:14<08:12,  2.04it/s] 91%|█████████ | 9710/10714 [1:44:14<08:11,  2.04it/s] 91%|█████████ | 9711/10714 [1:44:15<08:11,  2.04it/s] 91%|█████████ | 9712/10714 [1:44:15<08:11,  2.04it/s] 91%|█████████ | 9713/10714 [1:44:16<08:10,  2.04it/s] 91%|█████████ | 9714/10714 [1:44:16<08:09,  2.04it/s] 91%|█████████ | 9715/10714 [1:44:17<08:09,  2.04it/s] 91%|█████████ | 9716/10714 [1:44:17<08:08,  2.04it/s] 91%|█████████ | 9717/10714 [1:44:18<08:08,  2.04it/s] 91%|█████████ | 9718/10714 [1:44:18<08:07,  2.04it/s] 91%|█████████ | 9719/10714 [1:44:19<08:07,  2.04it/s] 91%|█████████ | 9720/10714 [1:44:19<08:06,  2.04it/s] 91%|█████████ | 9721/10714 [1:44:20<08:05,  2.04it/s] 91%|█████████ | 9722/10714 [1:44:20<08:05,  2.04it/s] 91%|█████████ | 9723/10714 [1:44:21<08:04,  2.04it/s] 91%|█████████ | 9724/10714 [1:44:21<08:04,  2.05it/s] 91%|█████████ | 9725/10714 [1:44:22<08:04,  2.04it/s]                                                      {'loss': 3.3463, 'grad_norm': 0.20365473628044128, 'learning_rate': 2.5735747558275956e-05, 'epoch': 0.91}
- 91%|█████████ | 9725/10714 [1:44:22<08:04,  2.04it/s] 91%|█████████ | 9726/10714 [1:44:22<08:04,  2.04it/s] 91%|█████████ | 9727/10714 [1:44:23<08:03,  2.04it/s] 91%|█████████ | 9728/10714 [1:44:23<08:03,  2.04it/s] 91%|█████████ | 9729/10714 [1:44:24<08:02,  2.04it/s] 91%|█████████ | 9730/10714 [1:44:24<08:02,  2.04it/s] 91%|█████████ | 9731/10714 [1:44:25<08:01,  2.04it/s] 91%|█████████ | 9732/10714 [1:44:25<08:00,  2.04it/s] 91%|█████████ | 9733/10714 [1:44:26<08:00,  2.04it/s] 91%|█████████ | 9734/10714 [1:44:26<07:59,  2.04it/s] 91%|█████████ | 9735/10714 [1:44:27<07:59,  2.04it/s] 91%|█████████ | 9736/10714 [1:44:27<07:59,  2.04it/s] 91%|█████████ | 9737/10714 [1:44:28<07:58,  2.04it/s] 91%|█████████ | 9738/10714 [1:44:28<07:58,  2.04it/s] 91%|█████████ | 9739/10714 [1:44:29<07:57,  2.04it/s] 91%|█████████ | 9740/10714 [1:44:29<07:56,  2.04it/s] 91%|█████████ | 9741/10714 [1:44:30<07:56,  2.04it/s] 91%|█████████ | 9742/10714 [1:44:30<07:56,  2.04it/s] 91%|█████████ | 9743/10714 [1:44:31<07:55,  2.04it/s] 91%|█████████ | 9744/10714 [1:44:31<07:54,  2.04it/s] 91%|█████████ | 9745/10714 [1:44:32<07:54,  2.04it/s] 91%|█████████ | 9746/10714 [1:44:32<07:53,  2.05it/s] 91%|█████████ | 9747/10714 [1:44:33<07:53,  2.04it/s] 91%|█████████ | 9748/10714 [1:44:33<07:52,  2.04it/s] 91%|█████████ | 9749/10714 [1:44:34<07:52,  2.04it/s] 91%|█████████ | 9750/10714 [1:44:34<07:52,  2.04it/s]{'loss': 3.3492, 'grad_norm': 0.19752421975135803, 'learning_rate': 2.4461674354310736e-05, 'epoch': 0.91}
-                                                       91%|█████████ | 9750/10714 [1:44:34<07:52,  2.04it/s] 91%|█████████ | 9751/10714 [1:44:35<07:52,  2.04it/s] 91%|█████████ | 9752/10714 [1:44:35<07:51,  2.04it/s] 91%|█████████ | 9753/10714 [1:44:36<07:51,  2.04it/s] 91%|█████████ | 9754/10714 [1:44:36<07:51,  2.04it/s] 91%|█████████ | 9755/10714 [1:44:37<07:50,  2.04it/s] 91%|█████████ | 9756/10714 [1:44:37<07:49,  2.04it/s] 91%|█████████ | 9757/10714 [1:44:38<07:49,  2.04it/s] 91%|█████████ | 9758/10714 [1:44:38<07:48,  2.04it/s] 91%|█████████ | 9759/10714 [1:44:38<07:47,  2.04it/s] 91%|█████████ | 9760/10714 [1:44:39<07:47,  2.04it/s] 91%|█████████ | 9761/10714 [1:44:39<07:47,  2.04it/s] 91%|█████████ | 9762/10714 [1:44:40<07:46,  2.04it/s] 91%|█████████ | 9763/10714 [1:44:40<07:45,  2.04it/s] 91%|█████████ | 9764/10714 [1:44:41<07:44,  2.04it/s] 91%|█████████ | 9765/10714 [1:44:41<07:44,  2.04it/s] 91%|█████████ | 9766/10714 [1:44:42<07:44,  2.04it/s] 91%|█████████ | 9767/10714 [1:44:42<07:43,  2.04it/s] 91%|█████████ | 9768/10714 [1:44:43<07:42,  2.04it/s] 91%|█████████ | 9769/10714 [1:44:43<07:42,  2.04it/s] 91%|█████████ | 9770/10714 [1:44:44<07:42,  2.04it/s] 91%|█████████ | 9771/10714 [1:44:44<07:41,  2.05it/s] 91%|█████████ | 9772/10714 [1:44:45<07:40,  2.05it/s] 91%|█████████ | 9773/10714 [1:44:45<07:39,  2.05it/s] 91%|█████████ | 9774/10714 [1:44:46<07:39,  2.04it/s] 91%|█████████ | 9775/10714 [1:44:46<07:39,  2.04it/s]{'loss': 3.3606, 'grad_norm': 0.1970982849597931, 'learning_rate': 2.321915327662649e-05, 'epoch': 0.91}                                                      
- 91%|█████████ | 9775/10714 [1:44:46<07:39,  2.04it/s] 91%|█████████ | 9776/10714 [1:44:47<07:39,  2.04it/s] 91%|█████████▏| 9777/10714 [1:44:47<07:39,  2.04it/s] 91%|█████████▏| 9778/10714 [1:44:48<07:38,  2.04it/s] 91%|█████████▏| 9779/10714 [1:44:48<07:37,  2.04it/s] 91%|█████████▏| 9780/10714 [1:44:49<07:36,  2.04it/s] 91%|█████████▏| 9781/10714 [1:44:49<07:36,  2.04it/s] 91%|█████████▏| 9782/10714 [1:44:50<07:36,  2.04it/s] 91%|█████████▏| 9783/10714 [1:44:50<07:35,  2.04it/s] 91%|█████████▏| 9784/10714 [1:44:51<07:35,  2.04it/s] 91%|█████████▏| 9785/10714 [1:44:51<07:34,  2.04it/s] 91%|█████████▏| 9786/10714 [1:44:52<07:34,  2.04it/s] 91%|█████████▏| 9787/10714 [1:44:52<07:34,  2.04it/s] 91%|█████████▏| 9788/10714 [1:44:53<07:33,  2.04it/s] 91%|█████████▏| 9789/10714 [1:44:53<07:32,  2.04it/s] 91%|█████████▏| 9790/10714 [1:44:54<07:32,  2.04it/s] 91%|█████████▏| 9791/10714 [1:44:54<07:31,  2.04it/s] 91%|█████████▏| 9792/10714 [1:44:55<07:31,  2.04it/s] 91%|█████████▏| 9793/10714 [1:44:55<07:31,  2.04it/s] 91%|█████████▏| 9794/10714 [1:44:56<07:31,  2.04it/s] 91%|█████████▏| 9795/10714 [1:44:56<07:30,  2.04it/s] 91%|█████████▏| 9796/10714 [1:44:57<07:29,  2.04it/s] 91%|█████████▏| 9797/10714 [1:44:57<07:29,  2.04it/s] 91%|█████████▏| 9798/10714 [1:44:58<07:28,  2.04it/s] 91%|█████████▏| 9799/10714 [1:44:58<07:28,  2.04it/s] 91%|█████████▏| 9800/10714 [1:44:59<07:27,  2.04it/s]{'loss': 3.3426, 'grad_norm': 0.19335314631462097, 'learning_rate': 2.200826676691048e-05, 'epoch': 0.91}
-                                                       91%|█████████▏| 9800/10714 [1:44:59<07:27,  2.04it/s] 91%|█████████▏| 9801/10714 [1:44:59<07:27,  2.04it/s] 91%|█████████▏| 9802/10714 [1:45:00<07:27,  2.04it/s] 91%|█████████▏| 9803/10714 [1:45:00<07:26,  2.04it/s] 92%|█████████▏| 9804/10714 [1:45:01<07:25,  2.04it/s] 92%|█████████▏| 9805/10714 [1:45:01<07:24,  2.04it/s] 92%|█████████▏| 9806/10714 [1:45:02<07:24,  2.04it/s] 92%|█████████▏| 9807/10714 [1:45:02<07:24,  2.04it/s] 92%|█████████▏| 9808/10714 [1:45:02<07:23,  2.04it/s] 92%|█████████▏| 9809/10714 [1:45:03<07:23,  2.04it/s] 92%|█████████▏| 9810/10714 [1:45:03<07:23,  2.04it/s] 92%|█████████▏| 9811/10714 [1:45:04<07:22,  2.04it/s] 92%|█████████▏| 9812/10714 [1:45:04<07:22,  2.04it/s] 92%|█████████▏| 9813/10714 [1:45:05<07:21,  2.04it/s] 92%|█████████▏| 9814/10714 [1:45:05<07:20,  2.04it/s] 92%|█████████▏| 9815/10714 [1:45:06<07:20,  2.04it/s] 92%|█████████▏| 9816/10714 [1:45:06<07:19,  2.04it/s] 92%|█████████▏| 9817/10714 [1:45:07<07:18,  2.04it/s] 92%|█████████▏| 9818/10714 [1:45:07<07:18,  2.04it/s] 92%|█████████▏| 9819/10714 [1:45:08<07:18,  2.04it/s] 92%|█████████▏| 9820/10714 [1:45:08<07:17,  2.04it/s] 92%|█████████▏| 9821/10714 [1:45:09<07:17,  2.04it/s] 92%|█████████▏| 9822/10714 [1:45:09<07:16,  2.04it/s] 92%|█████████▏| 9823/10714 [1:45:10<07:16,  2.04it/s] 92%|█████████▏| 9824/10714 [1:45:10<07:15,  2.04it/s] 92%|█████████▏| 9825/10714 [1:45:11<07:15,  2.04it/s]{'loss': 3.3546, 'grad_norm': 0.1929549276828766, 'learning_rate': 2.0829095167885782e-05, 'epoch': 0.92}
-                                                       92%|█████████▏| 9825/10714 [1:45:11<07:15,  2.04it/s] 92%|█████████▏| 9826/10714 [1:45:11<07:15,  2.04it/s] 92%|█████████▏| 9827/10714 [1:45:12<07:14,  2.04it/s] 92%|█████████▏| 9828/10714 [1:45:12<07:14,  2.04it/s] 92%|█████████▏| 9829/10714 [1:45:13<07:13,  2.04it/s] 92%|█████████▏| 9830/10714 [1:45:13<07:12,  2.04it/s] 92%|█████████▏| 9831/10714 [1:45:14<07:11,  2.04it/s] 92%|█████████▏| 9832/10714 [1:45:14<07:11,  2.04it/s] 92%|█████████▏| 9833/10714 [1:45:15<07:11,  2.04it/s] 92%|█████████▏| 9834/10714 [1:45:15<07:10,  2.04it/s] 92%|█████████▏| 9835/10714 [1:45:16<07:10,  2.04it/s] 92%|█████████▏| 9836/10714 [1:45:16<07:10,  2.04it/s] 92%|█████████▏| 9837/10714 [1:45:17<07:09,  2.04it/s] 92%|█████████▏| 9838/10714 [1:45:17<07:09,  2.04it/s] 92%|█████████▏| 9839/10714 [1:45:18<07:08,  2.04it/s] 92%|█████████▏| 9840/10714 [1:45:18<07:08,  2.04it/s] 92%|█████████▏| 9841/10714 [1:45:19<07:07,  2.04it/s] 92%|█████████▏| 9842/10714 [1:45:19<07:07,  2.04it/s] 92%|█████████▏| 9843/10714 [1:45:20<07:06,  2.04it/s] 92%|█████████▏| 9844/10714 [1:45:20<07:06,  2.04it/s] 92%|█████████▏| 9845/10714 [1:45:21<07:05,  2.04it/s] 92%|█████████▏| 9846/10714 [1:45:21<07:05,  2.04it/s] 92%|█████████▏| 9847/10714 [1:45:22<07:04,  2.04it/s] 92%|█████████▏| 9848/10714 [1:45:22<07:04,  2.04it/s] 92%|█████████▏| 9849/10714 [1:45:23<07:03,  2.04it/s] 92%|█████████▏| 9850/10714 [1:45:23<07:03,  2.04it/s]                                                      {'loss': 3.3569, 'grad_norm': 0.19372910261154175, 'learning_rate': 1.9681716717980856e-05, 'epoch': 0.92}
- 92%|█████████▏| 9850/10714 [1:45:23<07:03,  2.04it/s] 92%|█████████▏| 9851/10714 [1:45:24<07:04,  2.03it/s] 92%|█████████▏| 9852/10714 [1:45:24<07:02,  2.04it/s] 92%|█████████▏| 9853/10714 [1:45:25<07:02,  2.04it/s] 92%|█████████▏| 9854/10714 [1:45:25<07:01,  2.04it/s] 92%|█████████▏| 9855/10714 [1:45:26<07:01,  2.04it/s] 92%|█████████▏| 9856/10714 [1:45:26<07:00,  2.04it/s] 92%|█████████▏| 9857/10714 [1:45:26<06:59,  2.04it/s] 92%|█████████▏| 9858/10714 [1:45:27<06:58,  2.04it/s] 92%|█████████▏| 9859/10714 [1:45:27<06:58,  2.04it/s] 92%|█████████▏| 9860/10714 [1:45:28<06:58,  2.04it/s] 92%|█████████▏| 9861/10714 [1:45:28<06:57,  2.05it/s] 92%|█████████▏| 9862/10714 [1:45:29<06:56,  2.04it/s] 92%|█████████▏| 9863/10714 [1:45:29<06:56,  2.04it/s] 92%|█████████▏| 9864/10714 [1:45:30<06:55,  2.04it/s] 92%|█████████▏| 9865/10714 [1:45:30<06:55,  2.04it/s] 92%|█████████▏| 9866/10714 [1:45:31<06:54,  2.05it/s] 92%|█████████▏| 9867/10714 [1:45:31<06:54,  2.04it/s] 92%|█████████▏| 9868/10714 [1:45:32<06:54,  2.04it/s] 92%|█████████▏| 9869/10714 [1:45:32<06:53,  2.04it/s] 92%|█████████▏| 9870/10714 [1:45:33<06:52,  2.04it/s] 92%|█████████▏| 9871/10714 [1:45:33<06:52,  2.04it/s] 92%|█████████▏| 9872/10714 [1:45:34<06:51,  2.04it/s] 92%|█████████▏| 9873/10714 [1:45:34<06:51,  2.04it/s] 92%|█████████▏| 9874/10714 [1:45:35<06:51,  2.04it/s] 92%|█████████▏| 9875/10714 [1:45:35<06:50,  2.04it/s]                                                      {'loss': 3.3392, 'grad_norm': 0.19519606232643127, 'learning_rate': 1.8566207546137914e-05, 'epoch': 0.92}
- 92%|█████████▏| 9875/10714 [1:45:35<06:50,  2.04it/s] 92%|█████████▏| 9876/10714 [1:45:36<06:50,  2.04it/s] 92%|█████████▏| 9877/10714 [1:45:36<06:50,  2.04it/s] 92%|█████████▏| 9878/10714 [1:45:37<06:49,  2.04it/s] 92%|█████████▏| 9879/10714 [1:45:37<06:48,  2.04it/s] 92%|█████████▏| 9880/10714 [1:45:38<06:48,  2.04it/s] 92%|█████████▏| 9881/10714 [1:45:38<06:47,  2.04it/s] 92%|█████████▏| 9882/10714 [1:45:39<06:46,  2.05it/s] 92%|█████████▏| 9883/10714 [1:45:39<06:46,  2.05it/s] 92%|█████████▏| 9884/10714 [1:45:40<06:46,  2.04it/s] 92%|█████████▏| 9885/10714 [1:45:40<06:45,  2.04it/s] 92%|█████████▏| 9886/10714 [1:45:41<06:45,  2.04it/s] 92%|█████████▏| 9887/10714 [1:45:41<06:44,  2.05it/s] 92%|█████████▏| 9888/10714 [1:45:42<06:43,  2.05it/s] 92%|█████████▏| 9889/10714 [1:45:42<06:43,  2.05it/s] 92%|█████████▏| 9890/10714 [1:45:43<06:43,  2.04it/s] 92%|█████████▏| 9891/10714 [1:45:43<06:42,  2.04it/s] 92%|█████████▏| 9892/10714 [1:45:44<06:42,  2.04it/s] 92%|█████████▏| 9893/10714 [1:45:44<06:42,  2.04it/s] 92%|█████████▏| 9894/10714 [1:45:45<06:42,  2.04it/s] 92%|███████���█▏| 9895/10714 [1:45:45<06:41,  2.04it/s] 92%|█████████▏| 9896/10714 [1:45:46<06:40,  2.04it/s] 92%|█████████▏| 9897/10714 [1:45:46<06:39,  2.04it/s] 92%|█████████▏| 9898/10714 [1:45:47<06:39,  2.04it/s] 92%|█████████▏| 9899/10714 [1:45:47<06:38,  2.04it/s] 92%|█████████▏| 9900/10714 [1:45:48<06:38,  2.04it/s]{'loss': 3.3516, 'grad_norm': 0.19439980387687683, 'learning_rate': 1.7482641666762055e-05, 'epoch': 0.92}
-                                                       92%|█████████▏| 9900/10714 [1:45:48<06:38,  2.04it/s] 92%|█████████▏| 9901/10714 [1:45:48<06:39,  2.04it/s] 92%|█████████▏| 9902/10714 [1:45:49<06:38,  2.04it/s] 92%|█████████▏| 9903/10714 [1:45:49<06:38,  2.04it/s] 92%|█████████▏| 9904/10714 [1:45:50<06:37,  2.04it/s] 92%|█████████▏| 9905/10714 [1:45:50<06:37,  2.04it/s] 92%|█████████▏| 9906/10714 [1:45:50<06:36,  2.04it/s] 92%|█████████▏| 9907/10714 [1:45:51<06:35,  2.04it/s] 92%|█████████▏| 9908/10714 [1:45:51<06:34,  2.04it/s] 92%|█████████▏| 9909/10714 [1:45:52<06:34,  2.04it/s] 92%|█████████▏| 9910/10714 [1:45:52<06:33,  2.04it/s] 93%|█████████▎| 9911/10714 [1:45:53<06:33,  2.04it/s] 93%|█████████▎| 9912/10714 [1:45:53<06:32,  2.04it/s] 93%|█████████▎| 9913/10714 [1:45:54<06:32,  2.04it/s] 93%|█████████▎| 9914/10714 [1:45:54<06:31,  2.04it/s] 93%|█████████▎| 9915/10714 [1:45:55<06:31,  2.04it/s] 93%|█████████▎| 9916/10714 [1:45:55<06:30,  2.04it/s] 93%|█████████▎| 9917/10714 [1:45:56<06:30,  2.04it/s] 93%|█████████▎| 9918/10714 [1:45:56<06:29,  2.04it/s] 93%|█████████▎| 9919/10714 [1:45:57<06:29,  2.04it/s] 93%|█████████▎| 9920/10714 [1:45:57<06:28,  2.04it/s] 93%|█████████▎| 9921/10714 [1:45:58<06:28,  2.04it/s] 93%|█████████▎| 9922/10714 [1:45:58<06:27,  2.04it/s] 93%|█████████▎| 9923/10714 [1:45:59<06:27,  2.04it/s] 93%|█████████▎| 9924/10714 [1:45:59<06:26,  2.04it/s] 93%|█████████▎| 9925/10714 [1:46:00<06:26,  2.04it/s]{'loss': 3.3545, 'grad_norm': 0.1952393352985382, 'learning_rate': 1.643109097481027e-05, 'epoch': 0.93}
-                                                       93%|█████████▎| 9925/10714 [1:46:00<06:26,  2.04it/s] 93%|█████████▎| 9926/10714 [1:46:00<06:26,  2.04it/s] 93%|█████████▎| 9927/10714 [1:46:01<06:25,  2.04it/s] 93%|█████████▎| 9928/10714 [1:46:01<06:25,  2.04it/s] 93%|█████████▎| 9929/10714 [1:46:02<06:24,  2.04it/s] 93%|█████████▎| 9930/10714 [1:46:02<06:24,  2.04it/s] 93%|█████████▎| 9931/10714 [1:46:03<06:23,  2.04it/s] 93%|█████████▎| 9932/10714 [1:46:03<06:23,  2.04it/s] 93%|█████████▎| 9933/10714 [1:46:04<06:22,  2.04it/s] 93%|█████████▎| 9934/10714 [1:46:04<06:21,  2.04it/s] 93%|█████████▎| 9935/10714 [1:46:05<06:22,  2.04it/s] 93%|█████████▎| 9936/10714 [1:46:05<06:21,  2.04it/s] 93%|█████████▎| 9937/10714 [1:46:06<06:21,  2.04it/s] 93%|█████████▎| 9938/10714 [1:46:06<06:19,  2.04it/s] 93%|█████████▎| 9939/10714 [1:46:07<06:19,  2.04it/s] 93%|█████████▎| 9940/10714 [1:46:07<06:18,  2.04it/s] 93%|█████████▎| 9941/10714 [1:46:08<06:18,  2.04it/s] 93%|█████████▎| 9942/10714 [1:46:08<06:18,  2.04it/s] 93%|█████████▎| 9943/10714 [1:46:09<06:17,  2.04it/s] 93%|█████████▎| 9944/10714 [1:46:09<06:16,  2.04it/s] 93%|█████████▎| 9945/10714 [1:46:10<06:16,  2.04it/s] 93%|█████████▎| 9946/10714 [1:46:10<06:16,  2.04it/s] 93%|█████████▎| 9947/10714 [1:46:11<06:15,  2.04it/s] 93%|█████████▎| 9948/10714 [1:46:11<06:14,  2.04it/s] 93%|█████████▎| 9949/10714 [1:46:12<06:14,  2.04it/s] 93%|█████████▎| 9950/10714 [1:46:12<06:14,  2.04it/s]                                                      {'loss': 3.3483, 'grad_norm': 0.19506558775901794, 'learning_rate': 1.541162524102102e-05, 'epoch': 0.93}
- 93%|█████████▎| 9950/10714 [1:46:12<06:14,  2.04it/s] 93%|█████████▎| 9951/10714 [1:46:13<06:13,  2.04it/s] 93%|█████████▎| 9952/10714 [1:46:13<06:13,  2.04it/s] 93%|█████████▎| 9953/10714 [1:46:14<06:12,  2.04it/s] 93%|█████████▎| 9954/10714 [1:46:14<06:12,  2.04it/s] 93%|█████████▎| 9955/10714 [1:46:14<06:11,  2.04it/s] 93%|█████████▎| 9956/10714 [1:46:15<06:10,  2.04it/s] 93%|█████████▎| 9957/10714 [1:46:15<06:10,  2.04it/s] 93%|█████████▎| 9958/10714 [1:46:16<06:09,  2.04it/s] 93%|█████████▎| 9959/10714 [1:46:16<06:09,  2.04it/s] 93%|█████████▎| 9960/10714 [1:46:17<06:08,  2.04it/s] 93%|█████████▎| 9961/10714 [1:46:17<06:08,  2.04it/s] 93%|█████████▎| 9962/10714 [1:46:18<06:08,  2.04it/s] 93%|█████████▎| 9963/10714 [1:46:18<06:07,  2.04it/s] 93%|█████████▎| 9964/10714 [1:46:19<06:07,  2.04it/s] 93%|█████████▎| 9965/10714 [1:46:19<06:07,  2.04it/s] 93%|█████████▎| 9966/10714 [1:46:20<06:06,  2.04it/s] 93%|█████████▎| 9967/10714 [1:46:20<06:06,  2.04it/s] 93%|█████████▎| 9968/10714 [1:46:21<06:05,  2.04it/s] 93%|█████████▎| 9969/10714 [1:46:21<06:04,  2.04it/s] 93%|█████████▎| 9970/10714 [1:46:22<06:04,  2.04it/s] 93%|█████████▎| 9971/10714 [1:46:22<06:03,  2.04it/s] 93%|█████████▎| 9972/10714 [1:46:23<06:03,  2.04it/s] 93%|█████████▎| 9973/10714 [1:46:23<06:02,  2.04it/s] 93%|█████████▎| 9974/10714 [1:46:24<06:02,  2.04it/s] 93%|█████████▎| 9975/10714 [1:46:24<06:01,  2.04it/s]{'loss': 3.3472, 'grad_norm': 0.1921742558479309, 'learning_rate': 1.4424312107285398e-05, 'epoch': 0.93}                                                      
- 93%|█████████▎| 9975/10714 [1:46:24<06:01,  2.04it/s] 93%|█████████▎| 9976/10714 [1:46:25<06:01,  2.04it/s] 93%|█████████▎| 9977/10714 [1:46:25<06:01,  2.04it/s] 93%|█████████▎| 9978/10714 [1:46:26<06:00,  2.04it/s] 93%|█████████▎| 9979/10714 [1:46:26<06:00,  2.04it/s] 93%|█████████▎| 9980/10714 [1:46:27<05:59,  2.04it/s] 93%|█████████▎| 9981/10714 [1:46:27<05:59,  2.04it/s] 93%|█████████▎| 9982/10714 [1:46:28<05:58,  2.04it/s] 93%|█████████▎| 9983/10714 [1:46:28<05:58,  2.04it/s] 93%|█████████▎| 9984/10714 [1:46:29<05:57,  2.04it/s] 93%|█████████▎| 9985/10714 [1:46:29<05:56,  2.04it/s] 93%|█████████▎| 9986/10714 [1:46:30<05:56,  2.04it/s] 93%|█████████▎| 9987/10714 [1:46:30<05:55,  2.05it/s] 93%|█████████▎| 9988/10714 [1:46:31<05:55,  2.04it/s] 93%|█████████▎| 9989/10714 [1:46:31<05:54,  2.04it/s] 93%|█████████▎| 9990/10714 [1:46:32<05:54,  2.04it/s] 93%|█████████▎| 9991/10714 [1:46:32<05:54,  2.04it/s] 93%|█████████▎| 9992/10714 [1:46:33<05:53,  2.04it/s] 93%|█████████▎| 9993/10714 [1:46:33<05:53,  2.04it/s] 93%|█████████▎| 9994/10714 [1:46:34<05:52,  2.04it/s] 93%|█████████▎| 9995/10714 [1:46:34<05:51,  2.04it/s] 93%|█████████▎| 9996/10714 [1:46:35<05:51,  2.04it/s] 93%|█████████▎| 9997/10714 [1:46:35<05:51,  2.04it/s] 93%|█████████▎| 9998/10714 [1:46:36<05:50,  2.04it/s] 93%|█████████▎| 9999/10714 [1:46:36<05:50,  2.04it/s] 93%|█████████▎| 10000/10714 [1:46:37<05:49,  2.04it/s]                                                       {'loss': 3.3457, 'grad_norm': 0.19677992165088654, 'learning_rate': 1.3469217082158646e-05, 'epoch': 0.93}
- 93%|█████████▎| 10000/10714 [1:46:37<05:49,  2.04it/s] 93%|█████████▎| 10001/10714 [1:46:37<05:49,  2.04it/s] 93%|█████████▎| 10002/10714 [1:46:38<05:48,  2.04it/s] 93%|█████████▎| 10003/10714 [1:46:38<05:48,  2.04it/s] 93%|█████████▎| 10004/10714 [1:46:38<05:48,  2.04it/s] 93%|█████████▎| 10005/10714 [1:46:39<05:47,  2.04it/s] 93%|█████████▎| 10006/10714 [1:46:39<05:46,  2.04it/s] 93%|█████████▎| 10007/10714 [1:46:40<05:46,  2.04it/s] 93%|█████████▎| 10008/10714 [1:46:40<05:46,  2.04it/s] 93%|█████████▎| 10009/10714 [1:46:41<05:45,  2.04it/s] 93%|█████████▎| 10010/10714 [1:46:41<05:44,  2.04it/s] 93%|█████████▎| 10011/10714 [1:46:42<05:44,  2.04it/s] 93%|█████████▎| 10012/10714 [1:46:42<05:43,  2.04it/s] 93%|█████████▎| 10013/10714 [1:46:43<05:43,  2.04it/s] 93%|█████████▎| 10014/10714 [1:46:43<05:42,  2.04it/s] 93%|█████████▎| 10015/10714 [1:46:44<05:42,  2.04it/s] 93%|█████████▎| 10016/10714 [1:46:44<05:41,  2.04it/s] 93%|█████████▎| 10017/10714 [1:46:45<05:41,  2.04it/s] 94%|█████████▎| 10018/10714 [1:46:45<05:40,  2.04it/s] 94%|█████████▎| 10019/10714 [1:46:46<05:40,  2.04it/s] 94%|█████████▎| 10020/10714 [1:46:46<05:39,  2.04it/s] 94%|█████████▎| 10021/10714 [1:46:47<05:39,  2.04it/s] 94%|█████████▎| 10022/10714 [1:46:47<05:38,  2.04it/s] 94%|█████████▎| 10023/10714 [1:46:48<05:37,  2.05it/s] 94%|█████████▎| 10024/10714 [1:46:48<05:37,  2.04it/s] 94%|█████████▎| 10025/10714 [1:46:49<05:37,  2.04it/s]                                                       {'loss': 3.3451, 'grad_norm': 0.19892330467700958, 'learning_rate': 1.2546403536513761e-05, 'epoch': 0.94}
- 94%|█████████▎| 10025/10714 [1:46:49<05:37,  2.04it/s] 94%|█████████▎| 10026/10714 [1:46:49<05:37,  2.04it/s] 94%|█████████▎| 10027/10714 [1:46:50<05:36,  2.04it/s] 94%|█████████▎| 10028/10714 [1:46:50<05:35,  2.05it/s] 94%|█████████▎| 10029/10714 [1:46:51<05:34,  2.04it/s] 94%|█████████▎| 10030/10714 [1:46:51<05:34,  2.04it/s] 94%|█████████▎| 10031/10714 [1:46:52<05:34,  2.04it/s] 94%|█████████▎| 10032/10714 [1:46:52<05:33,  2.04it/s] 94%|█████████▎| 10033/10714 [1:46:53<05:32,  2.05it/s] 94%|█████████▎| 10034/10714 [1:46:53<05:32,  2.04it/s] 94%|█████████▎| 10035/10714 [1:46:54<05:32,  2.04it/s] 94%|█████████▎| 10036/10714 [1:46:54<05:31,  2.04it/s] 94%|█████████▎| 10037/10714 [1:46:55<05:30,  2.05it/s] 94%|█████████▎| 10038/10714 [1:46:55<05:30,  2.04it/s] 94%|█████████▎| 10039/10714 [1:46:56<05:30,  2.04it/s] 94%|█████████▎| 10040/10714 [1:46:56<05:29,  2.04it/s] 94%|█████████▎| 10041/10714 [1:46:57<05:29,  2.05it/s] 94%|█████████▎| 10042/10714 [1:46:57<05:28,  2.05it/s] 94%|█████████▎| 10043/10714 [1:46:58<05:28,  2.04it/s] 94%|█████████▎| 10044/10714 [1:46:58<05:27,  2.04it/s] 94%|█████████▍| 10045/10714 [1:46:59<05:27,  2.04it/s] 94%|█████████▍| 10046/10714 [1:46:59<05:26,  2.04it/s] 94%|█████████▍| 10047/10714 [1:47:00<05:26,  2.04it/s] 94%|█████████▍| 10048/10714 [1:47:00<05:26,  2.04it/s] 94%|█████████▍| 10049/10714 [1:47:01<05:25,  2.04it/s] 94%|█████████▍| 10050/10714 [1:47:01<05:24,  2.04it/s]{'loss': 3.3473, 'grad_norm': 0.1937955766916275, 'learning_rate': 1.1655932699336846e-05, 'epoch': 0.94}                                                       
- 94%|█████████▍| 10050/10714 [1:47:01<05:24,  2.04it/s] 94%|█████████▍| 10051/10714 [1:47:01<05:26,  2.03it/s] 94%|█████████▍| 10052/10714 [1:47:02<05:25,  2.04it/s] 94%|█████████▍| 10053/10714 [1:47:02<05:24,  2.04it/s] 94%|█████████▍| 10054/10714 [1:47:03<05:23,  2.04it/s] 94%|█████████▍| 10055/10714 [1:47:03<05:22,  2.04it/s] 94%|█████████▍| 10056/10714 [1:47:04<05:22,  2.04it/s] 94%|█████████▍| 10057/10714 [1:47:04<05:21,  2.04it/s] 94%|█████████▍| 10058/10714 [1:47:05<05:20,  2.04it/s] 94%|█████████▍| 10059/10714 [1:47:05<05:20,  2.04it/s] 94%|█████████▍| 10060/10714 [1:47:06<05:19,  2.04it/s] 94%|█████████▍| 10061/10714 [1:47:06<05:19,  2.04it/s] 94%|█████████▍| 10062/10714 [1:47:07<05:18,  2.05it/s] 94%|█████████▍| 10063/10714 [1:47:07<05:18,  2.04it/s] 94%|█████████▍| 10064/10714 [1:47:08<05:18,  2.04it/s] 94%|█████████▍| 10065/10714 [1:47:08<05:17,  2.04it/s] 94%|█████████▍| 10066/10714 [1:47:09<05:16,  2.05it/s] 94%|█████████▍| 10067/10714 [1:47:09<05:15,  2.05it/s] 94%|█████████▍| 10068/10714 [1:47:10<05:15,  2.05it/s] 94%|█████████▍| 10069/10714 [1:47:10<05:15,  2.04it/s] 94%|█████████▍| 10070/10714 [1:47:11<05:14,  2.05it/s] 94%|█████████▍| 10071/10714 [1:47:11<05:14,  2.05it/s] 94%|█████████▍| 10072/10714 [1:47:12<05:13,  2.05it/s] 94%|█████████▍| 10073/10714 [1:47:12<05:13,  2.04it/s] 94%|█████████▍| 10074/10714 [1:47:13<05:13,  2.04it/s] 94%|█████████▍| 10075/10714 [1:47:13<05:12,  2.05it/s]                                                       {'loss': 3.3452, 'grad_norm': 0.19406288862228394, 'learning_rate': 1.079786365366442e-05, 'epoch': 0.94}
- 94%|█████████▍| 10075/10714 [1:47:13<05:12,  2.05it/s] 94%|█████████▍| 10076/10714 [1:47:14<05:12,  2.04it/s] 94%|█████████▍| 10077/10714 [1:47:14<05:11,  2.04it/s] 94%|█████████▍| 10078/10714 [1:47:15<05:11,  2.04it/s] 94%|█████████▍| 10079/10714 [1:47:15<05:10,  2.04it/s] 94%|█████████▍| 10080/10714 [1:47:16<05:10,  2.04it/s] 94%|█████████▍| 10081/10714 [1:47:16<05:09,  2.04it/s] 94%|█████████▍| 10082/10714 [1:47:17<05:09,  2.04it/s] 94%|█████████▍| 10083/10714 [1:47:17<05:09,  2.04it/s] 94%|█████████▍| 10084/10714 [1:47:18<05:08,  2.04it/s] 94%|█████████▍| 10085/10714 [1:47:18<05:07,  2.04it/s] 94%|█████████▍| 10086/10714 [1:47:19<05:07,  2.04it/s] 94%|█████████▍| 10087/10714 [1:47:19<05:06,  2.04it/s] 94%|█████████▍| 10088/10714 [1:47:20<05:06,  2.04it/s] 94%|█████████▍| 10089/10714 [1:47:20<05:05,  2.04it/s] 94%|█████████▍| 10090/10714 [1:47:21<05:05,  2.04it/s] 94%|█████████▍| 10091/10714 [1:47:21<05:05,  2.04it/s] 94%|█████████▍| 10092/10714 [1:47:22<05:04,  2.04it/s] 94%|█████████▍| 10093/10714 [1:47:22<05:04,  2.04it/s] 94%|█████████▍| 10094/10714 [1:47:23<05:04,  2.04it/s] 94%|█████████▍| 10095/10714 [1:47:23<05:03,  2.04it/s] 94%|█████████▍| 10096/10714 [1:47:24<05:02,  2.04it/s] 94%|█████████▍| 10097/10714 [1:47:24<05:02,  2.04it/s] 94%|█████████▍| 10098/10714 [1:47:24<05:01,  2.04it/s] 94%|█████████▍| 10099/10714 [1:47:25<05:01,  2.04it/s] 94%|█████████▍| 10100/10714 [1:47:25<05:00,  2.04it/s]{'loss': 3.3382, 'grad_norm': 0.19896046817302704, 'learning_rate': 9.97225333266355e-06, 'epoch': 0.94}
-                                                        94%|█████████▍| 10100/10714 [1:47:25<05:00,  2.04it/s] 94%|█████████▍| 10101/10714 [1:47:26<05:01,  2.04it/s] 94%|█████████▍| 10102/10714 [1:47:26<05:00,  2.04it/s] 94%|█████████▍| 10103/10714 [1:47:27<04:59,  2.04it/s] 94%|█████████▍| 10104/10714 [1:47:27<04:58,  2.04it/s] 94%|█████████▍| 10105/10714 [1:47:28<04:58,  2.04it/s] 94%|█████████▍| 10106/10714 [1:47:28<04:58,  2.04it/s] 94%|█████████▍| 10107/10714 [1:47:29<04:57,  2.04it/s] 94%|█████████▍| 10108/10714 [1:47:29<04:56,  2.04it/s] 94%|█████████▍| 10109/10714 [1:47:30<04:56,  2.04it/s] 94%|█████████▍| 10110/10714 [1:47:30<04:56,  2.04it/s] 94%|█████████▍| 10111/10714 [1:47:31<04:55,  2.04it/s] 94%|█████████▍| 10112/10714 [1:47:31<04:54,  2.04it/s] 94%|█████████▍| 10113/10714 [1:47:32<04:54,  2.04it/s] 94%|█████████▍| 10114/10714 [1:47:32<04:54,  2.04it/s] 94%|█████████▍| 10115/10714 [1:47:33<04:53,  2.04it/s] 94%|█████████▍| 10116/10714 [1:47:33<04:52,  2.04it/s] 94%|█████████▍| 10117/10714 [1:47:34<04:52,  2.04it/s] 94%|█████████▍| 10118/10714 [1:47:34<04:51,  2.04it/s] 94%|█████████▍| 10119/10714 [1:47:35<04:51,  2.04it/s] 94%|█████████▍| 10120/10714 [1:47:35<04:51,  2.04it/s] 94%|█████████▍| 10121/10714 [1:47:36<04:50,  2.04it/s] 94%|█████████▍| 10122/10714 [1:47:36<04:50,  2.04it/s] 94%|█████████▍| 10123/10714 [1:47:37<04:49,  2.04it/s] 94%|█████████▍| 10124/10714 [1:47:37<04:49,  2.04it/s] 95%|█████████▍| 10125/10714 [1:47:38<04:48,  2.04it/s]                                                       {'loss': 3.355, 'grad_norm': 0.19366098940372467, 'learning_rate': 9.179156515853937e-06, 'epoch': 0.95}
- 95%|█████████▍| 10125/10714 [1:47:38<04:48,  2.04it/s] 95%|█████████▍| 10126/10714 [1:47:38<04:48,  2.04it/s] 95%|█████████▍| 10127/10714 [1:47:39<04:47,  2.04it/s] 95%|█████████▍| 10128/10714 [1:47:39<04:46,  2.04it/s] 95%|█████████▍| 10129/10714 [1:47:40<04:46,  2.04it/s] 95%|█████████▍| 10130/10714 [1:47:40<04:46,  2.04it/s] 95%|█████████▍| 10131/10714 [1:47:41<04:45,  2.04it/s] 95%|█████████▍| 10132/10714 [1:47:41<04:44,  2.04it/s] 95%|█████████▍| 10133/10714 [1:47:42<04:44,  2.04it/s] 95%|█████████▍| 10134/10714 [1:47:42<04:43,  2.04it/s] 95%|█████████▍| 10135/10714 [1:47:43<04:43,  2.04it/s] 95%|█████████▍| 10136/10714 [1:47:43<04:42,  2.04it/s] 95%|█████████▍| 10137/10714 [1:47:44<04:42,  2.04it/s] 95%|█████████▍| 10138/10714 [1:47:44<04:41,  2.05it/s] 95%|█████████▍| 10139/10714 [1:47:45<04:41,  2.04it/s] 95%|█████████▍| 10140/10714 [1:47:45<04:40,  2.04it/s] 95%|█████████▍| 10141/10714 [1:47:46<04:40,  2.05it/s] 95%|█████████▍| 10142/10714 [1:47:46<04:39,  2.05it/s] 95%|█████████▍| 10143/10714 [1:47:47<04:39,  2.04it/s] 95%|█████████▍| 10144/10714 [1:47:47<04:38,  2.04it/s] 95%|█████████▍| 10145/10714 [1:47:48<04:38,  2.05it/s] 95%|█████████▍| 10146/10714 [1:47:48<04:37,  2.05it/s] 95%|█████████▍| 10147/10714 [1:47:48<04:37,  2.05it/s] 95%|█████████▍| 10148/10714 [1:47:49<04:36,  2.04it/s] 95%|█████████▍| 10149/10714 [1:47:49<04:36,  2.04it/s] 95%|█████████▍| 10150/10714 [1:47:50<04:36,  2.04it/s]{'loss': 3.3451, 'grad_norm': 0.19890987873077393, 'learning_rate': 8.418625825473536e-06, 'epoch': 0.95}
-                                                        95%|█████████▍| 10150/10714 [1:47:50<04:36,  2.04it/s] 95%|█████████▍| 10151/10714 [1:47:50<04:36,  2.03it/s] 95%|█████████▍| 10152/10714 [1:47:51<04:36,  2.04it/s] 95%|█████████▍| 10153/10714 [1:47:51<04:35,  2.04it/s] 95%|█████████▍| 10154/10714 [1:47:52<04:34,  2.04it/s] 95%|█████████▍| 10155/10714 [1:47:52<04:33,  2.04it/s] 95%|█████████▍| 10156/10714 [1:47:53<04:33,  2.04it/s] 95%|█████████▍| 10157/10714 [1:47:53<04:32,  2.04it/s] 95%|█████████▍| 10158/10714 [1:47:54<04:32,  2.04it/s] 95%|█████████▍| 10159/10714 [1:47:54<04:31,  2.04it/s] 95%|█████████▍| 10160/10714 [1:47:55<04:31,  2.04it/s] 95%|█████████▍| 10161/10714 [1:47:55<04:30,  2.04it/s] 95%|█████████▍| 10162/10714 [1:47:56<04:30,  2.04it/s] 95%|█████████▍| 10163/10714 [1:47:56<04:29,  2.04it/s] 95%|█████████▍| 10164/10714 [1:47:57<04:29,  2.04it/s] 95%|█████████▍| 10165/10714 [1:47:57<04:28,  2.04it/s] 95%|█████████▍| 10166/10714 [1:47:58<04:27,  2.05it/s] 95%|█████████▍| 10167/10714 [1:47:58<04:27,  2.04it/s] 95%|█████████▍| 10168/10714 [1:47:59<04:27,  2.04it/s] 95%|█████████▍| 10169/10714 [1:47:59<04:26,  2.04it/s] 95%|█████████▍| 10170/10714 [1:48:00<04:26,  2.04it/s] 95%|█████████▍| 10171/10714 [1:48:00<04:25,  2.04it/s] 95%|█████████▍| 10172/10714 [1:48:01<04:25,  2.04it/s] 95%|█████████▍| 10173/10714 [1:48:01<04:24,  2.04it/s] 95%|█████████▍| 10174/10714 [1:48:02<04:24,  2.04it/s] 95%|█████████▍| 10175/10714 [1:48:02<04:23,  2.04it/s]{'loss': 3.3416, 'grad_norm': 0.19131222367286682, 'learning_rate': 7.69071172298691e-06, 'epoch': 0.95}
-                                                        95%|█████████▍| 10175/10714 [1:48:02<04:23,  2.04it/s] 95%|█████████▍| 10176/10714 [1:48:03<04:23,  2.04it/s] 95%|█████████▍| 10177/10714 [1:48:03<04:23,  2.04it/s] 95%|█████████▍| 10178/10714 [1:48:04<04:22,  2.04it/s] 95%|█████████▌| 10179/10714 [1:48:04<04:21,  2.04it/s] 95%|█████████▌| 10180/10714 [1:48:05<04:21,  2.04it/s] 95%|█████████▌| 10181/10714 [1:48:05<04:21,  2.04it/s] 95%|█████████▌| 10182/10714 [1:48:06<04:20,  2.04it/s] 95%|█████████▌| 10183/10714 [1:48:06<04:19,  2.04it/s] 95%|█████████▌| 10184/10714 [1:48:07<04:19,  2.04it/s] 95%|█████████▌| 10185/10714 [1:48:07<04:18,  2.04it/s] 95%|█████████▌| 10186/10714 [1:48:08<04:18,  2.04it/s] 95%|█████████▌| 10187/10714 [1:48:08<04:17,  2.05it/s] 95%|█████████▌| 10188/10714 [1:48:09<04:17,  2.04it/s] 95%|█████████▌| 10189/10714 [1:48:09<04:17,  2.04it/s] 95%|█████████▌| 10190/10714 [1:48:10<04:16,  2.04it/s] 95%|█████████▌| 10191/10714 [1:48:10<04:15,  2.05it/s] 95%|█████████▌| 10192/10714 [1:48:11<04:15,  2.05it/s] 95%|█████████▌| 10193/10714 [1:48:11<04:14,  2.04it/s] 95%|█████████▌| 10194/10714 [1:48:12<04:14,  2.04it/s] 95%|█████████▌| 10195/10714 [1:48:12<04:13,  2.04it/s] 95%|█████████▌| 10196/10714 [1:48:12<04:13,  2.05it/s] 95%|█████████▌| 10197/10714 [1:48:13<04:12,  2.05it/s] 95%|█████████▌| 10198/10714 [1:48:13<04:12,  2.05it/s] 95%|█████████▌| 10199/10714 [1:48:14<04:11,  2.05it/s] 95%|█████████▌| 10200/10714 [1:48:14<04:11,  2.04it/s]                                                       {'loss': 3.3463, 'grad_norm': 0.1922173947095871, 'learning_rate': 6.995462505737238e-06, 'epoch': 0.95}
- 95%|█████████▌| 10200/10714 [1:48:14<04:11,  2.04it/s] 95%|█████████▌| 10201/10714 [1:48:15<04:11,  2.04it/s] 95%|█████████▌| 10202/10714 [1:48:15<04:10,  2.04it/s] 95%|█████████▌| 10203/10714 [1:48:16<04:10,  2.04it/s] 95%|█████████▌| 10204/10714 [1:48:16<04:09,  2.04it/s] 95%|█████████▌| 10205/10714 [1:48:17<04:08,  2.04it/s] 95%|█████████▌| 10206/10714 [1:48:17<04:08,  2.05it/s] 95%|█████████▌| 10207/10714 [1:48:18<04:07,  2.04it/s] 95%|█████████▌| 10208/10714 [1:48:18<04:07,  2.04it/s] 95%|█████████▌| 10209/10714 [1:48:19<04:07,  2.04it/s] 95%|█████████▌| 10210/10714 [1:48:19<04:06,  2.05it/s] 95%|█████████▌| 10211/10714 [1:48:20<04:06,  2.04it/s] 95%|█████████▌| 10212/10714 [1:48:20<04:05,  2.04it/s] 95%|█████████▌| 10213/10714 [1:48:21<04:05,  2.04it/s] 95%|█████████▌| 10214/10714 [1:48:21<04:04,  2.05it/s] 95%|█████████▌| 10215/10714 [1:48:22<04:03,  2.05it/s] 95%|█████████▌| 10216/10714 [1:48:22<04:03,  2.04it/s] 95%|█████████▌| 10217/10714 [1:48:23<04:03,  2.04it/s] 95%|█████████▌| 10218/10714 [1:48:23<04:02,  2.04it/s] 95%|█████████▌| 10219/10714 [1:48:24<04:01,  2.05it/s] 95%|█████████▌| 10220/10714 [1:48:24<04:01,  2.04it/s] 95%|█████████▌| 10221/10714 [1:48:25<04:01,  2.04it/s] 95%|█████████▌| 10222/10714 [1:48:25<04:00,  2.04it/s] 95%|█████████▌| 10223/10714 [1:48:26<04:00,  2.04it/s] 95%|█████████▌| 10224/10714 [1:48:26<03:59,  2.05it/s] 95%|█████████▌| 10225/10714 [1:48:27<03:59,  2.04it/s]{'loss': 3.3404, 'grad_norm': 0.19137705862522125, 'learning_rate': 6.33292430374155e-06, 'epoch': 0.95}
-                                                        95%|█████████▌| 10225/10714 [1:48:27<03:59,  2.04it/s] 95%|█████████▌| 10226/10714 [1:48:27<03:59,  2.04it/s] 95%|█████████▌| 10227/10714 [1:48:28<03:58,  2.04it/s] 95%|█████████▌| 10228/10714 [1:48:28<03:58,  2.04it/s] 95%|█████████▌| 10229/10714 [1:48:29<03:57,  2.04it/s] 95%|█████████▌| 10230/10714 [1:48:29<03:57,  2.04it/s] 95%|█████████▌| 10231/10714 [1:48:30<03:56,  2.04it/s] 96%|█████████▌| 10232/10714 [1:48:30<03:55,  2.04it/s] 96%|█████████▌| 10233/10714 [1:48:31<03:55,  2.04it/s] 96%|█████████▌| 10234/10714 [1:48:31<03:54,  2.04it/s] 96%|█████████▌| 10235/10714 [1:48:32<03:54,  2.04it/s] 96%|█████████▌| 10236/10714 [1:48:32<03:53,  2.04it/s] 96%|█████████▌| 10237/10714 [1:48:33<03:52,  2.05it/s] 96%|█████████▌| 10238/10714 [1:48:33<03:53,  2.04it/s] 96%|█████████▌| 10239/10714 [1:48:34<03:52,  2.04it/s] 96%|█████████▌| 10240/10714 [1:48:34<04:30,  1.75it/s] 96%|█████████▌| 10241/10714 [1:48:35<04:18,  1.83it/s] 96%|█████████▌| 10242/10714 [1:48:35<04:09,  1.89it/s] 96%|█████████▌| 10243/10714 [1:48:36<04:03,  1.93it/s] 96%|█████████▌| 10244/10714 [1:48:36<03:59,  1.96it/s] 96%|█████████▌| 10245/10714 [1:48:37<03:56,  1.98it/s] 96%|█████████▌| 10246/10714 [1:48:37<03:53,  2.00it/s] 96%|█████████▌| 10247/10714 [1:48:38<03:51,  2.01it/s] 96%|█████████▌| 10248/10714 [1:48:38<03:50,  2.02it/s] 96%|█████████▌| 10249/10714 [1:48:39<03:49,  2.03it/s] 96%|█████████▌| 10250/10714 [1:48:39<03:48,  2.03it/s]                                                       {'loss': 3.3501, 'grad_norm': 0.19443343579769135, 'learning_rate': 5.703141076630281e-06, 'epoch': 0.96}
- 96%|█████████▌| 10250/10714 [1:48:39<03:48,  2.03it/s] 96%|█████████▌| 10251/10714 [1:48:40<03:47,  2.03it/s] 96%|█████████▌| 10252/10714 [1:48:40<03:46,  2.04it/s] 96%|█████████▌| 10253/10714 [1:48:41<03:46,  2.04it/s] 96%|█████████▌| 10254/10714 [1:48:41<03:45,  2.04it/s] 96%|█████████▌| 10255/10714 [1:48:42<03:44,  2.04it/s] 96%|█████████▌| 10256/10714 [1:48:42<03:44,  2.04it/s] 96%|█████████▌| 10257/10714 [1:48:43<03:43,  2.04it/s] 96%|█████████▌| 10258/10714 [1:48:43<03:43,  2.04it/s] 96%|█████████▌| 10259/10714 [1:48:44<03:43,  2.04it/s] 96%|█████████▌| 10260/10714 [1:48:44<03:42,  2.04it/s] 96%|█████████▌| 10261/10714 [1:48:45<03:42,  2.04it/s] 96%|█████████▌| 10262/10714 [1:48:45<03:41,  2.04it/s] 96%|█████████▌| 10263/10714 [1:48:46<03:40,  2.04it/s] 96%|█████████▌| 10264/10714 [1:48:46<03:40,  2.04it/s] 96%|█████████▌| 10265/10714 [1:48:47<03:40,  2.04it/s] 96%|█████████▌| 10266/10714 [1:48:47<03:39,  2.04it/s] 96%|█████████▌| 10267/10714 [1:48:48<03:38,  2.04it/s] 96%|█████████▌| 10268/10714 [1:48:48<03:38,  2.04it/s] 96%|█████████▌| 10269/10714 [1:48:48<03:38,  2.04it/s] 96%|█████████▌| 10270/10714 [1:48:49<03:37,  2.04it/s] 96%|█████████▌| 10271/10714 [1:48:49<03:36,  2.04it/s] 96%|█████████▌| 10272/10714 [1:48:50<03:36,  2.04it/s] 96%|█████████▌| 10273/10714 [1:48:50<03:35,  2.04it/s] 96%|█████████▌| 10274/10714 [1:48:51<03:35,  2.04it/s] 96%|█████████▌| 10275/10714 [1:48:51<03:34,  2.04it/s]{'loss': 3.3434, 'grad_norm': 0.1910504251718521, 'learning_rate': 5.1061546107302735e-06, 'epoch': 0.96}
-                                                        96%|█████████▌| 10275/10714 [1:48:51<03:34,  2.04it/s] 96%|█████████▌| 10276/10714 [1:48:52<03:35,  2.04it/s] 96%|█████████▌| 10277/10714 [1:48:52<03:34,  2.04it/s] 96%|█████████▌| 10278/10714 [1:48:53<03:33,  2.04it/s] 96%|█████████▌| 10279/10714 [1:48:53<03:33,  2.04it/s] 96%|█████████▌| 10280/10714 [1:48:54<03:32,  2.04it/s] 96%|█████████▌| 10281/10714 [1:48:54<03:32,  2.04it/s] 96%|█████████▌| 10282/10714 [1:48:55<03:31,  2.04it/s] 96%|█████████▌| 10283/10714 [1:48:56<04:07,  1.74it/s] 96%|█████████▌| 10284/10714 [1:48:56<03:56,  1.82it/s] 96%|█████████▌| 10285/10714 [1:48:57<03:48,  1.88it/s] 96%|█████████▌| 10286/10714 [1:48:57<03:42,  1.93it/s] 96%|█████████▌| 10287/10714 [1:48:58<03:37,  1.96it/s] 96%|█████████▌| 10288/10714 [1:48:58<03:34,  1.98it/s] 96%|█████████▌| 10289/10714 [1:48:59<03:32,  2.00it/s] 96%|█████████▌| 10290/10714 [1:48:59<03:30,  2.01it/s] 96%|█████████▌| 10291/10714 [1:49:00<03:29,  2.02it/s] 96%|█████████▌| 10292/10714 [1:49:00<03:28,  2.03it/s] 96%|█████████▌| 10293/10714 [1:49:01<03:27,  2.03it/s] 96%|█████████▌| 10294/10714 [1:49:01<03:26,  2.04it/s] 96%|█████████▌| 10295/10714 [1:49:02<03:25,  2.04it/s] 96%|█████████▌| 10296/10714 [1:49:02<03:25,  2.04it/s] 96%|█████████▌| 10297/10714 [1:49:02<03:24,  2.04it/s] 96%|█████████▌| 10298/10714 [1:49:03<03:23,  2.04it/s] 96%|█████████▌| 10299/10714 [1:49:03<03:23,  2.04it/s] 96%|█████████▌| 10300/10714 [1:49:04<03:23,  2.04it/s]                                                       {'loss': 3.3334, 'grad_norm': 0.19171588122844696, 'learning_rate': 4.54200451629233e-06, 'epoch': 0.96}
- 96%|█████████▌| 10300/10714 [1:49:04<03:23,  2.04it/s] 96%|█████████▌| 10301/10714 [1:49:04<03:22,  2.04it/s] 96%|█████████▌| 10302/10714 [1:49:05<03:21,  2.04it/s] 96%|█████████▌| 10303/10714 [1:49:05<03:21,  2.04it/s] 96%|█████████▌| 10304/10714 [1:49:06<03:20,  2.04it/s] 96%|█████████▌| 10305/10714 [1:49:06<03:20,  2.04it/s] 96%|█████████▌| 10306/10714 [1:49:07<03:20,  2.04it/s] 96%|█████████▌| 10307/10714 [1:49:07<03:19,  2.04it/s] 96%|█████████▌| 10308/10714 [1:49:08<03:19,  2.04it/s] 96%|█████████▌| 10309/10714 [1:49:08<03:18,  2.04it/s] 96%|█████████▌| 10310/10714 [1:49:09<03:17,  2.04it/s] 96%|█████████▌| 10311/10714 [1:49:09<03:17,  2.04it/s] 96%|█████████▌| 10312/10714 [1:49:10<03:16,  2.04it/s] 96%|█████████▋| 10313/10714 [1:49:10<03:16,  2.04it/s] 96%|█████████▋| 10314/10714 [1:49:11<03:15,  2.04it/s] 96%|█████████▋| 10315/10714 [1:49:11<03:15,  2.04it/s] 96%|█████████▋| 10316/10714 [1:49:12<03:15,  2.04it/s] 96%|█████████▋| 10317/10714 [1:49:12<03:14,  2.04it/s] 96%|█████████▋| 10318/10714 [1:49:13<03:14,  2.04it/s] 96%|█████████▋| 10319/10714 [1:49:13<03:13,  2.04it/s] 96%|█████████▋| 10320/10714 [1:49:14<03:12,  2.04it/s] 96%|█████████▋| 10321/10714 [1:49:14<03:12,  2.04it/s] 96%|█████████▋| 10322/10714 [1:49:15<03:11,  2.04it/s] 96%|█████████▋| 10323/10714 [1:49:15<03:11,  2.04it/s] 96%|█████████▋| 10324/10714 [1:49:16<03:11,  2.04it/s] 96%|█████████▋| 10325/10714 [1:49:16<03:10,  2.04it/s]{'loss': 3.337, 'grad_norm': 0.19474110007286072, 'learning_rate': 4.010728224863091e-06, 'epoch': 0.96}                                                       
- 96%|█████████▋| 10325/10714 [1:49:16<03:10,  2.04it/s] 96%|█████████▋| 10326/10714 [1:49:17<03:10,  2.04it/s] 96%|█████████▋| 10327/10714 [1:49:17<03:09,  2.04it/s] 96%|█████████▋| 10328/10714 [1:49:18<03:09,  2.04it/s] 96%|█████████▋| 10329/10714 [1:49:18<03:08,  2.04it/s] 96%|█████████▋| 10330/10714 [1:49:19<03:08,  2.04it/s] 96%|█████████▋| 10331/10714 [1:49:19<03:07,  2.04it/s] 96%|█████████▋| 10332/10714 [1:49:20<03:07,  2.04it/s] 96%|█████████▋| 10333/10714 [1:49:20<03:06,  2.04it/s] 96%|█████████▋| 10334/10714 [1:49:21<03:06,  2.04it/s] 96%|█████████▋| 10335/10714 [1:49:21<03:05,  2.04it/s] 96%|█████████▋| 10336/10714 [1:49:22<03:05,  2.04it/s] 96%|█████████▋| 10337/10714 [1:49:22<03:04,  2.04it/s] 96%|█████████▋| 10338/10714 [1:49:23<03:03,  2.04it/s] 96%|█████████▋| 10339/10714 [1:49:23<03:03,  2.04it/s] 97%|█████████▋| 10340/10714 [1:49:24<03:03,  2.04it/s] 97%|█████████▋| 10341/10714 [1:49:24<03:02,  2.04it/s] 97%|█████████▋| 10342/10714 [1:49:25<03:01,  2.05it/s] 97%|█████████▋| 10343/10714 [1:49:25<03:01,  2.04it/s] 97%|█████████▋| 10344/10714 [1:49:26<03:01,  2.04it/s] 97%|█████████▋| 10345/10714 [1:49:26<03:00,  2.04it/s] 97%|█████████▋| 10346/10714 [1:49:26<02:59,  2.04it/s] 97%|█████████▋| 10347/10714 [1:49:27<02:59,  2.04it/s] 97%|█████████▋| 10348/10714 [1:49:27<02:59,  2.04it/s] 97%|█████████▋| 10349/10714 [1:49:28<02:58,  2.04it/s] 97%|█████████▋| 10350/10714 [1:49:28<02:58,  2.04it/s]{'loss': 3.3431, 'grad_norm': 0.18957602977752686, 'learning_rate': 3.5123609868015216e-06, 'epoch': 0.97}
-                                                        97%|█████████▋| 10350/10714 [1:49:28<02:58,  2.04it/s] 97%|█████████▋| 10351/10714 [1:49:29<02:58,  2.04it/s] 97%|█████████▋| 10352/10714 [1:49:29<02:57,  2.04it/s] 97%|█████████▋| 10353/10714 [1:49:30<02:56,  2.04it/s] 97%|█████████▋| 10354/10714 [1:49:30<02:56,  2.04it/s] 97%|█████████▋| 10355/10714 [1:49:31<02:55,  2.04it/s] 97%|█████████▋| 10356/10714 [1:49:31<02:55,  2.04it/s] 97%|█████████▋| 10357/10714 [1:49:32<02:54,  2.04it/s] 97%|█████████▋| 10358/10714 [1:49:32<02:54,  2.04it/s] 97%|█████████▋| 10359/10714 [1:49:33<02:53,  2.04it/s] 97%|█████████▋| 10360/10714 [1:49:33<02:53,  2.04it/s] 97%|█████████▋| 10361/10714 [1:49:34<02:52,  2.04it/s] 97%|█████████▋| 10362/10714 [1:49:34<02:52,  2.04it/s] 97%|█████████▋| 10363/10714 [1:49:35<02:51,  2.04it/s] 97%|█████████▋| 10364/10714 [1:49:35<02:51,  2.04it/s] 97%|█████████▋| 10365/10714 [1:49:36<02:51,  2.04it/s] 97%|█████████▋| 10366/10714 [1:49:36<02:50,  2.04it/s] 97%|█████████▋| 10367/10714 [1:49:37<02:49,  2.04it/s] 97%|█████████▋| 10368/10714 [1:49:37<02:49,  2.04it/s] 97%|█████████▋| 10369/10714 [1:49:38<02:49,  2.04it/s] 97%|█████████▋| 10370/10714 [1:49:38<02:48,  2.04it/s] 97%|█████████▋| 10371/10714 [1:49:39<02:47,  2.04it/s] 97%|█████████▋| 10372/10714 [1:49:39<02:47,  2.04it/s] 97%|█████████▋| 10373/10714 [1:49:40<02:47,  2.04it/s] 97%|█████████▋| 10374/10714 [1:49:40<02:46,  2.04it/s] 97%|█████████▋| 10375/10714 [1:49:41<02:45,  2.04it/s]{'loss': 3.346, 'grad_norm': 0.19588564336299896, 'learning_rate': 3.046935868939782e-06, 'epoch': 0.97}                                                       
- 97%|█████████▋| 10375/10714 [1:49:41<02:45,  2.04it/s] 97%|█████████▋| 10376/10714 [1:49:41<02:46,  2.03it/s] 97%|█████████▋| 10377/10714 [1:49:42<02:45,  2.04it/s] 97%|█████████▋| 10378/10714 [1:49:42<02:44,  2.04it/s] 97%|█████████▋| 10379/10714 [1:49:43<02:44,  2.04it/s] 97%|█████████▋| 10380/10714 [1:49:43<02:43,  2.04it/s] 97%|█████████▋| 10381/10714 [1:49:44<02:43,  2.04it/s] 97%|█████████▋| 10382/10714 [1:49:44<02:42,  2.04it/s] 97%|█████████▋| 10383/10714 [1:49:45<02:42,  2.04it/s] 97%|█████████▋| 10384/10714 [1:49:45<02:41,  2.04it/s] 97%|█████████▋| 10385/10714 [1:49:46<02:41,  2.04it/s] 97%|█████████▋| 10386/10714 [1:49:46<02:40,  2.04it/s] 97%|█████████▋| 10387/10714 [1:49:47<02:39,  2.05it/s] 97%|█████████▋| 10388/10714 [1:49:47<02:39,  2.05it/s] 97%|█████████▋| 10389/10714 [1:49:48<02:39,  2.04it/s] 97%|█████████▋| 10390/10714 [1:49:48<02:38,  2.04it/s] 97%|█████████▋| 10391/10714 [1:49:49<02:38,  2.04it/s] 97%|█████████▋| 10392/10714 [1:49:49<02:37,  2.05it/s] 97%|█████████▋| 10393/10714 [1:49:50<02:37,  2.04it/s] 97%|█████████▋| 10394/10714 [1:49:50<02:36,  2.04it/s] 97%|█████████▋| 10395/10714 [1:49:50<02:36,  2.04it/s] 97%|█████████▋| 10396/10714 [1:49:51<02:35,  2.04it/s] 97%|█████████▋| 10397/10714 [1:49:51<02:35,  2.04it/s] 97%|█████████▋| 10398/10714 [1:49:52<02:34,  2.04it/s] 97%|█████████▋| 10399/10714 [1:49:52<02:34,  2.04it/s] 97%|█████████▋| 10400/10714 [1:49:53<02:33,  2.04it/s]                                                       {'loss': 3.3416, 'grad_norm': 0.19404375553131104, 'learning_rate': 2.6144837523894294e-06, 'epoch': 0.97}
- 97%|█████████▋| 10400/10714 [1:49:53<02:33,  2.04it/s] 97%|█████████▋| 10401/10714 [1:49:53<02:33,  2.04it/s] 97%|█████████▋| 10402/10714 [1:49:54<02:32,  2.04it/s] 97%|█████████▋| 10403/10714 [1:49:54<02:32,  2.04it/s] 97%|█████████▋| 10404/10714 [1:49:55<02:31,  2.04it/s] 97%|█████████▋| 10405/10714 [1:49:55<02:31,  2.04it/s] 97%|█████████▋| 10406/10714 [1:49:56<02:31,  2.04it/s] 97%|█████████▋| 10407/10714 [1:49:56<02:30,  2.04it/s] 97%|█████████▋| 10408/10714 [1:49:57<02:29,  2.04it/s] 97%|█████████▋| 10409/10714 [1:49:57<02:29,  2.04it/s] 97%|█████████▋| 10410/10714 [1:49:58<02:28,  2.04it/s] 97%|█████████▋| 10411/10714 [1:49:58<02:28,  2.04it/s] 97%|█████████▋| 10412/10714 [1:49:59<02:27,  2.04it/s] 97%|█████████▋| 10413/10714 [1:49:59<02:27,  2.04it/s] 97%|█████████▋| 10414/10714 [1:50:00<02:26,  2.04it/s] 97%|█████████▋| 10415/10714 [1:50:00<02:26,  2.04it/s] 97%|█████████▋| 10416/10714 [1:50:01<02:25,  2.04it/s] 97%|█████████▋| 10417/10714 [1:50:01<02:25,  2.04it/s] 97%|█████████▋| 10418/10714 [1:50:02<02:25,  2.04it/s] 97%|█████████▋| 10419/10714 [1:50:02<02:24,  2.04it/s] 97%|█████████▋| 10420/10714 [1:50:03<02:23,  2.04it/s] 97%|█████████▋| 10421/10714 [1:50:03<02:23,  2.04it/s] 97%|█████████▋| 10422/10714 [1:50:04<02:22,  2.04it/s] 97%|█████████▋| 10423/10714 [1:50:04<02:22,  2.04it/s] 97%|█████████▋| 10424/10714 [1:50:05<02:21,  2.04it/s] 97%|█████████▋| 10425/10714 [1:50:05<02:21,  2.04it/s]{'loss': 3.3452, 'grad_norm': 0.19453385472297668, 'learning_rate': 2.215033330492444e-06, 'epoch': 0.97}                                                       
- 97%|█████████▋| 10425/10714 [1:50:05<02:21,  2.04it/s] 97%|█████████▋| 10426/10714 [1:50:06<02:21,  2.04it/s] 97%|█████████▋| 10427/10714 [1:50:06<02:20,  2.04it/s] 97%|█████████▋| 10428/10714 [1:50:07<02:20,  2.04it/s] 97%|█████████▋| 10429/10714 [1:50:07<02:19,  2.04it/s] 97%|█████████▋| 10430/10714 [1:50:08<02:19,  2.04it/s] 97%|█████████▋| 10431/10714 [1:50:08<02:18,  2.04it/s] 97%|█████████▋| 10432/10714 [1:50:09<02:18,  2.04it/s] 97%|█████████▋| 10433/10714 [1:50:09<02:17,  2.04it/s] 97%|█████████▋| 10434/10714 [1:50:10<02:17,  2.04it/s] 97%|█████████▋| 10435/10714 [1:50:10<02:16,  2.04it/s] 97%|█████████▋| 10436/10714 [1:50:11<02:15,  2.05it/s] 97%|█████████▋| 10437/10714 [1:50:11<02:15,  2.05it/s] 97%|█████████▋| 10438/10714 [1:50:12<02:15,  2.04it/s] 97%|█████████▋| 10439/10714 [1:50:12<02:14,  2.04it/s] 97%|█████████▋| 10440/10714 [1:50:13<02:14,  2.04it/s] 97%|█████████▋| 10441/10714 [1:50:13<02:13,  2.05it/s] 97%|█████████▋| 10442/10714 [1:50:14<02:12,  2.05it/s] 97%|█████████▋| 10443/10714 [1:50:14<02:12,  2.04it/s] 97%|█████████▋| 10444/10714 [1:50:14<02:12,  2.04it/s] 97%|█████████▋| 10445/10714 [1:50:15<02:11,  2.04it/s] 97%|█████████▋| 10446/10714 [1:50:15<02:11,  2.04it/s] 98%|█████████▊| 10447/10714 [1:50:16<02:10,  2.04it/s] 98%|█████████▊| 10448/10714 [1:50:16<02:10,  2.04it/s] 98%|█████████▊| 10449/10714 [1:50:17<02:09,  2.04it/s] 98%|█████████▊| 10450/10714 [1:50:17<02:09,  2.04it/s]{'loss': 3.3566, 'grad_norm': 0.1929401010274887, 'learning_rate': 1.8486111069173638e-06, 'epoch': 0.98}
-                                                        98%|█████████▊| 10450/10714 [1:50:17<02:09,  2.04it/s] 98%|█████████▊| 10451/10714 [1:50:18<02:08,  2.04it/s] 98%|█████████▊| 10452/10714 [1:50:18<02:08,  2.04it/s] 98%|█████████▊| 10453/10714 [1:50:19<02:07,  2.04it/s] 98%|█████████▊| 10454/10714 [1:50:19<02:07,  2.04it/s] 98%|█████████▊| 10455/10714 [1:50:20<02:06,  2.04it/s] 98%|█████████▊| 10456/10714 [1:50:20<02:06,  2.04it/s] 98%|█████████▊| 10457/10714 [1:50:21<02:05,  2.04it/s] 98%|█████████▊| 10458/10714 [1:50:21<02:05,  2.04it/s] 98%|█████████▊| 10459/10714 [1:50:22<02:04,  2.04it/s] 98%|█████████▊| 10460/10714 [1:50:22<02:04,  2.04it/s] 98%|█████████▊| 10461/10714 [1:50:23<02:03,  2.04it/s] 98%|█████████▊| 10462/10714 [1:50:23<02:03,  2.04it/s] 98%|█████████▊| 10463/10714 [1:50:24<02:02,  2.04it/s] 98%|█████████▊| 10464/10714 [1:50:24<02:02,  2.04it/s] 98%|█████████▊| 10465/10714 [1:50:25<02:01,  2.04it/s] 98%|█████████▊| 10466/10714 [1:50:25<02:01,  2.05it/s] 98%|█████████▊| 10467/10714 [1:50:26<02:00,  2.05it/s] 98%|█████████▊| 10468/10714 [1:50:26<02:00,  2.04it/s] 98%|█████████▊| 10469/10714 [1:50:27<01:59,  2.04it/s] 98%|█████████▊| 10470/10714 [1:50:27<01:59,  2.05it/s] 98%|█████████▊| 10471/10714 [1:50:28<01:58,  2.05it/s] 98%|█████████▊| 10472/10714 [1:50:28<01:58,  2.04it/s] 98%|█████████▊| 10473/10714 [1:50:29<01:58,  2.04it/s] 98%|█████████▊| 10474/10714 [1:50:29<01:57,  2.04it/s] 98%|█████████▊| 10475/10714 [1:50:30<01:56,  2.04it/s]{'loss': 3.3483, 'grad_norm': 0.1953015774488449, 'learning_rate': 1.5152413939007459e-06, 'epoch': 0.98}                                                       
- 98%|█████████▊| 10475/10714 [1:50:30<01:56,  2.04it/s] 98%|█████████▊| 10476/10714 [1:50:30<01:57,  2.03it/s] 98%|█████████▊| 10477/10714 [1:50:31<01:56,  2.03it/s] 98%|█████████▊| 10478/10714 [1:50:31<01:56,  2.03it/s] 98%|█████████▊| 10479/10714 [1:50:32<01:55,  2.03it/s] 98%|█████████▊| 10480/10714 [1:50:32<01:55,  2.03it/s] 98%|█████████▊| 10481/10714 [1:50:33<01:54,  2.03it/s] 98%|█████████▊| 10482/10714 [1:50:33<01:54,  2.03it/s] 98%|█████████▊| 10483/10714 [1:50:34<01:53,  2.03it/s] 98%|█████████▊| 10484/10714 [1:50:34<01:53,  2.03it/s] 98%|█████████▊| 10485/10714 [1:50:35<01:52,  2.04it/s] 98%|█████████▊| 10486/10714 [1:50:35<01:51,  2.04it/s] 98%|█████████▊| 10487/10714 [1:50:36<01:51,  2.03it/s] 98%|█████████▊| 10488/10714 [1:50:36<01:51,  2.04it/s] 98%|█████████▊| 10489/10714 [1:50:37<01:50,  2.04it/s] 98%|█████████▊| 10490/10714 [1:50:37<01:50,  2.03it/s] 98%|█████████▊| 10491/10714 [1:50:38<01:49,  2.03it/s] 98%|█████████▊| 10492/10714 [1:50:38<01:49,  2.04it/s] 98%|█████████▊| 10493/10714 [1:50:39<01:48,  2.03it/s] 98%|█████████▊| 10494/10714 [1:50:39<01:48,  2.03it/s] 98%|█████████▊| 10495/10714 [1:50:39<01:47,  2.04it/s] 98%|█████████▊| 10496/10714 [1:50:40<01:47,  2.04it/s] 98%|█████████▊| 10497/10714 [1:50:40<01:46,  2.04it/s] 98%|█████████▊| 10498/10714 [1:50:41<01:46,  2.04it/s] 98%|█████████▊| 10499/10714 [1:50:41<01:45,  2.04it/s] 98%|█████████▊| 10500/10714 [1:50:42<01:45,  2.04it/s]                                                       {'loss': 3.3463, 'grad_norm': 0.19111508131027222, 'learning_rate': 1.2149463106340686e-06, 'epoch': 0.98}
- 98%|█████████▊| 10500/10714 [1:50:42<01:45,  2.04it/s] 98%|█████████▊| 10501/10714 [1:50:42<01:44,  2.03it/s] 98%|█████████▊| 10502/10714 [1:50:43<01:44,  2.03it/s] 98%|█████████▊| 10503/10714 [1:50:43<01:43,  2.03it/s] 98%|█████████▊| 10504/10714 [1:50:44<01:43,  2.03it/s] 98%|█████████▊| 10505/10714 [1:50:44<01:42,  2.03it/s] 98%|█████████▊| 10506/10714 [1:50:45<01:42,  2.03it/s] 98%|█████████▊| 10507/10714 [1:50:45<01:41,  2.04it/s] 98%|█████████▊| 10508/10714 [1:50:46<01:41,  2.04it/s] 98%|█████████▊| 10509/10714 [1:50:46<01:40,  2.03it/s] 98%|█████████▊| 10510/10714 [1:50:47<01:40,  2.04it/s] 98%|█████████▊| 10511/10714 [1:50:47<01:39,  2.04it/s] 98%|█████████▊| 10512/10714 [1:50:48<01:39,  2.04it/s] 98%|█████████▊| 10513/10714 [1:50:48<01:38,  2.04it/s] 98%|█████████▊| 10514/10714 [1:50:49<01:38,  2.04it/s] 98%|█████████▊| 10515/10714 [1:50:49<01:37,  2.03it/s] 98%|█████████▊| 10516/10714 [1:50:50<01:37,  2.04it/s] 98%|█████████▊| 10517/10714 [1:50:50<01:36,  2.04it/s] 98%|█████████▊| 10518/10714 [1:50:51<01:36,  2.04it/s] 98%|█████████▊| 10519/10714 [1:50:51<01:35,  2.04it/s] 98%|█████████▊| 10520/10714 [1:50:52<01:35,  2.04it/s] 98%|█████████▊| 10521/10714 [1:50:52<01:34,  2.04it/s] 98%|█████████▊| 10522/10714 [1:50:53<01:34,  2.04it/s] 98%|█████████▊| 10523/10714 [1:50:53<01:33,  2.04it/s] 98%|█████████▊| 10524/10714 [1:50:54<01:33,  2.04it/s] 98%|█████████▊| 10525/10714 [1:50:54<01:32,  2.03it/s]                                                       {'loss': 3.3552, 'grad_norm': 0.1930990368127823, 'learning_rate': 9.477457817961277e-07, 'epoch': 0.98}
- 98%|█████████▊| 10525/10714 [1:50:54<01:32,  2.03it/s] 98%|█████████▊| 10526/10714 [1:50:55<01:32,  2.03it/s] 98%|█████████▊| 10527/10714 [1:50:55<01:31,  2.04it/s] 98%|█████████▊| 10528/10714 [1:50:56<01:31,  2.03it/s] 98%|█████████▊| 10529/10714 [1:50:56<01:30,  2.04it/s] 98%|█████████▊| 10530/10714 [1:50:57<01:30,  2.04it/s] 98%|█████████▊| 10531/10714 [1:50:57<01:29,  2.04it/s] 98%|█████████▊| 10532/10714 [1:50:58<01:29,  2.04it/s] 98%|█████████▊| 10533/10714 [1:50:58<01:28,  2.04it/s] 98%|█████████▊| 10534/10714 [1:50:59<01:28,  2.04it/s] 98%|█████████▊| 10535/10714 [1:50:59<01:27,  2.04it/s] 98%|█████████▊| 10536/10714 [1:51:00<01:27,  2.03it/s] 98%|█████████▊| 10537/10714 [1:51:00<01:26,  2.04it/s] 98%|█████████▊| 10538/10714 [1:51:01<01:26,  2.04it/s] 98%|█████████▊| 10539/10714 [1:51:01<01:25,  2.04it/s] 98%|█████████▊| 10540/10714 [1:51:02<01:25,  2.04it/s] 98%|█████████▊| 10541/10714 [1:51:02<01:24,  2.04it/s] 98%|█████████▊| 10542/10714 [1:51:03<01:24,  2.04it/s] 98%|█████████▊| 10543/10714 [1:51:03<01:24,  2.04it/s] 98%|█████████▊| 10544/10714 [1:51:04<01:23,  2.03it/s] 98%|█████████▊| 10545/10714 [1:51:04<01:23,  2.03it/s] 98%|█████████▊| 10546/10714 [1:51:05<01:22,  2.03it/s] 98%|█████████▊| 10547/10714 [1:51:05<01:22,  2.03it/s] 98%|█████████▊| 10548/10714 [1:51:06<01:21,  2.03it/s] 98%|█████████▊| 10549/10714 [1:51:06<01:21,  2.03it/s] 98%|█████████▊| 10550/10714 [1:51:07<01:20,  2.04it/s]                                                       {'loss': 3.3386, 'grad_norm': 0.1931481808423996, 'learning_rate': 7.136575362309828e-07, 'epoch': 0.98}
- 98%|█████████▊| 10550/10714 [1:51:07<01:20,  2.04it/s] 98%|█████████▊| 10551/10714 [1:51:07<01:20,  2.03it/s] 98%|█████████▊| 10552/10714 [1:51:08<01:19,  2.03it/s] 98%|█████████▊| 10553/10714 [1:51:08<01:19,  2.03it/s] 99%|█████████▊| 10554/10714 [1:51:08<01:18,  2.03it/s] 99%|█████████▊| 10555/10714 [1:51:09<01:18,  2.03it/s] 99%|█████████▊| 10556/10714 [1:51:09<01:17,  2.03it/s] 99%|█████████▊| 10557/10714 [1:51:10<01:17,  2.03it/s] 99%|█████████▊| 10558/10714 [1:51:10<01:16,  2.03it/s] 99%|█████████▊| 10559/10714 [1:51:11<01:16,  2.03it/s] 99%|█████████▊| 10560/10714 [1:51:11<01:15,  2.03it/s] 99%|█████████▊| 10561/10714 [1:51:12<01:15,  2.03it/s] 99%|█████████▊| 10562/10714 [1:51:12<01:14,  2.03it/s] 99%|█████████▊| 10563/10714 [1:51:13<01:14,  2.03it/s] 99%|█████████▊| 10564/10714 [1:51:13<01:13,  2.03it/s] 99%|█████████▊| 10565/10714 [1:51:14<01:13,  2.03it/s] 99%|█████████▊| 10566/10714 [1:51:14<01:12,  2.03it/s] 99%|█████████▊| 10567/10714 [1:51:15<01:12,  2.03it/s] 99%|█████████▊| 10568/10714 [1:51:15<01:11,  2.03it/s] 99%|█████████▊| 10569/10714 [1:51:16<01:11,  2.03it/s] 99%|█████████▊| 10570/10714 [1:51:16<01:10,  2.03it/s] 99%|█████████▊| 10571/10714 [1:51:17<01:10,  2.03it/s] 99%|█████████▊| 10572/10714 [1:51:17<01:09,  2.03it/s] 99%|█████████▊| 10573/10714 [1:51:18<01:09,  2.03it/s] 99%|█████████▊| 10574/10714 [1:51:18<01:08,  2.03it/s] 99%|█████████▊| 10575/10714 [1:51:19<01:08,  2.03it/s]{'loss': 3.3409, 'grad_norm': 0.19055114686489105, 'learning_rate': 5.126971057717311e-07, 'epoch': 0.99}
-                                                        99%|█████████▊| 10575/10714 [1:51:19<01:08,  2.03it/s] 99%|█████████▊| 10576/10714 [1:51:19<01:07,  2.03it/s] 99%|█████████▊| 10577/10714 [1:51:20<01:07,  2.03it/s] 99%|█████████▊| 10578/10714 [1:51:20<01:06,  2.03it/s] 99%|█████████▊| 10579/10714 [1:51:21<01:06,  2.04it/s] 99%|█████████▊| 10580/10714 [1:51:21<01:05,  2.03it/s] 99%|█████████▉| 10581/10714 [1:51:22<01:05,  2.04it/s] 99%|█████████▉| 10582/10714 [1:51:22<01:04,  2.04it/s] 99%|█████████▉| 10583/10714 [1:51:23<01:04,  2.03it/s] 99%|█████████▉| 10584/10714 [1:51:23<01:03,  2.04it/s] 99%|█████████▉| 10585/10714 [1:51:24<01:03,  2.04it/s] 99%|█████████▉| 10586/10714 [1:51:24<01:02,  2.03it/s] 99%|█████████▉| 10587/10714 [1:51:25<01:02,  2.04it/s] 99%|█████████▉| 10588/10714 [1:51:25<01:01,  2.03it/s] 99%|█████████▉| 10589/10714 [1:51:26<01:01,  2.03it/s] 99%|█████████▉| 10590/10714 [1:51:26<01:00,  2.04it/s] 99%|█████████▉| 10591/10714 [1:51:27<01:00,  2.04it/s] 99%|█████████▉| 10592/10714 [1:51:27<00:59,  2.04it/s] 99%|█████████▉| 10593/10714 [1:51:28<00:59,  2.04it/s] 99%|█████████▉| 10594/10714 [1:51:28<00:58,  2.04it/s] 99%|█████████▉| 10595/10714 [1:51:29<00:58,  2.03it/s] 99%|█████████▉| 10596/10714 [1:51:29<00:57,  2.03it/s] 99%|█████████▉| 10597/10714 [1:51:30<00:57,  2.04it/s] 99%|█████████▉| 10598/10714 [1:51:30<00:56,  2.04it/s] 99%|█████████▉| 10599/10714 [1:51:31<00:56,  2.04it/s] 99%|█████████▉| 10600/10714 [1:51:31<00:55,  2.04it/s]                                                       {'loss': 3.3326, 'grad_norm': 0.19085125625133514, 'learning_rate': 3.448778242097772e-07, 'epoch': 0.99}
- 99%|█████████▉| 10600/10714 [1:51:31<00:55,  2.04it/s] 99%|█████████▉| 10601/10714 [1:51:32<00:55,  2.03it/s] 99%|█████████▉| 10602/10714 [1:51:32<00:55,  2.03it/s] 99%|█████████▉| 10603/10714 [1:51:33<00:54,  2.04it/s] 99%|█████████▉| 10604/10714 [1:51:33<00:54,  2.03it/s] 99%|█████████▉| 10605/10714 [1:51:34<00:53,  2.04it/s] 99%|█████████▉| 10606/10714 [1:51:34<00:53,  2.04it/s] 99%|█████████▉| 10607/10714 [1:51:35<00:52,  2.04it/s] 99%|█████████▉| 10608/10714 [1:51:35<00:52,  2.04it/s] 99%|█████████▉| 10609/10714 [1:51:36<00:51,  2.04it/s] 99%|█████████▉| 10610/10714 [1:51:36<00:50,  2.04it/s] 99%|█████████▉| 10611/10714 [1:51:36<00:50,  2.04it/s] 99%|█████████▉| 10612/10714 [1:51:37<00:50,  2.04it/s] 99%|█████████▉| 10613/10714 [1:51:37<00:49,  2.04it/s] 99%|█████████▉| 10614/10714 [1:51:38<00:48,  2.04it/s] 99%|█████████▉| 10615/10714 [1:51:38<00:48,  2.04it/s] 99%|█████████▉| 10616/10714 [1:51:39<00:48,  2.04it/s] 99%|█████████▉| 10617/10714 [1:51:39<00:47,  2.04it/s] 99%|█████████▉| 10618/10714 [1:51:40<00:47,  2.04it/s] 99%|█████████▉| 10619/10714 [1:51:40<00:46,  2.04it/s] 99%|█████████▉| 10620/10714 [1:51:41<00:46,  2.04it/s] 99%|█████████▉| 10621/10714 [1:51:41<00:45,  2.04it/s] 99%|█████████▉| 10622/10714 [1:51:42<00:45,  2.04it/s] 99%|█████████▉| 10623/10714 [1:51:42<00:44,  2.04it/s] 99%|█████████▉| 10624/10714 [1:51:43<00:44,  2.04it/s] 99%|█████████▉| 10625/10714 [1:51:43<00:43,  2.04it/s]{'loss': 3.3509, 'grad_norm': 0.1902267187833786, 'learning_rate': 2.1021082641048406e-07, 'epoch': 0.99}
-                                                        99%|█████████▉| 10625/10714 [1:51:43<00:43,  2.04it/s] 99%|█████████▉| 10626/10714 [1:51:44<00:43,  2.03it/s] 99%|█████████▉| 10627/10714 [1:51:44<00:42,  2.03it/s] 99%|█████████▉| 10628/10714 [1:51:45<00:42,  2.04it/s] 99%|█████████▉| 10629/10714 [1:51:45<00:41,  2.04it/s] 99%|█████████▉| 10630/10714 [1:51:46<00:41,  2.04it/s] 99%|█████████▉| 10631/10714 [1:51:46<00:40,  2.04it/s] 99%|█████████▉| 10632/10714 [1:51:47<00:40,  2.04it/s] 99%|█████████▉| 10633/10714 [1:51:47<00:39,  2.04it/s] 99%|█████████▉| 10634/10714 [1:51:48<00:39,  2.04it/s] 99%|█████████▉| 10635/10714 [1:51:48<00:38,  2.04it/s] 99%|█████████▉| 10636/10714 [1:51:49<00:38,  2.04it/s] 99%|█████████▉| 10637/10714 [1:51:49<00:37,  2.04it/s] 99%|█████████▉| 10638/10714 [1:51:50<00:37,  2.04it/s] 99%|█████████▉| 10639/10714 [1:51:50<00:36,  2.04it/s] 99%|█████████▉| 10640/10714 [1:51:51<00:36,  2.04it/s] 99%|█████████▉| 10641/10714 [1:51:51<00:35,  2.04it/s] 99%|█████████▉| 10642/10714 [1:51:52<00:35,  2.04it/s] 99%|█████████▉| 10643/10714 [1:51:52<00:34,  2.04it/s] 99%|█████████▉| 10644/10714 [1:51:53<00:34,  2.04it/s] 99%|█████████▉| 10645/10714 [1:51:53<00:33,  2.04it/s] 99%|█████████▉| 10646/10714 [1:51:54<00:33,  2.04it/s] 99%|█████████▉| 10647/10714 [1:51:54<00:32,  2.04it/s] 99%|█████████▉| 10648/10714 [1:51:55<00:32,  2.04it/s] 99%|█████████▉| 10649/10714 [1:51:55<00:31,  2.04it/s] 99%|█████████▉| 10650/10714 [1:51:56<00:31,  2.04it/s]{'loss': 3.3446, 'grad_norm': 0.18976806104183197, 'learning_rate': 1.0870504757387601e-07, 'epoch': 0.99}
-                                                        99%|█████████▉| 10650/10714 [1:51:56<00:31,  2.04it/s] 99%|█████████▉| 10651/10714 [1:51:56<00:30,  2.04it/s] 99%|█████████▉| 10652/10714 [1:51:57<00:30,  2.04it/s] 99%|█████████▉| 10653/10714 [1:51:57<00:29,  2.04it/s] 99%|█████████▉| 10654/10714 [1:51:58<00:29,  2.04it/s] 99%|█████████▉| 10655/10714 [1:51:58<00:28,  2.04it/s] 99%|█████████▉| 10656/10714 [1:51:59<00:28,  2.04it/s] 99%|█████████▉| 10657/10714 [1:51:59<00:27,  2.04it/s] 99%|█████████▉| 10658/10714 [1:52:00<00:27,  2.04it/s] 99%|█████████▉| 10659/10714 [1:52:00<00:26,  2.04it/s] 99%|█████████▉| 10660/10714 [1:52:01<00:26,  2.04it/s]100%|█████████▉| 10661/10714 [1:52:01<00:25,  2.05it/s]100%|█████████▉| 10662/10714 [1:52:01<00:25,  2.05it/s]100%|█████████▉| 10663/10714 [1:52:02<00:24,  2.05it/s]100%|█████████▉| 10664/10714 [1:52:02<00:24,  2.05it/s]100%|█████████▉| 10665/10714 [1:52:03<00:23,  2.04it/s]100%|█████████▉| 10666/10714 [1:52:03<00:23,  2.04it/s]100%|█████████▉| 10667/10714 [1:52:04<00:23,  2.04it/s]100%|█████████▉| 10668/10714 [1:52:04<00:22,  2.04it/s]100%|█████████▉| 10669/10714 [1:52:05<00:22,  2.04it/s]100%|█████████▉| 10670/10714 [1:52:05<00:21,  2.04it/s]100%|█████████▉| 10671/10714 [1:52:06<00:21,  2.04it/s]100%|█████████▉| 10672/10714 [1:52:06<00:20,  2.04it/s]100%|█████████▉| 10673/10714 [1:52:07<00:20,  2.04it/s]100%|█████████▉| 10674/10714 [1:52:07<00:19,  2.05it/s]100%|█████████▉| 10675/10714 [1:52:08<00:19,  2.05it/s]                                                       {'loss': 3.345, 'grad_norm': 0.19152149558067322, 'learning_rate': 4.036722264222359e-08, 'epoch': 1.0}
-100%|█████████▉| 10675/10714 [1:52:08<00:19,  2.05it/s]100%|█████████▉| 10676/10714 [1:52:08<00:18,  2.04it/s]100%|█████████▉| 10677/10714 [1:52:09<00:18,  2.04it/s]100%|█████████▉| 10678/10714 [1:52:09<00:17,  2.04it/s]100%|█████████▉| 10679/10714 [1:52:10<00:17,  2.03it/s]100%|█████████▉| 10680/10714 [1:52:10<00:16,  2.03it/s]100%|█████████▉| 10681/10714 [1:52:11<00:16,  2.04it/s]100%|█████████▉| 10682/10714 [1:52:11<00:15,  2.04it/s]100%|█████████▉| 10683/10714 [1:52:12<00:15,  2.04it/s]100%|█████████▉| 10684/10714 [1:52:12<00:14,  2.04it/s]100%|█████████▉| 10685/10714 [1:52:13<00:14,  2.04it/s]100%|█████████▉| 10686/10714 [1:52:13<00:13,  2.04it/s]100%|█████████▉| 10687/10714 [1:52:14<00:13,  2.04it/s]100%|█████████▉| 10688/10714 [1:52:14<00:12,  2.04it/s]100%|█████████▉| 10689/10714 [1:52:15<00:12,  2.04it/s]100%|█████████▉| 10690/10714 [1:52:15<00:11,  2.04it/s]100%|█████████▉| 10691/10714 [1:52:16<00:11,  2.04it/s]100%|█████████▉| 10692/10714 [1:52:16<00:10,  2.04it/s]100%|█████████▉| 10693/10714 [1:52:17<00:10,  2.04it/s]100%|█████████▉| 10694/10714 [1:52:17<00:09,  2.04it/s]100%|█████████▉| 10695/10714 [1:52:18<00:09,  2.04it/s]100%|█████████▉| 10696/10714 [1:52:18<00:08,  2.04it/s]100%|█████████▉| 10697/10714 [1:52:19<00:08,  2.04it/s]100%|█████████▉| 10698/10714 [1:52:19<00:07,  2.04it/s]100%|█████████▉| 10699/10714 [1:52:20<00:07,  2.04it/s]100%|█████████▉| 10700/10714 [1:52:20<00:06,  2.04it/s]{'loss': 3.3461, 'grad_norm': 0.19174261391162872, 'learning_rate': 5.201885853012289e-09, 'epoch': 1.0}                                                       
-100%|█████████▉| 10700/10714 [1:52:20<00:06,  2.04it/s]100%|█████████▉| 10701/10714 [1:52:21<00:06,  2.04it/s]100%|█████████▉| 10702/10714 [1:52:21<00:05,  2.04it/s]100%|█████████▉| 10703/10714 [1:52:22<00:05,  2.04it/s]100%|█████████▉| 10704/10714 [1:52:22<00:04,  2.04it/s]100%|█████████▉| 10705/10714 [1:52:23<00:04,  2.04it/s]100%|█████████▉| 10706/10714 [1:52:23<00:03,  2.04it/s]100%|█████████▉| 10707/10714 [1:52:24<00:03,  2.04it/s]100%|█████████▉| 10708/10714 [1:52:24<00:02,  2.04it/s]100%|█████████▉| 10709/10714 [1:52:25<00:02,  2.04it/s]100%|█████████▉| 10710/10714 [1:52:25<00:01,  2.04it/s]100%|█████████▉| 10711/10714 [1:52:25<00:01,  2.04it/s]100%|█████████▉| 10712/10714 [1:52:26<00:00,  2.04it/s]100%|█████████▉| 10713/10714 [1:52:26<00:00,  2.04it/s]100%|██████████| 10714/10714 [1:52:28<00:00,  1.34it/s]                                                       {'train_runtime': 6771.7249, 'train_samples_per_second': 1620.112, 'train_steps_per_second': 1.582, 'train_loss': 3.7186114995008266, 'epoch': 1.0}
-100%|██████████| 10714/10714 [1:52:51<00:00,  1.34it/s]100%|██████████| 10714/10714 [1:52:51<00:00,  1.58it/s]
+  0%|          | 1/10691 [00:21<63:45:29, 21.47s/it]  0%|          | 2/10691 [00:37<53:34:13, 18.04s/it]  0%|          | 3/10691 [00:47<43:23:58, 14.62s/it]  0%|          | 4/10691 [00:57<37:47:04, 12.73s/it]  0%|          | 5/10691 [01:05<33:12:29, 11.19s/it]  0%|          | 6/10691 [01:13<29:49:43, 10.05s/it]  0%|          | 7/10691 [01:21<27:34:15,  9.29s/it]  0%|          | 8/10691 [01:28<25:30:19,  8.59s/it]  0%|          | 9/10691 [01:35<24:09:01,  8.14s/it]  0%|          | 10/10691 [01:44<24:19:00,  8.20s/it]  0%|          | 11/10691 [01:50<22:53:05,  7.71s/it]  0%|          | 12/10691 [01:56<21:07:09,  7.12s/it]  0%|          | 13/10691 [02:02<20:35:39,  6.94s/it]  0%|          | 14/10691 [02:08<19:18:34,  6.51s/it]  0%|          | 15/10691 [02:13<17:44:28,  5.98s/it]  0%|          | 16/10691 [02:19<17:44:18,  5.98s/it]  0%|          | 17/10691 [02:25<17:41:39,  5.97s/it]  0%|          | 18/10691 [02:29<16:39:45,  5.62s/it]  0%|          | 19/10691 [02:35<16:57:09,  5.72s/it]  0%|          | 20/10691 [02:40<15:45:52,  5.32s/it]  0%|          | 21/10691 [02:44<14:48:47,  5.00s/it]  0%|          | 22/10691 [02:48<13:39:46,  4.61s/it]  0%|          | 23/10691 [02:52<13:32:40,  4.57s/it]  0%|          | 24/10691 [02:57<13:26:37,  4.54s/it]  0%|          | 25/10691 [03:01<13:07:25,  4.43s/it]{'loss': 10.6822, 'grad_norm': 1.2644528150558472, 'learning_rate': 2.336448598130841e-05, 'epoch': 0.0}                                                     
+  0%|          | 25/10691 [03:01<13:07:25,  4.43s/it]  0%|          | 26/10691 [03:04<12:20:31,  4.17s/it]  0%|          | 27/10691 [03:09<12:39:23,  4.27s/it]  0%|          | 28/10691 [03:15<14:36:30,  4.93s/it]  0%|          | 29/10691 [03:20<14:38:56,  4.95s/it]  0%|          | 30/10691 [03:26<15:24:11,  5.20s/it]  0%|          | 31/10691 [03:31<15:22:08,  5.19s/it]  0%|          | 32/10691 [03:36<15:03:48,  5.09s/it]  0%|          | 33/10691 [03:40<14:18:03,  4.83s/it]  0%|          | 34/10691 [03:45<14:01:01,  4.74s/it]  0%|          | 35/10691 [03:49<13:38:31,  4.61s/it]  0%|          | 36/10691 [03:53<12:53:14,  4.35s/it]  0%|          | 37/10691 [03:57<12:37:31,  4.27s/it]  0%|          | 38/10691 [04:01<12:30:03,  4.22s/it]  0%|          | 39/10691 [04:05<12:21:29,  4.18s/it]  0%|          | 40/10691 [04:08<11:27:13,  3.87s/it]  0%|          | 41/10691 [04:11<9:51:38,  3.33s/it]   0%|          | 42/10691 [04:15<10:27:20,  3.53s/it]  0%|          | 43/10691 [04:18<10:26:28,  3.53s/it]  0%|          | 44/10691 [04:22<11:14:11,  3.80s/it]  0%|          | 45/10691 [04:26<11:14:22,  3.80s/it]  0%|          | 46/10691 [04:30<11:11:15,  3.78s/it]  0%|          | 47/10691 [04:34<10:59:05,  3.72s/it]  0%|          | 48/10691 [04:37<11:06:26,  3.76s/it]  0%|          | 49/10691 [04:41<10:53:32,  3.68s/it]  0%|          | 50/10691 [04:44<10:25:12,  3.53s/it]                                                     {'loss': 9.9492, 'grad_norm': 1.1781588792800903, 'learning_rate': 4.672897196261682e-05, 'epoch': 0.0}
+  0%|          | 50/10691 [04:44<10:25:12,  3.53s/it]  0%|          | 51/10691 [04:47<10:10:58,  3.45s/it]  0%|          | 52/10691 [04:51<10:23:17,  3.52s/it]  0%|          | 53/10691 [04:55<10:51:20,  3.67s/it]  1%|          | 54/10691 [04:58<10:20:09,  3.50s/it]  1%|          | 55/10691 [05:01<9:53:38,  3.35s/it]   1%|          | 56/10691 [05:04<9:29:04,  3.21s/it]  1%|          | 57/10691 [05:07<9:38:43,  3.27s/it]  1%|          | 58/10691 [05:09<8:30:05,  2.88s/it]  1%|          | 59/10691 [05:12<8:05:28,  2.74s/it]  1%|          | 60/10691 [05:14<7:55:36,  2.68s/it]  1%|          | 61/10691 [05:17<8:02:32,  2.72s/it]  1%|          | 62/10691 [05:20<8:05:11,  2.74s/it]  1%|          | 63/10691 [05:23<7:54:29,  2.68s/it]  1%|          | 64/10691 [05:25<7:37:53,  2.59s/it]  1%|          | 65/10691 [05:28<8:20:47,  2.83s/it]  1%|          | 66/10691 [05:31<7:54:34,  2.68s/it]  1%|          | 67/10691 [05:33<7:23:41,  2.51s/it]  1%|          | 68/10691 [05:36<7:57:14,  2.70s/it]  1%|          | 69/10691 [05:38<7:32:00,  2.55s/it]  1%|          | 70/10691 [05:41<7:34:44,  2.57s/it]  1%|          | 71/10691 [05:43<7:37:37,  2.59s/it]  1%|          | 72/10691 [05:45<7:05:09,  2.40s/it]  1%|          | 73/10691 [05:48<7:19:45,  2.48s/it]  1%|          | 74/10691 [05:50<6:47:33,  2.30s/it]  1%|          | 75/10691 [05:53<7:27:55,  2.53s/it]                                                    {'loss': 9.1337, 'grad_norm': 1.039199709892273, 'learning_rate': 7.009345794392523e-05, 'epoch': 0.01}
+  1%|          | 75/10691 [05:53<7:27:55,  2.53s/it]  1%|          | 76/10691 [05:55<7:03:09,  2.39s/it]  1%|          | 77/10691 [05:58<7:14:13,  2.45s/it]  1%|          | 78/10691 [06:00<7:25:30,  2.52s/it]  1%|          | 79/10691 [06:02<6:44:36,  2.29s/it]  1%|          | 80/10691 [06:04<6:39:18,  2.26s/it]  1%|          | 81/10691 [06:06<6:06:53,  2.07s/it]  1%|          | 82/10691 [06:08<6:21:35,  2.16s/it]  1%|          | 83/10691 [06:10<5:55:30,  2.01s/it]  1%|          | 84/10691 [06:12<6:16:35,  2.13s/it]  1%|          | 85/10691 [06:14<6:12:45,  2.11s/it]  1%|          | 86/10691 [06:16<6:08:41,  2.09s/it]  1%|          | 87/10691 [06:18<5:54:45,  2.01s/it]  1%|          | 88/10691 [06:21<6:15:20,  2.12s/it]  1%|          | 89/10691 [06:23<6:05:42,  2.07s/it]  1%|          | 90/10691 [06:25<6:04:47,  2.06s/it]  1%|          | 91/10691 [06:27<6:03:58,  2.06s/it]  1%|          | 92/10691 [06:29<6:20:36,  2.15s/it]  1%|          | 93/10691 [06:31<5:54:31,  2.01s/it]  1%|          | 94/10691 [06:33<5:59:45,  2.04s/it]  1%|          | 95/10691 [06:35<5:55:36,  2.01s/it]  1%|          | 96/10691 [06:37<5:44:56,  1.95s/it]  1%|          | 97/10691 [06:39<5:57:49,  2.03s/it]  1%|          | 98/10691 [06:40<5:18:04,  1.80s/it]  1%|          | 99/10691 [06:42<5:12:40,  1.77s/it]  1%|          | 100/10691 [06:43<4:54:22,  1.67s/it]{'loss': 8.2202, 'grad_norm': 0.7379200458526611, 'learning_rate': 9.345794392523364e-05, 'epoch': 0.01}
+                                                       1%|          | 100/10691 [06:43<4:54:22,  1.67s/it]  1%|          | 101/10691 [06:45<4:49:45,  1.64s/it]  1%|          | 102/10691 [06:46<4:44:05,  1.61s/it]  1%|          | 103/10691 [06:48<4:39:00,  1.58s/it]  1%|          | 104/10691 [06:49<4:34:01,  1.55s/it]  1%|          | 105/10691 [06:50<4:09:47,  1.42s/it]  1%|          | 106/10691 [06:52<4:22:42,  1.49s/it]  1%|          | 107/10691 [06:54<4:23:41,  1.49s/it]  1%|          | 108/10691 [06:55<4:32:58,  1.55s/it]  1%|          | 109/10691 [06:57<4:39:32,  1.59s/it]  1%|          | 110/10691 [06:58<3:58:25,  1.35s/it]  1%|          | 111/10691 [06:59<4:04:00,  1.38s/it]  1%|          | 112/10691 [07:00<3:33:33,  1.21s/it]  1%|          | 113/10691 [07:02<4:08:57,  1.41s/it]  1%|          | 114/10691 [07:03<3:56:46,  1.34s/it]  1%|          | 115/10691 [07:04<4:00:15,  1.36s/it]  1%|          | 116/10691 [07:06<3:58:07,  1.35s/it]  1%|          | 117/10691 [07:07<3:44:04,  1.27s/it]  1%|          | 118/10691 [07:08<4:03:32,  1.38s/it]  1%|          | 119/10691 [07:10<4:00:29,  1.36s/it]  1%|          | 120/10691 [07:11<4:10:48,  1.42s/it]  1%|          | 121/10691 [07:13<4:03:43,  1.38s/it]  1%|          | 122/10691 [07:14<3:48:05,  1.29s/it]  1%|          | 123/10691 [07:15<3:54:46,  1.33s/it]  1%|          | 124/10691 [07:17<3:57:24,  1.35s/it]  1%|          | 125/10691 [07:18<3:57:21,  1.35s/it]{'loss': 7.4543, 'grad_norm': 0.45161062479019165, 'learning_rate': 0.00011682242990654206, 'epoch': 0.01}                                                     
+  1%|          | 125/10691 [07:18<3:57:21,  1.35s/it]  1%|          | 126/10691 [07:19<3:59:24,  1.36s/it]  1%|          | 127/10691 [07:20<3:39:49,  1.25s/it]  1%|          | 128/10691 [07:21<3:34:18,  1.22s/it]  1%|          | 129/10691 [07:23<3:47:16,  1.29s/it]  1%|          | 130/10691 [07:24<3:37:19,  1.23s/it]  1%|          | 131/10691 [07:26<3:58:41,  1.36s/it]  1%|          | 132/10691 [07:27<3:57:11,  1.35s/it]  1%|          | 133/10691 [07:28<3:40:02,  1.25s/it]  1%|▏         | 134/10691 [07:29<3:47:18,  1.29s/it]  1%|▏         | 135/10691 [07:31<3:44:19,  1.28s/it]  1%|▏         | 136/10691 [07:32<3:34:01,  1.22s/it]  1%|▏         | 137/10691 [07:33<3:37:10,  1.23s/it]  1%|▏         | 138/10691 [07:34<3:36:37,  1.23s/it]  1%|▏         | 139/10691 [07:35<3:30:51,  1.20s/it]  1%|▏         | 140/10691 [07:37<3:36:01,  1.23s/it]  1%|▏         | 141/10691 [07:38<3:20:52,  1.14s/it]  1%|▏         | 142/10691 [07:39<3:16:35,  1.12s/it]  1%|▏         | 143/10691 [07:40<3:20:08,  1.14s/it]  1%|▏         | 144/10691 [07:41<3:17:57,  1.13s/it]  1%|▏         | 145/10691 [07:42<3:03:40,  1.04s/it]  1%|▏         | 146/10691 [07:43<2:58:22,  1.01s/it]  1%|▏         | 147/10691 [07:44<3:02:21,  1.04s/it]  1%|▏         | 148/10691 [07:44<2:44:44,  1.07it/s]  1%|▏         | 149/10691 [07:46<2:53:10,  1.01it/s]  1%|▏         | 150/10691 [07:47<3:12:24,  1.10s/it]{'loss': 6.8571, 'grad_norm': 0.4833560287952423, 'learning_rate': 0.00014018691588785047, 'epoch': 0.01}                                                     
+  1%|▏         | 150/10691 [07:47<3:12:24,  1.10s/it]  1%|▏         | 151/10691 [07:48<3:01:23,  1.03s/it]  1%|▏         | 152/10691 [07:49<2:55:13,  1.00it/s]  1%|▏         | 153/10691 [07:50<3:04:55,  1.05s/it]  1%|▏         | 154/10691 [07:51<3:16:39,  1.12s/it]  1%|▏         | 155/10691 [07:52<3:02:23,  1.04s/it]  1%|▏         | 156/10691 [07:54<3:27:26,  1.18s/it]  1%|▏         | 157/10691 [07:55<3:19:49,  1.14s/it]  1%|▏         | 158/10691 [07:56<3:14:37,  1.11s/it]  1%|▏         | 159/10691 [07:57<3:24:42,  1.17s/it]  1%|▏         | 160/10691 [07:58<3:14:03,  1.11s/it]  2%|▏         | 161/10691 [07:59<3:08:01,  1.07s/it]  2%|▏         | 162/10691 [08:00<3:14:43,  1.11s/it]  2%|▏         | 163/10691 [08:01<3:11:28,  1.09s/it]  2%|▏         | 164/10691 [08:02<3:02:16,  1.04s/it]  2%|▏         | 165/10691 [08:03<3:05:53,  1.06s/it]  2%|▏         | 166/10691 [08:04<3:06:32,  1.06s/it]  2%|▏         | 167/10691 [08:05<2:48:27,  1.04it/s]  2%|▏         | 168/10691 [08:06<2:58:20,  1.02s/it]  2%|▏         | 169/10691 [08:07<3:08:46,  1.08s/it]  2%|▏         | 170/10691 [08:08<2:55:50,  1.00s/it]  2%|▏         | 171/10691 [08:09<3:04:30,  1.05s/it]  2%|▏         | 172/10691 [08:10<2:57:46,  1.01s/it]  2%|▏         | 173/10691 [08:11<2:45:51,  1.06it/s]  2%|▏         | 174/10691 [08:12<2:37:21,  1.11it/s]  2%|▏         | 175/10691 [08:13<2:50:39,  1.03it/s]                                                     {'loss': 6.3728, 'grad_norm': 0.7054338455200195, 'learning_rate': 0.00016355140186915886, 'epoch': 0.02}
+  2%|▏         | 175/10691 [08:13<2:50:39,  1.03it/s]  2%|▏         | 176/10691 [08:14<2:56:08,  1.01s/it]  2%|▏         | 177/10691 [08:15<2:46:10,  1.05it/s]  2%|▏         | 178/10691 [08:16<2:32:28,  1.15it/s]  2%|▏         | 179/10691 [08:16<2:37:15,  1.11it/s]  2%|▏         | 180/10691 [08:18<2:51:26,  1.02it/s]  2%|▏         | 181/10691 [08:19<2:48:50,  1.04it/s]  2%|▏         | 182/10691 [08:19<2:45:52,  1.06it/s]  2%|▏         | 183/10691 [08:21<2:54:30,  1.00it/s]  2%|▏         | 184/10691 [08:22<2:55:08,  1.00s/it]  2%|▏         | 185/10691 [08:22<2:46:10,  1.05it/s]  2%|▏         | 186/10691 [08:23<2:46:16,  1.05it/s]  2%|▏         | 187/10691 [08:24<2:51:40,  1.02it/s]  2%|▏         | 188/10691 [08:25<2:52:11,  1.02it/s]  2%|▏         | 189/10691 [08:26<2:39:01,  1.10it/s]  2%|▏         | 190/10691 [08:27<2:37:12,  1.11it/s]  2%|▏         | 191/10691 [08:28<2:39:07,  1.10it/s]  2%|▏         | 192/10691 [08:29<2:26:54,  1.19it/s]  2%|▏         | 193/10691 [08:29<2:23:22,  1.22it/s]  2%|▏         | 194/10691 [08:31<2:38:30,  1.10it/s]  2%|▏         | 195/10691 [08:32<2:44:12,  1.07it/s]  2%|▏         | 196/10691 [08:32<2:31:15,  1.16it/s]  2%|▏         | 197/10691 [08:33<2:31:48,  1.15it/s]  2%|▏         | 198/10691 [08:34<2:37:57,  1.11it/s]  2%|▏         | 199/10691 [08:35<2:36:20,  1.12it/s]  2%|▏         | 200/10691 [08:36<2:27:01,  1.19it/s]{'loss': 5.9903, 'grad_norm': 0.446541965007782, 'learning_rate': 0.00018691588785046728, 'epoch': 0.02}
+                                                       2%|▏         | 200/10691 [08:36<2:27:01,  1.19it/s]  2%|▏         | 201/10691 [08:36<2:23:11,  1.22it/s]  2%|▏         | 202/10691 [08:37<2:22:31,  1.23it/s]  2%|▏         | 203/10691 [08:38<2:28:58,  1.17it/s]  2%|▏         | 204/10691 [08:39<2:28:00,  1.18it/s]  2%|▏         | 205/10691 [08:40<2:36:15,  1.12it/s]  2%|▏         | 206/10691 [08:41<2:41:56,  1.08it/s]  2%|▏         | 207/10691 [08:42<2:43:52,  1.07it/s]  2%|▏         | 208/10691 [08:43<2:35:30,  1.12it/s]  2%|▏         | 209/10691 [08:44<2:45:22,  1.06it/s]  2%|▏         | 210/10691 [08:45<2:41:22,  1.08it/s]  2%|▏         | 211/10691 [08:45<2:29:34,  1.17it/s]  2%|▏         | 212/10691 [08:46<2:31:41,  1.15it/s]  2%|▏         | 213/10691 [08:47<2:32:56,  1.14it/s]  2%|▏         | 214/10691 [08:48<2:26:19,  1.19it/s]  2%|▏         | 215/10691 [08:49<2:19:37,  1.25it/s]  2%|▏         | 216/10691 [08:50<2:24:45,  1.21it/s]  2%|▏         | 217/10691 [08:51<2:41:39,  1.08it/s]  2%|▏         | 218/10691 [08:51<2:29:44,  1.17it/s]  2%|▏         | 219/10691 [08:53<2:43:30,  1.07it/s]  2%|▏         | 220/10691 [08:53<2:41:47,  1.08it/s]  2%|▏         | 221/10691 [08:54<2:26:20,  1.19it/s]  2%|▏         | 222/10691 [08:55<2:14:55,  1.29it/s]  2%|▏         | 223/10691 [08:56<2:32:59,  1.14it/s]  2%|▏         | 224/10691 [08:57<2:47:36,  1.04it/s]  2%|▏         | 225/10691 [08:58<2:32:11,  1.15it/s]                                                     {'loss': 5.6848, 'grad_norm': 0.6735767722129822, 'learning_rate': 0.0002102803738317757, 'epoch': 0.02}
+  2%|▏         | 225/10691 [08:58<2:32:11,  1.15it/s]  2%|▏         | 226/10691 [08:58<2:28:23,  1.18it/s]  2%|▏         | 227/10691 [08:59<2:29:23,  1.17it/s]  2%|▏         | 228/10691 [09:00<2:24:10,  1.21it/s]  2%|▏         | 229/10691 [09:01<2:15:24,  1.29it/s]  2%|▏         | 230/10691 [09:01<2:13:26,  1.31it/s]  2%|▏         | 231/10691 [09:02<2:14:43,  1.29it/s]  2%|▏         | 232/10691 [09:03<2:12:05,  1.32it/s]  2%|▏         | 233/10691 [09:04<2:07:06,  1.37it/s]  2%|▏         | 234/10691 [09:04<2:08:01,  1.36it/s]  2%|▏         | 235/10691 [09:05<2:09:05,  1.35it/s]  2%|▏         | 236/10691 [09:06<2:08:31,  1.36it/s]  2%|▏         | 237/10691 [09:07<2:15:22,  1.29it/s]  2%|▏         | 238/10691 [09:08<2:15:27,  1.29it/s]  2%|▏         | 239/10691 [09:09<2:30:24,  1.16it/s]  2%|▏         | 240/10691 [09:09<2:26:00,  1.19it/s]  2%|▏         | 241/10691 [09:10<2:15:05,  1.29it/s]  2%|▏         | 242/10691 [09:11<2:13:50,  1.30it/s]  2%|▏         | 243/10691 [09:12<2:14:42,  1.29it/s]  2%|▏         | 244/10691 [09:12<2:15:07,  1.29it/s]  2%|▏         | 245/10691 [09:13<2:14:24,  1.30it/s]  2%|▏         | 246/10691 [09:14<2:05:19,  1.39it/s]  2%|▏         | 247/10691 [09:14<2:07:00,  1.37it/s]  2%|▏         | 248/10691 [09:15<2:10:16,  1.34it/s]  2%|▏         | 249/10691 [09:16<2:09:45,  1.34it/s]  2%|▏         | 250/10691 [09:17<2:04:37,  1.40it/s]                                                     {'loss': 5.4569, 'grad_norm': 0.6633476614952087, 'learning_rate': 0.00023364485981308412, 'epoch': 0.02}
+  2%|▏         | 250/10691 [09:17<2:04:37,  1.40it/s]  2%|▏         | 251/10691 [09:17<1:57:25,  1.48it/s]  2%|▏         | 252/10691 [09:18<2:03:21,  1.41it/s]  2%|▏         | 253/10691 [09:19<2:09:26,  1.34it/s]  2%|▏         | 254/10691 [09:19<2:05:38,  1.38it/s]  2%|▏         | 255/10691 [09:20<1:59:25,  1.46it/s]  2%|▏         | 256/10691 [09:21<2:03:35,  1.41it/s]  2%|▏         | 257/10691 [09:22<2:05:24,  1.39it/s]  2%|▏         | 258/10691 [09:23<2:16:26,  1.27it/s]  2%|▏         | 259/10691 [09:23<2:03:44,  1.41it/s]  2%|▏         | 260/10691 [09:24<2:06:11,  1.38it/s]  2%|▏         | 261/10691 [09:25<2:07:32,  1.36it/s]  2%|▏         | 262/10691 [09:25<2:00:05,  1.45it/s]  2%|▏         | 263/10691 [09:26<1:59:30,  1.45it/s]  2%|▏         | 264/10691 [09:27<2:00:20,  1.44it/s]  2%|▏         | 265/10691 [09:27<2:00:48,  1.44it/s]  2%|▏         | 266/10691 [09:28<1:54:29,  1.52it/s]  2%|▏         | 267/10691 [09:29<1:55:02,  1.51it/s]  3%|▎         | 268/10691 [09:29<1:57:42,  1.48it/s]  3%|▎         | 269/10691 [09:30<1:58:03,  1.47it/s]  3%|▎         | 270/10691 [09:31<1:54:27,  1.52it/s]  3%|▎         | 271/10691 [09:31<1:59:27,  1.45it/s]  3%|▎         | 272/10691 [09:32<2:01:17,  1.43it/s]  3%|▎         | 273/10691 [09:33<2:01:27,  1.43it/s]  3%|▎         | 274/10691 [09:33<1:57:44,  1.47it/s]  3%|▎         | 275/10691 [09:34<1:56:57,  1.48it/s]{'loss': 5.262, 'grad_norm': 0.617290198802948, 'learning_rate': 0.0002570093457943925, 'epoch': 0.03}
+                                                       3%|▎         | 275/10691 [09:34<1:56:57,  1.48it/s]  3%|▎         | 276/10691 [09:35<2:08:24,  1.35it/s]  3%|▎         | 277/10691 [09:36<2:02:44,  1.41it/s]  3%|▎         | 278/10691 [09:36<1:58:40,  1.46it/s]  3%|▎         | 279/10691 [09:37<2:03:01,  1.41it/s]  3%|▎         | 280/10691 [09:38<2:04:17,  1.40it/s]  3%|▎         | 281/10691 [09:38<2:00:17,  1.44it/s]  3%|▎         | 282/10691 [09:39<1:56:13,  1.49it/s]  3%|▎         | 283/10691 [09:40<1:54:59,  1.51it/s]  3%|▎         | 284/10691 [09:40<1:56:50,  1.48it/s]  3%|▎         | 285/10691 [09:41<2:00:06,  1.44it/s]  3%|▎         | 286/10691 [09:42<1:56:38,  1.49it/s]  3%|▎         | 287/10691 [09:42<1:54:57,  1.51it/s]  3%|▎         | 288/10691 [09:43<1:57:21,  1.48it/s]  3%|▎         | 289/10691 [09:44<1:59:52,  1.45it/s]  3%|▎         | 290/10691 [09:44<2:02:55,  1.41it/s]  3%|▎         | 291/10691 [09:45<1:57:48,  1.47it/s]  3%|▎         | 292/10691 [09:46<1:59:05,  1.46it/s]  3%|▎         | 293/10691 [09:47<2:02:28,  1.41it/s]  3%|▎         | 294/10691 [09:47<2:01:53,  1.42it/s]  3%|▎         | 295/10691 [09:48<1:57:15,  1.48it/s]  3%|▎         | 296/10691 [09:48<1:53:36,  1.52it/s]  3%|▎         | 297/10691 [09:49<1:57:42,  1.47it/s]  3%|▎         | 298/10691 [09:50<2:01:39,  1.42it/s]  3%|▎         | 299/10691 [09:51<1:56:34,  1.49it/s]  3%|▎         | 300/10691 [09:51<1:52:11,  1.54it/s]                                                     {'loss': 5.1116, 'grad_norm': 0.5983864665031433, 'learning_rate': 0.00028037383177570094, 'epoch': 0.03}
+  3%|▎         | 300/10691 [09:51<1:52:11,  1.54it/s]  3%|▎         | 301/10691 [09:52<1:54:27,  1.51it/s]  3%|▎         | 302/10691 [09:52<1:53:15,  1.53it/s]  3%|▎         | 303/10691 [09:53<1:47:22,  1.61it/s]  3%|▎         | 304/10691 [09:54<1:48:59,  1.59it/s]  3%|▎         | 305/10691 [09:54<1:52:27,  1.54it/s]  3%|▎         | 306/10691 [09:55<1:55:42,  1.50it/s]  3%|▎         | 307/10691 [09:56<1:53:57,  1.52it/s]  3%|▎         | 308/10691 [09:56<1:48:11,  1.60it/s]  3%|▎         | 309/10691 [09:57<1:51:47,  1.55it/s]  3%|▎         | 310/10691 [09:58<1:53:21,  1.53it/s]  3%|▎         | 311/10691 [09:58<1:49:55,  1.57it/s]  3%|▎         | 312/10691 [09:59<1:44:26,  1.66it/s]  3%|▎         | 313/10691 [09:59<1:41:23,  1.71it/s]  3%|▎         | 314/10691 [10:00<1:43:03,  1.68it/s]  3%|▎         | 315/10691 [10:01<1:46:32,  1.62it/s]  3%|▎         | 316/10691 [10:01<1:58:51,  1.45it/s]  3%|▎         | 317/10691 [10:02<1:51:21,  1.55it/s]  3%|▎         | 318/10691 [10:03<1:48:00,  1.60it/s]  3%|▎         | 319/10691 [10:03<1:49:23,  1.58it/s]  3%|▎         | 320/10691 [10:04<1:47:31,  1.61it/s]  3%|▎         | 321/10691 [10:05<1:56:30,  1.48it/s]  3%|▎         | 322/10691 [10:05<2:03:15,  1.40it/s]  3%|▎         | 323/10691 [10:06<2:00:41,  1.43it/s]  3%|▎         | 324/10691 [10:07<1:58:38,  1.46it/s]  3%|▎         | 325/10691 [10:07<1:59:10,  1.45it/s]{'loss': 4.9825, 'grad_norm': 1.066452980041504, 'learning_rate': 0.00030373831775700936, 'epoch': 0.03}                                                     
+  3%|▎         | 325/10691 [10:07<1:59:10,  1.45it/s]  3%|▎         | 326/10691 [10:08<1:53:02,  1.53it/s]  3%|▎         | 327/10691 [10:09<1:50:12,  1.57it/s]  3%|▎         | 328/10691 [10:09<1:51:11,  1.55it/s]  3%|▎         | 329/10691 [10:10<1:51:19,  1.55it/s]  3%|▎         | 330/10691 [10:11<1:52:21,  1.54it/s]  3%|▎         | 331/10691 [10:11<1:49:09,  1.58it/s]  3%|▎         | 332/10691 [10:12<1:48:32,  1.59it/s]  3%|▎         | 333/10691 [10:12<1:46:21,  1.62it/s]  3%|▎         | 334/10691 [10:13<1:50:54,  1.56it/s]  3%|▎         | 335/10691 [10:14<1:48:55,  1.58it/s]  3%|▎         | 336/10691 [10:14<1:50:52,  1.56it/s]  3%|▎         | 337/10691 [10:15<1:54:24,  1.51it/s]  3%|▎         | 338/10691 [10:16<2:08:02,  1.35it/s]  3%|▎         | 339/10691 [10:17<2:30:48,  1.14it/s]  3%|▎         | 340/10691 [10:18<2:20:00,  1.23it/s]  3%|▎         | 341/10691 [10:18<2:12:15,  1.30it/s]  3%|▎         | 342/10691 [10:19<2:01:57,  1.41it/s]  3%|▎         | 343/10691 [10:20<1:53:06,  1.52it/s]  3%|��         | 344/10691 [10:20<1:49:56,  1.57it/s]  3%|▎         | 345/10691 [10:21<1:49:56,  1.57it/s]  3%|▎         | 346/10691 [10:21<1:49:39,  1.57it/s]  3%|▎         | 347/10691 [10:22<1:55:03,  1.50it/s]  3%|▎         | 348/10691 [10:23<1:54:11,  1.51it/s]  3%|▎         | 349/10691 [10:23<1:50:36,  1.56it/s]  3%|▎         | 350/10691 [10:24<1:53:06,  1.52it/s]{'loss': 4.8596, 'grad_norm': 1.1984302997589111, 'learning_rate': 0.0003271028037383177, 'epoch': 0.03}                                                     
+  3%|▎         | 350/10691 [10:24<1:53:06,  1.52it/s]  3%|▎         | 351/10691 [10:25<1:51:08,  1.55it/s]  3%|▎         | 352/10691 [10:25<1:53:26,  1.52it/s]  3%|▎         | 353/10691 [10:26<2:14:29,  1.28it/s]  3%|▎         | 354/10691 [10:27<2:04:13,  1.39it/s]  3%|▎         | 355/10691 [10:28<1:57:30,  1.47it/s]  3%|▎         | 356/10691 [10:29<2:07:17,  1.35it/s]  3%|▎         | 357/10691 [10:29<2:02:15,  1.41it/s]  3%|▎         | 358/10691 [10:30<1:59:56,  1.44it/s]  3%|▎         | 359/10691 [10:30<1:54:31,  1.50it/s]  3%|▎         | 360/10691 [10:31<1:54:46,  1.50it/s]  3%|▎         | 361/10691 [10:32<1:49:35,  1.57it/s]  3%|▎         | 362/10691 [10:32<1:48:42,  1.58it/s]  3%|▎         | 363/10691 [10:33<1:48:57,  1.58it/s]  3%|▎         | 364/10691 [10:34<2:03:42,  1.39it/s]  3%|▎         | 365/10691 [10:34<1:59:59,  1.43it/s]  3%|▎         | 366/10691 [10:35<1:54:55,  1.50it/s]  3%|▎         | 367/10691 [10:36<1:56:23,  1.48it/s]  3%|▎         | 368/10691 [10:36<1:53:55,  1.51it/s]  3%|▎         | 369/10691 [10:37<1:52:02,  1.54it/s]  3%|▎         | 370/10691 [10:38<1:54:22,  1.50it/s]  3%|▎         | 371/10691 [10:38<1:50:39,  1.55it/s]  3%|▎         | 372/10691 [10:39<2:01:28,  1.42it/s]  3%|▎         | 373/10691 [10:40<1:59:35,  1.44it/s]  3%|▎         | 374/10691 [10:40<1:55:16,  1.49it/s]  4%|▎         | 375/10691 [10:41<1:49:27,  1.57it/s]{'loss': 4.7445, 'grad_norm': 0.7233924865722656, 'learning_rate': 0.00035046728971962614, 'epoch': 0.04}                                                     
+  4%|▎         | 375/10691 [10:41<1:49:27,  1.57it/s]  4%|▎         | 376/10691 [10:42<1:44:52,  1.64it/s]  4%|▎         | 377/10691 [10:42<1:45:43,  1.63it/s]  4%|▎         | 378/10691 [10:43<1:45:39,  1.63it/s]  4%|▎         | 379/10691 [10:43<1:46:40,  1.61it/s]  4%|▎         | 380/10691 [10:44<1:43:26,  1.66it/s]  4%|▎         | 381/10691 [10:45<1:42:45,  1.67it/s]  4%|▎         | 382/10691 [10:45<1:43:54,  1.65it/s]  4%|▎         | 383/10691 [10:46<1:55:48,  1.48it/s]  4%|▎         | 384/10691 [10:47<1:51:34,  1.54it/s]  4%|▎         | 385/10691 [10:47<1:46:22,  1.61it/s]  4%|▎         | 386/10691 [10:48<1:49:06,  1.57it/s]  4%|▎         | 387/10691 [10:48<1:48:08,  1.59it/s]  4%|▎         | 388/10691 [10:49<1:47:54,  1.59it/s]  4%|▎         | 389/10691 [10:50<1:43:46,  1.65it/s]  4%|▎         | 390/10691 [10:50<1:41:58,  1.68it/s]  4%|▎         | 391/10691 [10:51<1:40:58,  1.70it/s]  4%|▎         | 392/10691 [10:51<1:41:29,  1.69it/s]  4%|▎         | 393/10691 [10:52<1:39:22,  1.73it/s]  4%|▎         | 394/10691 [10:52<1:36:17,  1.78it/s]  4%|▎         | 395/10691 [10:53<1:34:20,  1.82it/s]  4%|▎         | 396/10691 [10:53<1:32:27,  1.86it/s]  4%|▎         | 397/10691 [10:54<1:32:37,  1.85it/s]  4%|▎         | 398/10691 [10:55<1:34:29,  1.82it/s]  4%|▎         | 399/10691 [10:55<1:36:01,  1.79it/s]  4%|▎         | 400/10691 [10:56<1:35:42,  1.79it/s]                                                     {'loss': 4.656, 'grad_norm': 0.861355721950531, 'learning_rate': 0.00037383177570093456, 'epoch': 0.04}
+  4%|▎         | 400/10691 [10:56<1:35:42,  1.79it/s]  4%|▍         | 401/10691 [10:56<1:36:26,  1.78it/s]  4%|▍         | 402/10691 [10:57<1:38:47,  1.74it/s]  4%|▍         | 403/10691 [10:58<1:41:04,  1.70it/s]  4%|▍         | 404/10691 [10:58<1:41:07,  1.70it/s]  4%|▍         | 405/10691 [10:59<1:38:07,  1.75it/s]  4%|▍         | 406/10691 [10:59<1:38:04,  1.75it/s]  4%|▍         | 407/10691 [11:00<1:39:12,  1.73it/s]  4%|▍         | 408/10691 [11:00<1:41:13,  1.69it/s]  4%|▍         | 409/10691 [11:01<1:38:57,  1.73it/s]  4%|▍         | 410/10691 [11:02<1:36:37,  1.77it/s]  4%|▍         | 411/10691 [11:02<1:37:57,  1.75it/s]  4%|▍         | 412/10691 [11:03<1:40:23,  1.71it/s]  4%|▍         | 413/10691 [11:03<1:39:14,  1.73it/s]  4%|▍         | 414/10691 [11:04<1:38:03,  1.75it/s]  4%|▍         | 415/10691 [11:04<1:35:48,  1.79it/s]  4%|▍         | 416/10691 [11:05<1:36:35,  1.77it/s]  4%|▍         | 417/10691 [11:06<1:38:06,  1.75it/s]  4%|▍         | 418/10691 [11:06<1:39:29,  1.72it/s]  4%|▍         | 419/10691 [11:07<1:37:22,  1.76it/s]  4%|▍         | 420/10691 [11:07<1:37:54,  1.75it/s]  4%|▍         | 421/10691 [11:08<1:39:45,  1.72it/s]  4%|▍         | 422/10691 [11:08<1:39:34,  1.72it/s]  4%|▍         | 423/10691 [11:09<1:39:12,  1.73it/s]  4%|▍         | 424/10691 [11:10<1:37:44,  1.75it/s]  4%|▍         | 425/10691 [11:10<1:37:11,  1.76it/s]                                                     {'loss': 4.5772, 'grad_norm': 0.7349772453308105, 'learning_rate': 0.000397196261682243, 'epoch': 0.04}
+  4%|▍         | 425/10691 [11:10<1:37:11,  1.76it/s]  4%|▍         | 426/10691 [11:11<1:37:15,  1.76it/s]  4%|▍         | 427/10691 [11:11<1:38:03,  1.74it/s]  4%|▍         | 428/10691 [11:12<1:38:50,  1.73it/s]  4%|▍         | 429/10691 [11:12<1:36:55,  1.76it/s]  4%|▍         | 430/10691 [11:13<1:34:34,  1.81it/s]  4%|▍         | 431/10691 [11:14<1:36:21,  1.77it/s]  4%|▍         | 432/10691 [11:14<1:40:10,  1.71it/s]  4%|▍         | 433/10691 [11:15<1:39:05,  1.73it/s]  4%|▍         | 434/10691 [11:15<1:36:50,  1.77it/s]  4%|▍         | 435/10691 [11:16<1:36:18,  1.77it/s]  4%|▍         | 436/10691 [11:16<1:36:16,  1.78it/s]  4%|▍         | 437/10691 [11:17<1:35:13,  1.79it/s]  4%|▍         | 438/10691 [11:17<1:35:19,  1.79it/s]  4%|▍         | 439/10691 [11:18<1:33:21,  1.83it/s]  4%|▍         | 440/10691 [11:19<1:33:40,  1.82it/s]  4%|▍         | 441/10691 [11:19<1:36:11,  1.78it/s]  4%|▍         | 442/10691 [11:20<1:37:18,  1.76it/s]  4%|▍         | 443/10691 [11:20<1:37:42,  1.75it/s]  4%|▍         | 444/10691 [11:21<1:35:47,  1.78it/s]  4%|▍         | 445/10691 [11:21<1:34:48,  1.80it/s]  4%|▍         | 446/10691 [11:22<1:33:34,  1.82it/s]  4%|▍         | 447/10691 [11:23<1:34:54,  1.80it/s]  4%|▍         | 448/10691 [11:23<1:36:33,  1.77it/s]  4%|▍         | 449/10691 [11:24<1:36:08,  1.78it/s]  4%|▍         | 450/10691 [11:24<1:34:43,  1.80it/s]{'loss': 4.5068, 'grad_norm': 0.6714299917221069, 'learning_rate': 0.0004205607476635514, 'epoch': 0.04}
+                                                       4%|▍         | 450/10691 [11:24<1:34:43,  1.80it/s]  4%|▍         | 451/10691 [11:25<1:35:43,  1.78it/s]  4%|▍         | 452/10691 [11:25<1:36:03,  1.78it/s]  4%|▍         | 453/10691 [11:26<1:36:22,  1.77it/s]  4%|▍         | 454/10691 [11:26<1:35:28,  1.79it/s]  4%|▍         | 455/10691 [11:27<1:32:52,  1.84it/s]  4%|▍         | 456/10691 [11:28<1:35:05,  1.79it/s]  4%|▍         | 457/10691 [11:28<1:47:34,  1.59it/s]  4%|▍         | 458/10691 [11:29<1:45:08,  1.62it/s]  4%|▍         | 459/10691 [11:29<1:39:22,  1.72it/s]  4%|▍         | 460/10691 [11:30<1:35:22,  1.79it/s]  4%|▍         | 461/10691 [11:30<1:33:37,  1.82it/s]  4%|▍         | 462/10691 [11:31<1:34:43,  1.80it/s]  4%|▍         | 463/10691 [11:32<1:35:42,  1.78it/s]  4%|▍         | 464/10691 [11:32<1:32:52,  1.84it/s]  4%|▍         | 465/10691 [11:33<1:32:12,  1.85it/s]  4%|▍         | 466/10691 [11:33<1:34:32,  1.80it/s]  4%|▍         | 467/10691 [11:34<1:34:54,  1.80it/s]  4%|▍         | 468/10691 [11:34<1:32:22,  1.84it/s]  4%|▍         | 469/10691 [11:35<1:30:26,  1.88it/s]  4%|▍         | 470/10691 [11:35<1:32:18,  1.85it/s]  4%|▍         | 471/10691 [11:36<1:33:12,  1.83it/s]  4%|▍         | 472/10691 [11:36<1:32:15,  1.85it/s]  4%|▍         | 473/10691 [11:37<1:30:32,  1.88it/s]  4%|▍         | 474/10691 [11:38<1:30:45,  1.88it/s]  4%|▍         | 475/10691 [11:38<1:43:59,  1.64it/s]                                                     {'loss': 4.4433, 'grad_norm': 0.6223508715629578, 'learning_rate': 0.0004439252336448598, 'epoch': 0.04}
+  4%|▍         | 475/10691 [11:38<1:43:59,  1.64it/s]  4%|▍         | 476/10691 [11:39<1:40:27,  1.69it/s]  4%|▍         | 477/10691 [11:39<1:36:05,  1.77it/s]  4%|▍         | 478/10691 [11:40<1:35:43,  1.78it/s]  4%|▍         | 479/10691 [11:40<1:35:50,  1.78it/s]  4%|▍         | 480/10691 [11:41<1:34:51,  1.79it/s]  4%|▍         | 481/10691 [11:42<1:32:23,  1.84it/s]  5%|▍         | 482/10691 [11:42<1:33:11,  1.83it/s]  5%|▍         | 483/10691 [11:43<1:33:47,  1.81it/s]  5%|▍         | 484/10691 [11:43<1:33:15,  1.82it/s]  5%|▍         | 485/10691 [11:44<1:30:58,  1.87it/s]  5%|▍         | 486/10691 [11:44<1:34:02,  1.81it/s]  5%|▍         | 487/10691 [11:45<1:35:44,  1.78it/s]  5%|▍         | 488/10691 [11:45<1:34:34,  1.80it/s]  5%|▍         | 489/10691 [11:46<1:32:33,  1.84it/s]  5%|▍         | 490/10691 [11:46<1:31:48,  1.85it/s]  5%|▍         | 491/10691 [11:47<1:32:05,  1.85it/s]  5%|▍         | 492/10691 [11:48<1:32:35,  1.84it/s]  5%|▍         | 493/10691 [11:48<1:33:08,  1.82it/s]  5%|▍         | 494/10691 [11:49<1:31:21,  1.86it/s]  5%|▍         | 495/10691 [11:49<1:31:19,  1.86it/s]  5%|▍         | 496/10691 [11:50<1:33:28,  1.82it/s]  5%|▍         | 497/10691 [11:50<1:32:50,  1.83it/s]  5%|▍         | 498/10691 [11:51<1:30:50,  1.87it/s]  5%|▍         | 499/10691 [11:51<1:30:42,  1.87it/s]  5%|▍         | 500/10691 [11:52<1:32:44,  1.83it/s]                                                     {'loss': 4.3779, 'grad_norm': 0.6265299916267395, 'learning_rate': 0.00046728971962616824, 'epoch': 0.05}
+  5%|▍         | 500/10691 [11:52<1:32:44,  1.83it/s]  5%|▍         | 501/10691 [11:52<1:33:03,  1.83it/s]  5%|▍         | 502/10691 [11:53<1:31:11,  1.86it/s]  5%|▍         | 503/10691 [11:53<1:31:28,  1.86it/s]  5%|▍         | 504/10691 [11:54<1:31:05,  1.86it/s]  5%|▍         | 505/10691 [11:55<1:32:48,  1.83it/s]  5%|▍         | 506/10691 [11:55<1:30:46,  1.87it/s]  5%|▍         | 507/10691 [11:56<1:29:17,  1.90it/s]  5%|▍         | 508/10691 [11:56<1:31:21,  1.86it/s]  5%|▍         | 509/10691 [11:57<1:33:24,  1.82it/s]  5%|▍         | 510/10691 [11:57<1:32:21,  1.84it/s]  5%|▍         | 511/10691 [11:58<1:30:33,  1.87it/s]  5%|▍         | 512/10691 [11:58<1:30:11,  1.88it/s]  5%|▍         | 513/10691 [11:59<1:32:18,  1.84it/s]  5%|▍         | 514/10691 [11:59<1:33:27,  1.81it/s]  5%|▍         | 515/10691 [12:00<1:30:56,  1.86it/s]  5%|▍         | 516/10691 [12:00<1:30:29,  1.87it/s]  5%|▍         | 517/10691 [12:01<1:31:52,  1.85it/s]  5%|▍         | 518/10691 [12:02<1:32:23,  1.84it/s]  5%|▍         | 519/10691 [12:02<1:30:06,  1.88it/s]  5%|▍         | 520/10691 [12:03<1:29:18,  1.90it/s]  5%|▍         | 521/10691 [12:03<1:31:28,  1.85it/s]  5%|▍         | 522/10691 [12:04<1:31:17,  1.86it/s]  5%|▍         | 523/10691 [12:04<1:29:55,  1.88it/s]  5%|▍         | 524/10691 [12:05<1:28:32,  1.91it/s]  5%|▍         | 525/10691 [12:05<1:27:34,  1.93it/s]                                                     {'loss': 4.3134, 'grad_norm': 0.7646840810775757, 'learning_rate': 0.0004906542056074767, 'epoch': 0.05}
+  5%|▍         | 525/10691 [12:05<1:27:34,  1.93it/s]  5%|▍         | 526/10691 [12:06<1:38:34,  1.72it/s]  5%|▍         | 527/10691 [12:07<1:37:11,  1.74it/s]  5%|▍         | 528/10691 [12:07<1:34:40,  1.79it/s]  5%|▍         | 529/10691 [12:08<1:31:56,  1.84it/s]  5%|▍         | 530/10691 [12:08<1:30:02,  1.88it/s]  5%|▍         | 531/10691 [12:09<1:30:56,  1.86it/s]  5%|▍         | 532/10691 [12:09<1:31:36,  1.85it/s]  5%|▍         | 533/10691 [12:10<1:31:08,  1.86it/s]  5%|▍         | 534/10691 [12:10<1:29:28,  1.89it/s]  5%|▌         | 535/10691 [12:11<1:30:15,  1.88it/s]  5%|▌         | 536/10691 [12:11<1:32:04,  1.84it/s]  5%|▌         | 537/10691 [12:12<1:30:06,  1.88it/s]  5%|▌         | 538/10691 [12:12<1:28:48,  1.91it/s]  5%|▌         | 539/10691 [12:13<1:27:47,  1.93it/s]  5%|▌         | 540/10691 [12:13<1:26:58,  1.95it/s]  5%|▌         | 541/10691 [12:14<1:28:32,  1.91it/s]  5%|▌         | 542/10691 [12:14<1:29:11,  1.90it/s]  5%|▌         | 543/10691 [12:15<1:27:55,  1.92it/s]  5%|▌         | 544/10691 [12:15<1:27:04,  1.94it/s]  5%|▌         | 545/10691 [12:16<1:28:40,  1.91it/s]  5%|▌         | 546/10691 [12:17<1:31:23,  1.85it/s]  5%|▌         | 547/10691 [12:17<1:29:37,  1.89it/s]  5%|▌         | 548/10691 [12:18<1:28:18,  1.91it/s]  5%|▌         | 549/10691 [12:18<1:30:11,  1.87it/s]  5%|▌         | 550/10691 [12:19<1:31:50,  1.84it/s]                                                     {'loss': 4.2769, 'grad_norm': 0.5651469826698303, 'learning_rate': 0.000514018691588785, 'epoch': 0.05}
+  5%|▌         | 550/10691 [12:19<1:31:50,  1.84it/s]  5%|▌         | 551/10691 [12:19<1:30:14,  1.87it/s]  5%|▌         | 552/10691 [12:20<1:28:40,  1.91it/s]  5%|▌         | 553/10691 [12:20<1:30:05,  1.88it/s]  5%|▌         | 554/10691 [12:21<1:30:58,  1.86it/s]  5%|▌         | 555/10691 [12:21<1:29:06,  1.90it/s]  5%|▌         | 556/10691 [12:22<1:28:00,  1.92it/s]  5%|▌         | 557/10691 [12:23<1:40:42,  1.68it/s]  5%|▌         | 558/10691 [12:23<1:38:57,  1.71it/s]  5%|▌         | 559/10691 [12:24<1:34:40,  1.78it/s]  5%|▌         | 560/10691 [12:24<1:31:51,  1.84it/s]  5%|▌         | 561/10691 [12:25<1:30:20,  1.87it/s]  5%|▌         | 562/10691 [12:25<1:30:32,  1.86it/s]  5%|▌         | 563/10691 [12:26<1:31:52,  1.84it/s]  5%|▌         | 564/10691 [12:26<1:29:57,  1.88it/s]  5%|▌         | 565/10691 [12:27<1:28:18,  1.91it/s]  5%|▌         | 566/10691 [12:27<1:29:18,  1.89it/s]  5%|▌         | 567/10691 [12:28<1:29:37,  1.88it/s]  5%|▌         | 568/10691 [12:28<1:29:05,  1.89it/s]  5%|▌         | 569/10691 [12:29<1:27:39,  1.92it/s]  5%|▌         | 570/10691 [12:29<1:26:54,  1.94it/s]  5%|▌         | 571/10691 [12:30<1:26:23,  1.95it/s]  5%|▌         | 572/10691 [12:30<1:25:52,  1.96it/s]  5%|▌         | 573/10691 [12:31<1:27:31,  1.93it/s]  5%|▌         | 574/10691 [12:31<1:28:56,  1.90it/s]  5%|▌         | 575/10691 [12:32<1:28:07,  1.91it/s]                                                     {'loss': 4.2311, 'grad_norm': 0.5188028812408447, 'learning_rate': 0.0005373831775700935, 'epoch': 0.05}
+  5%|▌         | 575/10691 [12:32<1:28:07,  1.91it/s]  5%|▌         | 576/10691 [12:33<1:27:16,  1.93it/s]  5%|▌         | 577/10691 [12:33<1:26:31,  1.95it/s]  5%|▌         | 578/10691 [12:34<1:27:20,  1.93it/s]  5%|▌         | 579/10691 [12:34<1:28:55,  1.90it/s]  5%|▌         | 580/10691 [12:35<1:27:26,  1.93it/s]  5%|▌         | 581/10691 [12:35<1:26:44,  1.94it/s]  5%|▌         | 582/10691 [12:36<1:27:57,  1.92it/s]  5%|▌         | 583/10691 [12:36<1:29:29,  1.88it/s]  5%|▌         | 584/10691 [12:37<1:28:59,  1.89it/s]  5%|▌         | 585/10691 [12:37<1:27:46,  1.92it/s]  5%|▌         | 586/10691 [12:38<1:26:48,  1.94it/s]  5%|▌         | 587/10691 [12:38<1:37:51,  1.72it/s]  5%|▌         | 588/10691 [12:39<1:35:48,  1.76it/s]  6%|▌         | 589/10691 [12:40<1:33:33,  1.80it/s]  6%|▌         | 590/10691 [12:40<1:30:58,  1.85it/s]  6%|▌         | 591/10691 [12:41<1:30:33,  1.86it/s]  6%|▌         | 592/10691 [12:41<1:31:14,  1.84it/s]  6%|▌         | 593/10691 [12:42<1:31:47,  1.83it/s]  6%|▌         | 594/10691 [12:42<1:29:29,  1.88it/s]  6%|▌         | 595/10691 [12:43<1:30:10,  1.87it/s]  6%|▌         | 596/10691 [12:43<1:39:21,  1.69it/s]  6%|▌         | 597/10691 [12:44<1:34:53,  1.77it/s]  6%|▌         | 598/10691 [12:44<1:32:32,  1.82it/s]  6%|▌         | 599/10691 [12:45<1:34:15,  1.78it/s]  6%|▌         | 600/10691 [12:46<1:33:27,  1.80it/s]{'loss': 4.1872, 'grad_norm': 0.5633861422538757, 'learning_rate': 0.0005607476635514019, 'epoch': 0.06}
+                                                       6%|▌         | 600/10691 [12:46<1:33:27,  1.80it/s]  6%|▌         | 601/10691 [12:46<1:30:46,  1.85it/s]  6%|▌         | 602/10691 [12:47<1:28:48,  1.89it/s]  6%|▌         | 603/10691 [12:47<1:28:28,  1.90it/s]  6%|▌         | 604/10691 [12:48<1:30:48,  1.85it/s]  6%|▌         | 605/10691 [12:48<1:30:04,  1.87it/s]  6%|▌         | 606/10691 [12:49<1:28:17,  1.90it/s]  6%|▌         | 607/10691 [12:49<1:29:53,  1.87it/s]  6%|▌         | 608/10691 [12:50<1:31:05,  1.84it/s]  6%|▌         | 609/10691 [12:50<1:29:50,  1.87it/s]  6%|▌         | 610/10691 [12:51<1:28:05,  1.91it/s]  6%|▌         | 611/10691 [12:51<1:26:59,  1.93it/s]  6%|▌         | 612/10691 [12:52<1:26:00,  1.95it/s]  6%|▌         | 613/10691 [12:52<1:27:45,  1.91it/s]  6%|▌         | 614/10691 [12:53<1:29:41,  1.87it/s]  6%|▌         | 615/10691 [12:53<1:28:03,  1.91it/s]  6%|▌         | 616/10691 [12:54<1:26:50,  1.93it/s]  6%|▌         | 617/10691 [12:54<1:29:12,  1.88it/s]  6%|▌         | 618/10691 [12:55<1:30:11,  1.86it/s]  6%|▌         | 619/10691 [12:56<1:28:15,  1.90it/s]  6%|▌         | 620/10691 [12:56<1:26:53,  1.93it/s]  6%|▌         | 621/10691 [12:57<1:26:20,  1.94it/s]  6%|▌         | 622/10691 [12:57<1:38:37,  1.70it/s]  6%|▌         | 623/10691 [12:58<1:36:33,  1.74it/s]  6%|▌         | 624/10691 [12:58<1:32:48,  1.81it/s]  6%|▌         | 625/10691 [12:59<1:30:03,  1.86it/s]{'loss': 4.1575, 'grad_norm': 0.6603602170944214, 'learning_rate': 0.0005841121495327103, 'epoch': 0.06}
+                                                       6%|▌         | 625/10691 [12:59<1:30:03,  1.86it/s]  6%|▌         | 626/10691 [12:59<1:30:14,  1.86it/s]  6%|▌         | 627/10691 [13:00<1:31:34,  1.83it/s]  6%|▌         | 628/10691 [13:00<1:30:45,  1.85it/s]  6%|▌         | 629/10691 [13:01<1:28:46,  1.89it/s]  6%|▌         | 630/10691 [13:02<1:29:22,  1.88it/s]  6%|▌         | 631/10691 [13:02<1:29:08,  1.88it/s]  6%|▌         | 632/10691 [13:03<1:28:12,  1.90it/s]  6%|▌         | 633/10691 [13:03<1:27:01,  1.93it/s]  6%|▌         | 634/10691 [13:04<1:26:11,  1.94it/s]  6%|▌         | 635/10691 [13:04<1:26:13,  1.94it/s]  6%|▌         | 636/10691 [13:05<1:27:07,  1.92it/s]  6%|▌         | 637/10691 [13:05<1:27:30,  1.91it/s]  6%|▌         | 638/10691 [13:06<1:26:25,  1.94it/s]  6%|▌         | 639/10691 [13:06<1:25:39,  1.96it/s]  6%|▌         | 640/10691 [13:07<1:25:08,  1.97it/s]  6%|▌         | 641/10691 [13:07<1:27:13,  1.92it/s]  6%|▌         | 642/10691 [13:08<1:27:37,  1.91it/s]  6%|▌         | 643/10691 [13:08<1:26:35,  1.93it/s]  6%|▌         | 644/10691 [13:09<1:25:46,  1.95it/s]  6%|▌         | 645/10691 [13:09<1:26:47,  1.93it/s]  6%|▌         | 646/10691 [13:10<1:28:25,  1.89it/s]  6%|▌         | 647/10691 [13:10<1:26:58,  1.92it/s]  6%|▌         | 648/10691 [13:11<1:27:21,  1.92it/s]  6%|▌         | 649/10691 [13:11<1:28:48,  1.88it/s]  6%|▌         | 650/10691 [13:12<1:28:24,  1.89it/s]                                                     {'loss': 4.1259, 'grad_norm': 0.5627148151397705, 'learning_rate': 0.0006074766355140187, 'epoch': 0.06}
+  6%|▌         | 650/10691 [13:12<1:28:24,  1.89it/s]  6%|▌         | 651/10691 [13:12<1:27:07,  1.92it/s]  6%|▌         | 652/10691 [13:13<1:27:22,  1.91it/s]  6%|▌         | 653/10691 [13:13<1:27:47,  1.91it/s]  6%|▌         | 654/10691 [13:14<1:29:08,  1.88it/s]  6%|▌         | 655/10691 [13:15<1:27:31,  1.91it/s]  6%|▌         | 656/10691 [13:15<1:26:17,  1.94it/s]  6%|▌         | 657/10691 [13:16<1:26:21,  1.94it/s]  6%|▌         | 658/10691 [13:16<1:27:08,  1.92it/s]  6%|▌         | 659/10691 [13:17<1:28:12,  1.90it/s]  6%|▌         | 660/10691 [13:17<1:26:50,  1.93it/s]  6%|▌         | 661/10691 [13:18<1:26:21,  1.94it/s]  6%|▌         | 662/10691 [13:18<1:26:41,  1.93it/s]  6%|▌         | 663/10691 [13:19<1:27:34,  1.91it/s]  6%|▌         | 664/10691 [13:19<1:26:22,  1.93it/s]  6%|▌         | 665/10691 [13:20<1:25:25,  1.96it/s]  6%|▌         | 666/10691 [13:20<1:26:09,  1.94it/s]  6%|▌         | 667/10691 [13:21<1:26:15,  1.94it/s]  6%|▌         | 668/10691 [13:21<1:26:02,  1.94it/s]  6%|▋         | 669/10691 [13:22<1:25:11,  1.96it/s]  6%|▋         | 670/10691 [13:22<1:24:54,  1.97it/s]  6%|▋         | 671/10691 [13:23<1:24:48,  1.97it/s]  6%|▋         | 672/10691 [13:23<1:25:02,  1.96it/s]  6%|▋         | 673/10691 [13:24<1:25:28,  1.95it/s]  6%|▋         | 674/10691 [13:24<1:24:58,  1.96it/s]  6%|▋         | 675/10691 [13:25<1:27:25,  1.91it/s]{'loss': 4.0796, 'grad_norm': 0.5062704682350159, 'learning_rate': 0.0006308411214953271, 'epoch': 0.06}                                                     
+  6%|▋         | 675/10691 [13:25<1:27:25,  1.91it/s]  6%|▋         | 676/10691 [13:25<1:28:36,  1.88it/s]  6%|▋         | 677/10691 [13:26<1:27:25,  1.91it/s]  6%|▋         | 678/10691 [13:26<1:26:12,  1.94it/s]  6%|▋         | 679/10691 [13:27<1:26:18,  1.93it/s]  6%|▋         | 680/10691 [13:27<1:26:41,  1.92it/s]  6%|▋         | 681/10691 [13:28<1:27:11,  1.91it/s]  6%|▋         | 682/10691 [13:28<1:26:07,  1.94it/s]  6%|▋         | 683/10691 [13:29<1:26:12,  1.93it/s]  6%|▋         | 684/10691 [13:30<1:26:29,  1.93it/s]  6%|▋         | 685/10691 [13:30<1:26:01,  1.94it/s]  6%|▋         | 686/10691 [13:31<1:25:15,  1.96it/s]  6%|▋         | 687/10691 [13:31<1:24:36,  1.97it/s]  6%|▋         | 688/10691 [13:32<1:25:27,  1.95it/s]  6%|▋         | 689/10691 [13:32<1:26:19,  1.93it/s]  6%|▋         | 690/10691 [13:33<1:27:05,  1.91it/s]  6%|▋         | 691/10691 [13:33<1:25:50,  1.94it/s]  6%|▋         | 692/10691 [13:34<1:26:46,  1.92it/s]  6%|▋         | 693/10691 [13:34<1:27:49,  1.90it/s]  6%|▋         | 694/10691 [13:35<1:27:37,  1.90it/s]  7%|▋         | 695/10691 [13:35<1:26:23,  1.93it/s]  7%|▋         | 696/10691 [13:36<1:27:17,  1.91it/s]  7%|▋         | 697/10691 [13:36<1:29:19,  1.86it/s]  7%|▋         | 698/10691 [13:37<1:28:00,  1.89it/s]  7%|▋         | 699/10691 [13:37<1:26:31,  1.92it/s]  7%|▋         | 700/10691 [13:38<1:25:39,  1.94it/s]{'loss': 4.0662, 'grad_norm': 0.465345174074173, 'learning_rate': 0.0006542056074766354, 'epoch': 0.07}                                                     
+  7%|▋         | 700/10691 [13:38<1:25:39,  1.94it/s]  7%|▋         | 701/10691 [13:38<1:25:58,  1.94it/s]  7%|▋         | 702/10691 [13:39<1:25:40,  1.94it/s]  7%|▋         | 703/10691 [13:39<1:25:00,  1.96it/s]  7%|▋         | 704/10691 [13:40<1:25:41,  1.94it/s]  7%|▋         | 705/10691 [13:41<1:39:44,  1.67it/s]  7%|▋         | 706/10691 [13:41<1:34:48,  1.76it/s]  7%|▋         | 707/10691 [13:42<1:31:24,  1.82it/s]  7%|▋         | 708/10691 [13:42<1:29:02,  1.87it/s]  7%|▋         | 709/10691 [13:43<1:27:15,  1.91it/s]  7%|▋         | 710/10691 [13:43<1:27:17,  1.91it/s]  7%|▋         | 711/10691 [13:44<1:28:35,  1.88it/s]  7%|▋         | 712/10691 [13:44<1:27:35,  1.90it/s]  7%|▋         | 713/10691 [13:45<1:26:21,  1.93it/s]  7%|▋         | 714/10691 [13:45<1:26:40,  1.92it/s]  7%|▋         | 715/10691 [13:46<1:27:25,  1.90it/s]  7%|▋         | 716/10691 [13:46<1:26:51,  1.91it/s]  7%|▋         | 717/10691 [13:47<1:25:44,  1.94it/s]  7%|▋         | 718/10691 [13:47<1:25:34,  1.94it/s]  7%|▋         | 719/10691 [13:48<1:26:26,  1.92it/s]  7%|▋         | 720/10691 [13:48<1:26:55,  1.91it/s]  7%|▋         | 721/10691 [13:49<1:25:47,  1.94it/s]  7%|▋         | 722/10691 [13:49<1:24:57,  1.96it/s]  7%|▋         | 723/10691 [13:50<1:24:19,  1.97it/s]  7%|▋         | 724/10691 [13:50<1:25:29,  1.94it/s]  7%|▋         | 725/10691 [13:51<1:26:32,  1.92it/s]{'loss': 4.0246, 'grad_norm': 0.47860708832740784, 'learning_rate': 0.0006775700934579439, 'epoch': 0.07}
+                                                       7%|▋         | 725/10691 [13:51<1:26:32,  1.92it/s]  7%|▋         | 726/10691 [13:52<1:25:42,  1.94it/s]  7%|▋         | 727/10691 [13:52<1:24:50,  1.96it/s]  7%|▋         | 728/10691 [13:53<1:26:10,  1.93it/s]  7%|▋         | 729/10691 [13:53<1:26:48,  1.91it/s]  7%|▋         | 730/10691 [13:54<1:25:35,  1.94it/s]  7%|▋         | 731/10691 [13:54<1:25:03,  1.95it/s]  7%|▋         | 732/10691 [13:55<1:25:32,  1.94it/s]  7%|▋         | 733/10691 [13:55<1:26:56,  1.91it/s]  7%|▋         | 734/10691 [13:56<1:25:42,  1.94it/s]  7%|▋         | 735/10691 [13:56<1:24:48,  1.96it/s]  7%|▋         | 736/10691 [13:57<1:35:50,  1.73it/s]  7%|▋         | 737/10691 [13:57<1:33:43,  1.77it/s]  7%|▋         | 738/10691 [13:58<1:30:30,  1.83it/s]  7%|▋         | 739/10691 [13:58<1:28:14,  1.88it/s]  7%|▋         | 740/10691 [13:59<1:27:16,  1.90it/s]  7%|▋         | 741/10691 [13:59<1:27:21,  1.90it/s]  7%|▋         | 742/10691 [14:00<1:27:47,  1.89it/s]  7%|▋         | 743/10691 [14:00<1:26:10,  1.92it/s]  7%|▋         | 744/10691 [14:01<1:25:07,  1.95it/s]  7%|▋         | 745/10691 [14:02<1:25:30,  1.94it/s]  7%|▋         | 746/10691 [14:02<1:25:22,  1.94it/s]  7%|▋         | 747/10691 [14:03<1:26:12,  1.92it/s]  7%|▋         | 748/10691 [14:03<1:25:18,  1.94it/s]  7%|▋         | 749/10691 [14:04<1:25:54,  1.93it/s]  7%|▋         | 750/10691 [14:04<1:26:12,  1.92it/s]                                                     {'loss': 3.9918, 'grad_norm': 0.5948973894119263, 'learning_rate': 0.0007009345794392523, 'epoch': 0.07}
+  7%|▋         | 750/10691 [14:04<1:26:12,  1.92it/s]  7%|▋         | 751/10691 [14:05<1:25:58,  1.93it/s]  7%|▋         | 752/10691 [14:05<1:25:03,  1.95it/s]  7%|▋         | 753/10691 [14:06<1:25:37,  1.93it/s]  7%|▋         | 754/10691 [14:06<1:25:57,  1.93it/s]  7%|▋         | 755/10691 [14:07<1:26:15,  1.92it/s]  7%|▋         | 756/10691 [14:07<1:25:13,  1.94it/s]  7%|▋         | 757/10691 [14:08<1:24:29,  1.96it/s]  7%|▋         | 758/10691 [14:08<1:23:53,  1.97it/s]  7%|▋         | 759/10691 [14:09<1:23:38,  1.98it/s]  7%|▋         | 760/10691 [14:09<1:25:57,  1.93it/s]  7%|▋         | 761/10691 [14:10<1:25:00,  1.95it/s]  7%|▋         | 762/10691 [14:10<1:24:18,  1.96it/s]  7%|▋         | 763/10691 [14:11<1:23:46,  1.98it/s]  7%|▋         | 764/10691 [14:11<1:34:49,  1.74it/s]  7%|▋         | 765/10691 [14:12<1:32:42,  1.78it/s]  7%|▋         | 766/10691 [14:13<1:29:39,  1.85it/s]  7%|▋         | 767/10691 [14:13<1:27:30,  1.89it/s]  7%|▋         | 768/10691 [14:14<1:26:02,  1.92it/s]  7%|▋         | 769/10691 [14:14<1:25:56,  1.92it/s]  7%|▋         | 770/10691 [14:15<1:25:58,  1.92it/s]  7%|▋         | 771/10691 [14:15<1:26:00,  1.92it/s]  7%|▋         | 772/10691 [14:16<1:24:54,  1.95it/s]  7%|▋         | 773/10691 [14:16<1:24:44,  1.95it/s]  7%|▋         | 774/10691 [14:17<1:26:08,  1.92it/s]  7%|▋         | 775/10691 [14:17<1:26:48,  1.90it/s]{'loss': 3.9764, 'grad_norm': 0.5149176120758057, 'learning_rate': 0.0007242990654205608, 'epoch': 0.07}                                                     
+  7%|▋         | 775/10691 [14:17<1:26:48,  1.90it/s]  7%|▋         | 776/10691 [14:18<1:25:31,  1.93it/s]  7%|▋         | 777/10691 [14:18<1:24:59,  1.94it/s]  7%|▋         | 778/10691 [14:19<1:24:46,  1.95it/s]  7%|▋         | 779/10691 [14:19<1:25:39,  1.93it/s]  7%|▋         | 780/10691 [14:20<1:24:39,  1.95it/s]  7%|▋         | 781/10691 [14:20<1:23:55,  1.97it/s]  7%|▋         | 782/10691 [14:21<1:23:36,  1.98it/s]  7%|▋         | 783/10691 [14:21<1:23:11,  1.98it/s]  7%|▋         | 784/10691 [14:22<1:23:07,  1.99it/s]  7%|▋         | 785/10691 [14:22<1:22:47,  1.99it/s]  7%|▋         | 786/10691 [14:23<1:23:21,  1.98it/s]  7%|▋         | 787/10691 [14:23<1:24:02,  1.96it/s]  7%|▋         | 788/10691 [14:24<1:23:35,  1.97it/s]  7%|▋         | 789/10691 [14:24<1:23:13,  1.98it/s]  7%|▋         | 790/10691 [14:25<1:23:58,  1.96it/s]  7%|▋         | 791/10691 [14:25<1:25:06,  1.94it/s]  7%|▋         | 792/10691 [14:26<1:24:13,  1.96it/s]  7%|▋         | 793/10691 [14:26<1:23:38,  1.97it/s]  7%|▋         | 794/10691 [14:27<1:25:26,  1.93it/s]  7%|▋         | 795/10691 [14:27<1:25:47,  1.92it/s]  7%|▋         | 796/10691 [14:28<1:24:42,  1.95it/s]  7%|▋         | 797/10691 [14:28<1:23:51,  1.97it/s]  7%|▋         | 798/10691 [14:29<1:23:23,  1.98it/s]  7%|▋         | 799/10691 [14:29<1:24:24,  1.95it/s]  7%|▋         | 800/10691 [14:30<1:23:45,  1.97it/s]                                                     {'loss': 3.9355, 'grad_norm': 0.4895245134830475, 'learning_rate': 0.0007476635514018691, 'epoch': 0.07}
+  7%|▋         | 800/10691 [14:30<1:23:45,  1.97it/s]  7%|▋         | 801/10691 [14:30<1:23:42,  1.97it/s]  8%|▊         | 802/10691 [14:31<1:23:23,  1.98it/s]  8%|▊         | 803/10691 [14:31<1:24:08,  1.96it/s]  8%|▊         | 804/10691 [14:32<1:35:15,  1.73it/s]  8%|▊         | 805/10691 [14:33<1:31:18,  1.80it/s]  8%|▊         | 806/10691 [14:33<1:28:30,  1.86it/s]  8%|▊         | 807/10691 [14:34<1:27:40,  1.88it/s]  8%|▊         | 808/10691 [14:34<1:26:56,  1.89it/s]  8%|▊         | 809/10691 [14:35<1:25:39,  1.92it/s]  8%|▊         | 810/10691 [14:35<1:24:29,  1.95it/s]  8%|▊         | 811/10691 [14:36<1:23:48,  1.96it/s]  8%|▊         | 812/10691 [14:36<1:23:13,  1.98it/s]  8%|▊         | 813/10691 [14:37<1:22:54,  1.99it/s]  8%|▊         | 814/10691 [14:37<1:22:37,  1.99it/s]  8%|▊         | 815/10691 [14:38<1:23:27,  1.97it/s]  8%|▊         | 816/10691 [14:38<1:23:59,  1.96it/s]  8%|▊         | 817/10691 [14:39<1:24:35,  1.95it/s]  8%|▊         | 818/10691 [14:39<1:24:04,  1.96it/s]  8%|▊         | 819/10691 [14:40<1:24:05,  1.96it/s]  8%|▊         | 820/10691 [14:40<1:24:00,  1.96it/s]  8%|▊         | 821/10691 [14:41<1:23:42,  1.97it/s]  8%|▊         | 822/10691 [14:41<1:23:15,  1.98it/s]  8%|▊         | 823/10691 [14:42<1:22:57,  1.98it/s]  8%|▊         | 824/10691 [14:42<1:22:33,  1.99it/s]  8%|▊         | 825/10691 [14:43<1:34:51,  1.73it/s]{'loss': 3.925, 'grad_norm': 0.38797202706336975, 'learning_rate': 0.0007710280373831776, 'epoch': 0.08}
+                                                       8%|▊         | 825/10691 [14:43<1:34:51,  1.73it/s]  8%|▊         | 826/10691 [14:44<1:32:30,  1.78it/s]  8%|▊         | 827/10691 [14:44<1:29:23,  1.84it/s]  8%|▊         | 828/10691 [14:45<1:27:04,  1.89it/s]  8%|▊         | 829/10691 [14:45<1:25:40,  1.92it/s]  8%|▊         | 830/10691 [14:46<1:25:14,  1.93it/s]  8%|▊         | 831/10691 [14:46<1:26:37,  1.90it/s]  8%|▊         | 832/10691 [14:47<1:25:33,  1.92it/s]  8%|▊         | 833/10691 [14:47<1:24:28,  1.95it/s]  8%|▊         | 834/10691 [14:48<1:24:26,  1.95it/s]  8%|▊         | 835/10691 [14:48<1:24:16,  1.95it/s]  8%|▊         | 836/10691 [14:49<1:23:58,  1.96it/s]  8%|▊         | 837/10691 [14:49<1:23:20,  1.97it/s]  8%|▊         | 838/10691 [14:50<1:23:13,  1.97it/s]  8%|▊         | 839/10691 [14:50<1:23:13,  1.97it/s]  8%|▊         | 840/10691 [14:51<1:23:18,  1.97it/s]  8%|▊         | 841/10691 [14:51<1:22:55,  1.98it/s]  8%|▊         | 842/10691 [14:52<1:22:26,  1.99it/s]  8%|▊         | 843/10691 [14:52<1:22:19,  1.99it/s]  8%|▊         | 844/10691 [14:53<1:22:13,  2.00it/s]  8%|▊         | 845/10691 [14:53<1:22:30,  1.99it/s]  8%|▊         | 846/10691 [14:54<1:25:01,  1.93it/s]  8%|▊         | 847/10691 [14:54<1:24:05,  1.95it/s]  8%|▊         | 848/10691 [14:55<1:23:21,  1.97it/s]  8%|▊         | 849/10691 [14:55<1:22:52,  1.98it/s]  8%|▊         | 850/10691 [14:56<1:23:09,  1.97it/s]{'loss': 3.9011, 'grad_norm': 0.4170984625816345, 'learning_rate': 0.000794392523364486, 'epoch': 0.08}                                                     
+  8%|▊         | 850/10691 [14:56<1:23:09,  1.97it/s]  8%|▊         | 851/10691 [14:56<1:24:01,  1.95it/s]  8%|▊         | 852/10691 [14:57<1:23:13,  1.97it/s]  8%|▊         | 853/10691 [14:57<1:23:15,  1.97it/s]  8%|▊         | 854/10691 [14:58<1:24:06,  1.95it/s]  8%|▊         | 855/10691 [14:58<1:35:08,  1.72it/s]  8%|▊         | 856/10691 [14:59<1:31:05,  1.80it/s]  8%|▊         | 857/10691 [15:00<1:29:52,  1.82it/s]  8%|▊         | 858/10691 [15:00<1:28:40,  1.85it/s]  8%|▊         | 859/10691 [15:01<1:26:30,  1.89it/s]  8%|▊         | 860/10691 [15:01<1:24:59,  1.93it/s]  8%|▊         | 861/10691 [15:02<1:24:07,  1.95it/s]  8%|▊         | 862/10691 [15:02<1:24:28,  1.94it/s]  8%|▊         | 863/10691 [15:03<1:35:49,  1.71it/s]  8%|▊         | 864/10691 [15:03<1:31:29,  1.79it/s]  8%|▊         | 865/10691 [15:04<1:28:38,  1.85it/s]  8%|▊         | 866/10691 [15:04<1:28:01,  1.86it/s]  8%|▊         | 867/10691 [15:05<1:27:37,  1.87it/s]  8%|▊         | 868/10691 [15:05<1:26:02,  1.90it/s]  8%|▊         | 869/10691 [15:06<1:24:46,  1.93it/s]  8%|▊         | 870/10691 [15:06<1:25:10,  1.92it/s]  8%|▊         | 871/10691 [15:07<1:24:49,  1.93it/s]  8%|▊         | 872/10691 [15:07<1:24:28,  1.94it/s]  8%|▊         | 873/10691 [15:08<1:23:50,  1.95it/s]  8%|▊         | 874/10691 [15:08<1:23:53,  1.95it/s]  8%|▊         | 875/10691 [15:09<1:24:29,  1.94it/s]                                                     {'loss': 3.8847, 'grad_norm': 0.3685252070426941, 'learning_rate': 0.0008177570093457944, 'epoch': 0.08}
+  8%|▊         | 875/10691 [15:09<1:24:29,  1.94it/s]  8%|▊         | 876/10691 [15:09<1:24:10,  1.94it/s]  8%|▊         | 877/10691 [15:10<1:23:25,  1.96it/s]  8%|▊         | 878/10691 [15:10<1:23:20,  1.96it/s]  8%|▊         | 879/10691 [15:11<1:24:15,  1.94it/s]  8%|▊         | 880/10691 [15:12<1:24:15,  1.94it/s]  8%|▊         | 881/10691 [15:12<1:23:36,  1.96it/s]  8%|▊         | 882/10691 [15:13<1:22:54,  1.97it/s]  8%|▊         | 883/10691 [15:13<1:22:34,  1.98it/s]  8%|▊         | 884/10691 [15:14<1:23:14,  1.96it/s]  8%|▊         | 885/10691 [15:14<1:23:13,  1.96it/s]  8%|▊         | 886/10691 [15:15<1:22:42,  1.98it/s]  8%|▊         | 887/10691 [15:15<1:22:25,  1.98it/s]  8%|▊         | 888/10691 [15:16<1:23:26,  1.96it/s]  8%|▊         | 889/10691 [15:16<1:23:28,  1.96it/s]  8%|▊         | 890/10691 [15:17<1:22:48,  1.97it/s]  8%|▊         | 891/10691 [15:17<1:22:21,  1.98it/s]  8%|▊         | 892/10691 [15:18<1:21:55,  1.99it/s]  8%|▊         | 893/10691 [15:18<1:21:52,  1.99it/s]  8%|▊         | 894/10691 [15:19<1:21:43,  2.00it/s]  8%|▊         | 895/10691 [15:19<1:21:59,  1.99it/s]  8%|▊         | 896/10691 [15:20<1:32:44,  1.76it/s]  8%|▊         | 897/10691 [15:20<1:29:11,  1.83it/s]  8%|▊         | 898/10691 [15:21<1:26:47,  1.88it/s]  8%|▊         | 899/10691 [15:21<1:25:08,  1.92it/s]  8%|▊         | 900/10691 [15:22<1:24:36,  1.93it/s]                                                     {'loss': 3.8568, 'grad_norm': 0.374141663312912, 'learning_rate': 0.0008411214953271028, 'epoch': 0.08}
+  8%|▊         | 900/10691 [15:22<1:24:36,  1.93it/s]  8%|▊         | 901/10691 [15:22<1:24:39,  1.93it/s]  8%|▊         | 902/10691 [15:23<1:23:34,  1.95it/s]  8%|▊         | 903/10691 [15:23<1:22:56,  1.97it/s]  8%|▊         | 904/10691 [15:24<1:23:19,  1.96it/s]  8%|▊         | 905/10691 [15:24<1:24:24,  1.93it/s]  8%|▊         | 906/10691 [15:25<1:23:33,  1.95it/s]  8%|▊         | 907/10691 [15:25<1:22:50,  1.97it/s]  8%|▊         | 908/10691 [15:26<1:22:19,  1.98it/s]  9%|▊         | 909/10691 [15:26<1:22:39,  1.97it/s]  9%|▊         | 910/10691 [15:27<1:22:58,  1.96it/s]  9%|▊         | 911/10691 [15:27<1:22:26,  1.98it/s]  9%|▊         | 912/10691 [15:28<1:21:59,  1.99it/s]  9%|▊         | 913/10691 [15:28<1:21:45,  1.99it/s]  9%|▊         | 914/10691 [15:29<1:23:02,  1.96it/s]  9%|▊         | 915/10691 [15:29<1:22:37,  1.97it/s]  9%|▊         | 916/10691 [15:30<1:22:08,  1.98it/s]  9%|▊         | 917/10691 [15:30<1:21:43,  1.99it/s]  9%|▊         | 918/10691 [15:31<1:22:05,  1.98it/s]  9%|▊         | 919/10691 [15:31<1:22:13,  1.98it/s]  9%|▊         | 920/10691 [15:32<1:21:53,  1.99it/s]  9%|▊         | 921/10691 [15:32<1:21:45,  1.99it/s]  9%|▊         | 922/10691 [15:33<1:21:26,  2.00it/s]  9%|▊         | 923/10691 [15:33<1:21:57,  1.99it/s]  9%|▊         | 924/10691 [15:34<1:22:15,  1.98it/s]  9%|▊         | 925/10691 [15:34<1:21:56,  1.99it/s]{'loss': 3.8444, 'grad_norm': 0.35990461707115173, 'learning_rate': 0.0008644859813084113, 'epoch': 0.09}                                                     
+  9%|▊         | 925/10691 [15:34<1:21:56,  1.99it/s]  9%|▊         | 926/10691 [15:35<1:21:40,  1.99it/s]  9%|▊         | 927/10691 [15:35<1:21:22,  2.00it/s]  9%|▊         | 928/10691 [15:36<1:21:18,  2.00it/s]  9%|▊         | 929/10691 [15:36<1:21:34,  1.99it/s]  9%|▊         | 930/10691 [15:37<1:22:18,  1.98it/s]  9%|▊         | 931/10691 [15:37<1:22:35,  1.97it/s]  9%|▊         | 932/10691 [15:38<1:21:59,  1.98it/s]  9%|▊         | 933/10691 [15:38<1:21:45,  1.99it/s]  9%|▊         | 934/10691 [15:39<1:22:42,  1.97it/s]  9%|▊         | 935/10691 [15:39<1:22:56,  1.96it/s]  9%|▉         | 936/10691 [15:40<1:22:22,  1.97it/s]  9%|▉         | 937/10691 [15:40<1:21:56,  1.98it/s]  9%|▉         | 938/10691 [15:41<1:21:32,  1.99it/s]  9%|▉         | 939/10691 [15:41<1:21:51,  1.99it/s]  9%|▉         | 940/10691 [15:42<1:22:00,  1.98it/s]  9%|▉         | 941/10691 [15:43<1:21:41,  1.99it/s]  9%|▉         | 942/10691 [15:43<1:21:30,  1.99it/s]  9%|▉         | 943/10691 [15:44<1:21:57,  1.98it/s]  9%|▉         | 944/10691 [15:44<1:32:03,  1.76it/s]  9%|▉         | 945/10691 [15:45<1:28:58,  1.83it/s]  9%|▉         | 946/10691 [15:45<1:26:29,  1.88it/s]  9%|▉         | 947/10691 [15:46<1:25:17,  1.90it/s]  9%|▉         | 948/10691 [15:46<1:24:49,  1.91it/s]  9%|▉         | 949/10691 [15:47<1:24:05,  1.93it/s]  9%|▉         | 950/10691 [15:47<1:23:02,  1.96it/s]                                                     {'loss': 3.8405, 'grad_norm': 0.3562379479408264, 'learning_rate': 0.0008878504672897196, 'epoch': 0.09}
+  9%|▉         | 950/10691 [15:47<1:23:02,  1.96it/s]  9%|▉         | 951/10691 [15:48<1:22:36,  1.96it/s]  9%|▉         | 952/10691 [15:48<1:22:53,  1.96it/s]  9%|▉         | 953/10691 [15:49<1:22:18,  1.97it/s]  9%|▉         | 954/10691 [15:49<1:22:19,  1.97it/s]  9%|▉         | 955/10691 [15:50<1:21:51,  1.98it/s]  9%|▉         | 956/10691 [15:50<1:21:25,  1.99it/s]  9%|▉         | 957/10691 [15:51<1:21:11,  2.00it/s]  9%|▉         | 958/10691 [15:51<1:22:17,  1.97it/s]  9%|▉         | 959/10691 [15:52<1:21:50,  1.98it/s]  9%|▉         | 960/10691 [15:52<1:21:32,  1.99it/s]  9%|▉         | 961/10691 [15:53<1:21:20,  1.99it/s]  9%|▉         | 962/10691 [15:53<1:21:49,  1.98it/s]  9%|▉         | 963/10691 [15:54<1:21:56,  1.98it/s]  9%|▉         | 964/10691 [15:54<1:21:31,  1.99it/s]  9%|▉         | 965/10691 [15:55<1:21:12,  2.00it/s]  9%|▉         | 966/10691 [15:55<1:21:06,  2.00it/s]  9%|▉         | 967/10691 [15:56<1:21:40,  1.98it/s]  9%|▉         | 968/10691 [15:56<1:21:32,  1.99it/s]  9%|▉         | 969/10691 [15:57<1:21:18,  1.99it/s]  9%|▉         | 970/10691 [15:57<1:22:51,  1.96it/s]  9%|▉         | 971/10691 [15:58<1:22:54,  1.95it/s]  9%|▉         | 972/10691 [15:58<1:22:47,  1.96it/s]  9%|▉         | 973/10691 [15:59<1:22:01,  1.97it/s]  9%|▉         | 974/10691 [15:59<1:21:42,  1.98it/s]  9%|▉         | 975/10691 [16:00<1:21:20,  1.99it/s]                                                     {'loss': 3.8043, 'grad_norm': 0.38221216201782227, 'learning_rate': 0.0009112149532710281, 'epoch': 0.09}
+  9%|▉         | 975/10691 [16:00<1:21:20,  1.99it/s]  9%|▉         | 976/10691 [16:00<1:21:52,  1.98it/s]  9%|▉         | 977/10691 [16:01<1:22:12,  1.97it/s]  9%|▉         | 978/10691 [16:01<1:21:49,  1.98it/s]  9%|▉         | 979/10691 [16:02<1:21:20,  1.99it/s]  9%|▉         | 980/10691 [16:02<1:21:30,  1.99it/s]  9%|▉         | 981/10691 [16:03<1:21:15,  1.99it/s]  9%|▉         | 982/10691 [16:03<1:21:36,  1.98it/s]  9%|▉         | 983/10691 [16:04<1:21:27,  1.99it/s]  9%|▉         | 984/10691 [16:04<1:21:39,  1.98it/s]  9%|▉         | 985/10691 [16:05<1:21:40,  1.98it/s]  9%|▉         | 986/10691 [16:05<1:21:37,  1.98it/s]  9%|▉         | 987/10691 [16:06<1:21:19,  1.99it/s]  9%|▉         | 988/10691 [16:06<1:21:03,  1.99it/s]  9%|▉         | 989/10691 [16:07<1:20:53,  2.00it/s]  9%|▉         | 990/10691 [16:07<1:20:43,  2.00it/s]  9%|▉         | 991/10691 [16:08<1:20:38,  2.00it/s]  9%|▉         | 992/10691 [16:08<1:20:45,  2.00it/s]  9%|▉         | 993/10691 [16:09<1:21:06,  1.99it/s]  9%|▉         | 994/10691 [16:09<1:21:00,  2.00it/s]  9%|▉         | 995/10691 [16:10<1:21:13,  1.99it/s]  9%|▉         | 996/10691 [16:10<1:21:24,  1.98it/s]  9%|▉         | 997/10691 [16:11<1:21:21,  1.99it/s]  9%|▉         | 998/10691 [16:11<1:21:30,  1.98it/s]  9%|▉         | 999/10691 [16:12<1:21:54,  1.97it/s]  9%|▉         | 1000/10691 [16:12<1:21:34,  1.98it/s]                                                      {'loss': 3.7944, 'grad_norm': 0.35386765003204346, 'learning_rate': 0.0009345794392523365, 'epoch': 0.09}
+  9%|▉         | 1000/10691 [16:12<1:21:34,  1.98it/s]  9%|▉         | 1001/10691 [16:13<1:21:28,  1.98it/s]  9%|▉         | 1002/10691 [16:13<1:21:48,  1.97it/s]  9%|▉         | 1003/10691 [16:14<1:22:09,  1.97it/s]  9%|▉         | 1004/10691 [16:14<1:22:30,  1.96it/s]  9%|▉         | 1005/10691 [16:15<1:22:07,  1.97it/s]  9%|▉         | 1006/10691 [16:15<1:21:39,  1.98it/s]  9%|▉         | 1007/10691 [16:16<1:21:17,  1.99it/s]  9%|▉         | 1008/10691 [16:16<1:21:12,  1.99it/s]  9%|▉         | 1009/10691 [16:17<1:21:17,  1.98it/s]  9%|▉         | 1010/10691 [16:18<1:31:46,  1.76it/s]  9%|▉         | 1011/10691 [16:18<1:28:57,  1.81it/s]  9%|▉         | 1012/10691 [16:19<1:26:14,  1.87it/s]  9%|▉         | 1013/10691 [16:19<1:24:32,  1.91it/s]  9%|▉         | 1014/10691 [16:20<1:23:20,  1.94it/s]  9%|▉         | 1015/10691 [16:20<1:22:39,  1.95it/s] 10%|▉         | 1016/10691 [16:21<1:22:30,  1.95it/s] 10%|▉         | 1017/10691 [16:21<1:22:28,  1.95it/s] 10%|▉         | 1018/10691 [16:22<1:21:59,  1.97it/s] 10%|▉         | 1019/10691 [16:22<1:21:57,  1.97it/s] 10%|▉         | 1020/10691 [16:23<1:21:52,  1.97it/s] 10%|▉         | 1021/10691 [16:23<1:21:58,  1.97it/s] 10%|▉         | 1022/10691 [16:24<1:21:36,  1.97it/s] 10%|▉         | 1023/10691 [16:24<1:21:22,  1.98it/s] 10%|▉         | 1024/10691 [16:25<1:20:53,  1.99it/s] 10%|▉         | 1025/10691 [16:25<1:20:45,  1.99it/s]{'loss': 3.7829, 'grad_norm': 0.3283696174621582, 'learning_rate': 0.000957943925233645, 'epoch': 0.1}                                                      
+ 10%|▉         | 1025/10691 [16:25<1:20:45,  1.99it/s] 10%|▉         | 1026/10691 [16:26<1:21:03,  1.99it/s] 10%|▉         | 1027/10691 [16:26<1:20:56,  1.99it/s] 10%|▉         | 1028/10691 [16:27<1:21:39,  1.97it/s] 10%|▉         | 1029/10691 [16:27<1:21:11,  1.98it/s] 10%|▉         | 1030/10691 [16:28<1:33:45,  1.72it/s] 10%|▉         | 1031/10691 [16:29<1:29:50,  1.79it/s] 10%|▉         | 1032/10691 [16:29<1:27:10,  1.85it/s] 10%|▉         | 1033/10691 [16:30<1:25:05,  1.89it/s] 10%|▉         | 1034/10691 [16:30<1:24:04,  1.91it/s] 10%|▉         | 1035/10691 [16:31<1:22:46,  1.94it/s] 10%|▉         | 1036/10691 [16:31<1:34:56,  1.70it/s] 10%|▉         | 1037/10691 [16:32<1:30:31,  1.78it/s] 10%|▉         | 1038/10691 [16:32<1:27:22,  1.84it/s] 10%|▉         | 1039/10691 [16:33<1:25:06,  1.89it/s] 10%|▉         | 1040/10691 [16:33<1:24:03,  1.91it/s] 10%|▉         | 1041/10691 [16:34<1:23:13,  1.93it/s] 10%|▉         | 1042/10691 [16:34<1:22:24,  1.95it/s] 10%|▉         | 1043/10691 [16:35<1:22:04,  1.96it/s] 10%|▉         | 1044/10691 [16:35<1:21:25,  1.97it/s] 10%|▉         | 1045/10691 [16:36<1:21:01,  1.98it/s] 10%|▉         | 1046/10691 [16:36<1:21:14,  1.98it/s] 10%|▉         | 1047/10691 [16:37<1:21:06,  1.98it/s] 10%|▉         | 1048/10691 [16:37<1:20:49,  1.99it/s] 10%|▉         | 1049/10691 [16:38<1:20:40,  1.99it/s] 10%|▉         | 1050/10691 [16:38<1:21:19,  1.98it/s]                                                      {'loss': 3.7559, 'grad_norm': 0.3272954225540161, 'learning_rate': 0.0009813084112149533, 'epoch': 0.1}
+ 10%|▉         | 1050/10691 [16:38<1:21:19,  1.98it/s] 10%|▉         | 1051/10691 [16:39<1:20:57,  1.98it/s] 10%|▉         | 1052/10691 [16:39<1:20:43,  1.99it/s] 10%|▉         | 1053/10691 [16:40<1:20:31,  1.99it/s] 10%|▉         | 1054/10691 [16:40<1:20:21,  2.00it/s] 10%|▉         | 1055/10691 [16:41<1:20:26,  2.00it/s] 10%|▉         | 1056/10691 [16:41<1:20:32,  1.99it/s] 10%|▉         | 1057/10691 [16:42<1:20:22,  2.00it/s] 10%|▉         | 1058/10691 [16:42<1:20:10,  2.00it/s] 10%|▉         | 1059/10691 [16:43<1:20:11,  2.00it/s] 10%|▉         | 1060/10691 [16:43<1:21:00,  1.98it/s] 10%|▉         | 1061/10691 [16:44<1:21:19,  1.97it/s] 10%|▉         | 1062/10691 [16:44<1:20:52,  1.98it/s] 10%|▉         | 1063/10691 [16:45<1:20:34,  1.99it/s] 10%|▉         | 1064/10691 [16:45<1:21:29,  1.97it/s] 10%|▉         | 1065/10691 [16:46<1:21:17,  1.97it/s] 10%|▉         | 1066/10691 [16:46<1:20:55,  1.98it/s] 10%|▉         | 1067/10691 [16:47<1:20:31,  1.99it/s] 10%|▉         | 1068/10691 [16:47<1:20:20,  2.00it/s] 10%|▉         | 1069/10691 [16:48<1:20:16,  2.00it/s] 10%|█         | 1070/10691 [16:48<1:20:03,  2.00it/s] 10%|█         | 1071/10691 [16:49<1:20:01,  2.00it/s] 10%|█         | 1072/10691 [16:49<1:19:57,  2.00it/s] 10%|█         | 1073/10691 [16:50<1:20:33,  1.99it/s] 10%|█         | 1074/10691 [16:50<1:20:55,  1.98it/s] 10%|█         | 1075/10691 [16:51<1:20:54,  1.98it/s]                                                      {'loss': 3.7403, 'grad_norm': 0.29936161637306213, 'learning_rate': 0.0009999993335934809, 'epoch': 0.1}
+ 10%|█         | 1075/10691 [16:51<1:20:54,  1.98it/s] 10%|█         | 1076/10691 [16:51<1:20:33,  1.99it/s] 10%|█         | 1077/10691 [16:52<1:20:19,  1.99it/s] 10%|█         | 1078/10691 [16:52<1:20:43,  1.98it/s] 10%|█         | 1079/10691 [16:53<1:21:00,  1.98it/s] 10%|█         | 1080/10691 [16:53<1:20:28,  1.99it/s] 10%|█         | 1081/10691 [16:54<1:20:20,  1.99it/s] 10%|█         | 1082/10691 [16:54<1:20:39,  1.99it/s] 10%|█         | 1083/10691 [16:55<1:20:51,  1.98it/s] 10%|█         | 1084/10691 [16:55<1:20:36,  1.99it/s] 10%|█         | 1085/10691 [16:56<1:20:11,  2.00it/s] 10%|█         | 1086/10691 [16:56<1:20:01,  2.00it/s] 10%|█         | 1087/10691 [16:57<1:20:25,  1.99it/s] 10%|█         | 1088/10691 [16:57<1:20:45,  1.98it/s] 10%|█         | 1089/10691 [16:58<1:20:27,  1.99it/s] 10%|█         | 1090/10691 [16:58<1:20:14,  1.99it/s] 10%|█         | 1091/10691 [16:59<1:20:30,  1.99it/s] 10%|█         | 1092/10691 [16:59<1:20:22,  1.99it/s] 10%|█         | 1093/10691 [17:00<1:20:10,  2.00it/s] 10%|█         | 1094/10691 [17:00<1:19:55,  2.00it/s] 10%|█         | 1095/10691 [17:01<1:19:48,  2.00it/s] 10%|█         | 1096/10691 [17:01<1:20:08,  2.00it/s] 10%|█         | 1097/10691 [17:02<1:19:55,  2.00it/s] 10%|█         | 1098/10691 [17:02<1:19:51,  2.00it/s] 10%|█         | 1099/10691 [17:03<1:19:44,  2.01it/s] 10%|█         | 1100/10691 [17:03<1:19:47,  2.00it/s]                                                      {'loss': 3.7272, 'grad_norm': 0.38463377952575684, 'learning_rate': 0.0009999760095518288, 'epoch': 0.1}
+ 10%|█         | 1100/10691 [17:03<1:19:47,  2.00it/s] 10%|█         | 1101/10691 [17:04<1:20:43,  1.98it/s] 10%|█         | 1102/10691 [17:04<1:20:23,  1.99it/s] 10%|█         | 1103/10691 [17:05<1:20:06,  1.99it/s] 10%|█         | 1104/10691 [17:05<1:19:55,  2.00it/s] 10%|█         | 1105/10691 [17:06<1:19:38,  2.01it/s] 10%|█         | 1106/10691 [17:06<1:19:37,  2.01it/s] 10%|█         | 1107/10691 [17:07<1:19:30,  2.01it/s] 10%|█         | 1108/10691 [17:07<1:19:28,  2.01it/s] 10%|█         | 1109/10691 [17:08<1:20:48,  1.98it/s] 10%|█         | 1110/10691 [17:08<1:21:16,  1.96it/s] 10%|█         | 1111/10691 [17:09<1:20:36,  1.98it/s] 10%|█         | 1112/10691 [17:09<1:20:16,  1.99it/s] 10%|█         | 1113/10691 [17:10<1:19:58,  2.00it/s] 10%|█         | 1114/10691 [17:11<1:20:32,  1.98it/s] 10%|█         | 1115/10691 [17:11<1:21:11,  1.97it/s] 10%|█         | 1116/10691 [17:12<1:20:31,  1.98it/s] 10%|█         | 1117/10691 [17:12<1:20:10,  1.99it/s] 10%|█         | 1118/10691 [17:13<1:19:56,  2.00it/s] 10%|█         | 1119/10691 [17:13<1:19:42,  2.00it/s] 10%|█         | 1120/10691 [17:14<1:19:35,  2.00it/s] 10%|█         | 1121/10691 [17:14<1:20:00,  1.99it/s] 10%|█         | 1122/10691 [17:15<1:20:19,  1.99it/s] 11%|█         | 1123/10691 [17:15<1:19:59,  1.99it/s] 11%|█         | 1124/10691 [17:16<1:20:14,  1.99it/s] 11%|█         | 1125/10691 [17:16<1:20:19,  1.98it/s]{'loss': 3.7061, 'grad_norm': 0.35007694363594055, 'learning_rate': 0.0009999193669605858, 'epoch': 0.11}
+                                                       11%|█         | 1125/10691 [17:16<1:20:19,  1.98it/s] 11%|█         | 1126/10691 [17:17<1:20:13,  1.99it/s] 11%|█         | 1127/10691 [17:17<1:19:51,  2.00it/s] 11%|█         | 1128/10691 [17:18<1:19:36,  2.00it/s] 11%|█         | 1129/10691 [17:18<1:20:01,  1.99it/s] 11%|█         | 1130/10691 [17:19<1:19:52,  2.00it/s] 11%|█         | 1131/10691 [17:19<1:19:38,  2.00it/s] 11%|█         | 1132/10691 [17:20<1:19:32,  2.00it/s] 11%|█         | 1133/10691 [17:20<1:19:21,  2.01it/s] 11%|█         | 1134/10691 [17:21<1:21:07,  1.96it/s] 11%|█         | 1135/10691 [17:21<1:20:36,  1.98it/s] 11%|█         | 1136/10691 [17:22<1:20:07,  1.99it/s] 11%|█         | 1137/10691 [17:22<1:19:47,  2.00it/s] 11%|█         | 1138/10691 [17:23<1:20:23,  1.98it/s] 11%|█         | 1139/10691 [17:23<1:20:27,  1.98it/s] 11%|█         | 1140/10691 [17:24<1:19:55,  1.99it/s] 11%|█         | 1141/10691 [17:24<1:19:45,  2.00it/s] 11%|█         | 1142/10691 [17:25<1:19:24,  2.00it/s] 11%|█         | 1143/10691 [17:25<1:19:27,  2.00it/s] 11%|█         | 1144/10691 [17:26<1:19:51,  1.99it/s] 11%|█         | 1145/10691 [17:26<1:20:28,  1.98it/s] 11%|█         | 1146/10691 [17:27<1:20:02,  1.99it/s] 11%|█         | 1147/10691 [17:27<1:19:37,  2.00it/s] 11%|█         | 1148/10691 [17:28<1:20:15,  1.98it/s] 11%|█         | 1149/10691 [17:28<1:20:10,  1.98it/s] 11%|█         | 1150/10691 [17:29<1:19:42,  1.99it/s]{'loss': 3.6828, 'grad_norm': 0.32631394267082214, 'learning_rate': 0.0009998294095944302, 'epoch': 0.11}                                                      
+ 11%|█         | 1150/10691 [17:29<1:19:42,  1.99it/s] 11%|█         | 1151/10691 [17:29<1:19:42,  1.99it/s] 11%|█         | 1152/10691 [17:30<1:19:30,  2.00it/s] 11%|█         | 1153/10691 [17:30<1:19:36,  2.00it/s] 11%|█         | 1154/10691 [17:31<1:19:30,  2.00it/s] 11%|█         | 1155/10691 [17:31<1:19:25,  2.00it/s] 11%|█         | 1156/10691 [17:32<1:19:30,  2.00it/s] 11%|█         | 1157/10691 [17:32<1:20:15,  1.98it/s] 11%|█         | 1158/10691 [17:33<1:19:55,  1.99it/s] 11%|█         | 1159/10691 [17:33<1:19:29,  2.00it/s] 11%|█         | 1160/10691 [17:34<1:19:24,  2.00it/s] 11%|█         | 1161/10691 [17:34<1:19:20,  2.00it/s] 11%|█         | 1162/10691 [17:35<1:19:14,  2.00it/s] 11%|█         | 1163/10691 [17:35<1:19:10,  2.01it/s] 11%|█         | 1164/10691 [17:36<1:18:59,  2.01it/s] 11%|█         | 1165/10691 [17:36<1:19:19,  2.00it/s] 11%|█         | 1166/10691 [17:37<1:19:28,  2.00it/s] 11%|█         | 1167/10691 [17:37<1:19:15,  2.00it/s] 11%|█         | 1168/10691 [17:38<1:19:06,  2.01it/s] 11%|█         | 1169/10691 [17:38<1:19:03,  2.01it/s] 11%|█         | 1170/10691 [17:39<1:20:07,  1.98it/s] 11%|█         | 1171/10691 [17:39<1:19:48,  1.99it/s] 11%|█         | 1172/10691 [17:40<1:19:22,  2.00it/s] 11%|█         | 1173/10691 [17:40<1:19:18,  2.00it/s] 11%|█         | 1174/10691 [17:41<1:19:42,  1.99it/s] 11%|█         | 1175/10691 [17:41<1:20:04,  1.98it/s]                                                      {'loss': 3.6634, 'grad_norm': 0.28686100244522095, 'learning_rate': 0.0009997061434481483, 'epoch': 0.11}
+ 11%|█         | 1175/10691 [17:41<1:20:04,  1.98it/s] 11%|█         | 1176/10691 [17:42<1:20:04,  1.98it/s] 11%|█         | 1177/10691 [17:42<1:19:37,  1.99it/s] 11%|█         | 1178/10691 [17:43<1:19:28,  1.99it/s] 11%|█         | 1179/10691 [17:43<1:20:12,  1.98it/s] 11%|█         | 1180/10691 [17:44<1:19:53,  1.98it/s] 11%|█         | 1181/10691 [17:44<1:19:29,  1.99it/s] 11%|█         | 1182/10691 [17:45<1:19:32,  1.99it/s] 11%|█         | 1183/10691 [17:45<1:19:21,  2.00it/s] 11%|█         | 1184/10691 [17:46<1:19:15,  2.00it/s] 11%|█         | 1185/10691 [17:46<1:19:10,  2.00it/s] 11%|█         | 1186/10691 [17:47<1:19:13,  2.00it/s] 11%|█         | 1187/10691 [17:47<1:19:05,  2.00it/s] 11%|█         | 1188/10691 [17:48<1:19:23,  2.00it/s] 11%|█         | 1189/10691 [17:48<1:19:14,  2.00it/s] 11%|█         | 1190/10691 [17:49<1:19:35,  1.99it/s] 11%|█         | 1191/10691 [17:49<1:19:26,  1.99it/s] 11%|█         | 1192/10691 [17:50<1:19:17,  2.00it/s] 11%|█         | 1193/10691 [17:50<1:19:07,  2.00it/s] 11%|█         | 1194/10691 [17:51<1:19:06,  2.00it/s] 11%|█         | 1195/10691 [17:51<1:19:09,  2.00it/s] 11%|█         | 1196/10691 [17:52<1:19:05,  2.00it/s] 11%|█         | 1197/10691 [17:52<1:19:33,  1.99it/s] 11%|█         | 1198/10691 [17:53<1:19:15,  2.00it/s] 11%|█         | 1199/10691 [17:53<1:19:07,  2.00it/s] 11%|█         | 1200/10691 [17:54<1:18:55,  2.00it/s]{'loss': 3.6572, 'grad_norm': 0.3070352077484131, 'learning_rate': 0.000999549576736232, 'epoch': 0.11}                                                      
+ 11%|█         | 1200/10691 [17:54<1:18:55,  2.00it/s] 11%|█         | 1201/10691 [17:54<1:18:57,  2.00it/s] 11%|█         | 1202/10691 [17:55<1:18:48,  2.01it/s] 11%|█▏        | 1203/10691 [17:55<1:18:42,  2.01it/s] 11%|█▏        | 1204/10691 [17:56<1:18:46,  2.01it/s] 11%|█▏        | 1205/10691 [17:56<1:18:45,  2.01it/s] 11%|█▏        | 1206/10691 [17:57<1:18:41,  2.01it/s] 11%|█▏        | 1207/10691 [17:57<1:18:36,  2.01it/s] 11%|█▏        | 1208/10691 [17:58<1:18:32,  2.01it/s] 11%|█▏        | 1209/10691 [17:58<1:18:38,  2.01it/s] 11%|█▏        | 1210/10691 [17:59<1:18:36,  2.01it/s] 11%|█▏        | 1211/10691 [17:59<1:18:38,  2.01it/s] 11%|█▏        | 1212/10691 [18:00<1:18:38,  2.01it/s] 11%|█▏        | 1213/10691 [18:00<1:18:29,  2.01it/s] 11%|█▏        | 1214/10691 [18:01<1:18:36,  2.01it/s] 11%|█▏        | 1215/10691 [18:01<1:18:30,  2.01it/s] 11%|█▏        | 1216/10691 [18:02<1:18:28,  2.01it/s] 11%|█▏        | 1217/10691 [18:02<1:18:34,  2.01it/s] 11%|█▏        | 1218/10691 [18:03<1:18:34,  2.01it/s] 11%|█▏        | 1219/10691 [18:03<1:18:36,  2.01it/s] 11%|█▏        | 1220/10691 [18:04<1:18:46,  2.00it/s] 11%|█▏        | 1221/10691 [18:04<1:18:55,  2.00it/s] 11%|█▏        | 1222/10691 [18:05<1:18:41,  2.01it/s] 11%|█▏        | 1223/10691 [18:05<1:18:46,  2.00it/s] 11%|█▏        | 1224/10691 [18:06<1:19:03,  2.00it/s] 11%|█▏        | 1225/10691 [18:06<1:18:53,  2.00it/s]                                                      {'loss': 3.6416, 'grad_norm': 0.28339770436286926, 'learning_rate': 0.0009993597198923341, 'epoch': 0.11}
+ 11%|█▏        | 1225/10691 [18:06<1:18:53,  2.00it/s] 11%|█▏        | 1226/10691 [18:07<1:18:51,  2.00it/s] 11%|█▏        | 1227/10691 [18:07<1:18:54,  2.00it/s] 11%|█▏        | 1228/10691 [18:08<1:18:45,  2.00it/s] 11%|█▏        | 1229/10691 [18:08<1:18:35,  2.01it/s] 12%|█▏        | 1230/10691 [18:09<1:18:30,  2.01it/s] 12%|█▏        | 1231/10691 [18:09<1:18:51,  2.00it/s] 12%|█▏        | 1232/10691 [18:10<1:18:41,  2.00it/s] 12%|█▏        | 1233/10691 [18:10<1:18:41,  2.00it/s] 12%|█▏        | 1234/10691 [18:11<1:18:32,  2.01it/s] 12%|█▏        | 1235/10691 [18:11<1:18:35,  2.01it/s] 12%|█▏        | 1236/10691 [18:12<1:18:36,  2.00it/s] 12%|█▏        | 1237/10691 [18:12<1:18:43,  2.00it/s] 12%|█▏        | 1238/10691 [18:13<1:18:36,  2.00it/s] 12%|█▏        | 1239/10691 [18:13<1:18:26,  2.01it/s] 12%|█▏        | 1240/10691 [18:14<1:18:23,  2.01it/s] 12%|█▏        | 1241/10691 [18:14<1:18:21,  2.01it/s] 12%|█▏        | 1242/10691 [18:15<1:18:45,  2.00it/s] 12%|█▏        | 1243/10691 [18:15<1:18:44,  2.00it/s] 12%|█▏        | 1244/10691 [18:16<1:18:31,  2.00it/s] 12%|█▏        | 1245/10691 [18:16<1:18:25,  2.01it/s] 12%|█▏        | 1246/10691 [18:17<1:18:22,  2.01it/s] 12%|█▏        | 1247/10691 [18:17<1:18:16,  2.01it/s] 12%|█▏        | 1248/10691 [18:18<1:18:03,  2.02it/s] 12%|█▏        | 1249/10691 [18:18<1:18:06,  2.01it/s] 12%|█▏        | 1250/10691 [18:19<1:18:15,  2.01it/s]{'loss': 3.6217, 'grad_norm': 0.278644859790802, 'learning_rate': 0.0009991365855685705, 'epoch': 0.12}
+                                                       12%|█▏        | 1250/10691 [18:19<1:18:15,  2.01it/s] 12%|█▏        | 1251/10691 [18:19<1:18:22,  2.01it/s] 12%|█▏        | 1252/10691 [18:20<1:18:44,  2.00it/s] 12%|█▏        | 1253/10691 [18:20<1:18:28,  2.00it/s] 12%|█▏        | 1254/10691 [18:21<1:18:29,  2.00it/s] 12%|█▏        | 1255/10691 [18:21<1:18:25,  2.01it/s] 12%|█▏        | 1256/10691 [18:22<1:18:24,  2.01it/s] 12%|█▏        | 1257/10691 [18:22<1:18:16,  2.01it/s] 12%|█▏        | 1258/10691 [18:23<1:18:06,  2.01it/s] 12%|█▏        | 1259/10691 [18:23<1:18:13,  2.01it/s] 12%|█▏        | 1260/10691 [18:24<1:18:09,  2.01it/s] 12%|█▏        | 1261/10691 [18:24<1:18:13,  2.01it/s] 12%|█▏        | 1262/10691 [18:25<1:19:02,  1.99it/s] 12%|█▏        | 1263/10691 [18:25<1:18:45,  2.00it/s] 12%|█▏        | 1264/10691 [18:26<1:18:31,  2.00it/s] 12%|█▏        | 1265/10691 [18:26<1:18:20,  2.01it/s] 12%|█▏        | 1266/10691 [18:27<1:19:18,  1.98it/s] 12%|█▏        | 1267/10691 [18:27<1:18:55,  1.99it/s] 12%|█▏        | 1268/10691 [18:28<1:18:37,  2.00it/s] 12%|█▏        | 1269/10691 [18:28<1:18:27,  2.00it/s] 12%|█▏        | 1270/10691 [18:29<1:18:58,  1.99it/s] 12%|█▏        | 1271/10691 [18:29<1:18:40,  2.00it/s] 12%|█▏        | 1272/10691 [18:30<1:18:41,  1.99it/s] 12%|█▏        | 1273/10691 [18:30<1:18:29,  2.00it/s] 12%|█▏        | 1274/10691 [18:31<1:18:11,  2.01it/s] 12%|█▏        | 1275/10691 [18:31<1:18:21,  2.00it/s]{'loss': 3.607, 'grad_norm': 0.2768081724643707, 'learning_rate': 0.000998880188634679, 'epoch': 0.12}
+                                                       12%|█▏        | 1275/10691 [18:31<1:18:21,  2.00it/s] 12%|█▏        | 1276/10691 [18:32<1:18:24,  2.00it/s] 12%|█▏        | 1277/10691 [18:32<1:18:09,  2.01it/s] 12%|█▏        | 1278/10691 [18:33<1:18:12,  2.01it/s] 12%|█▏        | 1279/10691 [18:33<1:18:01,  2.01it/s] 12%|█▏        | 1280/10691 [18:34<1:18:07,  2.01it/s] 12%|█▏        | 1281/10691 [18:34<1:18:14,  2.00it/s] 12%|█▏        | 1282/10691 [18:35<1:18:12,  2.01it/s] 12%|█▏        | 1283/10691 [18:35<1:18:13,  2.00it/s] 12%|█▏        | 1284/10691 [18:36<1:18:06,  2.01it/s] 12%|█▏        | 1285/10691 [18:36<1:18:14,  2.00it/s] 12%|█▏        | 1286/10691 [18:37<1:18:12,  2.00it/s] 12%|█▏        | 1287/10691 [18:37<1:18:06,  2.01it/s] 12%|█▏        | 1288/10691 [18:38<1:17:58,  2.01it/s] 12%|█▏        | 1289/10691 [18:38<1:17:52,  2.01it/s] 12%|█▏        | 1290/10691 [18:39<1:17:52,  2.01it/s] 12%|█▏        | 1291/10691 [18:39<1:17:54,  2.01it/s] 12%|█▏        | 1292/10691 [18:40<1:18:18,  2.00it/s] 12%|█▏        | 1293/10691 [18:40<1:18:05,  2.01it/s] 12%|█▏        | 1294/10691 [18:41<1:18:00,  2.01it/s] 12%|█▏        | 1295/10691 [18:41<1:17:56,  2.01it/s] 12%|█▏        | 1296/10691 [18:41<1:17:57,  2.01it/s] 12%|█▏        | 1297/10691 [18:42<1:17:57,  2.01it/s] 12%|█▏        | 1298/10691 [18:42<1:17:51,  2.01it/s] 12%|█▏        | 1299/10691 [18:43<1:17:47,  2.01it/s] 12%|█▏        | 1300/10691 [18:43<1:17:50,  2.01it/s]                                                      {'loss': 3.5882, 'grad_norm': 0.25935497879981995, 'learning_rate': 0.0009985905461770272, 'epoch': 0.12}
+ 12%|█▏        | 1300/10691 [18:43<1:17:50,  2.01it/s] 12%|█▏        | 1301/10691 [18:44<1:18:10,  2.00it/s] 12%|█▏        | 1302/10691 [18:44<1:18:01,  2.01it/s] 12%|█▏        | 1303/10691 [18:45<1:18:03,  2.00it/s] 12%|█▏        | 1304/10691 [18:45<1:18:00,  2.01it/s] 12%|█▏        | 1305/10691 [18:46<1:17:58,  2.01it/s] 12%|█▏        | 1306/10691 [18:46<1:17:50,  2.01it/s] 12%|█▏        | 1307/10691 [18:47<1:17:55,  2.01it/s] 12%|█▏        | 1308/10691 [18:47<1:17:50,  2.01it/s] 12%|█▏        | 1309/10691 [18:48<1:17:49,  2.01it/s] 12%|█▏        | 1310/10691 [18:48<1:17:52,  2.01it/s] 12%|█▏        | 1311/10691 [18:49<1:17:47,  2.01it/s] 12%|█▏        | 1312/10691 [18:49<1:18:09,  2.00it/s] 12%|█▏        | 1313/10691 [18:50<1:18:03,  2.00it/s] 12%|█▏        | 1314/10691 [18:50<1:18:02,  2.00it/s] 12%|█▏        | 1315/10691 [18:51<1:18:02,  2.00it/s] 12%|█▏        | 1316/10691 [18:51<1:17:52,  2.01it/s] 12%|█▏        | 1317/10691 [18:52<1:17:57,  2.00it/s] 12%|█▏        | 1318/10691 [18:52<1:17:53,  2.01it/s] 12%|█▏        | 1319/10691 [18:53<1:17:46,  2.01it/s] 12%|█▏        | 1320/10691 [18:53<1:18:11,  2.00it/s] 12%|█▏        | 1321/10691 [18:54<1:18:06,  2.00it/s] 12%|█▏        | 1322/10691 [18:54<1:18:01,  2.00it/s] 12%|█▏        | 1323/10691 [18:55<1:17:47,  2.01it/s] 12%|█▏        | 1324/10691 [18:55<1:17:39,  2.01it/s] 12%|█▏        | 1325/10691 [18:56<1:17:32,  2.01it/s]                                                      {'loss': 3.588, 'grad_norm': 0.26150599122047424, 'learning_rate': 0.000998267677497474, 'epoch': 0.12}
+ 12%|█▏        | 1325/10691 [18:56<1:17:32,  2.01it/s] 12%|█▏        | 1326/10691 [18:56<1:17:56,  2.00it/s] 12%|█▏        | 1327/10691 [18:57<1:17:55,  2.00it/s] 12%|█▏        | 1328/10691 [18:57<1:17:49,  2.01it/s] 12%|█▏        | 1329/10691 [18:58<1:17:40,  2.01it/s] 12%|█▏        | 1330/10691 [18:58<1:17:35,  2.01it/s] 12%|█▏        | 1331/10691 [18:59<1:28:01,  1.77it/s] 12%|█▏        | 1332/10691 [19:00<1:24:53,  1.84it/s] 12%|█▏        | 1333/10691 [19:00<1:22:34,  1.89it/s] 12%|█▏        | 1334/10691 [19:01<1:21:02,  1.92it/s] 12%|█▏        | 1335/10691 [19:01<1:20:02,  1.95it/s] 12%|█▏        | 1336/10691 [19:02<1:19:19,  1.97it/s] 13%|█▎        | 1337/10691 [19:02<1:18:54,  1.98it/s] 13%|█▎        | 1338/10691 [19:03<1:18:23,  1.99it/s] 13%|█▎        | 1339/10691 [19:03<1:18:07,  2.00it/s] 13%|█▎        | 1340/10691 [19:04<1:18:05,  2.00it/s] 13%|█▎        | 1341/10691 [19:04<1:17:59,  2.00it/s] 13%|█▎        | 1342/10691 [19:05<1:17:47,  2.00it/s] 13%|█▎        | 1343/10691 [19:05<1:17:39,  2.01it/s] 13%|█▎        | 1344/10691 [19:06<1:17:30,  2.01it/s] 13%|█▎        | 1345/10691 [19:06<1:17:31,  2.01it/s] 13%|█▎        | 1346/10691 [19:07<1:17:25,  2.01it/s] 13%|█▎        | 1347/10691 [19:07<1:17:23,  2.01it/s] 13%|█▎        | 1348/10691 [19:08<1:17:28,  2.01it/s] 13%|█▎        | 1349/10691 [19:08<1:17:18,  2.01it/s] 13%|█▎        | 1350/10691 [19:09<1:17:15,  2.02it/s]                                                      {'loss': 3.5747, 'grad_norm': 0.26458412408828735, 'learning_rate': 0.000997911604112085, 'epoch': 0.13}
+ 13%|█▎        | 1350/10691 [19:09<1:17:15,  2.02it/s] 13%|█▎        | 1351/10691 [19:09<1:17:54,  2.00it/s] 13%|█▎        | 1352/10691 [19:10<1:17:44,  2.00it/s] 13%|█▎        | 1353/10691 [19:10<1:17:33,  2.01it/s] 13%|█▎        | 1354/10691 [19:11<1:17:39,  2.00it/s] 13%|█▎        | 1355/10691 [19:11<1:17:31,  2.01it/s] 13%|█▎        | 1356/10691 [19:12<1:17:27,  2.01it/s] 13%|█▎        | 1357/10691 [19:12<1:17:21,  2.01it/s] 13%|█▎        | 1358/10691 [19:13<1:17:17,  2.01it/s] 13%|█▎        | 1359/10691 [19:13<1:17:30,  2.01it/s] 13%|█▎        | 1360/10691 [19:14<1:17:24,  2.01it/s] 13%|█▎        | 1361/10691 [19:14<1:17:45,  2.00it/s] 13%|█▎        | 1362/10691 [19:15<1:17:36,  2.00it/s] 13%|█▎        | 1363/10691 [19:15<1:27:57,  1.77it/s] 13%|█▎        | 1364/10691 [19:16<1:24:49,  1.83it/s] 13%|█▎        | 1365/10691 [19:16<1:22:30,  1.88it/s] 13%|█▎        | 1366/10691 [19:17<1:20:57,  1.92it/s] 13%|█▎        | 1367/10691 [19:17<1:20:04,  1.94it/s] 13%|█▎        | 1368/10691 [19:18<1:19:31,  1.95it/s] 13%|█▎        | 1369/10691 [19:18<1:18:48,  1.97it/s] 13%|█▎        | 1370/10691 [19:19<1:18:14,  1.99it/s] 13%|█▎        | 1371/10691 [19:19<1:17:58,  1.99it/s] 13%|█▎        | 1372/10691 [19:20<1:17:44,  2.00it/s] 13%|█▎        | 1373/10691 [19:20<1:17:32,  2.00it/s] 13%|█▎        | 1374/10691 [19:21<1:17:27,  2.00it/s] 13%|█▎        | 1375/10691 [19:21<1:17:25,  2.01it/s]{'loss': 3.5652, 'grad_norm': 0.2681049406528473, 'learning_rate': 0.0009975223497496952, 'epoch': 0.13}                                                      
+ 13%|█▎        | 1375/10691 [19:21<1:17:25,  2.01it/s] 13%|█▎        | 1376/10691 [19:22<1:17:25,  2.01it/s] 13%|█▎        | 1377/10691 [19:22<1:17:21,  2.01it/s] 13%|█▎        | 1378/10691 [19:23<1:17:16,  2.01it/s] 13%|█▎        | 1379/10691 [19:23<1:17:14,  2.01it/s] 13%|█▎        | 1380/10691 [19:24<1:17:10,  2.01it/s] 13%|█▎        | 1381/10691 [19:24<1:17:04,  2.01it/s] 13%|█▎        | 1382/10691 [19:25<1:17:06,  2.01it/s] 13%|█▎        | 1383/10691 [19:25<1:17:11,  2.01it/s] 13%|█▎        | 1384/10691 [19:26<1:17:10,  2.01it/s] 13%|█▎        | 1385/10691 [19:26<1:17:16,  2.01it/s] 13%|█▎        | 1386/10691 [19:27<1:17:15,  2.01it/s] 13%|█▎        | 1387/10691 [19:27<1:17:15,  2.01it/s] 13%|█▎        | 1388/10691 [19:28<1:17:18,  2.01it/s] 13%|█▎        | 1389/10691 [19:28<1:17:09,  2.01it/s] 13%|█▎        | 1390/10691 [19:29<1:17:06,  2.01it/s] 13%|█▎        | 1391/10691 [19:29<1:17:03,  2.01it/s] 13%|█▎        | 1392/10691 [19:30<1:17:15,  2.01it/s] 13%|█▎        | 1393/10691 [19:30<1:17:15,  2.01it/s] 13%|█▎        | 1394/10691 [19:31<1:17:09,  2.01it/s] 13%|█▎        | 1395/10691 [19:31<1:17:06,  2.01it/s] 13%|█▎        | 1396/10691 [19:32<1:16:55,  2.01it/s] 13%|█▎        | 1397/10691 [19:32<1:17:14,  2.01it/s] 13%|█▎        | 1398/10691 [19:33<1:17:04,  2.01it/s] 13%|█▎        | 1399/10691 [19:33<1:17:03,  2.01it/s] 13%|█▎        | 1400/10691 [19:34<1:17:23,  2.00it/s]                                                      {'loss': 3.5484, 'grad_norm': 0.2859255373477936, 'learning_rate': 0.0009970999403503314, 'epoch': 0.13}
+ 13%|█▎        | 1400/10691 [19:34<1:17:23,  2.00it/s] 13%|█▎        | 1401/10691 [19:34<1:17:48,  1.99it/s] 13%|█▎        | 1402/10691 [19:35<1:17:28,  2.00it/s] 13%|█▎        | 1403/10691 [19:35<1:17:16,  2.00it/s] 13%|█▎        | 1404/10691 [19:36<1:17:14,  2.00it/s] 13%|█▎        | 1405/10691 [19:36<1:17:17,  2.00it/s] 13%|█▎        | 1406/10691 [19:37<1:17:15,  2.00it/s] 13%|█▎        | 1407/10691 [19:37<1:17:10,  2.00it/s] 13%|█▎        | 1408/10691 [19:38<1:16:59,  2.01it/s] 13%|█▎        | 1409/10691 [19:38<1:16:55,  2.01it/s] 13%|█▎        | 1410/10691 [19:39<1:16:47,  2.01it/s] 13%|█▎        | 1411/10691 [19:39<1:16:57,  2.01it/s] 13%|█▎        | 1412/10691 [19:40<1:17:22,  2.00it/s] 13%|█▎        | 1413/10691 [19:40<1:17:10,  2.00it/s] 13%|█▎        | 1414/10691 [19:41<1:17:02,  2.01it/s] 13%|█▎        | 1415/10691 [19:41<1:17:03,  2.01it/s] 13%|█▎        | 1416/10691 [19:42<1:17:00,  2.01it/s] 13%|█▎        | 1417/10691 [19:42<1:16:56,  2.01it/s] 13%|█▎        | 1418/10691 [19:43<1:17:21,  2.00it/s] 13%|█▎        | 1419/10691 [19:43<1:17:02,  2.01it/s] 13%|█▎        | 1420/10691 [19:44<1:16:58,  2.01it/s] 13%|█▎        | 1421/10691 [19:44<1:16:52,  2.01it/s] 13%|█▎        | 1422/10691 [19:45<1:17:01,  2.01it/s] 13%|█▎        | 1423/10691 [19:45<1:16:45,  2.01it/s] 13%|█▎        | 1424/10691 [19:46<1:16:50,  2.01it/s] 13%|█▎        | 1425/10691 [19:46<1:17:09,  2.00it/s]                                                      {'loss': 3.5324, 'grad_norm': 0.272896409034729, 'learning_rate': 0.000996644404063481, 'epoch': 0.13}
+ 13%|█▎        | 1425/10691 [19:46<1:17:09,  2.00it/s] 13%|█▎        | 1426/10691 [19:47<1:17:18,  2.00it/s] 13%|█▎        | 1427/10691 [19:47<1:16:59,  2.01it/s] 13%|█▎        | 1428/10691 [19:48<1:16:51,  2.01it/s] 13%|█▎        | 1429/10691 [19:48<1:27:08,  1.77it/s] 13%|█▎        | 1430/10691 [19:49<1:24:12,  1.83it/s] 13%|█▎        | 1431/10691 [19:49<1:21:57,  1.88it/s] 13%|█▎        | 1432/10691 [19:50<1:20:23,  1.92it/s] 13%|█▎        | 1433/10691 [19:50<1:19:14,  1.95it/s] 13%|█▎        | 1434/10691 [19:51<1:18:46,  1.96it/s] 13%|█▎        | 1435/10691 [19:51<1:18:05,  1.98it/s] 13%|█▎        | 1436/10691 [19:52<1:17:32,  1.99it/s] 13%|█▎        | 1437/10691 [19:52<1:17:11,  2.00it/s] 13%|█▎        | 1438/10691 [19:53<1:16:51,  2.01it/s] 13%|█▎        | 1439/10691 [19:53<1:16:50,  2.01it/s] 13%|█▎        | 1440/10691 [19:54<1:16:43,  2.01it/s] 13%|█▎        | 1441/10691 [19:54<1:17:01,  2.00it/s] 13%|█▎        | 1442/10691 [19:55<1:16:51,  2.01it/s] 13%|█▎        | 1443/10691 [19:55<1:16:43,  2.01it/s] 14%|█▎        | 1444/10691 [19:56<1:16:39,  2.01it/s] 14%|█▎        | 1445/10691 [19:56<1:16:43,  2.01it/s] 14%|█▎        | 1446/10691 [19:57<1:16:32,  2.01it/s] 14%|█▎        | 1447/10691 [19:57<1:16:42,  2.01it/s] 14%|█▎        | 1448/10691 [19:58<1:16:39,  2.01it/s] 14%|█▎        | 1449/10691 [19:58<1:16:36,  2.01it/s] 14%|█▎        | 1450/10691 [19:59<1:16:37,  2.01it/s]{'loss': 3.5248, 'grad_norm': 0.2694576680660248, 'learning_rate': 0.0009961557712462176, 'epoch': 0.14}                                                      
+ 14%|█▎        | 1450/10691 [19:59<1:16:37,  2.01it/s] 14%|█▎        | 1451/10691 [19:59<1:16:59,  2.00it/s] 14%|█▎        | 1452/10691 [20:00<1:16:42,  2.01it/s] 14%|█▎        | 1453/10691 [20:00<1:16:35,  2.01it/s] 14%|█▎        | 1454/10691 [20:01<1:16:47,  2.00it/s] 14%|█▎        | 1455/10691 [20:01<1:17:17,  1.99it/s] 14%|█▎        | 1456/10691 [20:02<1:17:00,  2.00it/s] 14%|█▎        | 1457/10691 [20:02<1:16:50,  2.00it/s] 14%|█▎        | 1458/10691 [20:03<1:16:43,  2.01it/s] 14%|█▎        | 1459/10691 [20:03<1:16:36,  2.01it/s] 14%|█▎        | 1460/10691 [20:04<1:16:43,  2.01it/s] 14%|█▎        | 1461/10691 [20:04<1:16:46,  2.00it/s] 14%|█▎        | 1462/10691 [20:05<1:16:33,  2.01it/s] 14%|█▎        | 1463/10691 [20:05<1:16:32,  2.01it/s] 14%|█▎        | 1464/10691 [20:06<1:16:36,  2.01it/s] 14%|█▎        | 1465/10691 [20:06<1:16:30,  2.01it/s] 14%|█▎        | 1466/10691 [20:07<1:16:22,  2.01it/s] 14%|█▎        | 1467/10691 [20:07<1:16:19,  2.01it/s] 14%|█▎        | 1468/10691 [20:08<1:16:20,  2.01it/s] 14%|█▎        | 1469/10691 [20:08<1:16:20,  2.01it/s] 14%|█▎        | 1470/10691 [20:09<1:16:14,  2.02it/s] 14%|█▍        | 1471/10691 [20:09<1:16:20,  2.01it/s] 14%|█▍        | 1472/10691 [20:10<1:16:15,  2.01it/s] 14%|█▍        | 1473/10691 [20:10<1:16:15,  2.01it/s] 14%|█▍        | 1474/10691 [20:11<1:16:18,  2.01it/s] 14%|█▍        | 1475/10691 [20:11<1:16:33,  2.01it/s]                                                      {'loss': 3.5185, 'grad_norm': 0.25870421528816223, 'learning_rate': 0.0009956340744611764, 'epoch': 0.14}
+ 14%|█▍        | 1475/10691 [20:11<1:16:33,  2.01it/s] 14%|█▍        | 1476/10691 [20:12<1:16:33,  2.01it/s] 14%|█▍        | 1477/10691 [20:12<1:16:29,  2.01it/s] 14%|█▍        | 1478/10691 [20:13<1:16:45,  2.00it/s] 14%|█▍        | 1479/10691 [20:13<1:17:03,  1.99it/s] 14%|█▍        | 1480/10691 [20:14<1:16:39,  2.00it/s] 14%|█▍        | 1481/10691 [20:14<1:16:36,  2.00it/s] 14%|█▍        | 1482/10691 [20:15<1:16:55,  2.00it/s] 14%|█▍        | 1483/10691 [20:16<1:26:50,  1.77it/s] 14%|█▍        | 1484/10691 [20:16<1:23:39,  1.83it/s] 14%|█▍        | 1485/10691 [20:17<1:21:24,  1.88it/s] 14%|█▍        | 1486/10691 [20:17<1:19:53,  1.92it/s] 14%|█▍        | 1487/10691 [20:18<1:19:01,  1.94it/s] 14%|█▍        | 1488/10691 [20:18<1:18:08,  1.96it/s] 14%|█▍        | 1489/10691 [20:19<1:17:36,  1.98it/s] 14%|█▍        | 1490/10691 [20:19<1:17:12,  1.99it/s] 14%|█▍        | 1491/10691 [20:20<1:17:03,  1.99it/s] 14%|█▍        | 1492/10691 [20:20<1:16:49,  2.00it/s] 14%|█▍        | 1493/10691 [20:21<1:17:10,  1.99it/s] 14%|█▍        | 1494/10691 [20:21<1:16:47,  2.00it/s] 14%|█▍        | 1495/10691 [20:22<1:16:32,  2.00it/s] 14%|█▍        | 1496/10691 [20:22<1:16:20,  2.01it/s] 14%|█▍        | 1497/10691 [20:23<1:18:35,  1.95it/s] 14%|█▍        | 1498/10691 [20:23<1:17:41,  1.97it/s] 14%|█▍        | 1499/10691 [20:24<1:24:28,  1.81it/s] 14%|█▍        | 1500/10691 [20:24<1:27:41,  1.75it/s]{'loss': 3.5123, 'grad_norm': 0.2664444148540497, 'learning_rate': 0.0009950793484743868, 'epoch': 0.14}                                                      
+ 14%|█▍        | 1500/10691 [20:24<1:27:41,  1.75it/s] 14%|█▍        | 1501/10691 [20:25<1:25:23,  1.79it/s] 14%|█▍        | 1502/10691 [20:25<1:23:42,  1.83it/s] 14%|█▍        | 1503/10691 [20:26<1:21:25,  1.88it/s] 14%|█▍        | 1504/10691 [20:26<1:19:43,  1.92it/s] 14%|█▍        | 1505/10691 [20:27<1:18:34,  1.95it/s] 14%|█▍        | 1506/10691 [20:27<1:17:43,  1.97it/s] 14%|█▍        | 1507/10691 [20:28<1:17:17,  1.98it/s] 14%|█▍        | 1508/10691 [20:28<1:16:55,  1.99it/s] 14%|█▍        | 1509/10691 [20:29<1:16:38,  2.00it/s] 14%|█▍        | 1510/10691 [20:29<1:16:35,  2.00it/s] 14%|█▍        | 1511/10691 [20:30<1:16:20,  2.00it/s] 14%|█▍        | 1512/10691 [20:30<1:16:14,  2.01it/s] 14%|█▍        | 1513/10691 [20:31<1:16:08,  2.01it/s] 14%|█▍        | 1514/10691 [20:31<1:16:01,  2.01it/s] 14%|█▍        | 1515/10691 [20:32<1:16:59,  1.99it/s] 14%|█▍        | 1516/10691 [20:32<1:16:46,  1.99it/s] 14%|█▍        | 1517/10691 [20:33<1:17:39,  1.97it/s] 14%|█▍        | 1518/10691 [20:33<1:18:21,  1.95it/s] 14%|█▍        | 1519/10691 [20:34<1:17:51,  1.96it/s] 14%|█▍        | 1520/10691 [20:34<1:21:12,  1.88it/s] 14%|█▍        | 1521/10691 [20:35<1:23:04,  1.84it/s] 14%|█▍        | 1522/10691 [20:36<1:20:55,  1.89it/s] 14%|█▍        | 1523/10691 [20:36<1:20:35,  1.90it/s] 14%|█▍        | 1524/10691 [20:37<1:21:30,  1.87it/s] 14%|█▍        | 1525/10691 [20:37<1:24:14,  1.81it/s]{'loss': 3.5089, 'grad_norm': 0.26038575172424316, 'learning_rate': 0.0009944916302529524, 'epoch': 0.14}                                                      
+ 14%|█▍        | 1525/10691 [20:37<1:24:14,  1.81it/s] 14%|█▍        | 1526/10691 [20:38<1:22:51,  1.84it/s] 14%|█▍        | 1527/10691 [20:38<1:22:11,  1.86it/s] 14%|█▍        | 1528/10691 [20:39<1:20:17,  1.90it/s] 14%|█▍        | 1529/10691 [20:39<1:18:56,  1.93it/s] 14%|█▍        | 1530/10691 [20:40<1:18:03,  1.96it/s] 14%|█▍        | 1531/10691 [20:40<1:17:20,  1.97it/s] 14%|█▍        | 1532/10691 [20:41<1:16:58,  1.98it/s] 14%|█▍        | 1533/10691 [20:41<1:16:34,  1.99it/s] 14%|█▍        | 1534/10691 [20:42<1:16:26,  2.00it/s] 14%|█▍        | 1535/10691 [20:42<1:16:09,  2.00it/s] 14%|█▍        | 1536/10691 [20:43<1:16:33,  1.99it/s] 14%|█▍        | 1537/10691 [20:43<1:16:22,  2.00it/s] 14%|█▍        | 1538/10691 [20:44<1:16:11,  2.00it/s] 14%|█▍        | 1539/10691 [20:44<1:16:08,  2.00it/s] 14%|█▍        | 1540/10691 [20:45<1:15:58,  2.01it/s] 14%|█▍        | 1541/10691 [20:45<1:15:56,  2.01it/s] 14%|█▍        | 1542/10691 [20:46<1:15:44,  2.01it/s] 14%|█▍        | 1543/10691 [20:46<1:15:44,  2.01it/s] 14%|█▍        | 1544/10691 [20:47<1:15:47,  2.01it/s] 14%|█▍        | 1545/10691 [20:47<1:25:55,  1.77it/s] 14%|█▍        | 1546/10691 [20:48<1:22:51,  1.84it/s] 14%|█▍        | 1547/10691 [20:48<1:20:42,  1.89it/s] 14%|█▍        | 1548/10691 [20:49<1:19:13,  1.92it/s] 14%|█▍        | 1549/10691 [20:49<1:18:09,  1.95it/s] 14%|█▍        | 1550/10691 [20:50<1:17:21,  1.97it/s]                                                      {'loss': 3.4852, 'grad_norm': 0.2376357614994049, 'learning_rate': 0.0009938709589625903, 'epoch': 0.14}
+ 14%|█▍        | 1550/10691 [20:50<1:17:21,  1.97it/s] 15%|█▍        | 1551/10691 [20:50<1:16:54,  1.98it/s] 15%|█▍        | 1552/10691 [20:51<1:16:32,  1.99it/s] 15%|█▍        | 1553/10691 [20:51<1:16:12,  2.00it/s] 15%|█▍        | 1554/10691 [20:52<1:16:02,  2.00it/s] 15%|█▍        | 1555/10691 [20:52<1:15:52,  2.01it/s] 15%|█▍        | 1556/10691 [20:53<1:15:48,  2.01it/s] 15%|█▍        | 1557/10691 [20:53<1:15:44,  2.01it/s] 15%|█▍        | 1558/10691 [20:54<1:15:36,  2.01it/s] 15%|█▍        | 1559/10691 [20:54<1:15:35,  2.01it/s] 15%|█▍        | 1560/10691 [20:55<1:15:33,  2.01it/s] 15%|█▍        | 1561/10691 [20:55<1:15:35,  2.01it/s] 15%|█▍        | 1562/10691 [20:56<1:15:28,  2.02it/s] 15%|█▍        | 1563/10691 [20:56<1:15:28,  2.02it/s] 15%|█▍        | 1564/10691 [20:57<1:15:32,  2.01it/s] 15%|█▍        | 1565/10691 [20:57<1:15:57,  2.00it/s] 15%|█▍        | 1566/10691 [20:58<1:15:52,  2.00it/s] 15%|█▍        | 1567/10691 [20:58<1:15:48,  2.01it/s] 15%|█▍        | 1568/10691 [20:59<1:15:37,  2.01it/s] 15%|█▍        | 1569/10691 [20:59<1:15:36,  2.01it/s] 15%|█▍        | 1570/10691 [21:00<1:15:34,  2.01it/s] 15%|█▍        | 1571/10691 [21:00<1:15:27,  2.01it/s] 15%|█▍        | 1572/10691 [21:01<1:15:24,  2.02it/s] 15%|█▍        | 1573/10691 [21:01<1:15:52,  2.00it/s] 15%|█▍        | 1574/10691 [21:02<1:15:44,  2.01it/s] 15%|█▍        | 1575/10691 [21:02<1:15:35,  2.01it/s]                                                      {'loss': 3.474, 'grad_norm': 0.23661328852176666, 'learning_rate': 0.0009932173759650191, 'epoch': 0.15}
+ 15%|█▍        | 1575/10691 [21:02<1:15:35,  2.01it/s] 15%|█▍        | 1576/10691 [21:03<1:15:37,  2.01it/s] 15%|█▍        | 1577/10691 [21:03<1:15:27,  2.01it/s] 15%|█▍        | 1578/10691 [21:04<1:15:36,  2.01it/s] 15%|█▍        | 1579/10691 [21:04<1:15:35,  2.01it/s] 15%|█▍        | 1580/10691 [21:05<1:15:26,  2.01it/s] 15%|█▍        | 1581/10691 [21:05<1:15:29,  2.01it/s] 15%|█▍        | 1582/10691 [21:06<1:15:25,  2.01it/s] 15%|█▍        | 1583/10691 [21:06<1:15:43,  2.00it/s] 15%|█▍        | 1584/10691 [21:07<1:15:36,  2.01it/s] 15%|█▍        | 1585/10691 [21:07<1:15:33,  2.01it/s] 15%|█▍        | 1586/10691 [21:08<1:15:26,  2.01it/s] 15%|█▍        | 1587/10691 [21:08<1:15:33,  2.01it/s] 15%|█▍        | 1588/10691 [21:09<1:15:29,  2.01it/s] 15%|█▍        | 1589/10691 [21:09<1:15:20,  2.01it/s] 15%|█▍        | 1590/10691 [21:10<1:15:22,  2.01it/s] 15%|█▍        | 1591/10691 [21:10<1:15:20,  2.01it/s] 15%|█▍        | 1592/10691 [21:11<1:15:19,  2.01it/s] 15%|█▍        | 1593/10691 [21:11<1:15:27,  2.01it/s] 15%|█▍        | 1594/10691 [21:12<1:15:23,  2.01it/s] 15%|█▍        | 1595/10691 [21:12<1:15:16,  2.01it/s] 15%|█▍        | 1596/10691 [21:13<1:15:14,  2.01it/s] 15%|█▍        | 1597/10691 [21:13<1:15:11,  2.02it/s] 15%|█▍        | 1598/10691 [21:14<1:15:18,  2.01it/s] 15%|█▍        | 1599/10691 [21:14<1:15:21,  2.01it/s] 15%|█▍        | 1600/10691 [21:15<1:15:25,  2.01it/s]                                                      {'loss': 3.4669, 'grad_norm': 0.24738851189613342, 'learning_rate': 0.0009925309248152037, 'epoch': 0.15}
+ 15%|█▍        | 1600/10691 [21:15<1:15:25,  2.01it/s] 15%|█▍        | 1601/10691 [21:15<1:15:30,  2.01it/s] 15%|█▍        | 1602/10691 [21:16<1:15:29,  2.01it/s] 15%|█▍        | 1603/10691 [21:16<1:15:27,  2.01it/s] 15%|█▌        | 1604/10691 [21:17<1:15:23,  2.01it/s] 15%|█▌        | 1605/10691 [21:17<1:15:23,  2.01it/s] 15%|█▌        | 1606/10691 [21:18<1:15:19,  2.01it/s] 15%|█▌        | 1607/10691 [21:18<1:15:17,  2.01it/s] 15%|█▌        | 1608/10691 [21:19<1:15:16,  2.01it/s] 15%|█▌        | 1609/10691 [21:19<1:15:09,  2.01it/s] 15%|█▌        | 1610/10691 [21:20<1:15:05,  2.02it/s] 15%|█▌        | 1611/10691 [21:20<1:14:59,  2.02it/s] 15%|█▌        | 1612/10691 [21:21<1:15:01,  2.02it/s] 15%|█▌        | 1613/10691 [21:21<1:15:05,  2.01it/s] 15%|█▌        | 1614/10691 [21:22<1:15:04,  2.01it/s] 15%|█▌        | 1615/10691 [21:22<1:15:06,  2.01it/s] 15%|█▌        | 1616/10691 [21:23<1:15:03,  2.01it/s] 15%|█▌        | 1617/10691 [21:23<1:15:11,  2.01it/s] 15%|█▌        | 1618/10691 [21:24<1:15:12,  2.01it/s] 15%|█▌        | 1619/10691 [21:24<1:15:07,  2.01it/s] 15%|█▌        | 1620/10691 [21:25<1:15:13,  2.01it/s] 15%|█▌        | 1621/10691 [21:25<1:15:02,  2.01it/s] 15%|█▌        | 1622/10691 [21:26<1:14:57,  2.02it/s] 15%|█▌        | 1623/10691 [21:26<1:14:57,  2.02it/s] 15%|█▌        | 1624/10691 [21:27<1:15:00,  2.01it/s] 15%|█▌        | 1625/10691 [21:27<1:14:58,  2.02it/s]{'loss': 3.4564, 'grad_norm': 0.2588633894920349, 'learning_rate': 0.0009918116512584525, 'epoch': 0.15}                                                      
+ 15%|█▌        | 1625/10691 [21:27<1:14:58,  2.02it/s] 15%|█▌        | 1626/10691 [21:28<1:15:05,  2.01it/s] 15%|█▌        | 1627/10691 [21:28<1:15:01,  2.01it/s] 15%|█▌        | 1628/10691 [21:29<1:14:56,  2.02it/s] 15%|█▌        | 1629/10691 [21:29<1:14:51,  2.02it/s] 15%|█▌        | 1630/10691 [21:30<1:14:51,  2.02it/s] 15%|█▌        | 1631/10691 [21:30<1:14:57,  2.01it/s] 15%|█▌        | 1632/10691 [21:31<1:14:56,  2.01it/s] 15%|█▌        | 1633/10691 [21:31<1:14:57,  2.01it/s] 15%|█▌        | 1634/10691 [21:32<1:14:56,  2.01it/s] 15%|█▌        | 1635/10691 [21:32<1:14:55,  2.01it/s] 15%|█▌        | 1636/10691 [21:33<1:14:54,  2.01it/s] 15%|█▌        | 1637/10691 [21:33<1:14:54,  2.01it/s] 15%|█▌        | 1638/10691 [21:34<1:14:59,  2.01it/s] 15%|█▌        | 1639/10691 [21:34<1:15:03,  2.01it/s] 15%|█▌        | 1640/10691 [21:35<1:15:02,  2.01it/s] 15%|█▌        | 1641/10691 [21:35<1:15:03,  2.01it/s] 15%|█▌        | 1642/10691 [21:36<1:15:13,  2.00it/s] 15%|█▌        | 1643/10691 [21:36<1:15:01,  2.01it/s] 15%|█▌        | 1644/10691 [21:37<1:15:00,  2.01it/s] 15%|█▌        | 1645/10691 [21:37<1:14:59,  2.01it/s] 15%|█▌        | 1646/10691 [21:38<1:15:03,  2.01it/s] 15%|█▌        | 1647/10691 [21:38<1:15:16,  2.00it/s] 15%|█▌        | 1648/10691 [21:39<1:15:01,  2.01it/s] 15%|█▌        | 1649/10691 [21:39<1:14:53,  2.01it/s] 15%|█▌        | 1650/10691 [21:40<1:14:49,  2.01it/s]                                                      {'loss': 3.4586, 'grad_norm': 0.24929353594779968, 'learning_rate': 0.0009910596032273687, 'epoch': 0.15}
+ 15%|█▌        | 1650/10691 [21:40<1:14:49,  2.01it/s] 15%|█▌        | 1651/10691 [21:40<1:14:50,  2.01it/s] 15%|█▌        | 1652/10691 [21:41<1:14:47,  2.01it/s] 15%|█▌        | 1653/10691 [21:41<1:14:45,  2.01it/s] 15%|█▌        | 1654/10691 [21:42<1:15:13,  2.00it/s] 15%|█▌        | 1655/10691 [21:42<1:15:30,  1.99it/s] 15%|█▌        | 1656/10691 [21:43<1:15:39,  1.99it/s] 15%|█▌        | 1657/10691 [21:43<1:15:23,  2.00it/s] 16%|█▌        | 1658/10691 [21:44<1:15:14,  2.00it/s] 16%|█▌        | 1659/10691 [21:44<1:15:06,  2.00it/s] 16%|█▌        | 1660/10691 [21:45<1:15:07,  2.00it/s] 16%|█▌        | 1661/10691 [21:45<1:15:03,  2.00it/s] 16%|█▌        | 1662/10691 [21:46<1:14:58,  2.01it/s] 16%|█��        | 1663/10691 [21:46<1:14:52,  2.01it/s] 16%|█▌        | 1664/10691 [21:47<1:14:49,  2.01it/s] 16%|█▌        | 1665/10691 [21:47<1:14:42,  2.01it/s] 16%|█▌        | 1666/10691 [21:48<1:14:44,  2.01it/s] 16%|█▌        | 1667/10691 [21:48<1:15:06,  2.00it/s] 16%|█▌        | 1668/10691 [21:49<1:15:01,  2.00it/s] 16%|█▌        | 1669/10691 [21:49<1:14:51,  2.01it/s] 16%|█▌        | 1670/10691 [21:50<1:14:43,  2.01it/s] 16%|█▌        | 1671/10691 [21:50<1:14:44,  2.01it/s] 16%|█▌        | 1672/10691 [21:51<1:14:39,  2.01it/s] 16%|█▌        | 1673/10691 [21:51<1:14:38,  2.01it/s] 16%|█▌        | 1674/10691 [21:52<1:14:41,  2.01it/s] 16%|█▌        | 1675/10691 [21:52<1:14:36,  2.01it/s]{'loss': 3.4569, 'grad_norm': 0.2229250967502594, 'learning_rate': 0.000990274830838656, 'epoch': 0.16}                                                      
+ 16%|█▌        | 1675/10691 [21:52<1:14:36,  2.01it/s] 16%|█▌        | 1676/10691 [21:53<1:14:43,  2.01it/s] 16%|█▌        | 1677/10691 [21:53<1:14:39,  2.01it/s] 16%|█▌        | 1678/10691 [21:54<1:14:34,  2.01it/s] 16%|█▌        | 1679/10691 [21:54<1:14:33,  2.01it/s] 16%|█▌        | 1680/10691 [21:55<1:14:30,  2.02it/s] 16%|█▌        | 1681/10691 [21:55<1:14:29,  2.02it/s] 16%|█▌        | 1682/10691 [21:56<1:14:27,  2.02it/s] 16%|█▌        | 1683/10691 [21:56<1:14:28,  2.02it/s] 16%|█▌        | 1684/10691 [21:57<1:14:32,  2.01it/s] 16%|█▌        | 1685/10691 [21:57<1:14:31,  2.01it/s] 16%|█▌        | 1686/10691 [21:58<1:14:30,  2.01it/s] 16%|█▌        | 1687/10691 [21:58<1:14:54,  2.00it/s] 16%|█▌        | 1688/10691 [21:59<1:14:43,  2.01it/s] 16%|█▌        | 1689/10691 [21:59<1:14:38,  2.01it/s] 16%|█▌        | 1690/10691 [22:00<1:14:28,  2.01it/s] 16%|█▌        | 1691/10691 [22:00<1:14:31,  2.01it/s] 16%|█▌        | 1692/10691 [22:01<1:14:27,  2.01it/s] 16%|█▌        | 1693/10691 [22:01<1:14:30,  2.01it/s] 16%|█▌        | 1694/10691 [22:02<1:14:32,  2.01it/s] 16%|█▌        | 1695/10691 [22:02<1:14:27,  2.01it/s] 16%|█▌        | 1696/10691 [22:03<1:14:42,  2.01it/s] 16%|█▌        | 1697/10691 [22:03<1:14:33,  2.01it/s] 16%|█▌        | 1698/10691 [22:04<1:14:35,  2.01it/s] 16%|█▌        | 1699/10691 [22:04<1:14:34,  2.01it/s] 16%|█▌        | 1700/10691 [22:05<1:14:42,  2.01it/s]                                                      {'loss': 3.4359, 'grad_norm': 0.22612465918064117, 'learning_rate': 0.0009894573863897793, 'epoch': 0.16}
+ 16%|█▌        | 1700/10691 [22:05<1:14:42,  2.01it/s] 16%|█▌        | 1701/10691 [22:05<1:14:48,  2.00it/s] 16%|█▌        | 1702/10691 [22:06<1:14:38,  2.01it/s] 16%|█▌        | 1703/10691 [22:06<1:14:34,  2.01it/s] 16%|█▌        | 1704/10691 [22:07<1:14:27,  2.01it/s] 16%|█▌        | 1705/10691 [22:07<1:14:36,  2.01it/s] 16%|█▌        | 1706/10691 [22:08<1:14:31,  2.01it/s] 16%|█▌        | 1707/10691 [22:08<1:14:31,  2.01it/s] 16%|█▌        | 1708/10691 [22:09<1:14:33,  2.01it/s] 16%|█▌        | 1709/10691 [22:09<1:14:36,  2.01it/s] 16%|█▌        | 1710/10691 [22:10<1:14:29,  2.01it/s] 16%|█▌        | 1711/10691 [22:10<1:14:28,  2.01it/s] 16%|█▌        | 1712/10691 [22:10<1:14:26,  2.01it/s] 16%|█▌        | 1713/10691 [22:11<1:14:22,  2.01it/s] 16%|█▌        | 1714/10691 [22:11<1:14:20,  2.01it/s] 16%|█▌        | 1715/10691 [22:12<1:14:18,  2.01it/s] 16%|█▌        | 1716/10691 [22:12<1:14:26,  2.01it/s] 16%|█▌        | 1717/10691 [22:13<1:14:26,  2.01it/s] 16%|█▌        | 1718/10691 [22:13<1:14:26,  2.01it/s] 16%|█▌        | 1719/10691 [22:14<1:14:20,  2.01it/s] 16%|█▌        | 1720/10691 [22:14<1:14:16,  2.01it/s] 16%|█▌        | 1721/10691 [22:15<1:14:17,  2.01it/s] 16%|█▌        | 1722/10691 [22:15<1:14:11,  2.01it/s] 16%|█▌        | 1723/10691 [22:16<1:14:10,  2.01it/s] 16%|█▌        | 1724/10691 [22:16<1:14:09,  2.02it/s] 16%|█▌        | 1725/10691 [22:17<1:14:10,  2.01it/s]{'loss': 3.4362, 'grad_norm': 0.244693785905838, 'learning_rate': 0.000988607324355479, 'epoch': 0.16}                                                      
+ 16%|█▌        | 1725/10691 [22:17<1:14:10,  2.01it/s] 16%|█▌        | 1726/10691 [22:17<1:14:13,  2.01it/s] 16%|█▌        | 1727/10691 [22:18<1:14:14,  2.01it/s] 16%|█▌        | 1728/10691 [22:18<1:14:16,  2.01it/s] 16%|█▌        | 1729/10691 [22:19<1:14:11,  2.01it/s] 16%|█▌        | 1730/10691 [22:19<1:14:09,  2.01it/s] 16%|█▌        | 1731/10691 [22:20<1:14:04,  2.02it/s] 16%|█▌        | 1732/10691 [22:20<1:14:07,  2.01it/s] 16%|█▌        | 1733/10691 [22:21<1:14:22,  2.01it/s] 16%|█▌        | 1734/10691 [22:21<1:14:19,  2.01it/s] 16%|█▌        | 1735/10691 [22:22<1:14:17,  2.01it/s] 16%|█▌        | 1736/10691 [22:22<1:14:16,  2.01it/s] 16%|█▌        | 1737/10691 [22:23<1:14:04,  2.01it/s] 16%|█▋        | 1738/10691 [22:24<1:25:58,  1.74it/s] 16%|█▋        | 1739/10691 [22:24<1:22:31,  1.81it/s] 16%|█▋        | 1740/10691 [22:25<1:19:56,  1.87it/s] 16%|█▋        | 1741/10691 [22:25<1:18:13,  1.91it/s] 16%|█▋        | 1742/10691 [22:26<1:16:59,  1.94it/s] 16%|█▋        | 1743/10691 [22:26<1:16:01,  1.96it/s] 16%|█▋        | 1744/10691 [22:27<1:15:28,  1.98it/s] 16%|█▋        | 1745/10691 [22:27<1:26:57,  1.71it/s] 16%|█▋        | 1746/10691 [22:28<1:23:04,  1.79it/s] 16%|█▋        | 1747/10691 [22:28<1:20:24,  1.85it/s] 16%|█▋        | 1748/10691 [22:29<1:18:29,  1.90it/s] 16%|█▋        | 1749/10691 [22:29<1:17:08,  1.93it/s] 16%|█▋        | 1750/10691 [22:30<1:16:10,  1.96it/s]                                                      {'loss': 3.4188, 'grad_norm': 0.22050456702709198, 'learning_rate': 0.0009877247013841415, 'epoch': 0.16}
+ 16%|█▋        | 1750/10691 [22:30<1:16:10,  1.96it/s] 16%|█▋        | 1751/10691 [22:30<1:15:36,  1.97it/s] 16%|█▋        | 1752/10691 [22:31<1:15:00,  1.99it/s] 16%|█▋        | 1753/10691 [22:31<1:15:01,  1.99it/s] 16%|█▋        | 1754/10691 [22:32<1:14:45,  1.99it/s] 16%|█▋        | 1755/10691 [22:32<1:14:27,  2.00it/s] 16%|█▋        | 1756/10691 [22:33<1:14:16,  2.01it/s] 16%|█▋        | 1757/10691 [22:33<1:14:07,  2.01it/s] 16%|█▋        | 1758/10691 [22:34<1:14:10,  2.01it/s] 16%|█▋        | 1759/10691 [22:34<1:14:14,  2.01it/s] 16%|█▋        | 1760/10691 [22:35<1:14:09,  2.01it/s] 16%|█▋        | 1761/10691 [22:35<1:14:09,  2.01it/s] 16%|█▋        | 1762/10691 [22:36<1:14:01,  2.01it/s] 16%|█▋        | 1763/10691 [22:36<1:13:49,  2.02it/s] 16%|█▋        | 1764/10691 [22:37<1:13:51,  2.01it/s] 17%|█▋        | 1765/10691 [22:37<1:13:44,  2.02it/s] 17%|█▋        | 1766/10691 [22:38<1:13:47,  2.02it/s] 17%|█▋        | 1767/10691 [22:38<1:13:56,  2.01it/s] 17%|█▋        | 1768/10691 [22:39<1:13:54,  2.01it/s] 17%|█▋        | 1769/10691 [22:39<1:13:56,  2.01it/s] 17%|█▋        | 1770/10691 [22:40<1:13:48,  2.01it/s] 17%|█▋        | 1771/10691 [22:40<1:13:49,  2.01it/s] 17%|█▋        | 1772/10691 [22:41<1:13:43,  2.02it/s] 17%|█▋        | 1773/10691 [22:41<1:13:44,  2.02it/s] 17%|█▋        | 1774/10691 [22:42<1:13:43,  2.02it/s] 17%|█▋        | 1775/10691 [22:42<1:13:41,  2.02it/s]                                                      {'loss': 3.4168, 'grad_norm': 0.22737878561019897, 'learning_rate': 0.0009868095762940233, 'epoch': 0.17}
+ 17%|█▋        | 1775/10691 [22:42<1:13:41,  2.02it/s] 17%|█▋        | 1776/10691 [22:43<1:13:47,  2.01it/s] 17%|█▋        | 1777/10691 [22:43<1:14:48,  1.99it/s] 17%|█▋        | 1778/10691 [22:44<1:14:30,  1.99it/s] 17%|█▋        | 1779/10691 [22:44<1:14:15,  2.00it/s] 17%|█▋        | 1780/10691 [22:45<1:14:02,  2.01it/s] 17%|█▋        | 1781/10691 [22:45<1:13:56,  2.01it/s] 17%|█▋        | 1782/10691 [22:46<1:13:50,  2.01it/s] 17%|█▋        | 1783/10691 [22:46<1:13:42,  2.01it/s] 17%|█▋        | 1784/10691 [22:47<1:13:43,  2.01it/s] 17%|█▋        | 1785/10691 [22:47<1:13:45,  2.01it/s] 17%|█▋        | 1786/10691 [22:48<1:13:50,  2.01it/s] 17%|█▋        | 1787/10691 [22:49<1:22:45,  1.79it/s] 17%|█▋        | 1788/10691 [22:49<1:20:06,  1.85it/s] 17%|█▋        | 1789/10691 [22:50<1:18:08,  1.90it/s] 17%|█▋        | 1790/10691 [22:50<1:16:44,  1.93it/s] 17%|█▋        | 1791/10691 [22:51<1:15:47,  1.96it/s] 17%|█▋        | 1792/10691 [22:51<1:15:09,  1.97it/s] 17%|█▋        | 1793/10691 [22:52<1:15:01,  1.98it/s] 17%|█▋        | 1794/10691 [22:52<1:14:48,  1.98it/s] 17%|█▋        | 1795/10691 [22:53<1:14:28,  1.99it/s] 17%|█▋        | 1796/10691 [22:53<1:14:08,  2.00it/s] 17%|█▋        | 1797/10691 [22:53<1:14:01,  2.00it/s] 17%|█▋        | 1798/10691 [22:54<1:13:55,  2.00it/s] 17%|█▋        | 1799/10691 [22:54<1:13:47,  2.01it/s] 17%|█▋        | 1800/10691 [22:55<1:13:46,  2.01it/s]{'loss': 3.4087, 'grad_norm': 0.22784732282161713, 'learning_rate': 0.0009858620100693318, 'epoch': 0.17}
+                                                       17%|█▋        | 1800/10691 [22:55<1:13:46,  2.01it/s] 17%|█▋        | 1801/10691 [22:55<1:13:49,  2.01it/s] 17%|█▋        | 1802/10691 [22:56<1:13:43,  2.01it/s] 17%|█▋        | 1803/10691 [22:56<1:13:40,  2.01it/s] 17%|█▋        | 1804/10691 [22:57<1:13:42,  2.01it/s] 17%|█▋        | 1805/10691 [22:57<1:13:41,  2.01it/s] 17%|█▋        | 1806/10691 [22:58<1:13:54,  2.00it/s] 17%|█▋        | 1807/10691 [22:58<1:13:46,  2.01it/s] 17%|█▋        | 1808/10691 [22:59<1:13:38,  2.01it/s] 17%|█▋        | 1809/10691 [22:59<1:13:41,  2.01it/s] 17%|█▋        | 1810/10691 [23:00<1:13:33,  2.01it/s] 17%|█▋        | 1811/10691 [23:00<1:13:32,  2.01it/s] 17%|█▋        | 1812/10691 [23:01<1:13:34,  2.01it/s] 17%|█▋        | 1813/10691 [23:01<1:13:32,  2.01it/s] 17%|█▋        | 1814/10691 [23:02<1:13:29,  2.01it/s] 17%|█▋        | 1815/10691 [23:02<1:13:25,  2.01it/s] 17%|█▋        | 1816/10691 [23:03<1:13:42,  2.01it/s] 17%|█▋        | 1817/10691 [23:03<1:13:33,  2.01it/s] 17%|█▋        | 1818/10691 [23:04<1:13:36,  2.01it/s] 17%|█▋        | 1819/10691 [23:04<1:13:38,  2.01it/s] 17%|█▋        | 1820/10691 [23:05<1:13:27,  2.01it/s] 17%|█▋        | 1821/10691 [23:05<1:13:28,  2.01it/s] 17%|█▋        | 1822/10691 [23:06<1:13:24,  2.01it/s] 17%|█▋        | 1823/10691 [23:06<1:13:23,  2.01it/s] 17%|█▋        | 1824/10691 [23:07<1:13:22,  2.01it/s] 17%|█▋        | 1825/10691 [23:07<1:13:25,  2.01it/s]                                                      {'loss': 3.4036, 'grad_norm': 0.23068958520889282, 'learning_rate': 0.0009848820658561613, 'epoch': 0.17}
+ 17%|█▋        | 1825/10691 [23:07<1:13:25,  2.01it/s] 17%|█▋        | 1826/10691 [23:08<1:13:27,  2.01it/s] 17%|█▋        | 1827/10691 [23:08<1:13:27,  2.01it/s] 17%|█▋        | 1828/10691 [23:09<1:13:27,  2.01it/s] 17%|█▋        | 1829/10691 [23:09<1:13:23,  2.01it/s] 17%|█▋        | 1830/10691 [23:10<1:13:30,  2.01it/s] 17%|█▋        | 1831/10691 [23:10<1:13:23,  2.01it/s] 17%|█▋        | 1832/10691 [23:11<1:13:24,  2.01it/s] 17%|█▋        | 1833/10691 [23:11<1:13:19,  2.01it/s] 17%|█▋        | 1834/10691 [23:12<1:13:16,  2.01it/s] 17%|█▋        | 1835/10691 [23:12<1:13:19,  2.01it/s] 17%|█▋        | 1836/10691 [23:13<1:13:20,  2.01it/s] 17%|█▋        | 1837/10691 [23:13<1:13:16,  2.01it/s] 17%|█▋        | 1838/10691 [23:14<1:13:21,  2.01it/s] 17%|█▋        | 1839/10691 [23:14<1:13:23,  2.01it/s] 17%|█▋        | 1840/10691 [23:15<1:13:16,  2.01it/s] 17%|█▋        | 1841/10691 [23:15<1:13:17,  2.01it/s] 17%|█▋        | 1842/10691 [23:16<1:13:18,  2.01it/s] 17%|█▋        | 1843/10691 [23:16<1:13:19,  2.01it/s] 17%|█▋        | 1844/10691 [23:17<1:13:25,  2.01it/s] 17%|█▋        | 1845/10691 [23:17<1:13:16,  2.01it/s] 17%|█▋        | 1846/10691 [23:18<1:13:17,  2.01it/s] 17%|█▋        | 1847/10691 [23:18<1:13:16,  2.01it/s] 17%|█▋        | 1848/10691 [23:19<1:13:09,  2.01it/s] 17%|█▋        | 1849/10691 [23:19<1:13:14,  2.01it/s] 17%|█▋        | 1850/10691 [23:20<1:13:05,  2.02it/s]                                                      {'loss': 3.3998, 'grad_norm': 0.22444112598896027, 'learning_rate': 0.000983869808958285, 'epoch': 0.17}
+ 17%|█▋        | 1850/10691 [23:20<1:13:05,  2.02it/s] 17%|█▋        | 1851/10691 [23:20<1:13:14,  2.01it/s] 17%|█▋        | 1852/10691 [23:21<1:13:04,  2.02it/s] 17%|█▋        | 1853/10691 [23:21<1:13:27,  2.01it/s] 17%|█▋        | 1854/10691 [23:22<1:13:35,  2.00it/s] 17%|█▋        | 1855/10691 [23:22<1:13:25,  2.01it/s] 17%|█▋        | 1856/10691 [23:23<1:13:14,  2.01it/s] 17%|█▋        | 1857/10691 [23:23<1:13:35,  2.00it/s] 17%|█▋        | 1858/10691 [23:24<1:13:24,  2.01it/s] 17%|█▋        | 1859/10691 [23:24<1:13:15,  2.01it/s] 17%|█▋        | 1860/10691 [23:25<1:13:06,  2.01it/s] 17%|█▋        | 1861/10691 [23:25<1:13:06,  2.01it/s] 17%|█▋        | 1862/10691 [23:26<1:13:05,  2.01it/s] 17%|█▋        | 1863/10691 [23:26<1:13:04,  2.01it/s] 17%|█▋        | 1864/10691 [23:27<1:13:00,  2.02it/s] 17%|█▋        | 1865/10691 [23:27<1:12:59,  2.02it/s] 17%|█▋        | 1866/10691 [23:28<1:12:56,  2.02it/s] 17%|█▋        | 1867/10691 [23:28<1:12:55,  2.02it/s] 17%|█▋        | 1868/10691 [23:29<1:13:03,  2.01it/s] 17%|█▋        | 1869/10691 [23:29<1:12:58,  2.01it/s] 17%|█▋        | 1870/10691 [23:30<1:12:55,  2.02it/s] 18%|█▊        | 1871/10691 [23:30<1:13:10,  2.01it/s] 18%|█▊        | 1872/10691 [23:31<1:13:19,  2.00it/s] 18%|█▊        | 1873/10691 [23:31<1:13:13,  2.01it/s] 18%|█▊        | 1874/10691 [23:32<1:13:12,  2.01it/s] 18%|█▊        | 1875/10691 [23:32<1:13:10,  2.01it/s]                                                      {'loss': 3.4037, 'grad_norm': 0.2265702188014984, 'learning_rate': 0.0009828253068328028, 'epoch': 0.18}
+ 18%|█▊        | 1875/10691 [23:32<1:13:10,  2.01it/s] 18%|█▊        | 1876/10691 [23:33<1:13:19,  2.00it/s] 18%|█▊        | 1877/10691 [23:33<1:13:35,  2.00it/s] 18%|█▊        | 1878/10691 [23:34<1:13:35,  2.00it/s] 18%|█▊        | 1879/10691 [23:34<1:13:25,  2.00it/s] 18%|█▊        | 1880/10691 [23:35<1:13:13,  2.01it/s] 18%|█▊        | 1881/10691 [23:35<1:13:10,  2.01it/s] 18%|█▊        | 1882/10691 [23:36<1:13:08,  2.01it/s] 18%|█▊        | 1883/10691 [23:36<1:13:07,  2.01it/s] 18%|█▊        | 1884/10691 [23:37<1:13:01,  2.01it/s] 18%|█▊        | 1885/10691 [23:37<1:13:00,  2.01it/s] 18%|█▊        | 1886/10691 [23:38<1:12:57,  2.01it/s] 18%|█▊        | 1887/10691 [23:38<1:12:58,  2.01it/s] 18%|█▊        | 1888/10691 [23:39<1:13:00,  2.01it/s] 18%|█▊        | 1889/10691 [23:39<1:12:56,  2.01it/s] 18%|█▊        | 1890/10691 [23:40<1:12:52,  2.01it/s] 18%|█▊        | 1891/10691 [23:40<1:12:48,  2.01it/s] 18%|█▊        | 1892/10691 [23:41<1:12:49,  2.01it/s] 18%|█▊        | 1893/10691 [23:41<1:12:54,  2.01it/s] 18%|█▊        | 1894/10691 [23:42<1:12:46,  2.01it/s] 18%|█▊        | 1895/10691 [23:42<1:12:50,  2.01it/s] 18%|█▊        | 1896/10691 [23:43<1:12:48,  2.01it/s] 18%|█▊        | 1897/10691 [23:43<1:12:46,  2.01it/s] 18%|█▊        | 1898/10691 [23:44<1:12:54,  2.01it/s] 18%|█▊        | 1899/10691 [23:44<1:12:48,  2.01it/s] 18%|█▊        | 1900/10691 [23:45<1:12:53,  2.01it/s]{'loss': 3.3897, 'grad_norm': 0.23590323328971863, 'learning_rate': 0.0009817486290856462, 'epoch': 0.18}
+                                                       18%|█▊        | 1900/10691 [23:45<1:12:53,  2.01it/s] 18%|█▊        | 1901/10691 [23:45<1:12:57,  2.01it/s] 18%|█▊        | 1902/10691 [23:46<1:12:50,  2.01it/s] 18%|█▊        | 1903/10691 [23:46<1:12:44,  2.01it/s] 18%|█▊        | 1904/10691 [23:47<1:12:41,  2.01it/s] 18%|█▊        | 1905/10691 [23:47<1:12:39,  2.02it/s] 18%|█▊        | 1906/10691 [23:48<1:12:41,  2.01it/s] 18%|█▊        | 1907/10691 [23:48<1:12:49,  2.01it/s] 18%|█▊        | 1908/10691 [23:49<1:12:45,  2.01it/s] 18%|█▊        | 1909/10691 [23:49<1:12:50,  2.01it/s] 18%|█▊        | 1910/10691 [23:50<1:12:43,  2.01it/s] 18%|█▊        | 1911/10691 [23:50<1:12:44,  2.01it/s] 18%|█▊        | 1912/10691 [23:51<1:12:42,  2.01it/s] 18%|█▊        | 1913/10691 [23:51<1:12:35,  2.02it/s] 18%|█▊        | 1914/10691 [23:52<1:12:34,  2.02it/s] 18%|█▊        | 1915/10691 [23:52<1:12:33,  2.02it/s] 18%|█▊        | 1916/10691 [23:53<1:12:35,  2.01it/s] 18%|█▊        | 1917/10691 [23:53<1:12:36,  2.01it/s] 18%|█▊        | 1918/10691 [23:54<1:12:34,  2.01it/s] 18%|█▊        | 1919/10691 [23:54<1:12:38,  2.01it/s] 18%|█▊        | 1920/10691 [23:55<1:12:36,  2.01it/s] 18%|█▊        | 1921/10691 [23:55<1:12:39,  2.01it/s] 18%|█▊        | 1922/10691 [23:56<1:12:37,  2.01it/s] 18%|█▊        | 1923/10691 [23:56<1:12:38,  2.01it/s] 18%|█▊        | 1924/10691 [23:57<1:12:36,  2.01it/s] 18%|█▊        | 1925/10691 [23:57<1:12:36,  2.01it/s]                                                      {'loss': 3.3799, 'grad_norm': 0.2292490154504776, 'learning_rate': 0.0009806398474669397, 'epoch': 0.18}
+ 18%|█▊        | 1925/10691 [23:57<1:12:36,  2.01it/s] 18%|█▊        | 1926/10691 [23:58<1:12:42,  2.01it/s] 18%|█▊        | 1927/10691 [23:58<1:12:41,  2.01it/s] 18%|█▊        | 1928/10691 [23:59<1:12:35,  2.01it/s] 18%|█▊        | 1929/10691 [23:59<1:12:37,  2.01it/s] 18%|█▊        | 1930/10691 [24:00<1:12:39,  2.01it/s] 18%|█▊        | 1931/10691 [24:00<1:12:35,  2.01it/s] 18%|█▊        | 1932/10691 [24:01<1:12:32,  2.01it/s] 18%|█▊        | 1933/10691 [24:01<1:12:28,  2.01it/s] 18%|█▊        | 1934/10691 [24:02<1:12:29,  2.01it/s] 18%|█▊        | 1935/10691 [24:02<1:12:24,  2.02it/s] 18%|█▊        | 1936/10691 [24:03<1:12:21,  2.02it/s] 18%|█▊        | 1937/10691 [24:03<1:12:19,  2.02it/s] 18%|█▊        | 1938/10691 [24:04<1:12:28,  2.01it/s] 18%|█▊        | 1939/10691 [24:04<1:12:32,  2.01it/s] 18%|█▊        | 1940/10691 [24:05<1:12:31,  2.01it/s] 18%|█▊        | 1941/10691 [24:05<1:12:28,  2.01it/s] 18%|█▊        | 1942/10691 [24:06<1:12:30,  2.01it/s] 18%|█▊        | 1943/10691 [24:06<1:12:25,  2.01it/s] 18%|█▊        | 1944/10691 [24:07<1:12:25,  2.01it/s] 18%|█▊        | 1945/10691 [24:07<1:12:20,  2.01it/s] 18%|█▊        | 1946/10691 [24:08<1:12:20,  2.01it/s] 18%|█▊        | 1947/10691 [24:08<1:12:17,  2.02it/s] 18%|█▊        | 1948/10691 [24:09<1:12:17,  2.02it/s] 18%|█▊        | 1949/10691 [24:09<1:12:20,  2.01it/s] 18%|█▊        | 1950/10691 [24:10<1:12:15,  2.02it/s]                                                      {'loss': 3.3751, 'grad_norm': 0.2196003943681717, 'learning_rate': 0.000979499035866219, 'epoch': 0.18}
+ 18%|█▊        | 1950/10691 [24:10<1:12:15,  2.02it/s] 18%|█▊        | 1951/10691 [24:10<1:12:28,  2.01it/s] 18%|█▊        | 1952/10691 [24:11<1:12:21,  2.01it/s] 18%|█▊        | 1953/10691 [24:11<1:12:16,  2.02it/s] 18%|█▊        | 1954/10691 [24:12<1:12:22,  2.01it/s] 18%|█▊        | 1955/10691 [24:12<1:12:15,  2.01it/s] 18%|█▊        | 1956/10691 [24:13<1:12:16,  2.01it/s] 18%|█▊        | 1957/10691 [24:13<1:12:19,  2.01it/s] 18%|█▊        | 1958/10691 [24:14<1:12:24,  2.01it/s] 18%|█▊        | 1959/10691 [24:14<1:12:26,  2.01it/s] 18%|█▊        | 1960/10691 [24:15<1:12:22,  2.01it/s] 18%|█▊        | 1961/10691 [24:15<1:12:21,  2.01it/s] 18%|█▊        | 1962/10691 [24:16<1:12:20,  2.01it/s] 18%|█▊        | 1963/10691 [24:16<1:12:18,  2.01it/s] 18%|█▊        | 1964/10691 [24:17<1:12:16,  2.01it/s] 18%|█▊        | 1965/10691 [24:17<1:12:17,  2.01it/s] 18%|█▊        | 1966/10691 [24:18<1:12:12,  2.01it/s] 18%|█▊        | 1967/10691 [24:18<1:12:13,  2.01it/s] 18%|█▊        | 1968/10691 [24:19<1:12:08,  2.02it/s] 18%|█▊        | 1969/10691 [24:19<1:12:07,  2.02it/s] 18%|█▊        | 1970/10691 [24:19<1:12:04,  2.02it/s] 18%|█▊        | 1971/10691 [24:20<1:12:05,  2.02it/s] 18%|█▊        | 1972/10691 [24:20<1:12:10,  2.01it/s] 18%|█▊        | 1973/10691 [24:21<1:12:03,  2.02it/s] 18%|█▊        | 1974/10691 [24:21<1:12:01,  2.02it/s] 18%|█▊        | 1975/10691 [24:22<1:11:59,  2.02it/s]                                                      {'loss': 3.3758, 'grad_norm': 0.2277633249759674, 'learning_rate': 0.0009783262703075078, 'epoch': 0.18}
+ 18%|█▊        | 1975/10691 [24:22<1:11:59,  2.02it/s] 18%|█▊        | 1976/10691 [24:22<1:12:06,  2.01it/s] 18%|█▊        | 1977/10691 [24:23<1:12:05,  2.01it/s] 19%|█▊        | 1978/10691 [24:23<1:12:08,  2.01it/s] 19%|█▊        | 1979/10691 [24:24<1:12:26,  2.00it/s] 19%|█▊        | 1980/10691 [24:24<1:12:19,  2.01it/s] 19%|█▊        | 1981/10691 [24:25<1:12:16,  2.01it/s] 19%|█▊        | 1982/10691 [24:25<1:12:12,  2.01it/s] 19%|█▊        | 1983/10691 [24:26<1:12:08,  2.01it/s] 19%|█▊        | 1984/10691 [24:26<1:12:04,  2.01it/s] 19%|█▊        | 1985/10691 [24:27<1:12:03,  2.01it/s] 19%|█▊        | 1986/10691 [24:27<1:12:00,  2.01it/s] 19%|█▊        | 1987/10691 [24:28<1:12:02,  2.01it/s] 19%|█▊        | 1988/10691 [24:28<1:12:00,  2.01it/s] 19%|█▊        | 1989/10691 [24:29<1:11:56,  2.02it/s] 19%|█▊        | 1990/10691 [24:29<1:11:55,  2.02it/s] 19%|█▊        | 1991/10691 [24:30<1:12:17,  2.01it/s] 19%|█▊        | 1992/10691 [24:30<1:12:10,  2.01it/s] 19%|█▊        | 1993/10691 [24:31<1:12:06,  2.01it/s] 19%|█▊        | 1994/10691 [24:31<1:12:07,  2.01it/s] 19%|█▊        | 1995/10691 [24:32<1:12:04,  2.01it/s] 19%|█▊        | 1996/10691 [24:32<1:11:57,  2.01it/s] 19%|█▊        | 1997/10691 [24:33<1:12:01,  2.01it/s] 19%|█▊        | 1998/10691 [24:33<1:12:07,  2.01it/s] 19%|█▊        | 1999/10691 [24:34<1:12:08,  2.01it/s] 19%|█▊        | 2000/10691 [24:34<1:12:09,  2.01it/s]                                                      {'loss': 3.3584, 'grad_norm': 0.21419312059879303, 'learning_rate': 0.0009771216289442511, 'epoch': 0.19}
+ 19%|█▊        | 2000/10691 [24:34<1:12:09,  2.01it/s] 19%|█▊        | 2001/10691 [24:35<1:12:09,  2.01it/s] 19%|█▊        | 2002/10691 [24:35<1:12:03,  2.01it/s] 19%|█▊        | 2003/10691 [24:36<1:12:02,  2.01it/s] 19%|█▊        | 2004/10691 [24:36<1:11:58,  2.01it/s] 19%|█▉        | 2005/10691 [24:37<1:12:00,  2.01it/s] 19%|█▉        | 2006/10691 [24:37<1:12:02,  2.01it/s] 19%|█▉        | 2007/10691 [24:38<1:11:55,  2.01it/s] 19%|█▉        | 2008/10691 [24:38<1:11:54,  2.01it/s] 19%|█▉        | 2009/10691 [24:39<1:11:46,  2.02it/s] 19%|█▉        | 2010/10691 [24:39<1:11:52,  2.01it/s] 19%|█▉        | 2011/10691 [24:40<1:11:47,  2.02it/s] 19%|█▉        | 2012/10691 [24:40<1:11:52,  2.01it/s] 19%|█▉        | 2013/10691 [24:41<1:11:54,  2.01it/s] 19%|█▉        | 2014/10691 [24:41<1:11:53,  2.01it/s] 19%|█▉        | 2015/10691 [24:42<1:11:49,  2.01it/s] 19%|█▉        | 2016/10691 [24:42<1:11:47,  2.01it/s] 19%|█▉        | 2017/10691 [24:43<1:11:46,  2.01it/s] 19%|█▉        | 2018/10691 [24:43<1:11:53,  2.01it/s] 19%|█▉        | 2019/10691 [24:44<1:11:52,  2.01it/s] 19%|█▉        | 2020/10691 [24:44<1:11:54,  2.01it/s] 19%|█▉        | 2021/10691 [24:45<1:11:54,  2.01it/s] 19%|█▉        | 2022/10691 [24:45<1:11:45,  2.01it/s] 19%|█▉        | 2023/10691 [24:46<1:11:46,  2.01it/s] 19%|█▉        | 2024/10691 [24:46<1:11:42,  2.01it/s] 19%|█▉        | 2025/10691 [24:47<1:11:47,  2.01it/s]                                                      {'loss': 3.3751, 'grad_norm': 0.21381177008152008, 'learning_rate': 0.0009758851920541062, 'epoch': 0.19}
+ 19%|█▉        | 2025/10691 [24:47<1:11:47,  2.01it/s] 19%|█▉        | 2026/10691 [24:47<1:11:52,  2.01it/s] 19%|█▉        | 2027/10691 [24:48<1:11:47,  2.01it/s] 19%|█▉        | 2028/10691 [24:48<1:11:50,  2.01it/s] 19%|█▉        | 2029/10691 [24:49<1:11:49,  2.01it/s] 19%|█▉        | 2030/10691 [24:49<1:11:42,  2.01it/s] 19%|█▉        | 2031/10691 [24:50<1:11:39,  2.01it/s] 19%|█▉        | 2032/10691 [24:50<1:11:37,  2.02it/s] 19%|█▉        | 2033/10691 [24:51<1:11:37,  2.01it/s] 19%|█▉        | 2034/10691 [24:51<1:11:34,  2.02it/s] 19%|█▉        | 2035/10691 [24:52<1:11:46,  2.01it/s] 19%|█▉        | 2036/10691 [24:52<1:11:50,  2.01it/s] 19%|█▉        | 2037/10691 [24:53<1:11:44,  2.01it/s] 19%|█▉        | 2038/10691 [24:53<1:11:39,  2.01it/s] 19%|█▉        | 2039/10691 [24:54<1:11:38,  2.01it/s] 19%|█▉        | 2040/10691 [24:54<1:11:37,  2.01it/s] 19%|█▉        | 2041/10691 [24:55<1:11:38,  2.01it/s] 19%|█▉        | 2042/10691 [24:55<1:11:34,  2.01it/s] 19%|█▉        | 2043/10691 [24:56<1:11:36,  2.01it/s] 19%|█▉        | 2044/10691 [24:56<1:11:30,  2.02it/s] 19%|█▉        | 2045/10691 [24:57<1:11:36,  2.01it/s] 19%|█▉        | 2046/10691 [24:57<1:11:36,  2.01it/s] 19%|█▉        | 2047/10691 [24:58<1:11:32,  2.01it/s] 19%|█▉        | 2048/10691 [24:58<1:11:27,  2.02it/s] 19%|█▉        | 2049/10691 [24:59<1:11:25,  2.02it/s] 19%|█▉        | 2050/10691 [24:59<1:11:26,  2.02it/s]                                                      {'loss': 3.36, 'grad_norm': 0.23793436586856842, 'learning_rate': 0.0009746170420335945, 'epoch': 0.19}
+ 19%|█▉        | 2050/10691 [24:59<1:11:26,  2.02it/s] 19%|█▉        | 2051/10691 [25:00<1:11:43,  2.01it/s] 19%|█▉        | 2052/10691 [25:00<1:11:39,  2.01it/s] 19%|█▉        | 2053/10691 [25:01<1:11:43,  2.01it/s] 19%|█▉        | 2054/10691 [25:01<1:11:35,  2.01it/s] 19%|█▉        | 2055/10691 [25:02<1:11:34,  2.01it/s] 19%|█▉        | 2056/10691 [25:02<1:11:27,  2.01it/s] 19%|█▉        | 2057/10691 [25:03<1:11:30,  2.01it/s] 19%|█▉        | 2058/10691 [25:03<1:11:30,  2.01it/s] 19%|█▉        | 2059/10691 [25:04<1:11:37,  2.01it/s] 19%|█▉        | 2060/10691 [25:04<1:11:41,  2.01it/s] 19%|█▉        | 2061/10691 [25:05<1:11:36,  2.01it/s] 19%|█▉        | 2062/10691 [25:05<1:11:34,  2.01it/s] 19%|█▉        | 2063/10691 [25:06<1:11:29,  2.01it/s] 19%|█▉        | 2064/10691 [25:06<1:11:26,  2.01it/s] 19%|█▉        | 2065/10691 [25:07<1:11:24,  2.01it/s] 19%|█▉        | 2066/10691 [25:07<1:11:28,  2.01it/s] 19%|█▉        | 2067/10691 [25:08<1:11:21,  2.01it/s] 19%|█▉        | 2068/10691 [25:08<1:11:23,  2.01it/s] 19%|█▉        | 2069/10691 [25:09<1:11:18,  2.02it/s] 19%|█▉        | 2070/10691 [25:09<1:11:20,  2.01it/s] 19%|█▉        | 2071/10691 [25:10<1:11:21,  2.01it/s] 19%|█▉        | 2072/10691 [25:10<1:11:15,  2.02it/s] 19%|█▉        | 2073/10691 [25:11<1:11:13,  2.02it/s] 19%|█▉        | 2074/10691 [25:11<1:11:09,  2.02it/s] 19%|█▉        | 2075/10691 [25:12<1:11:14,  2.02it/s]                                                      {'loss': 3.3536, 'grad_norm': 0.21911026537418365, 'learning_rate': 0.0009733172633926095, 'epoch': 0.19}
+ 19%|█▉        | 2075/10691 [25:12<1:11:14,  2.02it/s] 19%|█▉        | 2076/10691 [25:12<1:11:15,  2.02it/s] 19%|█▉        | 2077/10691 [25:13<1:11:21,  2.01it/s] 19%|█▉        | 2078/10691 [25:13<1:11:15,  2.01it/s] 19%|█▉        | 2079/10691 [25:14<1:11:15,  2.01it/s] 19%|█▉        | 2080/10691 [25:14<1:11:16,  2.01it/s] 19%|█▉        | 2081/10691 [25:15<1:11:15,  2.01it/s] 19%|█▉        | 2082/10691 [25:15<1:11:15,  2.01it/s] 19%|█▉        | 2083/10691 [25:16<1:11:10,  2.02it/s] 19%|█▉        | 2084/10691 [25:16<1:11:10,  2.02it/s] 20%|█▉        | 2085/10691 [25:17<1:11:19,  2.01it/s] 20%|█▉        | 2086/10691 [25:17<1:11:15,  2.01it/s] 20%|█▉        | 2087/10691 [25:18<1:11:15,  2.01it/s] 20%|█▉        | 2088/10691 [25:18<1:11:15,  2.01it/s] 20%|█▉        | 2089/10691 [25:19<1:11:13,  2.01it/s] 20%|█▉        | 2090/10691 [25:19<1:11:11,  2.01it/s] 20%|█▉        | 2091/10691 [25:20<1:11:11,  2.01it/s] 20%|█▉        | 2092/10691 [25:20<1:11:11,  2.01it/s] 20%|█▉        | 2093/10691 [25:21<1:11:14,  2.01it/s] 20%|█▉        | 2094/10691 [25:21<1:11:04,  2.02it/s] 20%|█▉        | 2095/10691 [25:22<1:11:10,  2.01it/s] 20%|█▉        | 2096/10691 [25:22<1:11:03,  2.02it/s] 20%|█▉        | 2097/10691 [25:23<1:11:01,  2.02it/s] 20%|█▉        | 2098/10691 [25:23<1:10:58,  2.02it/s] 20%|█▉        | 2099/10691 [25:24<1:11:01,  2.02it/s] 20%|█▉        | 2100/10691 [25:24<1:11:05,  2.01it/s]{'loss': 3.3531, 'grad_norm': 0.2188129425048828, 'learning_rate': 0.0009719859427487855, 'epoch': 0.2}                                                      
+ 20%|█▉        | 2100/10691 [25:24<1:11:05,  2.01it/s] 20%|█▉        | 2101/10691 [25:25<1:11:08,  2.01it/s] 20%|█▉        | 2102/10691 [25:25<1:11:08,  2.01it/s] 20%|█▉        | 2103/10691 [25:26<1:11:12,  2.01it/s] 20%|█▉        | 2104/10691 [25:26<1:11:06,  2.01it/s] 20%|█▉        | 2105/10691 [25:27<1:11:05,  2.01it/s] 20%|█▉        | 2106/10691 [25:27<1:10:57,  2.02it/s] 20%|█▉        | 2107/10691 [25:28<1:11:01,  2.01it/s] 20%|█▉        | 2108/10691 [25:28<1:10:56,  2.02it/s] 20%|█▉        | 2109/10691 [25:29<1:10:59,  2.01it/s] 20%|█▉        | 2110/10691 [25:29<1:11:00,  2.01it/s] 20%|█▉        | 2111/10691 [25:30<1:10:57,  2.02it/s] 20%|█▉        | 2112/10691 [25:30<1:11:08,  2.01it/s] 20%|█▉        | 2113/10691 [25:31<1:11:03,  2.01it/s] 20%|█▉        | 2114/10691 [25:31<1:10:59,  2.01it/s] 20%|█▉        | 2115/10691 [25:32<1:10:57,  2.01it/s] 20%|█▉        | 2116/10691 [25:32<1:10:52,  2.02it/s] 20%|█▉        | 2117/10691 [25:33<1:10:59,  2.01it/s] 20%|█▉        | 2118/10691 [25:33<1:10:55,  2.01it/s] 20%|█▉        | 2119/10691 [25:34<1:10:57,  2.01it/s] 20%|█▉        | 2120/10691 [25:34<1:11:07,  2.01it/s] 20%|█▉        | 2121/10691 [25:35<1:11:04,  2.01it/s] 20%|█▉        | 2122/10691 [25:35<1:10:57,  2.01it/s] 20%|█▉        | 2123/10691 [25:36<1:10:56,  2.01it/s] 20%|█▉        | 2124/10691 [25:36<1:10:54,  2.01it/s] 20%|█▉        | 2125/10691 [25:37<1:10:54,  2.01it/s]                                                      {'loss': 3.3522, 'grad_norm': 0.2297990769147873, 'learning_rate': 0.000970623168821725, 'epoch': 0.2}
+ 20%|█▉        | 2125/10691 [25:37<1:10:54,  2.01it/s] 20%|█▉        | 2126/10691 [25:37<1:10:57,  2.01it/s] 20%|█▉        | 2127/10691 [25:38<1:10:57,  2.01it/s] 20%|█▉        | 2128/10691 [25:38<1:10:59,  2.01it/s] 20%|█▉        | 2129/10691 [25:39<1:11:04,  2.01it/s] 20%|█▉        | 2130/10691 [25:39<1:10:59,  2.01it/s] 20%|█▉        | 2131/10691 [25:39<1:10:58,  2.01it/s] 20%|█▉        | 2132/10691 [25:40<1:10:53,  2.01it/s] 20%|█▉        | 2133/10691 [25:40<1:10:49,  2.01it/s] 20%|█▉        | 2134/10691 [25:41<1:10:46,  2.01it/s] 20%|█▉        | 2135/10691 [25:41<1:10:52,  2.01it/s] 20%|█▉        | 2136/10691 [25:42<1:10:55,  2.01it/s] 20%|█▉        | 2137/10691 [25:42<1:10:54,  2.01it/s] 20%|█▉        | 2138/10691 [25:43<1:10:52,  2.01it/s] 20%|██        | 2139/10691 [25:43<1:10:51,  2.01it/s] 20%|██        | 2140/10691 [25:44<1:10:50,  2.01it/s] 20%|██        | 2141/10691 [25:44<1:10:48,  2.01it/s] 20%|██        | 2142/10691 [25:45<1:10:43,  2.01it/s] 20%|██        | 2143/10691 [25:45<1:10:46,  2.01it/s] 20%|██        | 2144/10691 [25:46<1:10:44,  2.01it/s] 20%|██        | 2145/10691 [25:46<1:10:41,  2.01it/s] 20%|██        | 2146/10691 [25:47<1:10:40,  2.02it/s] 20%|██        | 2147/10691 [25:47<1:10:38,  2.02it/s] 20%|██        | 2148/10691 [25:48<1:10:34,  2.02it/s] 20%|██        | 2149/10691 [25:48<1:10:37,  2.02it/s] 20%|██        | 2150/10691 [25:49<1:10:39,  2.01it/s]                                                      {'loss': 3.3296, 'grad_norm': 0.21427543461322784, 'learning_rate': 0.0009692290324270868, 'epoch': 0.2}
+ 20%|██        | 2150/10691 [25:49<1:10:39,  2.01it/s] 20%|██        | 2151/10691 [25:49<1:10:46,  2.01it/s] 20%|██        | 2152/10691 [25:50<1:10:43,  2.01it/s] 20%|██        | 2153/10691 [25:50<1:10:36,  2.02it/s] 20%|██        | 2154/10691 [25:51<1:10:38,  2.01it/s] 20%|██        | 2155/10691 [25:51<1:10:30,  2.02it/s] 20%|██        | 2156/10691 [25:52<1:10:34,  2.02it/s] 20%|██        | 2157/10691 [25:52<1:10:35,  2.01it/s] 20%|██        | 2158/10691 [25:53<1:10:32,  2.02it/s] 20%|██        | 2159/10691 [25:53<1:10:31,  2.02it/s] 20%|██        | 2160/10691 [25:54<1:10:30,  2.02it/s] 20%|██        | 2161/10691 [25:54<1:10:34,  2.01it/s] 20%|██        | 2162/10691 [25:55<1:10:32,  2.02it/s] 20%|██        | 2163/10691 [25:55<1:10:32,  2.01it/s] 20%|██        | 2164/10691 [25:56<1:10:23,  2.02it/s] 20%|██        | 2165/10691 [25:56<1:10:29,  2.02it/s] 20%|██        | 2166/10691 [25:57<1:10:24,  2.02it/s] 20%|██        | 2167/10691 [25:57<1:10:24,  2.02it/s] 20%|██        | 2168/10691 [25:58<1:10:35,  2.01it/s] 20%|██        | 2169/10691 [25:58<1:10:29,  2.02it/s] 20%|██        | 2170/10691 [25:59<1:10:31,  2.01it/s] 20%|██        | 2171/10691 [25:59<1:10:27,  2.02it/s] 20%|██        | 2172/10691 [26:00<1:10:30,  2.01it/s] 20%|██        | 2173/10691 [26:00<1:10:28,  2.01it/s] 20%|██        | 2174/10691 [26:01<1:10:28,  2.01it/s] 20%|██        | 2175/10691 [26:01<1:10:28,  2.01it/s]                                                      {'loss': 3.3363, 'grad_norm': 0.21686014533042908, 'learning_rate': 0.0009678036264705339, 'epoch': 0.2}
+ 20%|██        | 2175/10691 [26:01<1:10:28,  2.01it/s] 20%|██        | 2176/10691 [26:02<1:10:45,  2.01it/s] 20%|██        | 2177/10691 [26:02<1:10:38,  2.01it/s] 20%|██        | 2178/10691 [26:03<1:10:37,  2.01it/s] 20%|██        | 2179/10691 [26:03<1:10:29,  2.01it/s] 20%|██        | 2180/10691 [26:04<1:10:32,  2.01it/s] 20%|██        | 2181/10691 [26:04<1:10:31,  2.01it/s] 20%|██        | 2182/10691 [26:05<1:10:26,  2.01it/s] 20%|██        | 2183/10691 [26:05<1:10:31,  2.01it/s] 20%|██        | 2184/10691 [26:06<1:10:20,  2.02it/s] 20%|██        | 2185/10691 [26:06<1:10:26,  2.01it/s] 20%|██        | 2186/10691 [26:07<1:10:21,  2.01it/s] 20%|██        | 2187/10691 [26:07<1:10:22,  2.01it/s] 20%|██        | 2188/10691 [26:08<1:10:25,  2.01it/s] 20%|██        | 2189/10691 [26:08<1:10:18,  2.02it/s] 20%|██        | 2190/10691 [26:09<1:10:21,  2.01it/s] 20%|██        | 2191/10691 [26:09<1:10:15,  2.02it/s] 21%|██        | 2192/10691 [26:10<1:10:22,  2.01it/s] 21%|██        | 2193/10691 [26:10<1:10:27,  2.01it/s] 21%|██        | 2194/10691 [26:11<1:10:20,  2.01it/s] 21%|██        | 2195/10691 [26:11<1:10:19,  2.01it/s] 21%|██        | 2196/10691 [26:12<1:10:11,  2.02it/s] 21%|██        | 2197/10691 [26:12<1:10:18,  2.01it/s] 21%|██        | 2198/10691 [26:13<1:10:22,  2.01it/s] 21%|██        | 2199/10691 [26:13<1:10:19,  2.01it/s] 21%|██        | 2200/10691 [26:14<1:10:18,  2.01it/s]{'loss': 3.3291, 'grad_norm': 0.21422067284584045, 'learning_rate': 0.000966347045941542, 'epoch': 0.21}                                                      
+ 21%|██        | 2200/10691 [26:14<1:10:18,  2.01it/s] 21%|██        | 2201/10691 [26:14<1:10:16,  2.01it/s] 21%|██        | 2202/10691 [26:15<1:10:21,  2.01it/s] 21%|██        | 2203/10691 [26:15<1:10:19,  2.01it/s] 21%|██        | 2204/10691 [26:16<1:10:15,  2.01it/s] 21%|██        | 2205/10691 [26:16<1:10:17,  2.01it/s] 21%|██        | 2206/10691 [26:17<1:10:08,  2.02it/s] 21%|██        | 2207/10691 [26:17<1:10:13,  2.01it/s] 21%|██        | 2208/10691 [26:18<1:10:10,  2.01it/s] 21%|██        | 2209/10691 [26:18<1:10:07,  2.02it/s] 21%|██        | 2210/10691 [26:19<1:10:13,  2.01it/s] 21%|██        | 2211/10691 [26:19<1:10:05,  2.02it/s] 21%|██        | 2212/10691 [26:20<1:10:14,  2.01it/s] 21%|██        | 2213/10691 [26:20<1:10:11,  2.01it/s] 21%|██        | 2214/10691 [26:21<1:10:05,  2.02it/s] 21%|██        | 2215/10691 [26:21<1:10:10,  2.01it/s] 21%|██        | 2216/10691 [26:22<1:10:06,  2.01it/s] 21%|██        | 2217/10691 [26:22<1:10:15,  2.01it/s] 21%|██        | 2218/10691 [26:23<1:10:12,  2.01it/s] 21%|██        | 2219/10691 [26:23<1:10:09,  2.01it/s] 21%|██        | 2220/10691 [26:24<1:10:14,  2.01it/s] 21%|██        | 2221/10691 [26:24<1:10:15,  2.01it/s] 21%|██        | 2222/10691 [26:25<1:10:08,  2.01it/s] 21%|██        | 2223/10691 [26:25<1:10:07,  2.01it/s] 21%|██        | 2224/10691 [26:26<1:10:01,  2.02it/s] 21%|██        | 2225/10691 [26:26<1:09:59,  2.02it/s]                                                      {'loss': 3.3167, 'grad_norm': 0.22546808421611786, 'learning_rate': 0.0009648593879070695, 'epoch': 0.21}
+ 21%|██        | 2225/10691 [26:26<1:09:59,  2.02it/s] 21%|██        | 2226/10691 [26:27<1:10:02,  2.01it/s] 21%|██        | 2227/10691 [26:27<1:10:05,  2.01it/s] 21%|██        | 2228/10691 [26:28<1:10:00,  2.01it/s] 21%|██        | 2229/10691 [26:28<1:10:06,  2.01it/s] 21%|██        | 2230/10691 [26:29<1:09:58,  2.02it/s] 21%|██        | 2231/10691 [26:29<1:10:01,  2.01it/s] 21%|██        | 2232/10691 [26:30<1:10:03,  2.01it/s] 21%|██        | 2233/10691 [26:30<1:10:01,  2.01it/s] 21%|██        | 2234/10691 [26:31<1:10:04,  2.01it/s] 21%|██        | 2235/10691 [26:31<1:10:02,  2.01it/s] 21%|██        | 2236/10691 [26:32<1:10:01,  2.01it/s] 21%|██        | 2237/10691 [26:32<1:10:00,  2.01it/s] 21%|██        | 2238/10691 [26:33<1:09:55,  2.01it/s] 21%|██        | 2239/10691 [26:33<1:09:56,  2.01it/s] 21%|██        | 2240/10691 [26:34<1:10:01,  2.01it/s] 21%|██        | 2241/10691 [26:34<1:10:12,  2.01it/s] 21%|██        | 2242/10691 [26:35<1:10:09,  2.01it/s] 21%|██        | 2243/10691 [26:35<1:10:08,  2.01it/s] 21%|██        | 2244/10691 [26:36<1:10:02,  2.01it/s] 21%|██        | 2245/10691 [26:36<1:10:01,  2.01it/s] 21%|██        | 2246/10691 [26:37<1:09:55,  2.01it/s] 21%|██        | 2247/10691 [26:37<1:09:58,  2.01it/s] 21%|██        | 2248/10691 [26:38<1:10:00,  2.01it/s] 21%|██        | 2249/10691 [26:38<1:09:51,  2.01it/s] 21%|██        | 2250/10691 [26:39<1:09:53,  2.01it/s]                                                      {'loss': 3.3185, 'grad_norm': 0.2142341583967209, 'learning_rate': 0.0009633407515050894, 'epoch': 0.21}
+ 21%|██        | 2250/10691 [26:39<1:09:53,  2.01it/s] 21%|██        | 2251/10691 [26:39<1:09:53,  2.01it/s] 21%|██        | 2252/10691 [26:40<1:09:52,  2.01it/s] 21%|██        | 2253/10691 [26:40<1:09:53,  2.01it/s] 21%|██        | 2254/10691 [26:41<1:09:49,  2.01it/s] 21%|██        | 2255/10691 [26:41<1:09:46,  2.02it/s] 21%|██        | 2256/10691 [26:42<1:09:45,  2.02it/s] 21%|██        | 2257/10691 [26:42<1:09:45,  2.02it/s] 21%|██        | 2258/10691 [26:43<1:09:42,  2.02it/s] 21%|██        | 2259/10691 [26:43<1:09:42,  2.02it/s] 21%|██        | 2260/10691 [26:44<1:09:46,  2.01it/s] 21%|██        | 2261/10691 [26:44<1:09:38,  2.02it/s] 21%|██        | 2262/10691 [26:45<1:09:47,  2.01it/s] 21%|██        | 2263/10691 [26:45<1:09:45,  2.01it/s] 21%|██        | 2264/10691 [26:46<1:09:46,  2.01it/s] 21%|██        | 2265/10691 [26:46<1:09:42,  2.01it/s] 21%|██        | 2266/10691 [26:47<1:09:39,  2.02it/s] 21%|██        | 2267/10691 [26:47<1:09:40,  2.01it/s] 21%|██        | 2268/10691 [26:48<1:09:33,  2.02it/s] 21%|██        | 2269/10691 [26:48<1:09:41,  2.01it/s] 21%|██        | 2270/10691 [26:49<1:09:49,  2.01it/s] 21%|██        | 2271/10691 [26:49<1:09:38,  2.01it/s] 21%|██▏       | 2272/10691 [26:50<1:09:39,  2.01it/s] 21%|██▏       | 2273/10691 [26:50<1:09:37,  2.02it/s] 21%|██▏       | 2274/10691 [26:51<1:09:35,  2.02it/s] 21%|██▏       | 2275/10691 [26:51<1:09:34,  2.02it/s]                                                      {'loss': 3.312, 'grad_norm': 0.22494080662727356, 'learning_rate': 0.0009617912379379819, 'epoch': 0.21}
+ 21%|██▏       | 2275/10691 [26:51<1:09:34,  2.02it/s] 21%|██▏       | 2276/10691 [26:52<1:09:38,  2.01it/s] 21%|██▏       | 2277/10691 [26:52<1:09:38,  2.01it/s] 21%|██▏       | 2278/10691 [26:52<1:09:31,  2.02it/s] 21%|██▏       | 2279/10691 [26:53<1:09:34,  2.02it/s] 21%|██▏       | 2280/10691 [26:53<1:09:30,  2.02it/s] 21%|██▏       | 2281/10691 [26:54<1:09:30,  2.02it/s] 21%|██▏       | 2282/10691 [26:54<1:09:24,  2.02it/s] 21%|██▏       | 2283/10691 [26:55<1:09:26,  2.02it/s] 21%|██▏       | 2284/10691 [26:55<1:09:31,  2.02it/s] 21%|██▏       | 2285/10691 [26:56<1:09:35,  2.01it/s] 21%|██▏       | 2286/10691 [26:56<1:09:34,  2.01it/s] 21%|██▏       | 2287/10691 [26:57<1:09:32,  2.01it/s] 21%|██▏       | 2288/10691 [26:57<1:09:30,  2.01it/s] 21%|██▏       | 2289/10691 [26:58<1:09:31,  2.01it/s] 21%|██▏       | 2290/10691 [26:58<1:09:30,  2.01it/s] 21%|██▏       | 2291/10691 [26:59<1:09:29,  2.01it/s] 21%|██▏       | 2292/10691 [26:59<1:09:29,  2.01it/s] 21%|██▏       | 2293/10691 [27:00<1:09:24,  2.02it/s] 21%|██▏       | 2294/10691 [27:00<1:09:25,  2.02it/s] 21%|██▏       | 2295/10691 [27:01<1:09:35,  2.01it/s] 21%|██▏       | 2296/10691 [27:01<1:09:27,  2.01it/s] 21%|██▏       | 2297/10691 [27:02<1:09:27,  2.01it/s] 21%|██▏       | 2298/10691 [27:02<1:09:24,  2.02it/s] 22%|██▏       | 2299/10691 [27:03<1:09:29,  2.01it/s] 22%|██▏       | 2300/10691 [27:03<1:09:28,  2.01it/s]{'loss': 3.306, 'grad_norm': 0.22497780621051788, 'learning_rate': 0.0009602109504657906, 'epoch': 0.22}                                                      
+ 22%|██▏       | 2300/10691 [27:03<1:09:28,  2.01it/s] 22%|██▏       | 2301/10691 [27:04<1:09:40,  2.01it/s] 22%|██▏       | 2302/10691 [27:04<1:09:36,  2.01it/s] 22%|██▏       | 2303/10691 [27:05<1:09:34,  2.01it/s] 22%|██▏       | 2304/10691 [27:05<1:09:28,  2.01it/s] 22%|██▏       | 2305/10691 [27:06<1:09:30,  2.01it/s] 22%|██▏       | 2306/10691 [27:06<1:09:22,  2.01it/s] 22%|██▏       | 2307/10691 [27:07<1:09:23,  2.01it/s] 22%|██▏       | 2308/10691 [27:07<1:09:17,  2.02it/s] 22%|██▏       | 2309/10691 [27:08<1:09:21,  2.01it/s] 22%|██▏       | 2310/10691 [27:08<1:09:21,  2.01it/s] 22%|██▏       | 2311/10691 [27:09<1:09:21,  2.01it/s] 22%|██▏       | 2312/10691 [27:09<1:09:21,  2.01it/s] 22%|██▏       | 2313/10691 [27:10<1:09:20,  2.01it/s] 22%|██▏       | 2314/10691 [27:10<1:09:20,  2.01it/s] 22%|██▏       | 2315/10691 [27:11<1:09:14,  2.02it/s] 22%|██▏       | 2316/10691 [27:11<1:09:11,  2.02it/s] 22%|██▏       | 2317/10691 [27:12<1:09:09,  2.02it/s] 22%|██▏       | 2318/10691 [27:12<1:09:14,  2.02it/s] 22%|██▏       | 2319/10691 [27:13<1:09:17,  2.01it/s] 22%|██▏       | 2320/10691 [27:13<1:09:16,  2.01it/s] 22%|██▏       | 2321/10691 [27:14<1:09:16,  2.01it/s] 22%|██▏       | 2322/10691 [27:14<1:09:17,  2.01it/s] 22%|██▏       | 2323/10691 [27:15<1:09:14,  2.01it/s] 22%|██▏       | 2324/10691 [27:15<1:09:13,  2.01it/s] 22%|██▏       | 2325/10691 [27:16<1:09:10,  2.02it/s]                                                      {'loss': 3.2928, 'grad_norm': 0.21407732367515564, 'learning_rate': 0.0009585999943993415, 'epoch': 0.22}
+ 22%|██▏       | 2325/10691 [27:16<1:09:10,  2.02it/s] 22%|██▏       | 2326/10691 [27:16<1:09:16,  2.01it/s] 22%|██▏       | 2327/10691 [27:17<1:09:16,  2.01it/s] 22%|██▏       | 2328/10691 [27:17<1:09:14,  2.01it/s] 22%|██▏       | 2329/10691 [27:18<1:09:16,  2.01it/s] 22%|██▏       | 2330/10691 [27:18<1:09:14,  2.01it/s] 22%|██▏       | 2331/10691 [27:19<1:09:13,  2.01it/s] 22%|██▏       | 2332/10691 [27:19<1:09:08,  2.02it/s] 22%|██▏       | 2333/10691 [27:20<1:09:08,  2.01it/s] 22%|██▏       | 2334/10691 [27:20<1:09:25,  2.01it/s] 22%|██▏       | 2335/10691 [27:21<1:09:18,  2.01it/s] 22%|██▏       | 2336/10691 [27:21<1:09:15,  2.01it/s] 22%|██▏       | 2337/10691 [27:22<1:09:09,  2.01it/s] 22%|██▏       | 2338/10691 [27:22<1:09:06,  2.01it/s] 22%|██▏       | 2339/10691 [27:23<1:09:10,  2.01it/s] 22%|██▏       | 2340/10691 [27:23<1:09:09,  2.01it/s] 22%|██▏       | 2341/10691 [27:24<1:09:05,  2.01it/s] 22%|██▏       | 2342/10691 [27:24<1:09:05,  2.01it/s] 22%|██▏       | 2343/10691 [27:25<1:09:04,  2.01it/s] 22%|██▏       | 2344/10691 [27:25<1:09:06,  2.01it/s] 22%|██▏       | 2345/10691 [27:26<1:09:01,  2.02it/s] 22%|██▏       | 2346/10691 [27:26<1:09:01,  2.02it/s] 22%|██▏       | 2347/10691 [27:27<1:08:58,  2.02it/s] 22%|██▏       | 2348/10691 [27:27<1:09:00,  2.02it/s] 22%|██▏       | 2349/10691 [27:28<1:08:59,  2.02it/s] 22%|██▏       | 2350/10691 [27:28<1:09:02,  2.01it/s]                                                      {'loss': 3.3043, 'grad_norm': 0.2192077785730362, 'learning_rate': 0.000956958477093225, 'epoch': 0.22}
+ 22%|██▏       | 2350/10691 [27:28<1:09:02,  2.01it/s] 22%|██▏       | 2351/10691 [27:29<1:09:05,  2.01it/s] 22%|██▏       | 2352/10691 [27:29<1:09:08,  2.01it/s] 22%|██▏       | 2353/10691 [27:30<1:09:01,  2.01it/s] 22%|██▏       | 2354/10691 [27:30<1:09:05,  2.01it/s] 22%|██▏       | 2355/10691 [27:31<1:08:59,  2.01it/s] 22%|██▏       | 2356/10691 [27:31<1:08:59,  2.01it/s] 22%|██▏       | 2357/10691 [27:32<1:08:57,  2.01it/s] 22%|██▏       | 2358/10691 [27:32<1:08:56,  2.01it/s] 22%|██▏       | 2359/10691 [27:33<1:08:51,  2.02it/s] 22%|██▏       | 2360/10691 [27:33<1:09:00,  2.01it/s] 22%|██▏       | 2361/10691 [27:34<1:09:10,  2.01it/s] 22%|██▏       | 2362/10691 [27:34<1:09:06,  2.01it/s] 22%|██▏       | 2363/10691 [27:35<1:09:06,  2.01it/s] 22%|██▏       | 2364/10691 [27:35<1:09:16,  2.00it/s] 22%|██▏       | 2365/10691 [27:36<1:09:04,  2.01it/s] 22%|██▏       | 2366/10691 [27:36<1:09:00,  2.01it/s] 22%|██▏       | 2367/10691 [27:37<1:08:55,  2.01it/s] 22%|██▏       | 2368/10691 [27:37<1:08:54,  2.01it/s] 22%|██▏       | 2369/10691 [27:38<1:08:58,  2.01it/s] 22%|██▏       | 2370/10691 [27:38<1:08:54,  2.01it/s] 22%|██▏       | 2371/10691 [27:39<1:08:57,  2.01it/s] 22%|██▏       | 2372/10691 [27:39<1:08:50,  2.01it/s] 22%|██▏       | 2373/10691 [27:40<1:08:50,  2.01it/s] 22%|██▏       | 2374/10691 [27:40<1:08:45,  2.02it/s] 22%|██▏       | 2375/10691 [27:41<1:08:49,  2.01it/s]                                                      {'loss': 3.2995, 'grad_norm': 0.2138577699661255, 'learning_rate': 0.0009552865079386411, 'epoch': 0.22}
+ 22%|██▏       | 2375/10691 [27:41<1:08:49,  2.01it/s] 22%|██▏       | 2376/10691 [27:41<1:08:54,  2.01it/s] 22%|██▏       | 2377/10691 [27:42<1:08:53,  2.01it/s] 22%|██▏       | 2378/10691 [27:42<1:08:49,  2.01it/s] 22%|██▏       | 2379/10691 [27:43<1:08:48,  2.01it/s] 22%|██▏       | 2380/10691 [27:43<1:08:50,  2.01it/s] 22%|██▏       | 2381/10691 [27:44<1:08:47,  2.01it/s] 22%|██▏       | 2382/10691 [27:44<1:08:41,  2.02it/s] 22%|██▏       | 2383/10691 [27:45<1:08:40,  2.02it/s] 22%|██▏       | 2384/10691 [27:45<1:08:37,  2.02it/s] 22%|██▏       | 2385/10691 [27:46<1:08:43,  2.01it/s] 22%|██▏       | 2386/10691 [27:46<1:08:41,  2.02it/s] 22%|██▏       | 2387/10691 [27:47<1:08:41,  2.01it/s] 22%|██▏       | 2388/10691 [27:47<1:08:36,  2.02it/s] 22%|██▏       | 2389/10691 [27:48<1:08:38,  2.02it/s] 22%|██▏       | 2390/10691 [27:48<1:08:36,  2.02it/s] 22%|██▏       | 2391/10691 [27:49<1:08:34,  2.02it/s] 22%|██▏       | 2392/10691 [27:49<1:08:36,  2.02it/s] 22%|██▏       | 2393/10691 [27:50<1:08:36,  2.02it/s] 22%|██▏       | 2394/10691 [27:50<1:08:41,  2.01it/s] 22%|██▏       | 2395/10691 [27:51<1:08:34,  2.02it/s] 22%|██▏       | 2396/10691 [27:51<1:08:35,  2.02it/s] 22%|██▏       | 2397/10691 [27:52<1:08:38,  2.01it/s] 22%|██▏       | 2398/10691 [27:52<1:08:33,  2.02it/s] 22%|██▏       | 2399/10691 [27:53<1:08:32,  2.02it/s] 22%|██▏       | 2400/10691 [27:53<1:08:40,  2.01it/s]                                                      {'loss': 3.3019, 'grad_norm': 0.21405231952667236, 'learning_rate': 0.0009535841983561103, 'epoch': 0.22}
+ 22%|██▏       | 2400/10691 [27:53<1:08:40,  2.01it/s] 22%|██▏       | 2401/10691 [27:54<1:08:39,  2.01it/s] 22%|██▏       | 2402/10691 [27:54<1:08:41,  2.01it/s] 22%|██▏       | 2403/10691 [27:55<1:08:35,  2.01it/s] 22%|██▏       | 2404/10691 [27:55<1:08:38,  2.01it/s] 22%|██▏       | 2405/10691 [27:56<1:08:37,  2.01it/s] 23%|██▎       | 2406/10691 [27:56<1:08:33,  2.01it/s] 23%|██▎       | 2407/10691 [27:57<1:08:32,  2.01it/s] 23%|██▎       | 2408/10691 [27:57<1:08:27,  2.02it/s] 23%|██▎       | 2409/10691 [27:58<1:08:28,  2.02it/s] 23%|██▎       | 2410/10691 [27:58<1:08:27,  2.02it/s] 23%|██▎       | 2411/10691 [27:59<1:08:35,  2.01it/s] 23%|██▎       | 2412/10691 [27:59<1:08:35,  2.01it/s] 23%|██▎       | 2413/10691 [28:00<1:08:36,  2.01it/s] 23%|██▎       | 2414/10691 [28:00<1:08:32,  2.01it/s] 23%|██▎       | 2415/10691 [28:01<1:08:31,  2.01it/s] 23%|██▎       | 2416/10691 [28:01<1:08:28,  2.01it/s] 23%|██▎       | 2417/10691 [28:02<1:08:32,  2.01it/s] 23%|██▎       | 2418/10691 [28:02<1:08:28,  2.01it/s] 23%|██▎       | 2419/10691 [28:03<1:08:30,  2.01it/s] 23%|██▎       | 2420/10691 [28:03<1:08:33,  2.01it/s] 23%|██▎       | 2421/10691 [28:04<1:08:39,  2.01it/s] 23%|██▎       | 2422/10691 [28:04<1:08:41,  2.01it/s] 23%|██▎       | 2423/10691 [28:05<1:08:35,  2.01it/s] 23%|██▎       | 2424/10691 [28:05<1:08:32,  2.01it/s] 23%|██▎       | 2425/10691 [28:06<1:08:25,  2.01it/s]                                                      {'loss': 3.2873, 'grad_norm': 0.2205270379781723, 'learning_rate': 0.0009518516617880482, 'epoch': 0.23}
+ 23%|██▎       | 2425/10691 [28:06<1:08:25,  2.01it/s] 23%|██▎       | 2426/10691 [28:06<1:08:30,  2.01it/s] 23%|██▎       | 2427/10691 [28:07<1:08:32,  2.01it/s] 23%|██▎       | 2428/10691 [28:07<1:08:26,  2.01it/s] 23%|██▎       | 2429/10691 [28:08<1:08:26,  2.01it/s] 23%|██▎       | 2430/10691 [28:08<1:08:20,  2.01it/s] 23%|██▎       | 2431/10691 [28:08<1:08:21,  2.01it/s] 23%|██▎       | 2432/10691 [28:09<1:08:16,  2.02it/s] 23%|██▎       | 2433/10691 [28:09<1:08:18,  2.02it/s] 23%|██▎       | 2434/10691 [28:10<1:08:19,  2.01it/s] 23%|██▎       | 2435/10691 [28:10<1:08:17,  2.02it/s] 23%|██▎       | 2436/10691 [28:11<1:08:18,  2.01it/s] 23%|██▎       | 2437/10691 [28:11<1:08:17,  2.01it/s] 23%|██▎       | 2438/10691 [28:12<1:08:18,  2.01it/s] 23%|██▎       | 2439/10691 [28:12<1:08:15,  2.02it/s] 23%|██▎       | 2440/10691 [28:13<1:08:13,  2.02it/s] 23%|██▎       | 2441/10691 [28:13<1:08:15,  2.01it/s] 23%|██▎       | 2442/10691 [28:14<1:08:13,  2.02it/s] 23%|██▎       | 2443/10691 [28:14<1:08:12,  2.02it/s] 23%|██▎       | 2444/10691 [28:15<1:08:10,  2.02it/s] 23%|██▎       | 2445/10691 [28:15<1:08:07,  2.02it/s] 23%|██▎       | 2446/10691 [28:16<1:08:16,  2.01it/s] 23%|██▎       | 2447/10691 [28:17<1:20:07,  1.71it/s] 23%|██▎       | 2448/10691 [28:17<1:16:36,  1.79it/s] 23%|██▎       | 2449/10691 [28:18<1:14:04,  1.85it/s] 23%|██▎       | 2450/10691 [28:18<1:12:22,  1.90it/s]                                                      {'loss': 3.2843, 'grad_norm': 0.23538701236248016, 'learning_rate': 0.0009500890136912055, 'epoch': 0.23}
+ 23%|██▎       | 2450/10691 [28:18<1:12:22,  1.90it/s] 23%|██▎       | 2451/10691 [28:19<1:11:13,  1.93it/s] 23%|██▎       | 2452/10691 [28:19<1:10:15,  1.95it/s] 23%|██▎       | 2453/10691 [28:20<1:09:41,  1.97it/s] 23%|██▎       | 2454/10691 [28:20<1:09:12,  1.98it/s] 23%|██▎       | 2455/10691 [28:21<1:08:47,  2.00it/s] 23%|██▎       | 2456/10691 [28:21<1:08:37,  2.00it/s] 23%|██▎       | 2457/10691 [28:22<1:08:25,  2.01it/s] 23%|██▎       | 2458/10691 [28:22<1:08:25,  2.01it/s] 23%|██▎       | 2459/10691 [28:23<1:19:31,  1.73it/s] 23%|██▎       | 2460/10691 [28:23<1:16:05,  1.80it/s] 23%|██▎       | 2461/10691 [28:24<1:13:41,  1.86it/s] 23%|██▎       | 2462/10691 [28:24<1:12:04,  1.90it/s] 23%|██▎       | 2463/10691 [28:25<1:10:51,  1.94it/s] 23%|██▎       | 2464/10691 [28:25<1:10:00,  1.96it/s] 23%|██▎       | 2465/10691 [28:26<1:09:23,  1.98it/s] 23%|██▎       | 2466/10691 [28:26<1:08:57,  1.99it/s] 23%|██▎       | 2467/10691 [28:27<1:08:46,  1.99it/s] 23%|██▎       | 2468/10691 [28:27<1:08:34,  2.00it/s] 23%|██▎       | 2469/10691 [28:28<1:08:20,  2.01it/s] 23%|██▎       | 2470/10691 [28:28<1:08:16,  2.01it/s] 23%|██▎       | 2471/10691 [28:29<1:08:10,  2.01it/s] 23%|██▎       | 2472/10691 [28:29<1:08:12,  2.01it/s] 23%|██▎       | 2473/10691 [28:30<1:08:05,  2.01it/s] 23%|██▎       | 2474/10691 [28:30<1:08:00,  2.01it/s] 23%|██▎       | 2475/10691 [28:31<1:07:57,  2.02it/s]                                                      {'loss': 3.2813, 'grad_norm': 0.2075020968914032, 'learning_rate': 0.0009482963715289743, 'epoch': 0.23}
+ 23%|██▎       | 2475/10691 [28:31<1:07:57,  2.02it/s] 23%|██▎       | 2476/10691 [28:31<1:07:59,  2.01it/s] 23%|██▎       | 2477/10691 [28:32<1:08:01,  2.01it/s] 23%|██▎       | 2478/10691 [28:32<1:07:55,  2.02it/s] 23%|██▎       | 2479/10691 [28:33<1:07:55,  2.01it/s] 23%|██▎       | 2480/10691 [28:33<1:07:53,  2.02it/s] 23%|██▎       | 2481/10691 [28:34<1:07:59,  2.01it/s] 23%|██▎       | 2482/10691 [28:34<1:08:03,  2.01it/s] 23%|██▎       | 2483/10691 [28:35<1:07:58,  2.01it/s] 23%|██▎       | 2484/10691 [28:35<1:07:54,  2.01it/s] 23%|██▎       | 2485/10691 [28:36<1:07:51,  2.02it/s] 23%|██▎       | 2486/10691 [28:36<1:07:52,  2.01it/s] 23%|██▎       | 2487/10691 [28:37<1:07:49,  2.02it/s] 23%|██▎       | 2488/10691 [28:37<1:07:50,  2.02it/s] 23%|██▎       | 2489/10691 [28:38<1:07:48,  2.02it/s] 23%|██▎       | 2490/10691 [28:38<1:07:43,  2.02it/s] 23%|██▎       | 2491/10691 [28:39<1:07:43,  2.02it/s] 23%|██▎       | 2492/10691 [28:39<1:07:41,  2.02it/s] 23%|██▎       | 2493/10691 [28:40<1:07:43,  2.02it/s] 23%|██▎       | 2494/10691 [28:40<1:07:41,  2.02it/s] 23%|██▎       | 2495/10691 [28:41<1:07:45,  2.02it/s] 23%|██▎       | 2496/10691 [28:41<1:07:42,  2.02it/s] 23%|██▎       | 2497/10691 [28:42<1:07:43,  2.02it/s] 23%|██▎       | 2498/10691 [28:42<1:07:42,  2.02it/s] 23%|██▎       | 2499/10691 [28:43<1:07:45,  2.01it/s] 23%|██▎       | 2500/10691 [28:43<1:07:42,  2.02it/s]{'loss': 3.2878, 'grad_norm': 0.226970374584198, 'learning_rate': 0.0009464738547635603, 'epoch': 0.23}                                                      
+ 23%|██▎       | 2500/10691 [28:43<1:07:42,  2.02it/s] 23%|██▎       | 2501/10691 [28:44<1:07:48,  2.01it/s] 23%|██▎       | 2502/10691 [28:44<1:07:46,  2.01it/s] 23%|██▎       | 2503/10691 [28:45<1:07:44,  2.01it/s] 23%|██▎       | 2504/10691 [28:45<1:07:43,  2.01it/s] 23%|██▎       | 2505/10691 [28:46<1:07:46,  2.01it/s] 23%|██▎       | 2506/10691 [28:46<1:07:43,  2.01it/s] 23%|██▎       | 2507/10691 [28:47<1:07:43,  2.01it/s] 23%|██▎       | 2508/10691 [28:47<1:07:40,  2.02it/s] 23%|██▎       | 2509/10691 [28:48<1:07:41,  2.01it/s] 23%|██▎       | 2510/10691 [28:48<1:07:39,  2.02it/s] 23%|██▎       | 2511/10691 [28:49<1:07:39,  2.01it/s] 23%|██▎       | 2512/10691 [28:49<1:07:39,  2.01it/s] 24%|██▎       | 2513/10691 [28:50<1:07:40,  2.01it/s] 24%|██▎       | 2514/10691 [28:50<1:07:41,  2.01it/s] 24%|██▎       | 2515/10691 [28:51<1:07:39,  2.01it/s] 24%|██▎       | 2516/10691 [28:51<1:07:39,  2.01it/s] 24%|██▎       | 2517/10691 [28:52<1:07:37,  2.01it/s] 24%|██▎       | 2518/10691 [28:52<1:07:36,  2.01it/s] 24%|██▎       | 2519/10691 [28:53<1:07:40,  2.01it/s] 24%|██▎       | 2520/10691 [28:53<1:07:44,  2.01it/s] 24%|██▎       | 2521/10691 [28:54<1:07:37,  2.01it/s] 24%|██▎       | 2522/10691 [28:54<1:07:35,  2.01it/s] 24%|██▎       | 2523/10691 [28:55<1:07:34,  2.01it/s] 24%|██▎       | 2524/10691 [28:55<1:07:29,  2.02it/s] 24%|██▎       | 2525/10691 [28:56<1:07:34,  2.01it/s]{'loss': 3.2768, 'grad_norm': 0.22536824643611908, 'learning_rate': 0.0009446215848480211, 'epoch': 0.24}                                                      
+ 24%|██▎       | 2525/10691 [28:56<1:07:34,  2.01it/s] 24%|██▎       | 2526/10691 [28:56<1:07:46,  2.01it/s] 24%|██▎       | 2527/10691 [28:57<1:07:35,  2.01it/s] 24%|██▎       | 2528/10691 [28:57<1:07:36,  2.01it/s] 24%|██▎       | 2529/10691 [28:58<1:07:32,  2.01it/s] 24%|██▎       | 2530/10691 [28:58<1:07:31,  2.01it/s] 24%|██▎       | 2531/10691 [28:59<1:07:30,  2.01it/s] 24%|██▎       | 2532/10691 [28:59<1:07:30,  2.01it/s] 24%|██▎       | 2533/10691 [29:00<1:07:31,  2.01it/s] 24%|██▎       | 2534/10691 [29:00<1:07:25,  2.02it/s] 24%|██▎       | 2535/10691 [29:01<1:07:26,  2.02it/s] 24%|██▎       | 2536/10691 [29:01<1:07:33,  2.01it/s] 24%|██▎       | 2537/10691 [29:02<1:07:30,  2.01it/s] 24%|██▎       | 2538/10691 [29:02<1:07:29,  2.01it/s] 24%|██▎       | 2539/10691 [29:03<1:07:25,  2.01it/s] 24%|██▍       | 2540/10691 [29:03<1:07:24,  2.02it/s] 24%|██▍       | 2541/10691 [29:04<1:07:29,  2.01it/s] 24%|██▍       | 2542/10691 [29:04<1:07:32,  2.01it/s] 24%|██▍       | 2543/10691 [29:05<1:07:30,  2.01it/s] 24%|██▍       | 2544/10691 [29:05<1:07:24,  2.01it/s] 24%|██▍       | 2545/10691 [29:06<1:07:23,  2.01it/s] 24%|██▍       | 2546/10691 [29:06<1:07:25,  2.01it/s] 24%|██▍       | 2547/10691 [29:07<1:07:19,  2.02it/s] 24%|██▍       | 2548/10691 [29:07<1:07:22,  2.01it/s] 24%|██▍       | 2549/10691 [29:08<1:07:13,  2.02it/s] 24%|██▍       | 2550/10691 [29:08<1:07:17,  2.02it/s]                                                      {'loss': 3.2728, 'grad_norm': 0.22950255870819092, 'learning_rate': 0.0009427396852181733, 'epoch': 0.24}
+ 24%|██▍       | 2550/10691 [29:08<1:07:17,  2.02it/s] 24%|██▍       | 2551/10691 [29:09<1:07:21,  2.01it/s] 24%|██▍       | 2552/10691 [29:09<1:07:16,  2.02it/s] 24%|██▍       | 2553/10691 [29:10<1:07:20,  2.01it/s] 24%|██▍       | 2554/10691 [29:10<1:07:16,  2.02it/s] 24%|██▍       | 2555/10691 [29:11<1:07:20,  2.01it/s] 24%|██▍       | 2556/10691 [29:11<1:07:19,  2.01it/s] 24%|██▍       | 2557/10691 [29:12<1:07:18,  2.01it/s] 24%|██▍       | 2558/10691 [29:12<1:07:14,  2.02it/s] 24%|██▍       | 2559/10691 [29:13<1:07:11,  2.02it/s] 24%|██▍       | 2560/10691 [29:13<1:07:12,  2.02it/s] 24%|██▍       | 2561/10691 [29:14<1:07:09,  2.02it/s] 24%|██▍       | 2562/10691 [29:14<1:07:12,  2.02it/s] 24%|██▍       | 2563/10691 [29:15<1:07:14,  2.01it/s] 24%|██▍       | 2564/10691 [29:15<1:07:13,  2.02it/s] 24%|██▍       | 2565/10691 [29:16<1:07:11,  2.02it/s] 24%|██▍       | 2566/10691 [29:16<1:07:16,  2.01it/s] 24%|██▍       | 2567/10691 [29:17<1:07:12,  2.01it/s] 24%|██▍       | 2568/10691 [29:17<1:07:10,  2.02it/s] 24%|██▍       | 2569/10691 [29:18<1:07:06,  2.02it/s] 24%|██▍       | 2570/10691 [29:18<1:07:10,  2.01it/s] 24%|██▍       | 2571/10691 [29:19<1:07:12,  2.01it/s] 24%|██▍       | 2572/10691 [29:19<1:07:11,  2.01it/s] 24%|██▍       | 2573/10691 [29:20<1:07:11,  2.01it/s] 24%|██▍       | 2574/10691 [29:20<1:07:07,  2.02it/s] 24%|██▍       | 2575/10691 [29:21<1:07:08,  2.01it/s]                                                      {'loss': 3.2772, 'grad_norm': 0.2174432873725891, 'learning_rate': 0.0009408282812843667, 'epoch': 0.24}
+ 24%|██▍       | 2575/10691 [29:21<1:07:08,  2.01it/s] 24%|██▍       | 2576/10691 [29:21<1:07:14,  2.01it/s] 24%|██▍       | 2577/10691 [29:22<1:07:11,  2.01it/s] 24%|██▍       | 2578/10691 [29:22<1:07:17,  2.01it/s] 24%|██▍       | 2579/10691 [29:23<1:07:08,  2.01it/s] 24%|██▍       | 2580/10691 [29:23<1:07:15,  2.01it/s] 24%|██▍       | 2581/10691 [29:24<1:07:04,  2.02it/s] 24%|██▍       | 2582/10691 [29:24<1:07:04,  2.01it/s] 24%|██▍       | 2583/10691 [29:25<1:06:56,  2.02it/s] 24%|██▍       | 2584/10691 [29:25<1:07:02,  2.02it/s] 24%|██▍       | 2585/10691 [29:26<1:07:02,  2.02it/s] 24%|██▍       | 2586/10691 [29:26<1:07:01,  2.02it/s] 24%|██▍       | 2587/10691 [29:26<1:07:04,  2.01it/s] 24%|██▍       | 2588/10691 [29:27<1:07:00,  2.02it/s] 24%|██▍       | 2589/10691 [29:27<1:07:06,  2.01it/s] 24%|██▍       | 2590/10691 [29:28<1:07:05,  2.01it/s] 24%|██▍       | 2591/10691 [29:28<1:07:03,  2.01it/s] 24%|██▍       | 2592/10691 [29:29<1:07:00,  2.01it/s] 24%|██▍       | 2593/10691 [29:29<1:07:01,  2.01it/s] 24%|██▍       | 2594/10691 [29:30<1:07:00,  2.01it/s] 24%|██▍       | 2595/10691 [29:30<1:07:03,  2.01it/s] 24%|██▍       | 2596/10691 [29:31<1:06:59,  2.01it/s] 24%|██▍       | 2597/10691 [29:31<1:07:04,  2.01it/s] 24%|██▍       | 2598/10691 [29:32<1:06:55,  2.02it/s] 24%|██▍       | 2599/10691 [29:32<1:06:53,  2.02it/s] 24%|██▍       | 2600/10691 [29:33<1:06:52,  2.02it/s]                                                      {'loss': 3.2669, 'grad_norm': 0.21033848822116852, 'learning_rate': 0.0009388875004231266, 'epoch': 0.24}
+ 24%|██▍       | 2600/10691 [29:33<1:06:52,  2.02it/s] 24%|██▍       | 2601/10691 [29:33<1:07:04,  2.01it/s] 24%|██▍       | 2602/10691 [29:34<1:07:16,  2.00it/s] 24%|██▍       | 2603/10691 [29:34<1:07:20,  2.00it/s] 24%|██▍       | 2604/10691 [29:35<1:07:09,  2.01it/s] 24%|██▍       | 2605/10691 [29:35<1:07:09,  2.01it/s] 24%|██▍       | 2606/10691 [29:36<1:07:03,  2.01it/s] 24%|██▍       | 2607/10691 [29:36<1:06:57,  2.01it/s] 24%|██▍       | 2608/10691 [29:37<1:06:52,  2.01it/s] 24%|██▍       | 2609/10691 [29:37<1:06:49,  2.02it/s] 24%|██▍       | 2610/10691 [29:38<1:06:51,  2.01it/s] 24%|██▍       | 2611/10691 [29:38<1:06:49,  2.02it/s] 24%|██▍       | 2612/10691 [29:39<1:06:51,  2.01it/s] 24%|██▍       | 2613/10691 [29:39<1:06:49,  2.01it/s] 24%|██▍       | 2614/10691 [29:40<1:06:50,  2.01it/s] 24%|██▍       | 2615/10691 [29:40<1:06:55,  2.01it/s] 24%|██▍       | 2616/10691 [29:41<1:06:52,  2.01it/s] 24%|██▍       | 2617/10691 [29:41<1:06:53,  2.01it/s] 24%|██▍       | 2618/10691 [29:42<1:06:49,  2.01it/s] 24%|██▍       | 2619/10691 [29:42<1:06:47,  2.01it/s] 25%|██▍       | 2620/10691 [29:43<1:06:47,  2.01it/s] 25%|██▍       | 2621/10691 [29:43<1:06:45,  2.01it/s] 25%|██▍       | 2622/10691 [29:44<1:06:47,  2.01it/s] 25%|██▍       | 2623/10691 [29:44<1:06:47,  2.01it/s] 25%|██▍       | 2624/10691 [29:45<1:06:46,  2.01it/s] 25%|██▍       | 2625/10691 [29:45<1:06:46,  2.01it/s]                                                      {'loss': 3.2576, 'grad_norm': 0.19897080957889557, 'learning_rate': 0.0009369174719686647, 'epoch': 0.25}
+ 25%|██▍       | 2625/10691 [29:45<1:06:46,  2.01it/s] 25%|██▍       | 2626/10691 [29:46<1:06:51,  2.01it/s] 25%|██▍       | 2627/10691 [29:46<1:06:47,  2.01it/s] 25%|██▍       | 2628/10691 [29:47<1:06:46,  2.01it/s] 25%|██▍       | 2629/10691 [29:47<1:06:43,  2.01it/s] 25%|██▍       | 2630/10691 [29:48<1:06:42,  2.01it/s] 25%|██▍       | 2631/10691 [29:48<1:06:40,  2.01it/s] 25%|██▍       | 2632/10691 [29:49<1:06:36,  2.02it/s] 25%|██▍       | 2633/10691 [29:49<1:06:42,  2.01it/s] 25%|██▍       | 2634/10691 [29:50<1:06:35,  2.02it/s] 25%|██▍       | 2635/10691 [29:50<1:06:36,  2.02it/s] 25%|██▍       | 2636/10691 [29:51<1:06:33,  2.02it/s] 25%|██▍       | 2637/10691 [29:51<1:06:36,  2.02it/s] 25%|██▍       | 2638/10691 [29:52<1:06:35,  2.02it/s] 25%|██▍       | 2639/10691 [29:52<1:06:33,  2.02it/s] 25%|██▍       | 2640/10691 [29:53<1:06:34,  2.02it/s] 25%|██▍       | 2641/10691 [29:53<1:06:31,  2.02it/s] 25%|██▍       | 2642/10691 [29:54<1:06:35,  2.01it/s] 25%|██▍       | 2643/10691 [29:54<1:06:34,  2.01it/s] 25%|██▍       | 2644/10691 [29:55<1:06:33,  2.02it/s] 25%|██▍       | 2645/10691 [29:55<1:06:34,  2.01it/s] 25%|██▍       | 2646/10691 [29:56<1:06:33,  2.01it/s] 25%|██▍       | 2647/10691 [29:56<1:06:33,  2.01it/s] 25%|██▍       | 2648/10691 [29:57<1:06:30,  2.02it/s] 25%|██▍       | 2649/10691 [29:57<1:06:35,  2.01it/s] 25%|██▍       | 2650/10691 [29:58<1:06:32,  2.01it/s]{'loss': 3.2499, 'grad_norm': 0.22438868880271912, 'learning_rate': 0.0009349183272042621, 'epoch': 0.25}                                                      
+ 25%|██▍       | 2650/10691 [29:58<1:06:32,  2.01it/s] 25%|██▍       | 2651/10691 [29:58<1:06:33,  2.01it/s] 25%|██▍       | 2652/10691 [29:59<1:06:33,  2.01it/s] 25%|██▍       | 2653/10691 [29:59<1:06:33,  2.01it/s] 25%|██▍       | 2654/10691 [30:00<1:06:34,  2.01it/s] 25%|██▍       | 2655/10691 [30:00<1:06:40,  2.01it/s] 25%|██▍       | 2656/10691 [30:01<1:06:32,  2.01it/s] 25%|██▍       | 2657/10691 [30:01<1:06:26,  2.02it/s] 25%|██▍       | 2658/10691 [30:02<1:06:22,  2.02it/s] 25%|██▍       | 2659/10691 [30:02<1:06:22,  2.02it/s] 25%|██▍       | 2660/10691 [30:03<1:06:17,  2.02it/s] 25%|██▍       | 2661/10691 [30:03<1:06:22,  2.02it/s] 25%|██▍       | 2662/10691 [30:04<1:06:31,  2.01it/s] 25%|██▍       | 2663/10691 [30:04<1:06:33,  2.01it/s] 25%|██▍       | 2664/10691 [30:05<1:06:30,  2.01it/s] 25%|██▍       | 2665/10691 [30:05<1:06:28,  2.01it/s] 25%|██▍       | 2666/10691 [30:06<1:06:23,  2.01it/s] 25%|██▍       | 2667/10691 [30:06<1:06:21,  2.02it/s] 25%|██▍       | 2668/10691 [30:07<1:06:19,  2.02it/s] 25%|██▍       | 2669/10691 [30:07<1:06:23,  2.01it/s] 25%|██▍       | 2670/10691 [30:08<1:06:20,  2.02it/s] 25%|██▍       | 2671/10691 [30:08<1:06:19,  2.02it/s] 25%|██▍       | 2672/10691 [30:09<1:06:17,  2.02it/s] 25%|██▌       | 2673/10691 [30:09<1:06:16,  2.02it/s] 25%|██▌       | 2674/10691 [30:10<1:06:18,  2.01it/s] 25%|██▌       | 2675/10691 [30:10<1:06:13,  2.02it/s]{'loss': 3.2573, 'grad_norm': 0.21397408843040466, 'learning_rate': 0.0009328901993535191, 'epoch': 0.25}
+                                                       25%|██▌       | 2675/10691 [30:10<1:06:13,  2.02it/s] 25%|██▌       | 2676/10691 [30:11<1:06:22,  2.01it/s] 25%|██▌       | 2677/10691 [30:11<1:06:21,  2.01it/s] 25%|██▌       | 2678/10691 [30:12<1:06:18,  2.01it/s] 25%|██▌       | 2679/10691 [30:12<1:06:25,  2.01it/s] 25%|██▌       | 2680/10691 [30:13<1:06:22,  2.01it/s] 25%|██▌       | 2681/10691 [30:13<1:06:24,  2.01it/s] 25%|██▌       | 2682/10691 [30:14<1:06:23,  2.01it/s] 25%|██▌       | 2683/10691 [30:14<1:06:17,  2.01it/s] 25%|██▌       | 2684/10691 [30:15<1:06:17,  2.01it/s] 25%|██▌       | 2685/10691 [30:15<1:06:22,  2.01it/s] 25%|██▌       | 2686/10691 [30:16<1:06:18,  2.01it/s] 25%|██▌       | 2687/10691 [30:16<1:06:17,  2.01it/s] 25%|██▌       | 2688/10691 [30:17<1:06:12,  2.01it/s] 25%|██▌       | 2689/10691 [30:17<1:06:18,  2.01it/s] 25%|██▌       | 2690/10691 [30:18<1:06:18,  2.01it/s] 25%|██▌       | 2691/10691 [30:18<1:06:14,  2.01it/s] 25%|██▌       | 2692/10691 [30:19<1:06:11,  2.01it/s] 25%|██▌       | 2693/10691 [30:19<1:06:13,  2.01it/s] 25%|██▌       | 2694/10691 [30:20<1:06:08,  2.02it/s] 25%|██▌       | 2695/10691 [30:20<1:06:09,  2.01it/s] 25%|██▌       | 2696/10691 [30:21<1:06:07,  2.01it/s] 25%|██▌       | 2697/10691 [30:21<1:06:06,  2.02it/s] 25%|██▌       | 2698/10691 [30:22<1:06:05,  2.02it/s] 25%|██▌       | 2699/10691 [30:22<1:06:06,  2.01it/s] 25%|██▌       | 2700/10691 [30:23<1:06:09,  2.01it/s]                                                      {'loss': 3.2415, 'grad_norm': 0.21596898138523102, 'learning_rate': 0.0009308332235714767, 'epoch': 0.25}
+ 25%|██▌       | 2700/10691 [30:23<1:06:09,  2.01it/s] 25%|██▌       | 2701/10691 [30:23<1:06:11,  2.01it/s] 25%|██▌       | 2702/10691 [30:24<1:06:06,  2.01it/s] 25%|██▌       | 2703/10691 [30:24<1:06:04,  2.01it/s] 25%|██▌       | 2704/10691 [30:25<1:06:00,  2.02it/s] 25%|██▌       | 2705/10691 [30:25<1:06:09,  2.01it/s] 25%|██▌       | 2706/10691 [30:26<1:05:58,  2.02it/s] 25%|██▌       | 2707/10691 [30:26<1:06:01,  2.02it/s] 25%|██▌       | 2708/10691 [30:27<1:05:58,  2.02it/s] 25%|██▌       | 2709/10691 [30:27<1:05:58,  2.02it/s] 25%|██▌       | 2710/10691 [30:28<1:06:00,  2.02it/s] 25%|██▌       | 2711/10691 [30:28<1:05:59,  2.02it/s] 25%|██▌       | 2712/10691 [30:29<1:06:01,  2.01it/s] 25%|██▌       | 2713/10691 [30:29<1:06:01,  2.01it/s] 25%|██▌       | 2714/10691 [30:30<1:05:59,  2.01it/s] 25%|██▌       | 2715/10691 [30:30<1:05:55,  2.02it/s] 25%|██▌       | 2716/10691 [30:31<1:05:55,  2.02it/s] 25%|██▌       | 2717/10691 [30:31<1:06:00,  2.01it/s] 25%|██▌       | 2718/10691 [30:32<1:05:58,  2.01it/s] 25%|██▌       | 2719/10691 [30:32<1:06:01,  2.01it/s] 25%|██▌       | 2720/10691 [30:33<1:05:59,  2.01it/s] 25%|██▌       | 2721/10691 [30:33<1:06:00,  2.01it/s] 25%|██▌       | 2722/10691 [30:34<1:06:08,  2.01it/s] 25%|██▌       | 2723/10691 [30:34<1:06:10,  2.01it/s] 25%|██▌       | 2724/10691 [30:35<1:06:05,  2.01it/s] 25%|██▌       | 2725/10691 [30:35<1:06:09,  2.01it/s]{'loss': 3.2606, 'grad_norm': 0.21497367322444916, 'learning_rate': 0.0009287475369356117, 'epoch': 0.25}
+                                                       25%|██▌       | 2725/10691 [30:35<1:06:09,  2.01it/s] 25%|██▌       | 2726/10691 [30:36<1:06:05,  2.01it/s] 26%|██▌       | 2727/10691 [30:36<1:06:01,  2.01it/s] 26%|██▌       | 2728/10691 [30:37<1:05:55,  2.01it/s] 26%|██▌       | 2729/10691 [30:37<1:05:54,  2.01it/s] 26%|██▌       | 2730/10691 [30:38<1:05:53,  2.01it/s] 26%|██▌       | 2731/10691 [30:38<1:05:48,  2.02it/s] 26%|██▌       | 2732/10691 [30:39<1:05:49,  2.02it/s] 26%|██▌       | 2733/10691 [30:39<1:05:49,  2.02it/s] 26%|██▌       | 2734/10691 [30:40<1:05:49,  2.01it/s] 26%|██▌       | 2735/10691 [30:40<1:05:48,  2.01it/s] 26%|██▌       | 2736/10691 [30:40<1:05:43,  2.02it/s] 26%|██▌       | 2737/10691 [30:41<1:05:46,  2.02it/s] 26%|██▌       | 2738/10691 [30:41<1:05:42,  2.02it/s] 26%|██▌       | 2739/10691 [30:42<1:05:47,  2.01it/s] 26%|██▌       | 2740/10691 [30:42<1:05:43,  2.02it/s] 26%|██▌       | 2741/10691 [30:43<1:05:42,  2.02it/s] 26%|██▌       | 2742/10691 [30:43<1:05:39,  2.02it/s] 26%|██▌       | 2743/10691 [30:44<1:05:38,  2.02it/s] 26%|██▌       | 2744/10691 [30:44<1:05:47,  2.01it/s] 26%|██▌       | 2745/10691 [30:45<1:05:42,  2.02it/s] 26%|██▌       | 2746/10691 [30:45<1:05:41,  2.02it/s] 26%|██▌       | 2747/10691 [30:46<1:05:40,  2.02it/s] 26%|██▌       | 2748/10691 [30:46<1:05:40,  2.02it/s] 26%|██▌       | 2749/10691 [30:47<1:05:46,  2.01it/s] 26%|██▌       | 2750/10691 [30:47<1:05:42,  2.01it/s]{'loss': 3.2462, 'grad_norm': 0.19937507808208466, 'learning_rate': 0.0009266332784367, 'epoch': 0.26}
+                                                       26%|██▌       | 2750/10691 [30:47<1:05:42,  2.01it/s] 26%|██▌       | 2751/10691 [30:48<1:05:48,  2.01it/s] 26%|██▌       | 2752/10691 [30:48<1:05:45,  2.01it/s] 26%|██▌       | 2753/10691 [30:49<1:05:41,  2.01it/s] 26%|██▌       | 2754/10691 [30:49<1:05:43,  2.01it/s] 26%|██▌       | 2755/10691 [30:50<1:05:47,  2.01it/s] 26%|██▌       | 2756/10691 [30:50<1:05:40,  2.01it/s] 26%|██▌       | 2757/10691 [30:51<1:05:40,  2.01it/s] 26%|██▌       | 2758/10691 [30:51<1:05:39,  2.01it/s] 26%|██▌       | 2759/10691 [30:52<1:05:42,  2.01it/s] 26%|██▌       | 2760/10691 [30:52<1:05:44,  2.01it/s] 26%|██▌       | 2761/10691 [30:53<1:05:39,  2.01it/s] 26%|██▌       | 2762/10691 [30:53<1:05:44,  2.01it/s] 26%|██▌       | 2763/10691 [30:54<1:05:40,  2.01it/s] 26%|██▌       | 2764/10691 [30:54<1:05:49,  2.01it/s] 26%|██▌       | 2765/10691 [30:55<1:05:44,  2.01it/s] 26%|██▌       | 2766/10691 [30:55<1:05:37,  2.01it/s] 26%|██▌       | 2767/10691 [30:56<1:05:34,  2.01it/s] 26%|██▌       | 2768/10691 [30:56<1:05:32,  2.01it/s] 26%|██▌       | 2769/10691 [30:57<1:05:31,  2.01it/s] 26%|██▌       | 2770/10691 [30:57<1:05:32,  2.01it/s] 26%|██▌       | 2771/10691 [30:58<1:05:30,  2.02it/s] 26%|██▌       | 2772/10691 [30:58<1:05:35,  2.01it/s] 26%|██▌       | 2773/10691 [30:59<1:05:34,  2.01it/s] 26%|██▌       | 2774/10691 [30:59<1:05:31,  2.01it/s] 26%|██▌       | 2775/10691 [31:00<1:05:31,  2.01it/s]                                                      {'loss': 3.2424, 'grad_norm': 0.20705004036426544, 'learning_rate': 0.0009244905889695551, 'epoch': 0.26}
+ 26%|██▌       | 2775/10691 [31:00<1:05:31,  2.01it/s] 26%|██▌       | 2776/10691 [31:00<1:05:32,  2.01it/s] 26%|██▌       | 2777/10691 [31:01<1:05:29,  2.01it/s] 26%|██▌       | 2778/10691 [31:01<1:05:33,  2.01it/s] 26%|██▌       | 2779/10691 [31:02<1:05:26,  2.02it/s] 26%|██▌       | 2780/10691 [31:02<1:05:27,  2.01it/s] 26%|██▌       | 2781/10691 [31:03<1:05:22,  2.02it/s] 26%|██▌       | 2782/10691 [31:03<1:05:28,  2.01it/s] 26%|██▌       | 2783/10691 [31:04<1:05:31,  2.01it/s] 26%|██▌       | 2784/10691 [31:04<1:05:31,  2.01it/s] 26%|██▌       | 2785/10691 [31:05<1:05:30,  2.01it/s] 26%|██▌       | 2786/10691 [31:05<1:05:27,  2.01it/s] 26%|██▌       | 2787/10691 [31:06<1:05:26,  2.01it/s] 26%|██▌       | 2788/10691 [31:06<1:05:27,  2.01it/s] 26%|██▌       | 2789/10691 [31:07<1:05:18,  2.02it/s] 26%|██▌       | 2790/10691 [31:07<1:05:23,  2.01it/s] 26%|██▌       | 2791/10691 [31:08<1:05:20,  2.01it/s] 26%|██▌       | 2792/10691 [31:08<1:05:20,  2.01it/s] 26%|██▌       | 2793/10691 [31:09<1:05:23,  2.01it/s] 26%|██▌       | 2794/10691 [31:09<1:05:14,  2.02it/s] 26%|██▌       | 2795/10691 [31:10<1:05:23,  2.01it/s] 26%|██▌       | 2796/10691 [31:10<1:05:17,  2.02it/s] 26%|██▌       | 2797/10691 [31:11<1:05:18,  2.01it/s] 26%|██▌       | 2798/10691 [31:11<1:05:16,  2.02it/s] 26%|██▌       | 2799/10691 [31:12<1:05:12,  2.02it/s] 26%|██▌       | 2800/10691 [31:12<1:05:14,  2.02it/s]                                                      {'loss': 3.2443, 'grad_norm': 0.20821642875671387, 'learning_rate': 0.000922319611323639, 'epoch': 0.26}
+ 26%|██▌       | 2800/10691 [31:12<1:05:14,  2.02it/s] 26%|██▌       | 2801/10691 [31:13<1:05:13,  2.02it/s] 26%|██▌       | 2802/10691 [31:13<1:05:15,  2.01it/s] 26%|██▌       | 2803/10691 [31:14<1:05:12,  2.02it/s] 26%|██▌       | 2804/10691 [31:14<1:05:12,  2.02it/s] 26%|██▌       | 2805/10691 [31:15<1:05:15,  2.01it/s] 26%|██▌       | 2806/10691 [31:15<1:05:17,  2.01it/s] 26%|██▋       | 2807/10691 [31:16<1:05:16,  2.01it/s] 26%|██▋       | 2808/10691 [31:16<1:05:17,  2.01it/s] 26%|██▋       | 2809/10691 [31:17<1:05:14,  2.01it/s] 26%|██▋       | 2810/10691 [31:17<1:05:14,  2.01it/s] 26%|██▋       | 2811/10691 [31:18<1:05:11,  2.01it/s] 26%|██▋       | 2812/10691 [31:18<1:05:12,  2.01it/s] 26%|██▋       | 2813/10691 [31:19<1:05:15,  2.01it/s] 26%|██▋       | 2814/10691 [31:19<1:05:13,  2.01it/s] 26%|██▋       | 2815/10691 [31:20<1:05:11,  2.01it/s] 26%|██▋       | 2816/10691 [31:20<1:05:10,  2.01it/s] 26%|██▋       | 2817/10691 [31:21<1:05:10,  2.01it/s] 26%|██▋       | 2818/10691 [31:21<1:05:08,  2.01it/s] 26%|██▋       | 2819/10691 [31:22<1:05:05,  2.02it/s] 26%|██▋       | 2820/10691 [31:22<1:05:09,  2.01it/s] 26%|██▋       | 2821/10691 [31:23<1:05:06,  2.01it/s] 26%|██▋       | 2822/10691 [31:23<1:05:04,  2.02it/s] 26%|██▋       | 2823/10691 [31:24<1:05:05,  2.01it/s] 26%|██▋       | 2824/10691 [31:24<1:05:03,  2.02it/s] 26%|██▋       | 2825/10691 [31:25<1:05:04,  2.01it/s]                                                      {'loss': 3.2364, 'grad_norm': 0.2058224081993103, 'learning_rate': 0.0009201204901735456, 'epoch': 0.26}
+ 26%|██▋       | 2825/10691 [31:25<1:05:04,  2.01it/s] 26%|██▋       | 2826/10691 [31:25<1:05:03,  2.01it/s] 26%|██▋       | 2827/10691 [31:26<1:05:01,  2.02it/s] 26%|██▋       | 2828/10691 [31:26<1:05:04,  2.01it/s] 26%|██▋       | 2829/10691 [31:27<1:05:06,  2.01it/s] 26%|██▋       | 2830/10691 [31:27<1:05:07,  2.01it/s] 26%|██▋       | 2831/10691 [31:28<1:04:59,  2.02it/s] 26%|██▋       | 2832/10691 [31:28<1:05:02,  2.01it/s] 26%|██▋       | 2833/10691 [31:29<1:04:58,  2.02it/s] 27%|██▋       | 2834/10691 [31:29<1:04:57,  2.02it/s] 27%|██▋       | 2835/10691 [31:30<1:05:00,  2.01it/s] 27%|██▋       | 2836/10691 [31:30<1:05:07,  2.01it/s] 27%|██▋       | 2837/10691 [31:31<1:04:56,  2.02it/s] 27%|██▋       | 2838/10691 [31:31<1:04:58,  2.01it/s] 27%|██▋       | 2839/10691 [31:32<1:04:51,  2.02it/s] 27%|██▋       | 2840/10691 [31:32<1:04:57,  2.01it/s] 27%|██▋       | 2841/10691 [31:33<1:04:59,  2.01it/s] 27%|██▋       | 2842/10691 [31:33<1:05:00,  2.01it/s] 27%|██▋       | 2843/10691 [31:34<1:05:03,  2.01it/s] 27%|██▋       | 2844/10691 [31:34<1:05:06,  2.01it/s] 27%|██▋       | 2845/10691 [31:35<1:04:59,  2.01it/s] 27%|██▋       | 2846/10691 [31:35<1:05:03,  2.01it/s] 27%|██▋       | 2847/10691 [31:36<1:04:56,  2.01it/s] 27%|██▋       | 2848/10691 [31:36<1:04:55,  2.01it/s] 27%|██▋       | 2849/10691 [31:37<1:04:50,  2.02it/s] 27%|██▋       | 2850/10691 [31:37<1:04:50,  2.02it/s]                                                      {'loss': 3.2232, 'grad_norm': 0.20716504752635956, 'learning_rate': 0.000917893372069361, 'epoch': 0.27}
+ 27%|██▋       | 2850/10691 [31:37<1:04:50,  2.02it/s] 27%|██▋       | 2851/10691 [31:38<1:04:59,  2.01it/s] 27%|██▋       | 2852/10691 [31:38<1:04:53,  2.01it/s] 27%|██▋       | 2853/10691 [31:39<1:04:55,  2.01it/s] 27%|██▋       | 2854/10691 [31:39<1:04:57,  2.01it/s] 27%|██▋       | 2855/10691 [31:40<1:04:54,  2.01it/s] 27%|██▋       | 2856/10691 [31:40<1:04:48,  2.01it/s] 27%|██▋       | 2857/10691 [31:41<1:04:49,  2.01it/s] 27%|██▋       | 2858/10691 [31:41<1:04:45,  2.02it/s] 27%|██▋       | 2859/10691 [31:42<1:04:45,  2.02it/s] 27%|██▋       | 2860/10691 [31:42<1:04:47,  2.01it/s] 27%|██▋       | 2861/10691 [31:43<1:04:48,  2.01it/s] 27%|██▋       | 2862/10691 [31:43<1:04:48,  2.01it/s] 27%|██▋       | 2863/10691 [31:44<1:04:55,  2.01it/s] 27%|██▋       | 2864/10691 [31:44<1:04:50,  2.01it/s] 27%|██▋       | 2865/10691 [31:45<1:04:49,  2.01it/s] 27%|██▋       | 2866/10691 [31:45<1:04:44,  2.01it/s] 27%|██▋       | 2867/10691 [31:46<1:04:47,  2.01it/s] 27%|██▋       | 2868/10691 [31:46<1:04:37,  2.02it/s] 27%|██▋       | 2869/10691 [31:47<1:04:41,  2.02it/s] 27%|██▋       | 2870/10691 [31:47<1:04:37,  2.02it/s] 27%|██▋       | 2871/10691 [31:48<1:04:39,  2.02it/s] 27%|██▋       | 2872/10691 [31:48<1:04:44,  2.01it/s] 27%|██▋       | 2873/10691 [31:49<1:04:42,  2.01it/s] 27%|██▋       | 2874/10691 [31:49<1:04:42,  2.01it/s] 27%|██▋       | 2875/10691 [31:50<1:04:40,  2.01it/s]                                                      {'loss': 3.2338, 'grad_norm': 0.22995981574058533, 'learning_rate': 0.0009156384054268964, 'epoch': 0.27}
+ 27%|██▋       | 2875/10691 [31:50<1:04:40,  2.01it/s] 27%|██▋       | 2876/10691 [31:50<1:04:43,  2.01it/s] 27%|██▋       | 2877/10691 [31:51<1:04:47,  2.01it/s] 27%|██▋       | 2878/10691 [31:51<1:04:40,  2.01it/s] 27%|██▋       | 2879/10691 [31:52<1:04:41,  2.01it/s] 27%|██▋       | 2880/10691 [31:52<1:04:39,  2.01it/s] 27%|██▋       | 2881/10691 [31:53<1:04:36,  2.01it/s] 27%|██▋       | 2882/10691 [31:53<1:04:35,  2.02it/s] 27%|██▋       | 2883/10691 [31:53<1:04:30,  2.02it/s] 27%|██▋       | 2884/10691 [31:54<1:04:34,  2.02it/s] 27%|██▋       | 2885/10691 [31:54<1:04:36,  2.01it/s] 27%|██▋       | 2886/10691 [31:55<1:04:36,  2.01it/s] 27%|██▋       | 2887/10691 [31:55<1:04:37,  2.01it/s] 27%|██▋       | 2888/10691 [31:56<1:04:32,  2.01it/s] 27%|██▋       | 2889/10691 [31:56<1:04:35,  2.01it/s] 27%|██▋       | 2890/10691 [31:57<1:04:32,  2.01it/s] 27%|██▋       | 2891/10691 [31:57<1:04:33,  2.01it/s] 27%|██▋       | 2892/10691 [31:58<1:04:34,  2.01it/s] 27%|██▋       | 2893/10691 [31:58<1:04:33,  2.01it/s] 27%|██▋       | 2894/10691 [31:59<1:04:34,  2.01it/s] 27%|██▋       | 2895/10691 [31:59<1:04:32,  2.01it/s] 27%|██▋       | 2896/10691 [32:00<1:04:28,  2.01it/s] 27%|██▋       | 2897/10691 [32:00<1:04:27,  2.02it/s] 27%|██▋       | 2898/10691 [32:01<1:04:24,  2.02it/s] 27%|██▋       | 2899/10691 [32:01<1:04:23,  2.02it/s] 27%|██▋       | 2900/10691 [32:02<1:04:21,  2.02it/s]                                                      {'loss': 3.2266, 'grad_norm': 0.20482288300991058, 'learning_rate': 0.0009133557405177975, 'epoch': 0.27}
+ 27%|██▋       | 2900/10691 [32:02<1:04:21,  2.02it/s] 27%|██▋       | 2901/10691 [32:02<1:04:28,  2.01it/s] 27%|██▋       | 2902/10691 [32:03<1:04:24,  2.02it/s] 27%|██▋       | 2903/10691 [32:03<1:04:26,  2.01it/s] 27%|██▋       | 2904/10691 [32:04<1:04:31,  2.01it/s] 27%|██▋       | 2905/10691 [32:04<1:04:33,  2.01it/s] 27%|██▋       | 2906/10691 [32:05<1:04:29,  2.01it/s] 27%|██▋       | 2907/10691 [32:05<1:04:26,  2.01it/s] 27%|██▋       | 2908/10691 [32:06<1:04:24,  2.01it/s] 27%|██▋       | 2909/10691 [32:06<1:04:24,  2.01it/s] 27%|██▋       | 2910/10691 [32:07<1:04:27,  2.01it/s] 27%|██▋       | 2911/10691 [32:07<1:04:24,  2.01it/s] 27%|██▋       | 2912/10691 [32:08<1:04:24,  2.01it/s] 27%|██▋       | 2913/10691 [32:08<1:04:19,  2.02it/s] 27%|██▋       | 2914/10691 [32:09<1:04:18,  2.02it/s] 27%|██▋       | 2915/10691 [32:09<1:04:19,  2.02it/s] 27%|██▋       | 2916/10691 [32:10<1:04:16,  2.02it/s] 27%|██▋       | 2917/10691 [32:10<1:04:19,  2.01it/s] 27%|██▋       | 2918/10691 [32:11<1:04:17,  2.01it/s] 27%|██▋       | 2919/10691 [32:11<1:04:18,  2.01it/s] 27%|██▋       | 2920/10691 [32:12<1:04:23,  2.01it/s] 27%|██▋       | 2921/10691 [32:12<1:04:18,  2.01it/s] 27%|██▋       | 2922/10691 [32:13<1:04:17,  2.01it/s] 27%|██▋       | 2923/10691 [32:13<1:04:14,  2.02it/s] 27%|██▋       | 2924/10691 [32:14<1:04:13,  2.02it/s] 27%|██▋       | 2925/10691 [32:14<1:04:15,  2.01it/s]                                                      {'loss': 3.2213, 'grad_norm': 0.20565909147262573, 'learning_rate': 0.0009110455294595312, 'epoch': 0.27}
+ 27%|██▋       | 2925/10691 [32:14<1:04:15,  2.01it/s] 27%|██▋       | 2926/10691 [32:15<1:04:16,  2.01it/s] 27%|██▋       | 2927/10691 [32:15<1:04:17,  2.01it/s] 27%|██▋       | 2928/10691 [32:16<1:04:18,  2.01it/s] 27%|██▋       | 2929/10691 [32:16<1:04:17,  2.01it/s] 27%|██▋       | 2930/10691 [32:17<1:04:16,  2.01it/s] 27%|██▋       | 2931/10691 [32:17<1:04:08,  2.02it/s] 27%|██▋       | 2932/10691 [32:18<1:04:11,  2.01it/s] 27%|██▋       | 2933/10691 [32:18<1:04:06,  2.02it/s] 27%|██▋       | 2934/10691 [32:19<1:04:09,  2.02it/s] 27%|██▋       | 2935/10691 [32:19<1:04:13,  2.01it/s] 27%|██▋       | 2936/10691 [32:20<1:04:05,  2.02it/s] 27%|██▋       | 2937/10691 [32:20<1:04:06,  2.02it/s] 27%|██▋       | 2938/10691 [32:21<1:04:02,  2.02it/s] 27%|██▋       | 2939/10691 [32:21<1:04:08,  2.01it/s] 27%|██▋       | 2940/10691 [32:22<1:04:02,  2.02it/s] 28%|██▊       | 2941/10691 [32:22<1:04:03,  2.02it/s] 28%|██▊       | 2942/10691 [32:23<1:03:57,  2.02it/s] 28%|██▊       | 2943/10691 [32:23<1:04:04,  2.02it/s] 28%|██▊       | 2944/10691 [32:24<1:04:05,  2.01it/s] 28%|██▊       | 2945/10691 [32:24<1:04:05,  2.01it/s] 28%|██▊       | 2946/10691 [32:25<1:04:09,  2.01it/s] 28%|██▊       | 2947/10691 [32:25<1:04:05,  2.01it/s] 28%|██▊       | 2948/10691 [32:26<1:04:02,  2.02it/s] 28%|██▊       | 2949/10691 [32:26<1:04:03,  2.01it/s] 28%|██▊       | 2950/10691 [32:27<1:03:59,  2.02it/s]{'loss': 3.2241, 'grad_norm': 0.20912528038024902, 'learning_rate': 0.0009087079262052475, 'epoch': 0.28}                                                      
+ 28%|██▊       | 2950/10691 [32:27<1:03:59,  2.02it/s] 28%|██▊       | 2951/10691 [32:27<1:04:09,  2.01it/s] 28%|██▊       | 2952/10691 [32:28<1:04:11,  2.01it/s] 28%|██▊       | 2953/10691 [32:28<1:04:10,  2.01it/s] 28%|██▊       | 2954/10691 [32:29<1:04:09,  2.01it/s] 28%|██▊       | 2955/10691 [32:29<1:04:05,  2.01it/s] 28%|██▊       | 2956/10691 [32:30<1:03:59,  2.01it/s] 28%|██▊       | 2957/10691 [32:30<1:03:57,  2.02it/s] 28%|██▊       | 2958/10691 [32:31<1:03:58,  2.01it/s] 28%|██▊       | 2959/10691 [32:31<1:03:57,  2.02it/s] 28%|██▊       | 2960/10691 [32:32<1:03:55,  2.02it/s] 28%|██▊       | 2961/10691 [32:32<1:03:55,  2.02it/s] 28%|██▊       | 2962/10691 [32:33<1:03:55,  2.02it/s] 28%|██▊       | 2963/10691 [32:33<1:03:54,  2.02it/s] 28%|██▊       | 2964/10691 [32:34<1:04:05,  2.01it/s] 28%|██▊       | 2965/10691 [32:34<1:04:10,  2.01it/s] 28%|██▊       | 2966/10691 [32:35<1:04:05,  2.01it/s] 28%|██▊       | 2967/10691 [32:35<1:04:03,  2.01it/s] 28%|██▊       | 2968/10691 [32:36<1:04:05,  2.01it/s] 28%|██▊       | 2969/10691 [32:36<1:03:59,  2.01it/s] 28%|██▊       | 2970/10691 [32:37<1:03:56,  2.01it/s] 28%|██▊       | 2971/10691 [32:37<1:03:53,  2.01it/s] 28%|██▊       | 2972/10691 [32:38<1:03:54,  2.01it/s] 28%|██▊       | 2973/10691 [32:38<1:03:48,  2.02it/s] 28%|██▊       | 2974/10691 [32:39<1:03:46,  2.02it/s] 28%|██▊       | 2975/10691 [32:39<1:03:47,  2.02it/s]                                                      {'loss': 3.2257, 'grad_norm': 0.20686139166355133, 'learning_rate': 0.000906343086533521, 'epoch': 0.28}
+ 28%|██▊       | 2975/10691 [32:39<1:03:47,  2.02it/s] 28%|██▊       | 2976/10691 [32:40<1:04:01,  2.01it/s] 28%|██▊       | 2977/10691 [32:40<1:03:54,  2.01it/s] 28%|██▊       | 2978/10691 [32:41<1:03:58,  2.01it/s] 28%|██▊       | 2979/10691 [32:41<1:03:54,  2.01it/s] 28%|██▊       | 2980/10691 [32:42<1:03:55,  2.01it/s] 28%|██▊       | 2981/10691 [32:42<1:03:59,  2.01it/s] 28%|██▊       | 2982/10691 [32:43<1:03:51,  2.01it/s] 28%|██▊       | 2983/10691 [32:43<1:03:54,  2.01it/s] 28%|██▊       | 2984/10691 [32:44<1:03:47,  2.01it/s] 28%|██▊       | 2985/10691 [32:44<1:03:46,  2.01it/s] 28%|██▊       | 2986/10691 [32:45<1:03:41,  2.02it/s] 28%|██▊       | 2987/10691 [32:45<1:03:41,  2.02it/s] 28%|██▊       | 2988/10691 [32:46<1:03:41,  2.02it/s] 28%|██▊       | 2989/10691 [32:46<1:03:39,  2.02it/s] 28%|██▊       | 2990/10691 [32:47<1:03:39,  2.02it/s] 28%|██▊       | 2991/10691 [32:47<1:03:36,  2.02it/s] 28%|██▊       | 2992/10691 [32:48<1:03:37,  2.02it/s] 28%|██▊       | 2993/10691 [32:48<1:03:33,  2.02it/s] 28%|██▊       | 2994/10691 [32:49<1:03:38,  2.02it/s] 28%|██▊       | 2995/10691 [32:49<1:03:37,  2.02it/s] 28%|██▊       | 2996/10691 [32:50<1:03:36,  2.02it/s] 28%|██▊       | 2997/10691 [32:50<1:03:31,  2.02it/s] 28%|██▊       | 2998/10691 [32:51<1:03:35,  2.02it/s] 28%|██▊       | 2999/10691 [32:51<1:03:37,  2.02it/s] 28%|██▊       | 3000/10691 [32:52<1:03:34,  2.02it/s]                                                      {'loss': 3.2116, 'grad_norm': 0.20549677312374115, 'learning_rate': 0.0009039511680379687, 'epoch': 0.28}
+ 28%|██▊       | 3000/10691 [32:52<1:03:34,  2.02it/s] 28%|██▊       | 3001/10691 [32:52<1:03:42,  2.01it/s] 28%|██▊       | 3002/10691 [32:53<1:03:37,  2.01it/s] 28%|██▊       | 3003/10691 [32:53<1:03:36,  2.01it/s] 28%|██▊       | 3004/10691 [32:54<1:03:36,  2.01it/s] 28%|██▊       | 3005/10691 [32:54<1:03:33,  2.02it/s] 28%|██▊       | 3006/10691 [32:55<1:03:34,  2.01it/s] 28%|██▊       | 3007/10691 [32:55<1:03:29,  2.02it/s] 28%|██▊       | 3008/10691 [32:56<1:03:30,  2.02it/s] 28%|██▊       | 3009/10691 [32:56<1:03:28,  2.02it/s] 28%|██▊       | 3010/10691 [32:57<1:03:32,  2.01it/s] 28%|██▊       | 3011/10691 [32:57<1:03:32,  2.01it/s] 28%|██▊       | 3012/10691 [32:58<1:03:30,  2.02it/s] 28%|██▊       | 3013/10691 [32:58<1:03:31,  2.01it/s] 28%|██▊       | 3014/10691 [32:59<1:03:31,  2.01it/s] 28%|██▊       | 3015/10691 [32:59<1:03:31,  2.01it/s] 28%|██▊       | 3016/10691 [33:00<1:03:33,  2.01it/s] 28%|██▊       | 3017/10691 [33:00<1:03:27,  2.02it/s] 28%|██▊       | 3018/10691 [33:01<1:03:28,  2.01it/s] 28%|██▊       | 3019/10691 [33:01<1:03:29,  2.01it/s] 28%|██▊       | 3020/10691 [33:02<1:03:28,  2.01it/s] 28%|██▊       | 3021/10691 [33:02<1:03:24,  2.02it/s] 28%|██▊       | 3022/10691 [33:03<1:03:25,  2.02it/s] 28%|██▊       | 3023/10691 [33:03<1:03:23,  2.02it/s] 28%|██▊       | 3024/10691 [33:04<1:03:28,  2.01it/s] 28%|██▊       | 3025/10691 [33:04<1:03:34,  2.01it/s]{'loss': 3.2105, 'grad_norm': 0.20406095683574677, 'learning_rate': 0.0009015323301167489, 'epoch': 0.28}                                                      
+ 28%|██▊       | 3025/10691 [33:04<1:03:34,  2.01it/s] 28%|██▊       | 3026/10691 [33:05<1:03:37,  2.01it/s] 28%|██▊       | 3027/10691 [33:05<1:03:28,  2.01it/s] 28%|██▊       | 3028/10691 [33:05<1:03:30,  2.01it/s] 28%|██▊       | 3029/10691 [33:06<1:03:22,  2.01it/s] 28%|██▊       | 3030/10691 [33:06<1:03:23,  2.01it/s] 28%|██▊       | 3031/10691 [33:07<1:03:30,  2.01it/s] 28%|██▊       | 3032/10691 [33:07<1:03:32,  2.01it/s] 28%|██▊       | 3033/10691 [33:08<1:03:25,  2.01it/s] 28%|██▊       | 3034/10691 [33:08<1:03:27,  2.01it/s] 28%|██▊       | 3035/10691 [33:09<1:03:21,  2.01it/s] 28%|██▊       | 3036/10691 [33:09<1:03:24,  2.01it/s] 28%|██▊       | 3037/10691 [33:10<1:03:23,  2.01it/s] 28%|██▊       | 3038/10691 [33:10<1:03:26,  2.01it/s] 28%|██▊       | 3039/10691 [33:11<1:03:22,  2.01it/s] 28%|██▊       | 3040/10691 [33:11<1:03:20,  2.01it/s] 28%|██▊       | 3041/10691 [33:12<1:03:23,  2.01it/s] 28%|██▊       | 3042/10691 [33:12<1:03:21,  2.01it/s] 28%|██▊       | 3043/10691 [33:13<1:03:16,  2.01it/s] 28%|██▊       | 3044/10691 [33:13<1:03:16,  2.01it/s] 28%|██▊       | 3045/10691 [33:14<1:03:13,  2.02it/s] 28%|██▊       | 3046/10691 [33:14<1:03:11,  2.02it/s] 29%|██▊       | 3047/10691 [33:15<1:03:09,  2.02it/s] 29%|██▊       | 3048/10691 [33:15<1:03:12,  2.02it/s] 29%|██▊       | 3049/10691 [33:16<1:03:06,  2.02it/s] 29%|██▊       | 3050/10691 [33:16<1:03:11,  2.02it/s]{'loss': 3.2022, 'grad_norm': 0.20344343781471252, 'learning_rate': 0.000899086733961938, 'epoch': 0.29}                                                      
+ 29%|██▊       | 3050/10691 [33:16<1:03:11,  2.02it/s] 29%|██▊       | 3051/10691 [33:17<1:03:19,  2.01it/s] 29%|██▊       | 3052/10691 [33:17<1:03:15,  2.01it/s] 29%|██▊       | 3053/10691 [33:18<1:03:12,  2.01it/s] 29%|██▊       | 3054/10691 [33:18<1:03:11,  2.01it/s] 29%|██▊       | 3055/10691 [33:19<1:03:13,  2.01it/s] 29%|██▊       | 3056/10691 [33:19<1:03:13,  2.01it/s] 29%|██▊       | 3057/10691 [33:20<1:03:14,  2.01it/s] 29%|██▊       | 3058/10691 [33:20<1:03:13,  2.01it/s] 29%|██▊       | 3059/10691 [33:21<1:03:12,  2.01it/s] 29%|██▊       | 3060/10691 [33:21<1:03:12,  2.01it/s] 29%|██▊       | 3061/10691 [33:22<1:03:09,  2.01it/s] 29%|██▊       | 3062/10691 [33:22<1:03:04,  2.02it/s] 29%|██▊       | 3063/10691 [33:23<1:03:03,  2.02it/s] 29%|██▊       | 3064/10691 [33:23<1:03:04,  2.02it/s] 29%|██▊       | 3065/10691 [33:24<1:03:02,  2.02it/s] 29%|██▊       | 3066/10691 [33:24<1:03:01,  2.02it/s] 29%|██▊       | 3067/10691 [33:25<1:03:05,  2.01it/s] 29%|██▊       | 3068/10691 [33:25<1:03:03,  2.01it/s] 29%|██▊       | 3069/10691 [33:26<1:03:08,  2.01it/s] 29%|██▊       | 3070/10691 [33:26<1:03:15,  2.01it/s] 29%|██▊       | 3071/10691 [33:27<1:03:09,  2.01it/s] 29%|██▊       | 3072/10691 [33:27<1:03:07,  2.01it/s] 29%|██▊       | 3073/10691 [33:28<1:03:01,  2.01it/s] 29%|██▉       | 3074/10691 [33:28<1:03:02,  2.01it/s] 29%|██▉       | 3075/10691 [33:29<1:03:02,  2.01it/s]                                                      {'loss': 3.2062, 'grad_norm': 0.21122972667217255, 'learning_rate': 0.0008966145425487893, 'epoch': 0.29}
+ 29%|██▉       | 3075/10691 [33:29<1:03:02,  2.01it/s] 29%|██▉       | 3076/10691 [33:29<1:03:01,  2.01it/s] 29%|██▉       | 3077/10691 [33:30<1:03:02,  2.01it/s] 29%|██▉       | 3078/10691 [33:30<1:03:03,  2.01it/s] 29%|██▉       | 3079/10691 [33:31<1:03:03,  2.01it/s] 29%|██▉       | 3080/10691 [33:31<1:03:06,  2.01it/s] 29%|██▉       | 3081/10691 [33:32<1:03:01,  2.01it/s] 29%|██▉       | 3082/10691 [33:32<1:02:59,  2.01it/s] 29%|██▉       | 3083/10691 [33:33<1:02:59,  2.01it/s] 29%|██▉       | 3084/10691 [33:33<1:02:56,  2.01it/s] 29%|██▉       | 3085/10691 [33:34<1:03:09,  2.01it/s] 29%|██▉       | 3086/10691 [33:34<1:03:11,  2.01it/s] 29%|██▉       | 3087/10691 [33:35<1:03:00,  2.01it/s] 29%|██▉       | 3088/10691 [33:35<1:03:01,  2.01it/s] 29%|██▉       | 3089/10691 [33:36<1:02:54,  2.01it/s] 29%|██▉       | 3090/10691 [33:36<1:02:53,  2.01it/s] 29%|██▉       | 3091/10691 [33:37<1:02:50,  2.02it/s] 29%|██▉       | 3092/10691 [33:37<1:02:51,  2.01it/s] 29%|██▉       | 3093/10691 [33:38<1:02:55,  2.01it/s] 29%|██▉       | 3094/10691 [33:38<1:02:47,  2.02it/s] 29%|██▉       | 3095/10691 [33:39<1:02:52,  2.01it/s] 29%|██▉       | 3096/10691 [33:39<1:02:49,  2.01it/s] 29%|██▉       | 3097/10691 [33:40<1:02:50,  2.01it/s] 29%|██▉       | 3098/10691 [33:40<1:02:48,  2.01it/s] 29%|██▉       | 3099/10691 [33:41<1:02:45,  2.02it/s] 29%|██▉       | 3100/10691 [33:41<1:02:46,  2.02it/s]                                                      {'loss': 3.2049, 'grad_norm': 0.20002418756484985, 'learning_rate': 0.0008941159206248719, 'epoch': 0.29}
+ 29%|██▉       | 3100/10691 [33:41<1:02:46,  2.02it/s] 29%|██▉       | 3101/10691 [33:42<1:02:51,  2.01it/s] 29%|██▉       | 3102/10691 [33:42<1:02:52,  2.01it/s] 29%|██▉       | 3103/10691 [33:43<1:02:56,  2.01it/s] 29%|██▉       | 3104/10691 [33:43<1:02:51,  2.01it/s] 29%|██▉       | 3105/10691 [33:44<1:02:55,  2.01it/s] 29%|██▉       | 3106/10691 [33:44<1:02:52,  2.01it/s] 29%|██▉       | 3107/10691 [33:45<1:02:52,  2.01it/s] 29%|██▉       | 3108/10691 [33:45<1:02:51,  2.01it/s] 29%|██▉       | 3109/10691 [33:46<1:02:46,  2.01it/s] 29%|██▉       | 3110/10691 [33:46<1:02:45,  2.01it/s] 29%|██▉       | 3111/10691 [33:47<1:02:47,  2.01it/s] 29%|██▉       | 3112/10691 [33:47<1:02:44,  2.01it/s] 29%|██▉       | 3113/10691 [33:48<1:02:41,  2.01it/s] 29%|██▉       | 3114/10691 [33:48<1:02:41,  2.01it/s] 29%|██▉       | 3115/10691 [33:49<1:02:38,  2.02it/s] 29%|██▉       | 3116/10691 [33:49<1:02:43,  2.01it/s] 29%|██▉       | 3117/10691 [33:50<1:02:41,  2.01it/s] 29%|██▉       | 3118/10691 [33:50<1:02:44,  2.01it/s] 29%|██▉       | 3119/10691 [33:51<1:02:41,  2.01it/s] 29%|██▉       | 3120/10691 [33:51<1:02:39,  2.01it/s] 29%|██▉       | 3121/10691 [33:52<1:02:42,  2.01it/s] 29%|██▉       | 3122/10691 [33:52<1:02:34,  2.02it/s] 29%|██▉       | 3123/10691 [33:53<1:02:39,  2.01it/s] 29%|██▉       | 3124/10691 [33:53<1:02:32,  2.02it/s] 29%|██▉       | 3125/10691 [33:54<1:02:34,  2.02it/s]{'loss': 3.1959, 'grad_norm': 0.2034691572189331, 'learning_rate': 0.000891591034699092, 'epoch': 0.29}                                                      
+ 29%|██▉       | 3125/10691 [33:54<1:02:34,  2.02it/s] 29%|██▉       | 3126/10691 [33:54<1:02:38,  2.01it/s] 29%|██▉       | 3127/10691 [33:55<1:02:34,  2.01it/s] 29%|██▉       | 3128/10691 [33:55<1:02:40,  2.01it/s] 29%|██▉       | 3129/10691 [33:56<1:02:37,  2.01it/s] 29%|██▉       | 3130/10691 [33:56<1:02:38,  2.01it/s] 29%|██▉       | 3131/10691 [33:57<1:02:41,  2.01it/s] 29%|██▉       | 3132/10691 [33:57<1:02:35,  2.01it/s] 29%|██▉       | 3133/10691 [33:58<1:02:36,  2.01it/s] 29%|██▉       | 3134/10691 [33:58<1:02:33,  2.01it/s] 29%|██▉       | 3135/10691 [33:59<1:02:31,  2.01it/s] 29%|██▉       | 3136/10691 [33:59<1:02:28,  2.02it/s] 29%|██▉       | 3137/10691 [34:00<1:02:24,  2.02it/s] 29%|██▉       | 3138/10691 [34:00<1:02:23,  2.02it/s] 29%|██▉       | 3139/10691 [34:01<1:02:25,  2.02it/s] 29%|██▉       | 3140/10691 [34:01<1:02:25,  2.02it/s] 29%|██▉       | 3141/10691 [34:02<1:02:27,  2.01it/s] 29%|██▉       | 3142/10691 [34:02<1:02:29,  2.01it/s] 29%|██▉       | 3143/10691 [34:03<1:02:26,  2.01it/s] 29%|██▉       | 3144/10691 [34:03<1:02:23,  2.02it/s] 29%|██▉       | 3145/10691 [34:04<1:02:45,  2.00it/s] 29%|██▉       | 3146/10691 [34:04<1:02:50,  2.00it/s] 29%|██▉       | 3147/10691 [34:05<1:02:36,  2.01it/s] 29%|██▉       | 3148/10691 [34:05<1:02:33,  2.01it/s] 29%|██▉       | 3149/10691 [34:06<1:02:26,  2.01it/s] 29%|██▉       | 3150/10691 [34:06<1:02:23,  2.01it/s]                                                      {'loss': 3.2018, 'grad_norm': 0.21236558258533478, 'learning_rate': 0.0008890400530305967, 'epoch': 0.29}
+ 29%|██▉       | 3150/10691 [34:06<1:02:23,  2.01it/s] 29%|██▉       | 3151/10691 [34:07<1:02:32,  2.01it/s] 29%|██▉       | 3152/10691 [34:07<1:02:24,  2.01it/s] 29%|██▉       | 3153/10691 [34:08<1:02:27,  2.01it/s] 30%|██▉       | 3154/10691 [34:08<1:02:21,  2.01it/s] 30%|██▉       | 3155/10691 [34:09<1:12:18,  1.74it/s] 30%|██▉       | 3156/10691 [34:09<1:09:23,  1.81it/s] 30%|██▉       | 3157/10691 [34:10<1:07:13,  1.87it/s] 30%|██▉       | 3158/10691 [34:10<1:05:43,  1.91it/s] 30%|██▉       | 3159/10691 [34:11<1:04:38,  1.94it/s] 30%|██▉       | 3160/10691 [34:11<1:03:56,  1.96it/s] 30%|██▉       | 3161/10691 [34:12<1:03:26,  1.98it/s] 30%|██▉       | 3162/10691 [34:12<1:03:05,  1.99it/s] 30%|██▉       | 3163/10691 [34:13<1:02:57,  1.99it/s] 30%|██▉       | 3164/10691 [34:13<1:02:44,  2.00it/s] 30%|██▉       | 3165/10691 [34:14<1:02:35,  2.00it/s] 30%|██▉       | 3166/10691 [34:14<1:02:28,  2.01it/s] 30%|██▉       | 3167/10691 [34:15<1:02:28,  2.01it/s] 30%|██▉       | 3168/10691 [34:16<1:12:23,  1.73it/s] 30%|██▉       | 3169/10691 [34:16<1:09:20,  1.81it/s] 30%|██▉       | 3170/10691 [34:17<1:07:12,  1.87it/s] 30%|██▉       | 3171/10691 [34:17<1:05:41,  1.91it/s] 30%|██▉       | 3172/10691 [34:18<1:04:35,  1.94it/s] 30%|██▉       | 3173/10691 [34:18<1:03:54,  1.96it/s] 30%|██▉       | 3174/10691 [34:19<1:03:19,  1.98it/s] 30%|██▉       | 3175/10691 [34:19<1:03:03,  1.99it/s]                                                      {'loss': 3.1969, 'grad_norm': 0.20824411511421204, 'learning_rate': 0.0008864631456175614, 'epoch': 0.3}
+ 30%|██▉       | 3175/10691 [34:19<1:03:03,  1.99it/s] 30%|██▉       | 3176/10691 [34:20<1:02:51,  1.99it/s] 30%|██▉       | 3177/10691 [34:20<1:02:39,  2.00it/s] 30%|██▉       | 3178/10691 [34:21<1:02:27,  2.00it/s] 30%|██▉       | 3179/10691 [34:21<1:02:22,  2.01it/s] 30%|██▉       | 3180/10691 [34:22<1:02:18,  2.01it/s] 30%|██▉       | 3181/10691 [34:22<1:02:13,  2.01it/s] 30%|██▉       | 3182/10691 [34:23<1:02:11,  2.01it/s] 30%|██▉       | 3183/10691 [34:23<1:02:06,  2.01it/s] 30%|██▉       | 3184/10691 [34:24<1:02:13,  2.01it/s] 30%|██▉       | 3185/10691 [34:24<1:02:13,  2.01it/s] 30%|██▉       | 3186/10691 [34:25<1:02:07,  2.01it/s] 30%|██▉       | 3187/10691 [34:25<1:02:03,  2.02it/s] 30%|██▉       | 3188/10691 [34:25<1:02:00,  2.02it/s] 30%|██▉       | 3189/10691 [34:26<1:02:02,  2.02it/s] 30%|██▉       | 3190/10691 [34:26<1:01:59,  2.02it/s] 30%|██▉       | 3191/10691 [34:27<1:02:01,  2.02it/s] 30%|██▉       | 3192/10691 [34:27<1:01:57,  2.02it/s] 30%|██▉       | 3193/10691 [34:28<1:01:58,  2.02it/s] 30%|██▉       | 3194/10691 [34:28<1:02:02,  2.01it/s] 30%|██▉       | 3195/10691 [34:29<1:01:58,  2.02it/s] 30%|██▉       | 3196/10691 [34:29<1:01:56,  2.02it/s] 30%|██▉       | 3197/10691 [34:30<1:01:49,  2.02it/s] 30%|██▉       | 3198/10691 [34:30<1:01:54,  2.02it/s] 30%|██▉       | 3199/10691 [34:31<1:01:55,  2.02it/s] 30%|██▉       | 3200/10691 [34:31<1:01:54,  2.02it/s]                                                      {'loss': 3.1893, 'grad_norm': 0.19852721691131592, 'learning_rate': 0.0008838604841858601, 'epoch': 0.3}
+ 30%|██▉       | 3200/10691 [34:31<1:01:54,  2.02it/s] 30%|██▉       | 3201/10691 [34:32<1:02:05,  2.01it/s] 30%|██▉       | 3202/10691 [34:32<1:02:02,  2.01it/s] 30%|██▉       | 3203/10691 [34:33<1:01:58,  2.01it/s] 30%|██▉       | 3204/10691 [34:33<1:01:58,  2.01it/s] 30%|██▉       | 3205/10691 [34:34<1:02:00,  2.01it/s] 30%|██▉       | 3206/10691 [34:34<1:02:02,  2.01it/s] 30%|██▉       | 3207/10691 [34:35<1:01:57,  2.01it/s] 30%|███       | 3208/10691 [34:35<1:01:53,  2.01it/s] 30%|███       | 3209/10691 [34:36<1:01:56,  2.01it/s] 30%|███       | 3210/10691 [34:36<1:01:51,  2.02it/s] 30%|███       | 3211/10691 [34:37<1:01:54,  2.01it/s] 30%|███       | 3212/10691 [34:37<1:01:47,  2.02it/s] 30%|███       | 3213/10691 [34:38<1:01:48,  2.02it/s] 30%|███       | 3214/10691 [34:38<1:01:47,  2.02it/s] 30%|███       | 3215/10691 [34:39<1:01:45,  2.02it/s] 30%|███       | 3216/10691 [34:39<1:01:53,  2.01it/s] 30%|███       | 3217/10691 [34:40<1:01:46,  2.02it/s] 30%|███       | 3218/10691 [34:40<1:01:46,  2.02it/s] 30%|███       | 3219/10691 [34:41<1:01:45,  2.02it/s] 30%|███       | 3220/10691 [34:41<1:01:42,  2.02it/s] 30%|███       | 3221/10691 [34:42<1:01:46,  2.02it/s] 30%|███       | 3222/10691 [34:42<1:01:49,  2.01it/s] 30%|███       | 3223/10691 [34:43<1:01:48,  2.01it/s] 30%|███       | 3224/10691 [34:43<1:01:46,  2.01it/s] 30%|███       | 3225/10691 [34:44<1:01:45,  2.01it/s]                                                      {'loss': 3.1943, 'grad_norm': 0.20651955902576447, 'learning_rate': 0.0008812322421776229, 'epoch': 0.3}
+ 30%|███       | 3225/10691 [34:44<1:01:45,  2.01it/s] 30%|███       | 3226/10691 [34:44<1:01:55,  2.01it/s] 30%|███       | 3227/10691 [34:45<1:01:48,  2.01it/s] 30%|███       | 3228/10691 [34:45<1:01:47,  2.01it/s] 30%|███       | 3229/10691 [34:46<1:01:43,  2.02it/s] 30%|███       | 3230/10691 [34:46<1:01:39,  2.02it/s] 30%|███       | 3231/10691 [34:47<1:01:37,  2.02it/s] 30%|███       | 3232/10691 [34:47<1:01:39,  2.02it/s] 30%|███       | 3233/10691 [34:48<1:01:41,  2.01it/s] 30%|███       | 3234/10691 [34:48<1:01:42,  2.01it/s] 30%|███       | 3235/10691 [34:49<1:01:39,  2.02it/s] 30%|███       | 3236/10691 [34:49<1:01:41,  2.01it/s] 30%|███       | 3237/10691 [34:50<1:01:34,  2.02it/s] 30%|███       | 3238/10691 [34:50<1:01:37,  2.02it/s] 30%|███       | 3239/10691 [34:51<1:01:41,  2.01it/s] 30%|███       | 3240/10691 [34:51<1:01:38,  2.01it/s] 30%|███       | 3241/10691 [34:52<1:01:41,  2.01it/s] 30%|███       | 3242/10691 [34:52<1:01:37,  2.01it/s] 30%|███       | 3243/10691 [34:53<1:01:38,  2.01it/s] 30%|███       | 3244/10691 [34:53<1:01:35,  2.02it/s] 30%|███       | 3245/10691 [34:54<1:01:34,  2.02it/s] 30%|███       | 3246/10691 [34:54<1:01:31,  2.02it/s] 30%|███       | 3247/10691 [34:55<1:01:32,  2.02it/s] 30%|███       | 3248/10691 [34:55<1:01:33,  2.02it/s] 30%|███       | 3249/10691 [34:56<1:01:35,  2.01it/s] 30%|███       | 3250/10691 [34:56<1:01:34,  2.01it/s]{'loss': 3.1894, 'grad_norm': 0.2043210119009018, 'learning_rate': 0.0008785785947396769, 'epoch': 0.3}
+                                                       30%|███       | 3250/10691 [34:56<1:01:34,  2.01it/s] 30%|███       | 3251/10691 [34:57<1:01:37,  2.01it/s] 30%|███       | 3252/10691 [34:57<1:01:32,  2.01it/s] 30%|███       | 3253/10691 [34:58<1:01:29,  2.02it/s] 30%|███       | 3254/10691 [34:58<1:01:29,  2.02it/s] 30%|███       | 3255/10691 [34:59<1:01:30,  2.01it/s] 30%|███       | 3256/10691 [34:59<1:01:29,  2.02it/s] 30%|███       | 3257/10691 [35:00<1:01:31,  2.01it/s] 30%|███       | 3258/10691 [35:00<1:01:30,  2.01it/s] 30%|███       | 3259/10691 [35:01<1:01:34,  2.01it/s] 30%|███       | 3260/10691 [35:01<1:01:25,  2.02it/s] 31%|███       | 3261/10691 [35:02<1:01:26,  2.02it/s] 31%|███       | 3262/10691 [35:02<1:01:23,  2.02it/s] 31%|███       | 3263/10691 [35:03<1:01:24,  2.02it/s] 31%|███       | 3264/10691 [35:03<1:01:26,  2.01it/s] 31%|███       | 3265/10691 [35:04<1:01:33,  2.01it/s] 31%|███       | 3266/10691 [35:04<1:01:35,  2.01it/s] 31%|███       | 3267/10691 [35:05<1:01:33,  2.01it/s] 31%|███       | 3268/10691 [35:05<1:01:27,  2.01it/s] 31%|███       | 3269/10691 [35:06<1:01:32,  2.01it/s] 31%|███       | 3270/10691 [35:06<1:01:30,  2.01it/s] 31%|███       | 3271/10691 [35:07<1:01:28,  2.01it/s] 31%|███       | 3272/10691 [35:07<1:01:24,  2.01it/s] 31%|███       | 3273/10691 [35:08<1:01:19,  2.02it/s] 31%|███       | 3274/10691 [35:08<1:01:21,  2.01it/s] 31%|███       | 3275/10691 [35:09<1:01:16,  2.02it/s]                                                      {'loss': 3.1794, 'grad_norm': 0.21987909078598022, 'learning_rate': 0.0008758997187118744, 'epoch': 0.31}
+ 31%|███       | 3275/10691 [35:09<1:01:16,  2.02it/s] 31%|███       | 3276/10691 [35:09<1:01:27,  2.01it/s] 31%|███       | 3277/10691 [35:10<1:01:23,  2.01it/s] 31%|███       | 3278/10691 [35:10<1:01:19,  2.01it/s] 31%|███       | 3279/10691 [35:11<1:01:17,  2.02it/s] 31%|███       | 3280/10691 [35:11<1:01:16,  2.02it/s] 31%|███       | 3281/10691 [35:12<1:01:14,  2.02it/s] 31%|███       | 3282/10691 [35:12<1:01:15,  2.02it/s] 31%|███       | 3283/10691 [35:13<1:01:16,  2.01it/s] 31%|███       | 3284/10691 [35:13<1:01:18,  2.01it/s] 31%|███       | 3285/10691 [35:14<1:01:15,  2.02it/s] 31%|███       | 3286/10691 [35:14<1:01:18,  2.01it/s] 31%|███       | 3287/10691 [35:15<1:01:12,  2.02it/s] 31%|███       | 3288/10691 [35:15<1:01:11,  2.02it/s] 31%|███       | 3289/10691 [35:16<1:01:10,  2.02it/s] 31%|███       | 3290/10691 [35:16<1:01:13,  2.01it/s] 31%|███       | 3291/10691 [35:17<1:01:11,  2.02it/s] 31%|███       | 3292/10691 [35:17<1:01:11,  2.02it/s] 31%|███       | 3293/10691 [35:18<1:01:10,  2.02it/s] 31%|███       | 3294/10691 [35:18<1:01:09,  2.02it/s] 31%|███       | 3295/10691 [35:19<1:01:05,  2.02it/s] 31%|███       | 3296/10691 [35:19<1:01:08,  2.02it/s] 31%|███       | 3297/10691 [35:20<1:01:09,  2.02it/s] 31%|███       | 3298/10691 [35:20<1:01:12,  2.01it/s] 31%|███       | 3299/10691 [35:21<1:01:11,  2.01it/s] 31%|███       | 3300/10691 [35:21<1:01:13,  2.01it/s]                                                      {'loss': 3.1815, 'grad_norm': 0.2108643800020218, 'learning_rate': 0.0008731957926153087, 'epoch': 0.31}
+ 31%|███       | 3300/10691 [35:21<1:01:13,  2.01it/s] 31%|███       | 3301/10691 [35:22<1:01:18,  2.01it/s] 31%|███       | 3302/10691 [35:22<1:01:09,  2.01it/s] 31%|███       | 3303/10691 [35:23<1:01:08,  2.01it/s] 31%|███       | 3304/10691 [35:23<1:01:00,  2.02it/s] 31%|███       | 3305/10691 [35:24<1:01:03,  2.02it/s] 31%|███       | 3306/10691 [35:24<1:00:58,  2.02it/s] 31%|███       | 3307/10691 [35:25<1:01:01,  2.02it/s] 31%|███       | 3308/10691 [35:25<1:01:06,  2.01it/s] 31%|███       | 3309/10691 [35:26<1:01:08,  2.01it/s] 31%|███       | 3310/10691 [35:26<1:01:03,  2.01it/s] 31%|███       | 3311/10691 [35:27<1:01:04,  2.01it/s] 31%|███       | 3312/10691 [35:27<1:00:59,  2.02it/s] 31%|███       | 3313/10691 [35:28<1:01:03,  2.01it/s] 31%|███       | 3314/10691 [35:28<1:00:57,  2.02it/s] 31%|███       | 3315/10691 [35:29<1:00:59,  2.02it/s] 31%|███       | 3316/10691 [35:29<1:00:56,  2.02it/s] 31%|███       | 3317/10691 [35:30<1:00:58,  2.02it/s] 31%|███       | 3318/10691 [35:30<1:01:03,  2.01it/s] 31%|███       | 3319/10691 [35:31<1:00:57,  2.02it/s] 31%|███       | 3320/10691 [35:31<1:01:01,  2.01it/s] 31%|███       | 3321/10691 [35:32<1:00:54,  2.02it/s] 31%|███       | 3322/10691 [35:32<1:00:55,  2.02it/s] 31%|███       | 3323/10691 [35:33<1:00:57,  2.01it/s] 31%|███       | 3324/10691 [35:33<1:00:55,  2.02it/s] 31%|███       | 3325/10691 [35:33<1:01:00,  2.01it/s]                                                      {'loss': 3.1805, 'grad_norm': 0.19740085303783417, 'learning_rate': 0.0008704669966404169, 'epoch': 0.31}
+ 31%|███       | 3325/10691 [35:34<1:01:00,  2.01it/s] 31%|███       | 3326/10691 [35:34<1:01:15,  2.00it/s] 31%|███       | 3327/10691 [35:34<1:01:03,  2.01it/s] 31%|███       | 3328/10691 [35:35<1:01:02,  2.01it/s] 31%|███       | 3329/10691 [35:35<1:00:53,  2.01it/s] 31%|███       | 3330/10691 [35:36<1:00:55,  2.01it/s] 31%|███       | 3331/10691 [35:36<1:00:56,  2.01it/s] 31%|███       | 3332/10691 [35:37<1:00:52,  2.01it/s] 31%|███       | 3333/10691 [35:37<1:00:52,  2.01it/s] 31%|███       | 3334/10691 [35:38<1:00:51,  2.01it/s] 31%|███       | 3335/10691 [35:38<1:00:50,  2.02it/s] 31%|███       | 3336/10691 [35:39<1:00:50,  2.02it/s] 31%|███       | 3337/10691 [35:39<1:00:47,  2.02it/s] 31%|███       | 3338/10691 [35:40<1:00:47,  2.02it/s] 31%|███       | 3339/10691 [35:40<1:00:46,  2.02it/s] 31%|███       | 3340/10691 [35:41<1:00:47,  2.02it/s] 31%|███▏      | 3341/10691 [35:41<1:00:45,  2.02it/s] 31%|███▏      | 3342/10691 [35:42<1:00:54,  2.01it/s] 31%|███▏      | 3343/10691 [35:42<1:00:57,  2.01it/s] 31%|███▏      | 3344/10691 [35:43<1:00:50,  2.01it/s] 31%|███▏      | 3345/10691 [35:43<1:00:48,  2.01it/s] 31%|███▏      | 3346/10691 [35:44<1:00:44,  2.02it/s] 31%|███▏      | 3347/10691 [35:44<1:00:45,  2.01it/s] 31%|███▏      | 3348/10691 [35:45<1:00:44,  2.01it/s] 31%|███▏      | 3349/10691 [35:45<1:00:43,  2.01it/s] 31%|███▏      | 3350/10691 [35:46<1:00:44,  2.01it/s]                                                      {'loss': 3.1791, 'grad_norm': 0.2138993740081787, 'learning_rate': 0.0008677135126349722, 'epoch': 0.31}
+ 31%|███▏      | 3350/10691 [35:46<1:00:44,  2.01it/s] 31%|███▏      | 3351/10691 [35:46<1:00:53,  2.01it/s] 31%|███▏      | 3352/10691 [35:47<1:00:50,  2.01it/s] 31%|███▏      | 3353/10691 [35:47<1:00:44,  2.01it/s] 31%|███▏      | 3354/10691 [35:48<1:00:44,  2.01it/s] 31%|███▏      | 3355/10691 [35:48<1:00:46,  2.01it/s] 31%|███▏      | 3356/10691 [35:49<1:00:42,  2.01it/s] 31%|███▏      | 3357/10691 [35:49<1:00:41,  2.01it/s] 31%|███▏      | 3358/10691 [35:50<1:00:37,  2.02it/s] 31%|███▏      | 3359/10691 [35:50<1:00:38,  2.02it/s] 31%|███▏      | 3360/10691 [35:51<1:00:39,  2.01it/s] 31%|███▏      | 3361/10691 [35:51<1:00:36,  2.02it/s] 31%|███▏      | 3362/10691 [35:52<1:00:36,  2.02it/s] 31%|███▏      | 3363/10691 [35:52<1:00:35,  2.02it/s] 31%|███▏      | 3364/10691 [35:53<1:00:36,  2.01it/s] 31%|███▏      | 3365/10691 [35:53<1:00:34,  2.02it/s] 31%|███▏      | 3366/10691 [35:54<1:00:34,  2.02it/s] 31%|███▏      | 3367/10691 [35:54<1:00:33,  2.02it/s] 32%|███▏      | 3368/10691 [35:55<1:00:33,  2.02it/s] 32%|███▏      | 3369/10691 [35:55<1:00:30,  2.02it/s] 32%|███▏      | 3370/10691 [35:56<1:00:30,  2.02it/s] 32%|███▏      | 3371/10691 [35:56<1:00:28,  2.02it/s] 32%|███▏      | 3372/10691 [35:57<1:00:28,  2.02it/s] 32%|███▏      | 3373/10691 [35:57<1:00:29,  2.02it/s] 32%|███▏      | 3374/10691 [35:58<1:00:30,  2.02it/s] 32%|███▏      | 3375/10691 [35:58<1:00:32,  2.01it/s]                                                      {'loss': 3.1726, 'grad_norm': 0.210826575756073, 'learning_rate': 0.0008649355240919656, 'epoch': 0.32}
+ 32%|███▏      | 3375/10691 [35:58<1:00:32,  2.01it/s] 32%|███▏      | 3376/10691 [35:59<1:00:37,  2.01it/s] 32%|███▏      | 3377/10691 [35:59<1:00:32,  2.01it/s] 32%|███▏      | 3378/10691 [36:00<1:00:31,  2.01it/s] 32%|███▏      | 3379/10691 [36:00<1:00:25,  2.02it/s] 32%|███▏      | 3380/10691 [36:01<1:00:26,  2.02it/s] 32%|███▏      | 3381/10691 [36:01<1:00:22,  2.02it/s] 32%|███▏      | 3382/10691 [36:02<1:00:26,  2.02it/s] 32%|███▏      | 3383/10691 [36:02<1:00:23,  2.02it/s] 32%|███▏      | 3384/10691 [36:03<1:00:25,  2.02it/s] 32%|███▏      | 3385/10691 [36:03<1:00:33,  2.01it/s] 32%|███▏      | 3386/10691 [36:04<1:00:27,  2.01it/s] 32%|███▏      | 3387/10691 [36:04<1:00:25,  2.01it/s] 32%|███▏      | 3388/10691 [36:05<1:00:24,  2.01it/s] 32%|███▏      | 3389/10691 [36:05<1:00:24,  2.01it/s] 32%|███▏      | 3390/10691 [36:06<1:00:24,  2.01it/s] 32%|███▏      | 3391/10691 [36:06<1:00:24,  2.01it/s] 32%|███▏      | 3392/10691 [36:07<1:00:23,  2.01it/s] 32%|███▏      | 3393/10691 [36:07<1:00:21,  2.02it/s] 32%|███▏      | 3394/10691 [36:08<1:00:18,  2.02it/s] 32%|███▏      | 3395/10691 [36:08<1:00:19,  2.02it/s] 32%|███▏      | 3396/10691 [36:09<1:00:19,  2.02it/s] 32%|███▏      | 3397/10691 [36:09<1:00:17,  2.02it/s] 32%|███▏      | 3398/10691 [36:10<1:00:18,  2.02it/s] 32%|███▏      | 3399/10691 [36:10<1:00:16,  2.02it/s] 32%|███▏      | 3400/10691 [36:11<1:00:17,  2.02it/s]                                                      {'loss': 3.1753, 'grad_norm': 0.20806092023849487, 'learning_rate': 0.0008621332161373778, 'epoch': 0.32}
+ 32%|███▏      | 3400/10691 [36:11<1:00:17,  2.02it/s] 32%|███▏      | 3401/10691 [36:11<1:00:24,  2.01it/s] 32%|███▏      | 3402/10691 [36:12<1:00:23,  2.01it/s] 32%|███▏      | 3403/10691 [36:12<1:00:19,  2.01it/s] 32%|███▏      | 3404/10691 [36:13<1:00:17,  2.01it/s] 32%|███▏      | 3405/10691 [36:13<1:00:16,  2.01it/s] 32%|███▏      | 3406/10691 [36:14<1:00:13,  2.02it/s] 32%|███▏      | 3407/10691 [36:14<1:00:14,  2.02it/s] 32%|███▏      | 3408/10691 [36:15<1:00:13,  2.02it/s] 32%|███▏      | 3409/10691 [36:15<1:00:11,  2.02it/s] 32%|███▏      | 3410/10691 [36:16<1:00:14,  2.01it/s] 32%|███▏      | 3411/10691 [36:16<1:00:13,  2.01it/s] 32%|███▏      | 3412/10691 [36:17<1:00:11,  2.02it/s] 32%|███▏      | 3413/10691 [36:17<1:00:15,  2.01it/s] 32%|███▏      | 3414/10691 [36:18<1:00:12,  2.01it/s] 32%|███▏      | 3415/10691 [36:18<1:00:11,  2.01it/s] 32%|███▏      | 3416/10691 [36:19<1:00:08,  2.02it/s] 32%|███▏      | 3417/10691 [36:19<1:00:14,  2.01it/s] 32%|███▏      | 3418/10691 [36:20<1:00:15,  2.01it/s] 32%|███▏      | 3419/10691 [36:20<1:00:11,  2.01it/s] 32%|███▏      | 3420/10691 [36:21<1:00:08,  2.01it/s] 32%|███▏      | 3421/10691 [36:21<1:00:11,  2.01it/s] 32%|███▏      | 3422/10691 [36:22<1:00:12,  2.01it/s] 32%|███▏      | 3423/10691 [36:22<1:00:09,  2.01it/s] 32%|███▏      | 3424/10691 [36:23<1:00:08,  2.01it/s] 32%|███▏      | 3425/10691 [36:23<1:00:06,  2.01it/s]                                                      {'loss': 3.1682, 'grad_norm': 0.20107027888298035, 'learning_rate': 0.0008593067755178421, 'epoch': 0.32}
+ 32%|███▏      | 3425/10691 [36:23<1:00:06,  2.01it/s] 32%|███▏      | 3426/10691 [36:24<1:00:12,  2.01it/s] 32%|███▏      | 3427/10691 [36:24<1:00:10,  2.01it/s] 32%|███▏      | 3428/10691 [36:25<1:00:05,  2.01it/s] 32%|███▏      | 3429/10691 [36:25<1:00:08,  2.01it/s] 32%|███▏      | 3430/10691 [36:26<1:00:11,  2.01it/s] 32%|███▏      | 3431/10691 [36:26<1:00:06,  2.01it/s] 32%|███▏      | 3432/10691 [36:27<1:00:07,  2.01it/s] 32%|███▏      | 3433/10691 [36:27<1:00:02,  2.01it/s] 32%|███▏      | 3434/10691 [36:28<1:00:01,  2.01it/s] 32%|███���      | 3435/10691 [36:28<1:00:02,  2.01it/s] 32%|███▏      | 3436/10691 [36:29<1:00:04,  2.01it/s] 32%|███▏      | 3437/10691 [36:29<59:57,  2.02it/s]   32%|███▏      | 3438/10691 [36:30<59:59,  2.01it/s] 32%|███▏      | 3439/10691 [36:30<59:54,  2.02it/s] 32%|███▏      | 3440/10691 [36:31<59:59,  2.01it/s] 32%|███▏      | 3441/10691 [36:31<59:54,  2.02it/s] 32%|███▏      | 3442/10691 [36:32<1:00:00,  2.01it/s] 32%|███▏      | 3443/10691 [36:32<1:00:03,  2.01it/s] 32%|███▏      | 3444/10691 [36:33<1:00:00,  2.01it/s] 32%|███▏      | 3445/10691 [36:33<1:00:00,  2.01it/s] 32%|███▏      | 3446/10691 [36:34<59:55,  2.01it/s]   32%|███▏      | 3447/10691 [36:34<59:52,  2.02it/s] 32%|███▏      | 3448/10691 [36:35<59:51,  2.02it/s] 32%|███▏      | 3449/10691 [36:35<59:46,  2.02it/s] 32%|███▏      | 3450/10691 [36:36<59:47,  2.02it/s]                                                    {'loss': 3.1686, 'grad_norm': 0.21654635667800903, 'learning_rate': 0.0008564563905881997, 'epoch': 0.32}
+ 32%|███▏      | 3450/10691 [36:36<59:47,  2.02it/s] 32%|███▏      | 3451/10691 [36:36<59:52,  2.02it/s] 32%|███▏      | 3452/10691 [36:37<59:48,  2.02it/s] 32%|███▏      | 3453/10691 [36:37<59:53,  2.01it/s] 32%|███▏      | 3454/10691 [36:38<59:50,  2.02it/s] 32%|███▏      | 3455/10691 [36:38<59:51,  2.01it/s] 32%|███▏      | 3456/10691 [36:39<59:46,  2.02it/s] 32%|███▏      | 3457/10691 [36:39<59:49,  2.02it/s] 32%|███▏      | 3458/10691 [36:40<59:46,  2.02it/s] 32%|███▏      | 3459/10691 [36:40<59:45,  2.02it/s] 32%|███▏      | 3460/10691 [36:41<59:53,  2.01it/s] 32%|███▏      | 3461/10691 [36:41<59:47,  2.02it/s] 32%|███▏      | 3462/10691 [36:42<59:48,  2.01it/s] 32%|███▏      | 3463/10691 [36:42<59:45,  2.02it/s] 32%|███▏      | 3464/10691 [36:42<59:42,  2.02it/s] 32%|███▏      | 3465/10691 [36:43<59:46,  2.02it/s] 32%|███▏      | 3466/10691 [36:43<59:45,  2.02it/s] 32%|███▏      | 3467/10691 [36:44<59:44,  2.02it/s] 32%|███▏      | 3468/10691 [36:44<59:42,  2.02it/s] 32%|███▏      | 3469/10691 [36:45<59:44,  2.02it/s] 32%|███▏      | 3470/10691 [36:45<59:44,  2.01it/s] 32%|███▏      | 3471/10691 [36:46<59:39,  2.02it/s] 32%|███▏      | 3472/10691 [36:46<59:44,  2.01it/s] 32%|███▏      | 3473/10691 [36:47<59:44,  2.01it/s] 32%|███▏      | 3474/10691 [36:47<59:47,  2.01it/s] 33%|███▎      | 3475/10691 [36:48<59:47,  2.01it/s]{'loss': 3.1684, 'grad_norm': 0.19659079611301422, 'learning_rate': 0.000853582251298948, 'epoch': 0.33}                                                    
+ 33%|███▎      | 3475/10691 [36:48<59:47,  2.01it/s] 33%|███▎      | 3476/10691 [36:48<59:45,  2.01it/s] 33%|███▎      | 3477/10691 [36:49<59:46,  2.01it/s] 33%|███▎      | 3478/10691 [36:49<59:44,  2.01it/s] 33%|███▎      | 3479/10691 [36:50<59:42,  2.01it/s] 33%|███▎      | 3480/10691 [36:50<59:44,  2.01it/s] 33%|███▎      | 3481/10691 [36:51<59:38,  2.01it/s] 33%|███▎      | 3482/10691 [36:51<59:40,  2.01it/s] 33%|███▎      | 3483/10691 [36:52<59:37,  2.01it/s] 33%|███▎      | 3484/10691 [36:52<59:39,  2.01it/s] 33%|███▎      | 3485/10691 [36:53<59:43,  2.01it/s] 33%|███▎      | 3486/10691 [36:53<59:40,  2.01it/s] 33%|███▎      | 3487/10691 [36:54<59:44,  2.01it/s] 33%|███▎      | 3488/10691 [36:54<59:42,  2.01it/s] 33%|███▎      | 3489/10691 [36:55<59:36,  2.01it/s] 33%|███▎      | 3490/10691 [36:55<59:37,  2.01it/s] 33%|███▎      | 3491/10691 [36:56<59:32,  2.02it/s] 33%|███▎      | 3492/10691 [36:56<59:37,  2.01it/s] 33%|███▎      | 3493/10691 [36:57<59:37,  2.01it/s] 33%|███▎      | 3494/10691 [36:57<59:32,  2.01it/s] 33%|███▎      | 3495/10691 [36:58<59:34,  2.01it/s] 33%|███▎      | 3496/10691 [36:58<59:26,  2.02it/s] 33%|███▎      | 3497/10691 [36:59<59:29,  2.02it/s] 33%|███▎      | 3498/10691 [36:59<59:26,  2.02it/s] 33%|███▎      | 3499/10691 [37:00<59:26,  2.02it/s] 33%|███▎      | 3500/10691 [37:00<59:27,  2.02it/s]                                                    {'loss': 3.1706, 'grad_norm': 0.19865640997886658, 'learning_rate': 0.0008506845491835817, 'epoch': 0.33}
+ 33%|███▎      | 3500/10691 [37:00<59:27,  2.02it/s] 33%|███▎      | 3501/10691 [37:01<59:29,  2.01it/s] 33%|███▎      | 3502/10691 [37:01<59:30,  2.01it/s] 33%|███▎      | 3503/10691 [37:02<59:27,  2.01it/s] 33%|███▎      | 3504/10691 [37:02<59:26,  2.02it/s] 33%|███▎      | 3505/10691 [37:03<59:28,  2.01it/s] 33%|███▎      | 3506/10691 [37:03<59:28,  2.01it/s] 33%|███▎      | 3507/10691 [37:04<59:27,  2.01it/s] 33%|███▎      | 3508/10691 [37:04<59:26,  2.01it/s] 33%|███▎      | 3509/10691 [37:05<59:28,  2.01it/s] 33%|███▎      | 3510/10691 [37:05<59:30,  2.01it/s] 33%|███▎      | 3511/10691 [37:06<59:30,  2.01it/s] 33%|███▎      | 3512/10691 [37:06<59:23,  2.01it/s] 33%|███▎      | 3513/10691 [37:07<59:26,  2.01it/s] 33%|███▎      | 3514/10691 [37:07<59:23,  2.01it/s] 33%|███▎      | 3515/10691 [37:08<59:25,  2.01it/s] 33%|███▎      | 3516/10691 [37:08<59:22,  2.01it/s] 33%|███▎      | 3517/10691 [37:09<59:22,  2.01it/s] 33%|███▎      | 3518/10691 [37:09<59:22,  2.01it/s] 33%|███▎      | 3519/10691 [37:10<59:19,  2.02it/s] 33%|███▎      | 3520/10691 [37:10<59:20,  2.01it/s] 33%|███▎      | 3521/10691 [37:11<59:16,  2.02it/s] 33%|███▎      | 3522/10691 [37:11<59:18,  2.01it/s] 33%|███▎      | 3523/10691 [37:12<59:15,  2.02it/s] 33%|███▎      | 3524/10691 [37:12<59:16,  2.02it/s] 33%|███▎      | 3525/10691 [37:13<59:21,  2.01it/s]                                                    {'loss': 3.1656, 'grad_norm': 0.19690701365470886, 'learning_rate': 0.0008477634773458296, 'epoch': 0.33}
+ 33%|███▎      | 3525/10691 [37:13<59:21,  2.01it/s] 33%|███▎      | 3526/10691 [37:13<59:16,  2.01it/s] 33%|███▎      | 3527/10691 [37:14<59:18,  2.01it/s] 33%|███▎      | 3528/10691 [37:14<59:13,  2.02it/s] 33%|███▎      | 3529/10691 [37:15<59:14,  2.01it/s] 33%|███▎      | 3530/10691 [37:15<59:10,  2.02it/s] 33%|███▎      | 3531/10691 [37:16<59:08,  2.02it/s] 33%|███▎      | 3532/10691 [37:16<59:09,  2.02it/s] 33%|███▎      | 3533/10691 [37:17<59:08,  2.02it/s] 33%|███▎      | 3534/10691 [37:17<59:12,  2.01it/s] 33%|███▎      | 3535/10691 [37:18<59:16,  2.01it/s] 33%|███▎      | 3536/10691 [37:18<59:12,  2.01it/s] 33%|███▎      | 3537/10691 [37:19<59:09,  2.02it/s] 33%|███▎      | 3538/10691 [37:19<59:08,  2.02it/s] 33%|███▎      | 3539/10691 [37:20<59:04,  2.02it/s] 33%|███▎      | 3540/10691 [37:20<59:09,  2.01it/s] 33%|███▎      | 3541/10691 [37:21<59:06,  2.02it/s] 33%|███▎      | 3542/10691 [37:21<59:05,  2.02it/s] 33%|███▎      | 3543/10691 [37:22<59:05,  2.02it/s] 33%|███▎      | 3544/10691 [37:22<59:01,  2.02it/s] 33%|███▎      | 3545/10691 [37:23<59:04,  2.02it/s] 33%|███▎      | 3546/10691 [37:23<59:01,  2.02it/s] 33%|███▎      | 3547/10691 [37:24<59:04,  2.02it/s] 33%|███▎      | 3548/10691 [37:24<59:05,  2.01it/s] 33%|███▎      | 3549/10691 [37:25<59:02,  2.02it/s] 33%|███▎      | 3550/10691 [37:25<59:04,  2.01it/s]                                                    {'loss': 3.1607, 'grad_norm': 0.19393736124038696, 'learning_rate': 0.0008448192304467853, 'epoch': 0.33}
+ 33%|███▎      | 3550/10691 [37:25<59:04,  2.01it/s] 33%|███▎      | 3551/10691 [37:26<59:02,  2.02it/s] 33%|███▎      | 3552/10691 [37:26<59:04,  2.01it/s] 33%|███▎      | 3553/10691 [37:27<59:00,  2.02it/s] 33%|███▎      | 3554/10691 [37:27<58:59,  2.02it/s] 33%|███▎      | 3555/10691 [37:28<59:01,  2.01it/s] 33%|███▎      | 3556/10691 [37:28<58:58,  2.02it/s] 33%|███▎      | 3557/10691 [37:29<59:01,  2.01it/s] 33%|███▎      | 3558/10691 [37:29<58:56,  2.02it/s] 33%|███▎      | 3559/10691 [37:30<58:55,  2.02it/s] 33%|███▎      | 3560/10691 [37:30<58:54,  2.02it/s] 33%|███▎      | 3561/10691 [37:31<58:53,  2.02it/s] 33%|███▎      | 3562/10691 [37:31<58:50,  2.02it/s] 33%|███▎      | 3563/10691 [37:32<58:56,  2.02it/s] 33%|███▎      | 3564/10691 [37:32<59:00,  2.01it/s] 33%|███▎      | 3565/10691 [37:33<58:57,  2.01it/s] 33%|███▎      | 3566/10691 [37:33<58:56,  2.01it/s] 33%|███▎      | 3567/10691 [37:34<58:54,  2.02it/s] 33%|███▎      | 3568/10691 [37:34<58:51,  2.02it/s] 33%|███▎      | 3569/10691 [37:35<58:53,  2.02it/s] 33%|███▎      | 3570/10691 [37:35<58:54,  2.01it/s] 33%|███▎      | 3571/10691 [37:36<58:52,  2.02it/s] 33%|███▎      | 3572/10691 [37:36<58:51,  2.02it/s] 33%|███▎      | 3573/10691 [37:37<58:52,  2.01it/s] 33%|███▎      | 3574/10691 [37:37<58:51,  2.02it/s] 33%|███▎      | 3575/10691 [37:38<58:50,  2.02it/s]                                                    {'loss': 3.161, 'grad_norm': 0.20659784972667694, 'learning_rate': 0.0008418520046919353, 'epoch': 0.33}
+ 33%|███▎      | 3575/10691 [37:38<58:50,  2.02it/s] 33%|███▎      | 3576/10691 [37:38<58:53,  2.01it/s] 33%|███▎      | 3577/10691 [37:39<58:52,  2.01it/s] 33%|███▎      | 3578/10691 [37:39<58:52,  2.01it/s] 33%|███▎      | 3579/10691 [37:40<58:52,  2.01it/s] 33%|███▎      | 3580/10691 [37:40<58:54,  2.01it/s] 33%|███▎      | 3581/10691 [37:41<58:49,  2.01it/s] 34%|███▎      | 3582/10691 [37:41<58:49,  2.01it/s] 34%|███▎      | 3583/10691 [37:42<58:50,  2.01it/s] 34%|███▎      | 3584/10691 [37:42<58:52,  2.01it/s] 34%|███▎      | 3585/10691 [37:43<58:52,  2.01it/s] 34%|███▎      | 3586/10691 [37:43<58:51,  2.01it/s] 34%|███▎      | 3587/10691 [37:44<58:52,  2.01it/s] 34%|███▎      | 3588/10691 [37:44<58:52,  2.01it/s] 34%|███▎      | 3589/10691 [37:45<58:51,  2.01it/s] 34%|███▎      | 3590/10691 [37:45<58:52,  2.01it/s] 34%|███▎      | 3591/10691 [37:46<58:47,  2.01it/s] 34%|███▎      | 3592/10691 [37:46<58:46,  2.01it/s] 34%|███▎      | 3593/10691 [37:47<58:40,  2.02it/s] 34%|███▎      | 3594/10691 [37:47<58:44,  2.01it/s] 34%|███▎      | 3595/10691 [37:48<58:44,  2.01it/s] 34%|███▎      | 3596/10691 [37:48<58:44,  2.01it/s] 34%|███▎      | 3597/10691 [37:49<58:40,  2.01it/s] 34%|███▎      | 3598/10691 [37:49<58:42,  2.01it/s] 34%|███▎      | 3599/10691 [37:50<58:43,  2.01it/s] 34%|███▎      | 3600/10691 [37:50<58:42,  2.01it/s]                                                    {'loss': 3.1618, 'grad_norm': 0.214333638548851, 'learning_rate': 0.0008388619978180847, 'epoch': 0.34}
+ 34%|███▎      | 3600/10691 [37:50<58:42,  2.01it/s] 34%|███▎      | 3601/10691 [37:51<58:38,  2.02it/s] 34%|███▎      | 3602/10691 [37:51<58:40,  2.01it/s] 34%|███▎      | 3603/10691 [37:52<58:32,  2.02it/s] 34%|███▎      | 3604/10691 [37:52<58:40,  2.01it/s] 34%|███▎      | 3605/10691 [37:52<58:32,  2.02it/s] 34%|███▎      | 3606/10691 [37:53<58:35,  2.02it/s] 34%|███▎      | 3607/10691 [37:53<58:36,  2.01it/s] 34%|███▎      | 3608/10691 [37:54<58:31,  2.02it/s] 34%|███▍      | 3609/10691 [37:54<58:32,  2.02it/s] 34%|███▍      | 3610/10691 [37:55<58:27,  2.02it/s] 34%|███▍      | 3611/10691 [37:55<58:29,  2.02it/s] 34%|███▍      | 3612/10691 [37:56<58:30,  2.02it/s] 34%|███▍      | 3613/10691 [37:56<58:32,  2.02it/s] 34%|███▍      | 3614/10691 [37:57<58:33,  2.01it/s] 34%|███▍      | 3615/10691 [37:57<58:31,  2.02it/s] 34%|███▍      | 3616/10691 [37:58<58:32,  2.01it/s] 34%|███▍      | 3617/10691 [37:58<58:28,  2.02it/s] 34%|███▍      | 3618/10691 [37:59<58:29,  2.02it/s] 34%|███▍      | 3619/10691 [37:59<58:29,  2.01it/s] 34%|███▍      | 3620/10691 [38:00<58:28,  2.02it/s] 34%|███▍      | 3621/10691 [38:00<58:27,  2.02it/s] 34%|███▍      | 3622/10691 [38:01<58:28,  2.02it/s] 34%|███▍      | 3623/10691 [38:01<58:33,  2.01it/s] 34%|███▍      | 3624/10691 [38:02<58:26,  2.02it/s] 34%|███▍      | 3625/10691 [38:02<58:27,  2.01it/s]                                                    {'loss': 3.1492, 'grad_norm': 0.2332575023174286, 'learning_rate': 0.000835849409080178, 'epoch': 0.34}
+ 34%|███▍      | 3625/10691 [38:02<58:27,  2.01it/s] 34%|███▍      | 3626/10691 [38:03<58:33,  2.01it/s] 34%|███▍      | 3627/10691 [38:03<58:26,  2.01it/s] 34%|███▍      | 3628/10691 [38:04<58:24,  2.02it/s] 34%|███▍      | 3629/10691 [38:04<58:24,  2.01it/s] 34%|███▍      | 3630/10691 [38:05<58:24,  2.01it/s] 34%|███▍      | 3631/10691 [38:05<58:27,  2.01it/s] 34%|███▍      | 3632/10691 [38:06<58:21,  2.02it/s] 34%|███▍      | 3633/10691 [38:06<58:20,  2.02it/s] 34%|███▍      | 3634/10691 [38:07<58:17,  2.02it/s] 34%|███▍      | 3635/10691 [38:07<58:20,  2.02it/s] 34%|███▍      | 3636/10691 [38:08<58:23,  2.01it/s] 34%|███▍      | 3637/10691 [38:08<58:21,  2.01it/s] 34%|███▍      | 3638/10691 [38:09<58:18,  2.02it/s] 34%|███▍      | 3639/10691 [38:09<58:18,  2.02it/s] 34%|███▍      | 3640/10691 [38:10<58:19,  2.01it/s] 34%|███▍      | 3641/10691 [38:10<58:15,  2.02it/s] 34%|███▍      | 3642/10691 [38:11<58:17,  2.02it/s] 34%|███▍      | 3643/10691 [38:11<58:16,  2.02it/s] 34%|███▍      | 3644/10691 [38:12<58:15,  2.02it/s] 34%|███▍      | 3645/10691 [38:12<58:16,  2.01it/s] 34%|███▍      | 3646/10691 [38:13<58:15,  2.02it/s] 34%|███▍      | 3647/10691 [38:13<58:13,  2.02it/s] 34%|███▍      | 3648/10691 [38:14<58:16,  2.01it/s] 34%|███▍      | 3649/10691 [38:14<58:13,  2.02it/s] 34%|███▍      | 3650/10691 [38:15<58:15,  2.01it/s]                                                    {'loss': 3.1557, 'grad_norm': 0.20525385439395905, 'learning_rate': 0.0008328144392380227, 'epoch': 0.34}
+ 34%|███▍      | 3650/10691 [38:15<58:15,  2.01it/s] 34%|███▍      | 3651/10691 [38:15<58:18,  2.01it/s] 34%|███▍      | 3652/10691 [38:16<58:15,  2.01it/s] 34%|███▍      | 3653/10691 [38:16<58:13,  2.01it/s] 34%|███▍      | 3654/10691 [38:17<58:12,  2.01it/s] 34%|███▍      | 3655/10691 [38:17<58:11,  2.01it/s] 34%|███▍      | 3656/10691 [38:18<58:09,  2.02it/s] 34%|███▍      | 3657/10691 [38:18<58:09,  2.02it/s] 34%|███▍      | 3658/10691 [38:19<58:14,  2.01it/s] 34%|███▍      | 3659/10691 [38:19<58:18,  2.01it/s] 34%|███▍      | 3660/10691 [38:20<58:16,  2.01it/s] 34%|███▍      | 3661/10691 [38:20<58:11,  2.01it/s] 34%|███▍      | 3662/10691 [38:21<58:11,  2.01it/s] 34%|███▍      | 3663/10691 [38:21<58:06,  2.02it/s] 34%|███▍      | 3664/10691 [38:22<58:08,  2.01it/s] 34%|███▍      | 3665/10691 [38:22<58:13,  2.01it/s] 34%|███▍      | 3666/10691 [38:23<58:07,  2.01it/s] 34%|███▍      | 3667/10691 [38:23<58:08,  2.01it/s] 34%|███▍      | 3668/10691 [38:24<58:01,  2.02it/s] 34%|███▍      | 3669/10691 [38:24<58:01,  2.02it/s] 34%|███▍      | 3670/10691 [38:25<58:01,  2.02it/s] 34%|███▍      | 3671/10691 [38:25<58:01,  2.02it/s] 34%|███▍      | 3672/10691 [38:26<58:01,  2.02it/s] 34%|███▍      | 3673/10691 [38:26<58:06,  2.01it/s] 34%|███▍      | 3674/10691 [38:27<58:06,  2.01it/s] 34%|███▍      | 3675/10691 [38:27<58:04,  2.01it/s]                                                    {'loss': 3.1554, 'grad_norm': 0.21539637446403503, 'learning_rate': 0.0008297572905429092, 'epoch': 0.34}
+ 34%|███▍      | 3675/10691 [38:27<58:04,  2.01it/s] 34%|███▍      | 3676/10691 [38:28<58:03,  2.01it/s] 34%|███▍      | 3677/10691 [38:28<58:01,  2.01it/s] 34%|███▍      | 3678/10691 [38:29<57:59,  2.02it/s] 34%|███▍      | 3679/10691 [38:29<57:59,  2.02it/s] 34%|███▍      | 3680/10691 [38:30<58:00,  2.01it/s] 34%|███▍      | 3681/10691 [38:30<57:57,  2.02it/s] 34%|███▍      | 3682/10691 [38:31<57:56,  2.02it/s] 34%|███▍      | 3683/10691 [38:31<57:56,  2.02it/s] 34%|███▍      | 3684/10691 [38:32<57:55,  2.02it/s] 34%|███▍      | 3685/10691 [38:32<57:52,  2.02it/s] 34%|███▍      | 3686/10691 [38:33<57:55,  2.02it/s] 34%|███▍      | 3687/10691 [38:33<57:53,  2.02it/s] 34%|███▍      | 3688/10691 [38:34<57:56,  2.01it/s] 35%|███▍      | 3689/10691 [38:34<57:53,  2.02it/s] 35%|███▍      | 3690/10691 [38:35<57:55,  2.01it/s] 35%|███▍      | 3691/10691 [38:35<57:58,  2.01it/s] 35%|███▍      | 3692/10691 [38:36<57:51,  2.02it/s] 35%|███▍      | 3693/10691 [38:36<57:52,  2.02it/s] 35%|███▍      | 3694/10691 [38:37<57:53,  2.01it/s] 35%|███▍      | 3695/10691 [38:37<57:52,  2.01it/s] 35%|███▍      | 3696/10691 [38:38<57:53,  2.01it/s] 35%|███▍      | 3697/10691 [38:38<57:49,  2.02it/s] 35%|███▍      | 3698/10691 [38:39<57:50,  2.02it/s] 35%|███▍      | 3699/10691 [38:39<57:48,  2.02it/s] 35%|███▍      | 3700/10691 [38:40<57:49,  2.02it/s]                                                    {'loss': 3.1461, 'grad_norm': 0.21324791014194489, 'learning_rate': 0.0008266781667241337, 'epoch': 0.35}
+ 35%|███▍      | 3700/10691 [38:40<57:49,  2.02it/s] 35%|███▍      | 3701/10691 [38:40<57:53,  2.01it/s] 35%|███▍      | 3702/10691 [38:41<57:52,  2.01it/s] 35%|███▍      | 3703/10691 [38:41<57:50,  2.01it/s] 35%|███▍      | 3704/10691 [38:42<57:49,  2.01it/s] 35%|███▍      | 3705/10691 [38:42<57:50,  2.01it/s] 35%|███▍      | 3706/10691 [38:43<57:50,  2.01it/s] 35%|███▍      | 3707/10691 [38:43<57:50,  2.01it/s] 35%|███▍      | 3708/10691 [38:44<57:49,  2.01it/s] 35%|███▍      | 3709/10691 [38:44<57:46,  2.01it/s] 35%|███▍      | 3710/10691 [38:45<57:44,  2.02it/s] 35%|███▍      | 3711/10691 [38:45<57:42,  2.02it/s] 35%|███▍      | 3712/10691 [38:46<57:42,  2.02it/s] 35%|███▍      | 3713/10691 [38:46<57:41,  2.02it/s] 35%|███▍      | 3714/10691 [38:47<57:43,  2.01it/s] 35%|███▍      | 3715/10691 [38:47<57:42,  2.01it/s] 35%|███▍      | 3716/10691 [38:48<57:44,  2.01it/s] 35%|███▍      | 3717/10691 [38:48<57:43,  2.01it/s] 35%|███▍      | 3718/10691 [38:49<57:38,  2.02it/s] 35%|███▍      | 3719/10691 [38:49<57:37,  2.02it/s] 35%|███▍      | 3720/10691 [38:50<57:36,  2.02it/s] 35%|███▍      | 3721/10691 [38:50<57:32,  2.02it/s] 35%|███▍      | 3722/10691 [38:51<57:36,  2.02it/s] 35%|███▍      | 3723/10691 [38:51<57:35,  2.02it/s] 35%|███▍      | 3724/10691 [38:52<57:35,  2.02it/s] 35%|███▍      | 3725/10691 [38:52<57:36,  2.02it/s]                                                    {'loss': 3.1483, 'grad_norm': 0.2294854372739792, 'learning_rate': 0.0008235772729754203, 'epoch': 0.35}
+ 35%|███▍      | 3725/10691 [38:52<57:36,  2.02it/s] 35%|███▍      | 3726/10691 [38:53<57:44,  2.01it/s] 35%|█��█▍      | 3727/10691 [38:53<57:40,  2.01it/s] 35%|███▍      | 3728/10691 [38:54<57:40,  2.01it/s] 35%|███▍      | 3729/10691 [38:54<57:36,  2.01it/s] 35%|███▍      | 3730/10691 [38:55<57:37,  2.01it/s] 35%|███▍      | 3731/10691 [38:55<57:35,  2.01it/s] 35%|███▍      | 3732/10691 [38:56<57:36,  2.01it/s] 35%|███▍      | 3733/10691 [38:56<57:34,  2.01it/s] 35%|███▍      | 3734/10691 [38:57<57:30,  2.02it/s] 35%|███▍      | 3735/10691 [38:57<57:28,  2.02it/s] 35%|███▍      | 3736/10691 [38:58<57:28,  2.02it/s] 35%|███▍      | 3737/10691 [38:58<57:24,  2.02it/s] 35%|███▍      | 3738/10691 [38:59<57:23,  2.02it/s] 35%|███▍      | 3739/10691 [38:59<57:29,  2.02it/s] 35%|███▍      | 3740/10691 [38:59<57:29,  2.02it/s] 35%|███▍      | 3741/10691 [39:00<57:29,  2.01it/s] 35%|███▌      | 3742/10691 [39:00<57:31,  2.01it/s] 35%|███▌      | 3743/10691 [39:01<57:24,  2.02it/s] 35%|███▌      | 3744/10691 [39:01<57:26,  2.02it/s] 35%|███▌      | 3745/10691 [39:02<57:24,  2.02it/s] 35%|███▌      | 3746/10691 [39:02<57:26,  2.02it/s] 35%|███▌      | 3747/10691 [39:03<57:24,  2.02it/s] 35%|███▌      | 3748/10691 [39:03<57:25,  2.02it/s] 35%|███▌      | 3749/10691 [39:04<57:27,  2.01it/s] 35%|███▌      | 3750/10691 [39:04<57:32,  2.01it/s]                                                    {'loss': 3.1464, 'grad_norm': 0.1895810216665268, 'learning_rate': 0.0008204548159412489, 'epoch': 0.35}
+ 35%|███▌      | 3750/10691 [39:04<57:32,  2.01it/s] 35%|███▌      | 3751/10691 [39:05<57:32,  2.01it/s] 35%|███▌      | 3752/10691 [39:05<57:29,  2.01it/s] 35%|███▌      | 3753/10691 [39:06<57:22,  2.02it/s] 35%|███▌      | 3754/10691 [39:06<57:24,  2.01it/s] 35%|███▌      | 3755/10691 [39:07<57:23,  2.01it/s] 35%|███▌      | 3756/10691 [39:07<57:22,  2.01it/s] 35%|███▌      | 3757/10691 [39:08<57:22,  2.01it/s] 35%|███▌      | 3758/10691 [39:08<57:18,  2.02it/s] 35%|███▌      | 3759/10691 [39:09<57:19,  2.02it/s] 35%|███▌      | 3760/10691 [39:09<57:15,  2.02it/s] 35%|███▌      | 3761/10691 [39:10<57:20,  2.01it/s] 35%|███▌      | 3762/10691 [39:10<57:25,  2.01it/s] 35%|███▌      | 3763/10691 [39:11<57:21,  2.01it/s] 35%|███▌      | 3764/10691 [39:11<57:19,  2.01it/s] 35%|███▌      | 3765/10691 [39:12<57:23,  2.01it/s] 35%|███▌      | 3766/10691 [39:12<57:19,  2.01it/s] 35%|███▌      | 3767/10691 [39:13<57:19,  2.01it/s] 35%|███▌      | 3768/10691 [39:13<57:19,  2.01it/s] 35%|███▌      | 3769/10691 [39:14<57:17,  2.01it/s] 35%|███▌      | 3770/10691 [39:14<57:11,  2.02it/s] 35%|███▌      | 3771/10691 [39:15<57:12,  2.02it/s] 35%|███▌      | 3772/10691 [39:15<57:12,  2.02it/s] 35%|███▌      | 3773/10691 [39:16<57:14,  2.01it/s] 35%|███▌      | 3774/10691 [39:16<57:15,  2.01it/s] 35%|███▌      | 3775/10691 [39:17<57:15,  2.01it/s]                                                    {'loss': 3.1418, 'grad_norm': 0.2042984515428543, 'learning_rate': 0.0008173110037030821, 'epoch': 0.35}
+ 35%|███▌      | 3775/10691 [39:17<57:15,  2.01it/s] 35%|███▌      | 3776/10691 [39:17<57:16,  2.01it/s] 35%|███▌      | 3777/10691 [39:18<57:14,  2.01it/s] 35%|███▌      | 3778/10691 [39:18<57:11,  2.01it/s] 35%|███▌      | 3779/10691 [39:19<57:11,  2.01it/s] 35%|███▌      | 3780/10691 [39:19<57:08,  2.02it/s] 35%|███▌      | 3781/10691 [39:20<57:05,  2.02it/s] 35%|███▌      | 3782/10691 [39:20<57:02,  2.02it/s] 35%|███▌      | 3783/10691 [39:21<57:14,  2.01it/s] 35%|███▌      | 3784/10691 [39:21<57:09,  2.01it/s] 35%|███▌      | 3785/10691 [39:22<57:07,  2.01it/s] 35%|███▌      | 3786/10691 [39:22<57:07,  2.01it/s] 35%|███▌      | 3787/10691 [39:23<57:06,  2.02it/s] 35%|███▌      | 3788/10691 [39:23<57:03,  2.02it/s] 35%|███▌      | 3789/10691 [39:24<57:04,  2.02it/s] 35%|███▌      | 3790/10691 [39:24<57:05,  2.01it/s] 35%|███▌      | 3791/10691 [39:25<57:05,  2.01it/s] 35%|███▌      | 3792/10691 [39:25<57:13,  2.01it/s] 35%|███▌      | 3793/10691 [39:26<57:08,  2.01it/s] 35%|███▌      | 3794/10691 [39:26<57:05,  2.01it/s] 35%|███▌      | 3795/10691 [39:27<57:00,  2.02it/s] 36%|███▌      | 3796/10691 [39:27<56:59,  2.02it/s] 36%|███▌      | 3797/10691 [39:28<56:54,  2.02it/s] 36%|███▌      | 3798/10691 [39:28<56:58,  2.02it/s] 36%|███▌      | 3799/10691 [39:29<56:56,  2.02it/s] 36%|███▌      | 3800/10691 [39:29<56:56,  2.02it/s]                                                    {'loss': 3.1373, 'grad_norm': 0.21918077766895294, 'learning_rate': 0.0008141460457655005, 'epoch': 0.36}
+ 36%|██��▌      | 3800/10691 [39:29<56:56,  2.02it/s] 36%|███▌      | 3801/10691 [39:30<57:04,  2.01it/s] 36%|███▌      | 3802/10691 [39:30<57:01,  2.01it/s] 36%|███▌      | 3803/10691 [39:31<57:00,  2.01it/s] 36%|███▌      | 3804/10691 [39:31<57:00,  2.01it/s] 36%|███▌      | 3805/10691 [39:32<56:56,  2.02it/s] 36%|███▌      | 3806/10691 [39:32<56:54,  2.02it/s] 36%|███▌      | 3807/10691 [39:33<56:50,  2.02it/s] 36%|███▌      | 3808/10691 [39:33<57:01,  2.01it/s] 36%|███▌      | 3809/10691 [39:34<56:55,  2.02it/s] 36%|███▌      | 3810/10691 [39:34<56:54,  2.02it/s] 36%|███▌      | 3811/10691 [39:35<56:52,  2.02it/s] 36%|███▌      | 3812/10691 [39:35<56:49,  2.02it/s] 36%|███▌      | 3813/10691 [39:36<56:53,  2.01it/s] 36%|███▌      | 3814/10691 [39:36<56:50,  2.02it/s] 36%|███▌      | 3815/10691 [39:37<56:54,  2.01it/s] 36%|███▌      | 3816/10691 [39:37<56:49,  2.02it/s] 36%|███▌      | 3817/10691 [39:38<56:51,  2.02it/s] 36%|███▌      | 3818/10691 [39:38<56:50,  2.02it/s] 36%|███▌      | 3819/10691 [39:39<56:49,  2.02it/s] 36%|███▌      | 3820/10691 [39:39<56:48,  2.02it/s] 36%|███▌      | 3821/10691 [39:40<56:48,  2.02it/s] 36%|███▌      | 3822/10691 [39:40<56:48,  2.02it/s] 36%|███▌      | 3823/10691 [39:41<56:45,  2.02it/s] 36%|███▌      | 3824/10691 [39:41<56:46,  2.02it/s] 36%|███▌      | 3825/10691 [39:42<56:50,  2.01it/s]                                                    {'loss': 3.1426, 'grad_norm': 0.23223628103733063, 'learning_rate': 0.0008109601530422395, 'epoch': 0.36}
+ 36%|███▌      | 3825/10691 [39:42<56:50,  2.01it/s] 36%|███▌      | 3826/10691 [39:42<56:52,  2.01it/s] 36%|███▌      | 3827/10691 [39:43<56:50,  2.01it/s] 36%|███▌      | 3828/10691 [39:43<56:45,  2.02it/s] 36%|███▌      | 3829/10691 [39:44<56:44,  2.02it/s] 36%|███▌      | 3830/10691 [39:44<56:40,  2.02it/s] 36%|███▌      | 3831/10691 [39:45<56:41,  2.02it/s] 36%|███▌      | 3832/10691 [39:45<56:40,  2.02it/s] 36%|███▌      | 3833/10691 [39:46<56:41,  2.02it/s] 36%|███▌      | 3834/10691 [39:46<56:38,  2.02it/s] 36%|███▌      | 3835/10691 [39:47<56:36,  2.02it/s] 36%|███▌      | 3836/10691 [39:47<56:40,  2.02it/s] 36%|███▌      | 3837/10691 [39:48<56:37,  2.02it/s] 36%|███▌      | 3838/10691 [39:48<56:40,  2.02it/s] 36%|███▌      | 3839/10691 [39:49<56:35,  2.02it/s] 36%|███▌      | 3840/10691 [39:49<56:40,  2.01it/s] 36%|███▌      | 3841/10691 [39:50<56:46,  2.01it/s] 36%|███▌      | 3842/10691 [39:50<56:43,  2.01it/s] 36%|███▌      | 3843/10691 [39:51<56:42,  2.01it/s] 36%|███▌      | 3844/10691 [39:51<56:38,  2.01it/s] 36%|███▌      | 3845/10691 [39:52<56:34,  2.02it/s] 36%|███▌      | 3846/10691 [39:52<56:34,  2.02it/s] 36%|███▌      | 3847/10691 [39:53<56:30,  2.02it/s] 36%|███▌      | 3848/10691 [39:53<56:31,  2.02it/s] 36%|███▌      | 3849/10691 [39:54<56:31,  2.02it/s] 36%|███▌      | 3850/10691 [39:54<56:32,  2.02it/s]                                                    {'loss': 3.1285, 'grad_norm': 0.20441623032093048, 'learning_rate': 0.0008077535378421354, 'epoch': 0.36}
+ 36%|███▌      | 3850/10691 [39:54<56:32,  2.02it/s] 36%|███▌      | 3851/10691 [39:55<56:35,  2.01it/s] 36%|███▌      | 3852/10691 [39:55<56:36,  2.01it/s] 36%|███▌      | 3853/10691 [39:56<56:33,  2.01it/s] 36%|███▌      | 3854/10691 [39:56<56:34,  2.01it/s] 36%|███▌      | 3855/10691 [39:57<56:35,  2.01it/s] 36%|███▌      | 3856/10691 [39:57<56:33,  2.01it/s] 36%|███▌      | 3857/10691 [39:58<56:31,  2.01it/s] 36%|███▌      | 3858/10691 [39:58<56:32,  2.01it/s] 36%|███▌      | 3859/10691 [39:59<56:31,  2.01it/s] 36%|███▌      | 3860/10691 [39:59<56:30,  2.01it/s] 36%|███▌      | 3861/10691 [40:00<56:32,  2.01it/s] 36%|███▌      | 3862/10691 [40:00<56:29,  2.01it/s] 36%|███▌      | 3863/10691 [40:01<56:30,  2.01it/s] 36%|███▌      | 3864/10691 [40:01<1:05:39,  1.73it/s] 36%|███▌      | 3865/10691 [40:02<1:02:53,  1.81it/s] 36%|███▌      | 3866/10691 [40:02<1:01:01,  1.86it/s] 36%|███▌      | 3867/10691 [40:03<59:40,  1.91it/s]   36%|███▌      | 3868/10691 [40:03<58:39,  1.94it/s] 36%|███▌      | 3869/10691 [40:04<57:59,  1.96it/s] 36%|███▌      | 3870/10691 [40:04<57:25,  1.98it/s] 36%|███▌      | 3871/10691 [40:05<57:08,  1.99it/s] 36%|███▌      | 3872/10691 [40:05<56:51,  2.00it/s] 36%|███▌      | 3873/10691 [40:06<56:41,  2.00it/s] 36%|███▌      | 3874/10691 [40:06<56:38,  2.01it/s] 36%|███▌      | 3875/10691 [40:07<56:31,  2.01it/s]                                                    {'loss': 3.1371, 'grad_norm': 0.19270087778568268, 'learning_rate': 0.0008045264138549763, 'epoch': 0.36}
+ 36%|███▌      | 3875/10691 [40:07<56:31,  2.01it/s] 36%|███▋      | 3876/10691 [40:07<56:32,  2.01it/s] 36%|███▋      | 3877/10691 [40:08<56:23,  2.01it/s] 36%|███▋      | 3878/10691 [40:08<56:23,  2.01it/s] 36%|███▋      | 3879/10691 [40:09<56:23,  2.01it/s] 36%|███▋      | 3880/10691 [40:09<56:21,  2.01it/s] 36%|███▋      | 3881/10691 [40:10<56:18,  2.02it/s] 36%|███▋      | 3882/10691 [40:11<1:05:44,  1.73it/s] 36%|███▋      | 3883/10691 [40:11<1:02:53,  1.80it/s] 36%|███▋      | 3884/10691 [40:12<1:00:55,  1.86it/s] 36%|███▋      | 3885/10691 [40:12<59:31,  1.91it/s]   36%|███▋      | 3886/10691 [40:13<58:29,  1.94it/s] 36%|███▋      | 3887/10691 [40:13<57:48,  1.96it/s] 36%|███▋      | 3888/10691 [40:13<57:16,  1.98it/s] 36%|███▋      | 3889/10691 [40:14<56:59,  1.99it/s] 36%|███▋      | 3890/10691 [40:14<56:50,  1.99it/s] 36%|███▋      | 3891/10691 [40:15<56:40,  2.00it/s] 36%|███▋      | 3892/10691 [40:15<56:33,  2.00it/s] 36%|███▋      | 3893/10691 [40:16<56:24,  2.01it/s] 36%|███▋      | 3894/10691 [40:16<56:17,  2.01it/s] 36%|███▋      | 3895/10691 [40:17<56:14,  2.01it/s] 36%|███▋      | 3896/10691 [40:17<56:11,  2.02it/s] 36%|███▋      | 3897/10691 [40:18<56:14,  2.01it/s] 36%|███▋      | 3898/10691 [40:18<56:11,  2.01it/s] 36%|███▋      | 3899/10691 [40:19<56:12,  2.01it/s] 36%|███▋      | 3900/10691 [40:19<56:11,  2.01it/s]                                                    {'loss': 3.1354, 'grad_norm': 0.2150011658668518, 'learning_rate': 0.0008012789961372621, 'epoch': 0.36}
+ 36%|███▋      | 3900/10691 [40:19<56:11,  2.01it/s] 36%|███▋      | 3901/10691 [40:20<56:10,  2.01it/s] 36%|███▋      | 3902/10691 [40:20<56:13,  2.01it/s] 37%|███▋      | 3903/10691 [40:21<56:09,  2.01it/s] 37%|███▋      | 3904/10691 [40:21<56:09,  2.01it/s] 37%|███▋      | 3905/10691 [40:22<56:10,  2.01it/s] 37%|███▋      | 3906/10691 [40:22<56:09,  2.01it/s] 37%|███▋      | 3907/10691 [40:23<56:12,  2.01it/s] 37%|███▋      | 3908/10691 [40:23<56:07,  2.01it/s] 37%|███▋      | 3909/10691 [40:24<56:06,  2.01it/s] 37%|███▋      | 3910/10691 [40:24<56:07,  2.01it/s] 37%|███▋      | 3911/10691 [40:25<56:04,  2.02it/s] 37%|███▋      | 3912/10691 [40:25<56:06,  2.01it/s] 37%|███▋      | 3913/10691 [40:26<56:03,  2.02it/s] 37%|███▋      | 3914/10691 [40:26<56:03,  2.01it/s] 37%|███▋      | 3915/10691 [40:27<56:01,  2.02it/s] 37%|███▋      | 3916/10691 [40:27<55:59,  2.02it/s] 37%|███▋      | 3917/10691 [40:28<56:00,  2.02it/s] 37%|███▋      | 3918/10691 [40:28<55:55,  2.02it/s] 37%|███▋      | 3919/10691 [40:29<55:57,  2.02it/s] 37%|███▋      | 3920/10691 [40:29<55:53,  2.02it/s] 37%|███▋      | 3921/10691 [40:30<55:54,  2.02it/s] 37%|███▋      | 3922/10691 [40:30<55:52,  2.02it/s] 37%|███▋      | 3923/10691 [40:31<55:55,  2.02it/s] 37%|███▋      | 3924/10691 [40:31<55:58,  2.02it/s] 37%|███▋      | 3925/10691 [40:32<56:01,  2.01it/s]                                                    {'loss': 3.1257, 'grad_norm': 0.20986437797546387, 'learning_rate': 0.0007980115010978728, 'epoch': 0.37}
+ 37%|███▋      | 3925/10691 [40:32<56:01,  2.01it/s] 37%|███▋      | 3926/10691 [40:32<56:03,  2.01it/s] 37%|███▋      | 3927/10691 [40:33<55:57,  2.01it/s] 37%|███▋      | 3928/10691 [40:33<55:56,  2.02it/s] 37%|███▋      | 3929/10691 [40:34<56:01,  2.01it/s] 37%|███▋      | 3930/10691 [40:34<56:04,  2.01it/s] 37%|███▋      | 3931/10691 [40:35<56:01,  2.01it/s] 37%|███▋      | 3932/10691 [40:35<55:58,  2.01it/s] 37%|███▋      | 3933/10691 [40:36<55:54,  2.01it/s] 37%|███▋      | 3934/10691 [40:36<55:50,  2.02it/s] 37%|███▋      | 3935/10691 [40:37<55:48,  2.02it/s] 37%|███▋      | 3936/10691 [40:37<55:46,  2.02it/s] 37%|███▋      | 3937/10691 [40:38<55:47,  2.02it/s] 37%|███▋      | 3938/10691 [40:38<55:48,  2.02it/s] 37%|███▋      | 3939/10691 [40:39<55:52,  2.01it/s] 37%|███▋      | 3940/10691 [40:39<55:53,  2.01it/s] 37%|███▋      | 3941/10691 [40:40<55:53,  2.01it/s] 37%|███▋      | 3942/10691 [40:40<55:50,  2.01it/s] 37%|███▋      | 3943/10691 [40:41<55:46,  2.02it/s] 37%|███▋      | 3944/10691 [40:41<55:45,  2.02it/s] 37%|███▋      | 3945/10691 [40:42<55:42,  2.02it/s] 37%|███▋      | 3946/10691 [40:42<55:44,  2.02it/s] 37%|███▋      | 3947/10691 [40:43<55:48,  2.01it/s] 37%|███▋      | 3948/10691 [40:43<55:47,  2.01it/s] 37%|███▋      | 3949/10691 [40:44<55:48,  2.01it/s] 37%|███▋      | 3950/10691 [40:44<55:46,  2.01it/s]                                                    {'loss': 3.1386, 'grad_norm': 0.2141914665699005, 'learning_rate': 0.000794724146483647, 'epoch': 0.37}
+ 37%|███▋      | 3950/10691 [40:44<55:46,  2.01it/s] 37%|███▋      | 3951/10691 [40:45<55:51,  2.01it/s] 37%|███▋      | 3952/10691 [40:45<55:49,  2.01it/s] 37%|███▋      | 3953/10691 [40:46<55:46,  2.01it/s] 37%|███▋      | 3954/10691 [40:46<55:44,  2.01it/s] 37%|███▋      | 3955/10691 [40:47<55:44,  2.01it/s] 37%|███▋      | 3956/10691 [40:47<55:41,  2.02it/s] 37%|███▋      | 3957/10691 [40:48<55:42,  2.01it/s] 37%|███▋      | 3958/10691 [40:48<55:38,  2.02it/s] 37%|███▋      | 3959/10691 [40:49<55:42,  2.01it/s] 37%|███▋      | 3960/10691 [40:49<55:40,  2.02it/s] 37%|███▋      | 3961/10691 [40:50<55:38,  2.02it/s] 37%|███▋      | 3962/10691 [40:50<55:39,  2.01it/s] 37%|███▋      | 3963/10691 [40:51<55:35,  2.02it/s] 37%|███▋      | 3964/10691 [40:51<55:37,  2.02it/s] 37%|███▋      | 3965/10691 [40:52<55:34,  2.02it/s] 37%|███▋      | 3966/10691 [40:52<55:36,  2.02it/s] 37%|███▋      | 3967/10691 [40:53<55:41,  2.01it/s] 37%|███▋      | 3968/10691 [40:53<55:34,  2.02it/s] 37%|███▋      | 3969/10691 [40:54<55:33,  2.02it/s] 37%|███▋      | 3970/10691 [40:54<55:30,  2.02it/s] 37%|███▋      | 3971/10691 [40:55<55:32,  2.02it/s] 37%|███▋      | 3972/10691 [40:55<55:30,  2.02it/s] 37%|███▋      | 3973/10691 [40:56<55:29,  2.02it/s] 37%|███▋      | 3974/10691 [40:56<55:32,  2.02it/s] 37%|███▋      | 3975/10691 [40:57<55:32,  2.02it/s]                                                    {'loss': 3.1288, 'grad_norm': 0.2280159443616867, 'learning_rate': 0.0007914171513648716, 'epoch': 0.37}
+ 37%|███▋      | 3975/10691 [40:57<55:32,  2.02it/s] 37%|███▋      | 3976/10691 [40:57<55:39,  2.01it/s] 37%|███▋      | 3977/10691 [40:58<55:34,  2.01it/s] 37%|███▋      | 3978/10691 [40:58<55:33,  2.01it/s] 37%|███▋      | 3979/10691 [40:59<55:29,  2.02it/s] 37%|███▋      | 3980/10691 [40:59<55:31,  2.01it/s] 37%|███▋      | 3981/10691 [41:00<55:28,  2.02it/s] 37%|███▋      | 3982/10691 [41:00<55:32,  2.01it/s] 37%|███▋      | 3983/10691 [41:01<55:26,  2.02it/s] 37%|███▋      | 3984/10691 [41:01<55:29,  2.01it/s] 37%|███▋      | 3985/10691 [41:02<55:23,  2.02it/s] 37%|███▋      | 3986/10691 [41:02<55:22,  2.02it/s] 37%|███▋      | 3987/10691 [41:03<55:21,  2.02it/s] 37%|███▋      | 3988/10691 [41:03<55:20,  2.02it/s] 37%|███▋      | 3989/10691 [41:04<55:21,  2.02it/s] 37%|███▋      | 3990/10691 [41:04<55:23,  2.02it/s] 37%|███▋      | 3991/10691 [41:05<55:23,  2.02it/s] 37%|███▋      | 3992/10691 [41:05<55:23,  2.02it/s] 37%|███▋      | 3993/10691 [41:06<55:19,  2.02it/s] 37%|███▋      | 3994/10691 [41:06<55:22,  2.02it/s] 37%|███▋      | 3995/10691 [41:07<55:21,  2.02it/s] 37%|███▋      | 3996/10691 [41:07<55:22,  2.01it/s] 37%|███▋      | 3997/10691 [41:08<55:23,  2.01it/s] 37%|███▋      | 3998/10691 [41:08<55:20,  2.02it/s] 37%|███▋      | 3999/10691 [41:09<55:22,  2.01it/s] 37%|███▋      | 4000/10691 [41:09<55:20,  2.02it/s]                                                    {'loss': 3.1236, 'grad_norm': 0.21331728994846344, 'learning_rate': 0.0007880907361206822, 'epoch': 0.37}
+ 37%|███▋      | 4000/10691 [41:09<55:20,  2.02it/s] 37%|███▋      | 4001/10691 [41:10<55:27,  2.01it/s] 37%|███▋      | 4002/10691 [41:10<55:23,  2.01it/s] 37%|███▋      | 4003/10691 [41:11<55:18,  2.02it/s] 37%|███▋      | 4004/10691 [41:11<55:17,  2.02it/s] 37%|███▋      | 4005/10691 [41:12<55:14,  2.02it/s] 37%|███▋      | 4006/10691 [41:12<55:14,  2.02it/s] 37%|███▋      | 4007/10691 [41:13<55:17,  2.01it/s] 37%|███▋      | 4008/10691 [41:13<55:17,  2.01it/s] 37%|███▋      | 4009/10691 [41:14<55:20,  2.01it/s] 38%|███▊      | 4010/10691 [41:14<55:13,  2.02it/s] 38%|███▊      | 4011/10691 [41:15<55:11,  2.02it/s] 38%|███▊      | 4012/10691 [41:15<55:11,  2.02it/s] 38%|███▊      | 4013/10691 [41:16<55:06,  2.02it/s] 38%|███▊      | 4014/10691 [41:16<55:09,  2.02it/s] 38%|███▊      | 4015/10691 [41:17<55:05,  2.02it/s] 38%|███▊      | 4016/10691 [41:17<55:10,  2.02it/s] 38%|███▊      | 4017/10691 [41:18<55:08,  2.02it/s] 38%|███▊      | 4018/10691 [41:18<55:08,  2.02it/s] 38%|███▊      | 4019/10691 [41:18<55:08,  2.02it/s] 38%|███▊      | 4020/10691 [41:19<55:06,  2.02it/s] 38%|███▊      | 4021/10691 [41:19<55:10,  2.01it/s] 38%|███▊      | 4022/10691 [41:20<55:04,  2.02it/s] 38%|███▊      | 4023/10691 [41:20<55:06,  2.02it/s] 38%|███▊      | 4024/10691 [41:21<55:07,  2.02it/s] 38%|███▊      | 4025/10691 [41:21<55:05,  2.02it/s]                                                    {'loss': 3.1304, 'grad_norm': 0.20467546582221985, 'learning_rate': 0.0007847451224243772, 'epoch': 0.38}
+ 38%|███▊      | 4025/10691 [41:21<55:05,  2.02it/s] 38%|███▊      | 4026/10691 [41:22<55:12,  2.01it/s] 38%|███▊      | 4027/10691 [41:22<55:06,  2.02it/s] 38%|███▊      | 4028/10691 [41:23<55:05,  2.02it/s] 38%|███▊      | 4029/10691 [41:23<55:00,  2.02it/s] 38%|███▊      | 4030/10691 [41:24<55:02,  2.02it/s] 38%|███▊      | 4031/10691 [41:24<54:59,  2.02it/s] 38%|███▊      | 4032/10691 [41:25<55:03,  2.02it/s] 38%|███▊      | 4033/10691 [41:25<55:03,  2.02it/s] 38%|███▊      | 4034/10691 [41:26<55:04,  2.01it/s] 38%|███▊      | 4035/10691 [41:26<55:05,  2.01it/s] 38%|███▊      | 4036/10691 [41:27<55:03,  2.01it/s] 38%|███▊      | 4037/10691 [41:27<55:00,  2.02it/s] 38%|███▊      | 4038/10691 [41:28<54:57,  2.02it/s] 38%|███▊      | 4039/10691 [41:28<54:58,  2.02it/s] 38%|███▊      | 4040/10691 [41:29<55:02,  2.01it/s] 38%|███▊      | 4041/10691 [41:29<55:04,  2.01it/s] 38%|███▊      | 4042/10691 [41:30<55:05,  2.01it/s] 38%|███▊      | 4043/10691 [41:30<55:08,  2.01it/s] 38%|███▊      | 4044/10691 [41:31<55:02,  2.01it/s] 38%|███▊      | 4045/10691 [41:31<55:00,  2.01it/s] 38%|███▊      | 4046/10691 [41:32<54:55,  2.02it/s] 38%|███▊      | 4047/10691 [41:32<54:55,  2.02it/s] 38%|███▊      | 4048/10691 [41:33<54:51,  2.02it/s] 38%|███▊      | 4049/10691 [41:33<54:54,  2.02it/s] 38%|███▊      | 4050/10691 [41:34<54:54,  2.02it/s]                                                    {'loss': 3.1211, 'grad_norm': 0.20056909322738647, 'learning_rate': 0.0007813805332286461, 'epoch': 0.38}
+ 38%|███▊      | 4050/10691 [41:34<54:54,  2.02it/s] 38%|███▊      | 4051/10691 [41:34<54:58,  2.01it/s] 38%|███▊      | 4052/10691 [41:35<54:56,  2.01it/s] 38%|███▊      | 4053/10691 [41:35<54:52,  2.02it/s] 38%|███▊      | 4054/10691 [41:36<54:49,  2.02it/s] 38%|███▊      | 4055/10691 [41:36<54:50,  2.02it/s] 38%|███▊      | 4056/10691 [41:37<54:45,  2.02it/s] 38%|███▊      | 4057/10691 [41:37<54:49,  2.02it/s] 38%|███▊      | 4058/10691 [41:38<54:45,  2.02it/s] 38%|███▊      | 4059/10691 [41:38<54:49,  2.02it/s] 38%|███▊      | 4060/10691 [41:39<54:44,  2.02it/s] 38%|███▊      | 4061/10691 [41:39<54:47,  2.02it/s] 38%|███▊      | 4062/10691 [41:40<54:45,  2.02it/s] 38%|███▊      | 4063/10691 [41:40<54:44,  2.02it/s] 38%|███▊      | 4064/10691 [41:41<54:40,  2.02it/s] 38%|███▊      | 4065/10691 [41:41<54:40,  2.02it/s] 38%|███▊      | 4066/10691 [41:42<54:44,  2.02it/s] 38%|███▊      | 4067/10691 [41:42<54:45,  2.02it/s] 38%|███▊      | 4068/10691 [41:43<54:47,  2.01it/s] 38%|███▊      | 4069/10691 [41:43<54:45,  2.02it/s] 38%|███▊      | 4070/10691 [41:44<54:44,  2.02it/s] 38%|███▊      | 4071/10691 [41:44<54:39,  2.02it/s] 38%|███▊      | 4072/10691 [41:45<54:42,  2.02it/s] 38%|███▊      | 4073/10691 [41:45<54:42,  2.02it/s] 38%|███▊      | 4074/10691 [41:46<54:43,  2.02it/s] 38%|███▊      | 4075/10691 [41:46<54:45,  2.01it/s]                                                    {'loss': 3.1159, 'grad_norm': 0.20298562943935394, 'learning_rate': 0.0007779971927507109, 'epoch': 0.38}
+ 38%|███▊      | 4075/10691 [41:46<54:45,  2.01it/s] 38%|███▊      | 4076/10691 [41:47<54:46,  2.01it/s] 38%|███▊      | 4077/10691 [41:47<54:44,  2.01it/s] 38%|███▊      | 4078/10691 [41:48<54:44,  2.01it/s] 38%|███▊      | 4079/10691 [41:48<54:41,  2.01it/s] 38%|███▊      | 4080/10691 [41:49<54:35,  2.02it/s] 38%|███▊      | 4081/10691 [41:49<54:37,  2.02it/s] 38%|███▊      | 4082/10691 [41:50<54:32,  2.02it/s] 38%|███▊      | 4083/10691 [41:50<54:32,  2.02it/s] 38%|███▊      | 4084/10691 [41:51<54:34,  2.02it/s] 38%|███▊      | 4085/10691 [41:51<54:33,  2.02it/s] 38%|███▊      | 4086/10691 [41:52<54:34,  2.02it/s] 38%|███▊      | 4087/10691 [41:52<54:32,  2.02it/s] 38%|███▊      | 4088/10691 [41:53<54:33,  2.02it/s] 38%|███▊      | 4089/10691 [41:53<54:30,  2.02it/s] 38%|███▊      | 4090/10691 [41:54<54:29,  2.02it/s] 38%|███▊      | 4091/10691 [41:54<54:27,  2.02it/s] 38%|███▊      | 4092/10691 [41:55<54:29,  2.02it/s] 38%|███▊      | 4093/10691 [41:55<54:34,  2.01it/s] 38%|███▊      | 4094/10691 [41:56<54:34,  2.01it/s] 38%|███▊      | 4095/10691 [41:56<54:36,  2.01it/s] 38%|███▊      | 4096/10691 [41:57<54:29,  2.02it/s] 38%|███▊      | 4097/10691 [41:57<54:30,  2.02it/s] 38%|███▊      | 4098/10691 [41:58<54:28,  2.02it/s] 38%|███▊      | 4099/10691 [41:58<54:32,  2.01it/s] 38%|███▊      | 4100/10691 [41:59<54:28,  2.02it/s]                                                    {'loss': 3.1097, 'grad_norm': 0.20898865163326263, 'learning_rate': 0.0007745953264573847, 'epoch': 0.38}
+ 38%|███▊      | 4100/10691 [41:59<54:28,  2.02it/s] 38%|███▊      | 4101/10691 [41:59<54:33,  2.01it/s] 38%|███▊      | 4102/10691 [42:00<54:31,  2.01it/s] 38%|███▊      | 4103/10691 [42:00<54:28,  2.02it/s] 38%|███▊      | 4104/10691 [42:01<54:27,  2.02it/s] 38%|███▊      | 4105/10691 [42:01<54:23,  2.02it/s] 38%|███▊      | 4106/10691 [42:02<54:27,  2.02it/s] 38%|███▊      | 4107/10691 [42:02<54:21,  2.02it/s] 38%|███▊      | 4108/10691 [42:03<54:26,  2.02it/s] 38%|███▊      | 4109/10691 [42:03<54:28,  2.01it/s] 38%|███▊      | 4110/10691 [42:04<54:25,  2.02it/s] 38%|███▊      | 4111/10691 [42:04<54:28,  2.01it/s] 38%|███▊      | 4112/10691 [42:05<54:23,  2.02it/s] 38%|███▊      | 4113/10691 [42:05<54:23,  2.02it/s] 38%|███▊      | 4114/10691 [42:06<54:21,  2.02it/s] 38%|███▊      | 4115/10691 [42:06<54:20,  2.02it/s] 38%|███▊      | 4116/10691 [42:07<54:19,  2.02it/s] 39%|███▊      | 4117/10691 [42:07<54:17,  2.02it/s] 39%|███▊      | 4118/10691 [42:08<54:21,  2.02it/s] 39%|███▊      | 4119/10691 [42:08<54:16,  2.02it/s] 39%|███▊      | 4120/10691 [42:09<54:16,  2.02it/s] 39%|███▊      | 4121/10691 [42:09<54:17,  2.02it/s] 39%|███▊      | 4122/10691 [42:10<54:20,  2.01it/s] 39%|███▊      | 4123/10691 [42:10<54:18,  2.02it/s] 39%|███▊      | 4124/10691 [42:11<54:16,  2.02it/s] 39%|███▊      | 4125/10691 [42:11<54:16,  2.02it/s]                                                    {'loss': 3.1071, 'grad_norm': 0.19898870587348938, 'learning_rate': 0.0007711751610500464, 'epoch': 0.39}
+ 39%|███▊      | 4125/10691 [42:11<54:16,  2.02it/s] 39%|███▊      | 4126/10691 [42:12<54:19,  2.01it/s] 39%|███▊      | 4127/10691 [42:12<54:18,  2.01it/s] 39%|███▊      | 4128/10691 [42:13<54:16,  2.02it/s] 39%|███▊      | 4129/10691 [42:13<54:09,  2.02it/s] 39%|███▊      | 4130/10691 [42:14<54:14,  2.02it/s] 39%|███▊      | 4131/10691 [42:14<54:12,  2.02it/s] 39%|███▊      | 4132/10691 [42:15<54:11,  2.02it/s] 39%|███▊      | 4133/10691 [42:15<54:16,  2.01it/s] 39%|███▊      | 4134/10691 [42:16<54:15,  2.01it/s] 39%|███▊      | 4135/10691 [42:16<54:11,  2.02it/s] 39%|███▊      | 4136/10691 [42:17<54:12,  2.02it/s] 39%|███▊      | 4137/10691 [42:17<54:10,  2.02it/s] 39%|███▊      | 4138/10691 [42:18<54:09,  2.02it/s] 39%|███▊      | 4139/10691 [42:18<54:05,  2.02it/s] 39%|███▊      | 4140/10691 [42:19<54:11,  2.02it/s] 39%|███▊      | 4141/10691 [42:19<54:12,  2.01it/s] 39%|███▊      | 4142/10691 [42:20<54:05,  2.02it/s] 39%|███▉      | 4143/10691 [42:20<54:06,  2.02it/s] 39%|███▉      | 4144/10691 [42:20<54:05,  2.02it/s] 39%|███▉      | 4145/10691 [42:21<54:06,  2.02it/s] 39%|███▉      | 4146/10691 [42:21<54:06,  2.02it/s] 39%|███▉      | 4147/10691 [42:22<54:05,  2.02it/s] 39%|███▉      | 4148/10691 [42:22<54:05,  2.02it/s] 39%|███▉      | 4149/10691 [42:23<54:04,  2.02it/s] 39%|███▉      | 4150/10691 [42:23<54:02,  2.02it/s]                                                    {'loss': 3.1175, 'grad_norm': 0.19601400196552277, 'learning_rate': 0.0007677369244495334, 'epoch': 0.39}
+ 39%|███▉      | 4150/10691 [42:23<54:02,  2.02it/s] 39%|███▉      | 4151/10691 [42:24<54:09,  2.01it/s] 39%|███▉      | 4152/10691 [42:24<54:08,  2.01it/s] 39%|███▉      | 4153/10691 [42:25<54:07,  2.01it/s] 39%|███▉      | 4154/10691 [42:25<54:54,  1.98it/s] 39%|███▉      | 4155/10691 [42:26<54:37,  1.99it/s] 39%|███▉      | 4156/10691 [42:26<54:26,  2.00it/s] 39%|███▉      | 4157/10691 [42:27<54:17,  2.01it/s] 39%|███▉      | 4158/10691 [42:27<54:09,  2.01it/s] 39%|███▉      | 4159/10691 [42:28<54:06,  2.01it/s] 39%|███▉      | 4160/10691 [42:28<54:01,  2.01it/s] 39%|███▉      | 4161/10691 [42:29<54:02,  2.01it/s] 39%|███▉      | 4162/10691 [42:29<53:59,  2.02it/s] 39%|███▉      | 4163/10691 [42:30<53:58,  2.02it/s] 39%|███▉      | 4164/10691 [42:30<53:59,  2.02it/s] 39%|███▉      | 4165/10691 [42:31<53:56,  2.02it/s] 39%|███▉      | 4166/10691 [42:31<54:01,  2.01it/s] 39%|███▉      | 4167/10691 [42:32<53:57,  2.01it/s] 39%|███▉      | 4168/10691 [42:32<54:02,  2.01it/s] 39%|███▉      | 4169/10691 [42:33<54:01,  2.01it/s] 39%|███▉      | 4170/10691 [42:33<53:57,  2.01it/s] 39%|███▉      | 4171/10691 [42:34<53:57,  2.01it/s] 39%|███▉      | 4172/10691 [42:34<53:53,  2.02it/s] 39%|███▉      | 4173/10691 [42:35<53:56,  2.01it/s] 39%|███▉      | 4174/10691 [42:35<53:51,  2.02it/s] 39%|███▉      | 4175/10691 [42:36<53:51,  2.02it/s]                                                    {'loss': 3.1113, 'grad_norm': 0.19802527129650116, 'learning_rate': 0.0007642808457809522, 'epoch': 0.39}
+ 39%|███▉      | 4175/10691 [42:36<53:51,  2.02it/s] 39%|███▉      | 4176/10691 [42:36<53:58,  2.01it/s] 39%|███▉      | 4177/10691 [42:37<53:53,  2.01it/s] 39%|███▉      | 4178/10691 [42:37<53:54,  2.01it/s] 39%|███▉      | 4179/10691 [42:38<53:52,  2.01it/s] 39%|███▉      | 4180/10691 [42:38<53:48,  2.02it/s] 39%|███▉      | 4181/10691 [42:39<53:49,  2.02it/s] 39%|███▉      | 4182/10691 [42:39<53:48,  2.02it/s] 39%|███▉      | 4183/10691 [42:40<53:50,  2.01it/s] 39%|███▉      | 4184/10691 [42:40<53:48,  2.02it/s] 39%|███▉      | 4185/10691 [42:41<53:52,  2.01it/s] 39%|███▉      | 4186/10691 [42:41<53:52,  2.01it/s] 39%|███▉      | 4187/10691 [42:42<53:48,  2.01it/s] 39%|███▉      | 4188/10691 [42:42<53:49,  2.01it/s] 39%|███▉      | 4189/10691 [42:43<53:45,  2.02it/s] 39%|███▉      | 4190/10691 [42:43<53:44,  2.02it/s] 39%|███▉      | 4191/10691 [42:44<53:42,  2.02it/s] 39%|███▉      | 4192/10691 [42:44<53:41,  2.02it/s] 39%|███▉      | 4193/10691 [42:45<53:40,  2.02it/s] 39%|███▉      | 4194/10691 [42:45<53:36,  2.02it/s] 39%|███▉      | 4195/10691 [42:46<53:38,  2.02it/s] 39%|███▉      | 4196/10691 [42:46<53:39,  2.02it/s] 39%|███▉      | 4197/10691 [42:47<53:42,  2.02it/s] 39%|███▉      | 4198/10691 [42:47<53:43,  2.01it/s] 39%|███▉      | 4199/10691 [42:48<53:42,  2.01it/s] 39%|███▉      | 4200/10691 [42:48<53:43,  2.01it/s]                                                    {'loss': 3.114, 'grad_norm': 0.21555261313915253, 'learning_rate': 0.0007608071553584113, 'epoch': 0.39}
+ 39%|███▉      | 4200/10691 [42:48<53:43,  2.01it/s] 39%|███▉      | 4201/10691 [42:49<53:46,  2.01it/s] 39%|███▉      | 4202/10691 [42:49<53:44,  2.01it/s] 39%|███▉      | 4203/10691 [42:50<53:40,  2.01it/s] 39%|███▉      | 4204/10691 [42:50<53:39,  2.01it/s] 39%|███▉      | 4205/10691 [42:51<53:41,  2.01it/s] 39%|███▉      | 4206/10691 [42:51<53:38,  2.02it/s] 39%|███▉      | 4207/10691 [42:52<53:37,  2.02it/s] 39%|███▉      | 4208/10691 [42:52<53:33,  2.02it/s] 39%|███▉      | 4209/10691 [42:53<53:36,  2.02it/s] 39%|███▉      | 4210/10691 [42:53<53:38,  2.01it/s] 39%|███▉      | 4211/10691 [42:54<53:36,  2.01it/s] 39%|███▉      | 4212/10691 [42:54<53:37,  2.01it/s] 39%|███▉      | 4213/10691 [42:55<53:31,  2.02it/s] 39%|███▉      | 4214/10691 [42:55<53:35,  2.01it/s] 39%|███▉      | 4215/10691 [42:56<53:29,  2.02it/s] 39%|███▉      | 4216/10691 [42:56<53:32,  2.02it/s] 39%|███▉      | 4217/10691 [42:57<53:28,  2.02it/s] 39%|███▉      | 4218/10691 [42:57<53:30,  2.02it/s] 39%|███▉      | 4219/10691 [42:58<53:27,  2.02it/s] 39%|███▉      | 4220/10691 [42:58<53:28,  2.02it/s] 39%|███▉      | 4221/10691 [42:59<53:32,  2.01it/s] 39%|███▉      | 4222/10691 [42:59<53:27,  2.02it/s] 40%|███▉      | 4223/10691 [43:00<53:31,  2.01it/s] 40%|███▉      | 4224/10691 [43:00<53:29,  2.01it/s] 40%|███▉      | 4225/10691 [43:01<53:29,  2.01it/s]                                                    {'loss': 3.1125, 'grad_norm': 0.21525530517101288, 'learning_rate': 0.0007573160846696704, 'epoch': 0.4}
+ 40%|███▉      | 4225/10691 [43:01<53:29,  2.01it/s] 40%|███▉      | 4226/10691 [43:01<53:39,  2.01it/s] 40%|███▉      | 4227/10691 [43:02<53:39,  2.01it/s] 40%|███▉      | 4228/10691 [43:02<53:35,  2.01it/s] 40%|███▉      | 4229/10691 [43:03<53:33,  2.01it/s] 40%|███▉      | 4230/10691 [43:03<53:27,  2.01it/s] 40%|███▉      | 4231/10691 [43:04<53:27,  2.01it/s] 40%|███▉      | 4232/10691 [43:04<53:31,  2.01it/s] 40%|███▉      | 4233/10691 [43:05<53:26,  2.01it/s] 40%|███▉      | 4234/10691 [43:05<53:31,  2.01it/s] 40%|███▉      | 4235/10691 [43:06<53:25,  2.01it/s] 40%|███▉      | 4236/10691 [43:06<53:24,  2.01it/s] 40%|███▉      | 4237/10691 [43:07<53:24,  2.01it/s] 40%|███▉      | 4238/10691 [43:07<53:21,  2.02it/s] 40%|███▉      | 4239/10691 [43:08<53:20,  2.02it/s] 40%|███▉      | 4240/10691 [43:08<53:19,  2.02it/s] 40%|███▉      | 4241/10691 [43:09<53:18,  2.02it/s] 40%|███▉      | 4242/10691 [43:09<53:18,  2.02it/s] 40%|███▉      | 4243/10691 [43:10<53:20,  2.01it/s] 40%|███▉      | 4244/10691 [43:10<53:17,  2.02it/s] 40%|███▉      | 4245/10691 [43:11<53:17,  2.02it/s] 40%|███▉      | 4246/10691 [43:11<53:21,  2.01it/s] 40%|███▉      | 4247/10691 [43:12<53:19,  2.01it/s] 40%|███▉      | 4248/10691 [43:12<53:20,  2.01it/s] 40%|███▉      | 4249/10691 [43:13<53:17,  2.01it/s] 40%|███▉      | 4250/10691 [43:13<53:17,  2.01it/s]                                                    {'loss': 3.1098, 'grad_norm': 0.21412968635559082, 'learning_rate': 0.0007538078663607159, 'epoch': 0.4}
+ 40%|███▉      | 4250/10691 [43:13<53:17,  2.01it/s] 40%|███▉      | 4251/10691 [43:14<53:24,  2.01it/s] 40%|███▉      | 4252/10691 [43:14<53:21,  2.01it/s] 40%|███▉      | 4253/10691 [43:15<53:19,  2.01it/s] 40%|███▉      | 4254/10691 [43:15<53:21,  2.01it/s] 40%|███▉      | 4255/10691 [43:16<53:17,  2.01it/s] 40%|███▉      | 4256/10691 [43:16<53:13,  2.01it/s] 40%|███▉      | 4257/10691 [43:17<53:13,  2.01it/s] 40%|███▉      | 4258/10691 [43:17<53:13,  2.01it/s] 40%|███▉      | 4259/10691 [43:18<53:11,  2.02it/s] 40%|███▉      | 4260/10691 [43:18<53:13,  2.01it/s] 40%|███▉      | 4261/10691 [43:19<53:07,  2.02it/s] 40%|███▉      | 4262/10691 [43:19<53:12,  2.01it/s] 40%|███▉      | 4263/10691 [43:20<53:08,  2.02it/s] 40%|███▉      | 4264/10691 [43:20<53:13,  2.01it/s] 40%|███▉      | 4265/10691 [43:21<53:09,  2.01it/s] 40%|███▉      | 4266/10691 [43:21<53:08,  2.01it/s] 40%|███▉      | 4267/10691 [43:22<53:07,  2.02it/s] 40%|███▉      | 4268/10691 [43:22<53:07,  2.01it/s] 40%|███▉      | 4269/10691 [43:23<53:10,  2.01it/s] 40%|███▉      | 4270/10691 [43:23<53:05,  2.02it/s] 40%|███▉      | 4271/10691 [43:24<53:07,  2.01it/s] 40%|███▉      | 4272/10691 [43:24<53:02,  2.02it/s] 40%|███▉      | 4273/10691 [43:25<53:03,  2.02it/s] 40%|███▉      | 4274/10691 [43:25<53:07,  2.01it/s] 40%|███▉      | 4275/10691 [43:26<53:07,  2.01it/s]                                                    {'loss': 3.115, 'grad_norm': 0.19582544267177582, 'learning_rate': 0.0007502827342202568, 'epoch': 0.4}
+ 40%|███▉      | 4275/10691 [43:26<53:07,  2.01it/s] 40%|███▉      | 4276/10691 [43:26<53:11,  2.01it/s] 40%|████      | 4277/10691 [43:27<53:15,  2.01it/s] 40%|████      | 4278/10691 [43:27<53:07,  2.01it/s] 40%|████      | 4279/10691 [43:28<53:11,  2.01it/s] 40%|████      | 4280/10691 [43:28<53:05,  2.01it/s] 40%|████      | 4281/10691 [43:29<53:00,  2.02it/s] 40%|████      | 4282/10691 [43:29<52:59,  2.02it/s] 40%|████      | 4283/10691 [43:30<52:56,  2.02it/s] 40%|████      | 4284/10691 [43:30<52:54,  2.02it/s] 40%|████      | 4285/10691 [43:31<52:54,  2.02it/s] 40%|████      | 4286/10691 [43:31<52:53,  2.02it/s] 40%|████      | 4287/10691 [43:31<52:54,  2.02it/s] 40%|████      | 4288/10691 [43:32<52:55,  2.02it/s] 40%|████      | 4289/10691 [43:32<52:51,  2.02it/s] 40%|████      | 4290/10691 [43:33<52:54,  2.02it/s] 40%|████      | 4291/10691 [43:33<52:52,  2.02it/s] 40%|████      | 4292/10691 [43:34<52:53,  2.02it/s] 40%|████      | 4293/10691 [43:34<52:56,  2.01it/s] 40%|████      | 4294/10691 [43:35<52:52,  2.02it/s] 40%|████      | 4295/10691 [43:35<52:53,  2.02it/s] 40%|████      | 4296/10691 [43:36<52:50,  2.02it/s] 40%|████      | 4297/10691 [43:36<52:51,  2.02it/s] 40%|████      | 4298/10691 [43:37<52:51,  2.02it/s] 40%|████      | 4299/10691 [43:37<52:53,  2.01it/s] 40%|████      | 4300/10691 [43:38<52:56,  2.01it/s]                                                    {'loss': 3.1136, 'grad_norm': 0.19659638404846191, 'learning_rate': 0.0007467409231641442, 'epoch': 0.4}
+ 40%|████      | 4300/10691 [43:38<52:56,  2.01it/s] 40%|████      | 4301/10691 [43:38<52:51,  2.01it/s] 40%|████      | 4302/10691 [43:39<52:55,  2.01it/s] 40%|████      | 4303/10691 [43:39<52:55,  2.01it/s] 40%|████      | 4304/10691 [43:40<52:51,  2.01it/s] 40%|████      | 4305/10691 [43:40<52:49,  2.01it/s] 40%|████      | 4306/10691 [43:41<52:44,  2.02it/s] 40%|████      | 4307/10691 [43:41<52:49,  2.01it/s] 40%|████      | 4308/10691 [43:42<52:46,  2.02it/s] 40%|████      | 4309/10691 [43:42<52:49,  2.01it/s] 40%|████      | 4310/10691 [43:43<52:49,  2.01it/s] 40%|████      | 4311/10691 [43:43<52:42,  2.02it/s] 40%|████      | 4312/10691 [43:44<52:44,  2.02it/s] 40%|████      | 4313/10691 [43:44<52:42,  2.02it/s] 40%|████      | 4314/10691 [43:45<52:43,  2.02it/s] 40%|████      | 4315/10691 [43:45<52:44,  2.01it/s] 40%|████      | 4316/10691 [43:46<52:44,  2.01it/s] 40%|████      | 4317/10691 [43:46<52:43,  2.01it/s] 40%|████      | 4318/10691 [43:47<52:43,  2.01it/s] 40%|████      | 4319/10691 [43:47<52:42,  2.02it/s] 40%|████      | 4320/10691 [43:48<52:45,  2.01it/s] 40%|████      | 4321/10691 [43:48<52:42,  2.01it/s] 40%|████      | 4322/10691 [43:49<52:43,  2.01it/s] 40%|████      | 4323/10691 [43:49<52:39,  2.02it/s] 40%|████      | 4324/10691 [43:50<52:42,  2.01it/s] 40%|████      | 4325/10691 [43:50<52:41,  2.01it/s]                                                    {'loss': 3.1028, 'grad_norm': 0.21080033481121063, 'learning_rate': 0.0007431826692197178, 'epoch': 0.4}
+ 40%|████      | 4325/10691 [43:50<52:41,  2.01it/s] 40%|████      | 4326/10691 [43:51<52:46,  2.01it/s] 40%|████      | 4327/10691 [43:51<52:43,  2.01it/s] 40%|████      | 4328/10691 [43:52<52:42,  2.01it/s] 40%|████      | 4329/10691 [43:52<52:43,  2.01it/s] 41%|████      | 4330/10691 [43:53<52:40,  2.01it/s] 41%|████      | 4331/10691 [43:53<52:38,  2.01it/s] 41%|████      | 4332/10691 [43:54<52:36,  2.01it/s] 41%|████      | 4333/10691 [43:54<52:38,  2.01it/s] 41%|████      | 4334/10691 [43:55<52:34,  2.02it/s] 41%|████      | 4335/10691 [43:55<52:35,  2.01it/s] 41%|████      | 4336/10691 [43:56<52:29,  2.02it/s] 41%|████      | 4337/10691 [43:56<52:30,  2.02it/s] 41%|████      | 4338/10691 [43:57<52:28,  2.02it/s] 41%|████      | 4339/10691 [43:57<52:30,  2.02it/s] 41%|████      | 4340/10691 [43:58<52:25,  2.02it/s] 41%|████      | 4341/10691 [43:58<52:27,  2.02it/s] 41%|████      | 4342/10691 [43:59<52:27,  2.02it/s] 41%|████      | 4343/10691 [43:59<52:27,  2.02it/s] 41%|████      | 4344/10691 [44:00<52:27,  2.02it/s] 41%|████      | 4345/10691 [44:00<52:26,  2.02it/s] 41%|████      | 4346/10691 [44:01<52:28,  2.02it/s] 41%|████      | 4347/10691 [44:01<52:24,  2.02it/s] 41%|████      | 4348/10691 [44:02<52:26,  2.02it/s] 41%|████      | 4349/10691 [44:02<52:25,  2.02it/s] 41%|████      | 4350/10691 [44:03<52:28,  2.01it/s]                                                    {'loss': 3.1005, 'grad_norm': 0.19459912180900574, 'learning_rate': 0.0007396082095100762, 'epoch': 0.41}
+ 41%|████      | 4350/10691 [44:03<52:28,  2.01it/s] 41%|████      | 4351/10691 [44:03<52:30,  2.01it/s] 41%|████      | 4352/10691 [44:04<52:26,  2.01it/s] 41%|████      | 4353/10691 [44:04<52:26,  2.01it/s] 41%|████      | 4354/10691 [44:05<52:23,  2.02it/s] 41%|████      | 4355/10691 [44:05<52:26,  2.01it/s] 41%|████      | 4356/10691 [44:06<52:21,  2.02it/s] 41%|████      | 4357/10691 [44:06<52:21,  2.02it/s] 41%|████      | 4358/10691 [44:07<52:16,  2.02it/s] 41%|████      | 4359/10691 [44:07<52:22,  2.01it/s] 41%|████      | 4360/10691 [44:08<52:26,  2.01it/s] 41%|████      | 4361/10691 [44:08<52:21,  2.02it/s] 41%|████      | 4362/10691 [44:09<52:24,  2.01it/s] 41%|████      | 4363/10691 [44:09<52:21,  2.01it/s] 41%|████      | 4364/10691 [44:10<52:18,  2.02it/s] 41%|████      | 4365/10691 [44:10<52:18,  2.02it/s] 41%|████      | 4366/10691 [44:11<52:17,  2.02it/s] 41%|████      | 4367/10691 [44:11<52:17,  2.02it/s] 41%|████      | 4368/10691 [44:12<52:19,  2.01it/s] 41%|████      | 4369/10691 [44:12<52:18,  2.01it/s] 41%|████      | 4370/10691 [44:13<52:12,  2.02it/s] 41%|████      | 4371/10691 [44:13<52:13,  2.02it/s] 41%|████      | 4372/10691 [44:14<52:13,  2.02it/s] 41%|████      | 4373/10691 [44:14<52:11,  2.02it/s] 41%|████      | 4374/10691 [44:15<52:13,  2.02it/s] 41%|████      | 4375/10691 [44:15<52:12,  2.02it/s]                                                    {'loss': 3.1087, 'grad_norm': 0.1987413913011551, 'learning_rate': 0.0007360177822382744, 'epoch': 0.41}
+ 41%|████      | 4375/10691 [44:15<52:12,  2.02it/s] 41%|████      | 4376/10691 [44:16<52:20,  2.01it/s] 41%|████      | 4377/10691 [44:16<52:19,  2.01it/s] 41%|████      | 4378/10691 [44:17<52:13,  2.01it/s] 41%|████      | 4379/10691 [44:17<52:15,  2.01it/s] 41%|████      | 4380/10691 [44:18<52:13,  2.01it/s] 41%|████      | 4381/10691 [44:18<52:12,  2.01it/s] 41%|████      | 4382/10691 [44:19<52:12,  2.01it/s] 41%|████      | 4383/10691 [44:19<52:12,  2.01it/s] 41%|████      | 4384/10691 [44:20<52:10,  2.01it/s] 41%|████      | 4385/10691 [44:20<52:11,  2.01it/s] 41%|████      | 4386/10691 [44:21<52:11,  2.01it/s] 41%|████      | 4387/10691 [44:21<52:07,  2.02it/s] 41%|████      | 4388/10691 [44:22<52:09,  2.01it/s] 41%|████      | 4389/10691 [44:22<52:10,  2.01it/s] 41%|████      | 4390/10691 [44:23<52:08,  2.01it/s] 41%|████      | 4391/10691 [44:23<52:09,  2.01it/s] 41%|████      | 4392/10691 [44:24<52:04,  2.02it/s] 41%|████      | 4393/10691 [44:24<52:06,  2.01it/s] 41%|████      | 4394/10691 [44:25<52:06,  2.01it/s] 41%|████      | 4395/10691 [44:25<52:08,  2.01it/s] 41%|████      | 4396/10691 [44:26<52:07,  2.01it/s] 41%|████      | 4397/10691 [44:26<52:04,  2.01it/s] 41%|████      | 4398/10691 [44:27<52:01,  2.02it/s] 41%|████      | 4399/10691 [44:27<52:04,  2.01it/s] 41%|████      | 4400/10691 [44:28<52:00,  2.02it/s]                                                    {'loss': 3.0999, 'grad_norm': 0.2187204658985138, 'learning_rate': 0.0007324116266714513, 'epoch': 0.41}
+ 41%|████      | 4400/10691 [44:28<52:00,  2.02it/s] 41%|████      | 4401/10691 [44:28<52:03,  2.01it/s] 41%|████      | 4402/10691 [44:29<52:06,  2.01it/s] 41%|████      | 4403/10691 [44:29<52:01,  2.01it/s] 41%|████      | 4404/10691 [44:30<52:03,  2.01it/s] 41%|████      | 4405/10691 [44:30<51:59,  2.02it/s] 41%|████      | 4406/10691 [44:31<51:59,  2.01it/s] 41%|████      | 4407/10691 [44:31<52:01,  2.01it/s] 41%|████      | 4408/10691 [44:32<51:56,  2.02it/s] 41%|████      | 4409/10691 [44:32<52:01,  2.01it/s] 41%|████      | 4410/10691 [44:33<51:56,  2.02it/s] 41%|████▏     | 4411/10691 [44:33<51:55,  2.02it/s] 41%|████▏     | 4412/10691 [44:34<51:53,  2.02it/s] 41%|████▏     | 4413/10691 [44:34<51:51,  2.02it/s] 41%|████▏     | 4414/10691 [44:35<51:54,  2.02it/s] 41%|████▏     | 4415/10691 [44:35<51:52,  2.02it/s] 41%|████▏     | 4416/10691 [44:36<51:55,  2.01it/s] 41%|████▏     | 4417/10691 [44:36<51:50,  2.02it/s] 41%|████▏     | 4418/10691 [44:37<51:53,  2.01it/s] 41%|████▏     | 4419/10691 [44:37<51:56,  2.01it/s] 41%|████▏     | 4420/10691 [44:38<51:52,  2.01it/s] 41%|████▏     | 4421/10691 [44:38<51:55,  2.01it/s] 41%|████▏     | 4422/10691 [44:39<51:49,  2.02it/s] 41%|████▏     | 4423/10691 [44:39<51:50,  2.02it/s] 41%|████▏     | 4424/10691 [44:39<51:53,  2.01it/s] 41%|████▏     | 4425/10691 [44:40<51:52,  2.01it/s]                                                    {'loss': 3.0939, 'grad_norm': 0.19967512786388397, 'learning_rate': 0.000728789983124883, 'epoch': 0.41}
+ 41%|████▏     | 4425/10691 [44:40<51:52,  2.01it/s] 41%|████▏     | 4426/10691 [44:40<51:55,  2.01it/s] 41%|████▏     | 4427/10691 [44:41<51:49,  2.01it/s] 41%|████▏     | 4428/10691 [44:41<51:49,  2.01it/s] 41%|████▏     | 4429/10691 [44:42<51:48,  2.01it/s] 41%|████▏     | 4430/10691 [44:42<51:49,  2.01it/s] 41%|████▏     | 4431/10691 [44:43<51:45,  2.02it/s] 41%|████▏     | 4432/10691 [44:43<51:46,  2.01it/s] 41%|████▏     | 4433/10691 [44:44<51:44,  2.02it/s] 41%|████▏     | 4434/10691 [44:44<51:44,  2.02it/s] 41%|████▏     | 4435/10691 [44:45<51:46,  2.01it/s] 41%|████▏     | 4436/10691 [44:45<51:47,  2.01it/s] 42%|████▏     | 4437/10691 [44:46<51:47,  2.01it/s] 42%|████▏     | 4438/10691 [44:46<51:44,  2.01it/s] 42%|████▏     | 4439/10691 [44:47<51:43,  2.01it/s] 42%|████▏     | 4440/10691 [44:47<51:42,  2.01it/s] 42%|████▏     | 4441/10691 [44:48<51:41,  2.02it/s] 42%|████▏     | 4442/10691 [44:48<51:42,  2.01it/s] 42%|████▏     | 4443/10691 [44:49<51:38,  2.02it/s] 42%|████▏     | 4444/10691 [44:49<51:41,  2.01it/s] 42%|████▏     | 4445/10691 [44:50<51:35,  2.02it/s] 42%|████▏     | 4446/10691 [44:50<51:39,  2.02it/s] 42%|████▏     | 4447/10691 [44:51<51:37,  2.02it/s] 42%|████▏     | 4448/10691 [44:51<51:36,  2.02it/s] 42%|████▏     | 4449/10691 [44:52<51:36,  2.02it/s] 42%|████▏     | 4450/10691 [44:52<51:32,  2.02it/s]                                                    {'loss': 3.0898, 'grad_norm': 0.19530920684337616, 'learning_rate': 0.0007251530929459704, 'epoch': 0.42}
+ 42%|████▏     | 4450/10691 [44:52<51:32,  2.02it/s] 42%|████▏     | 4451/10691 [44:53<51:34,  2.02it/s] 42%|████▏     | 4452/10691 [44:53<51:36,  2.01it/s] 42%|████▏     | 4453/10691 [44:54<51:35,  2.02it/s] 42%|████▏     | 4454/10691 [44:54<51:33,  2.02it/s] 42%|████▏     | 4455/10691 [44:55<51:35,  2.01it/s] 42%|████▏     | 4456/10691 [44:55<51:33,  2.02it/s] 42%|████▏     | 4457/10691 [44:56<51:31,  2.02it/s] 42%|████▏     | 4458/10691 [44:56<51:29,  2.02it/s] 42%|████▏     | 4459/10691 [44:57<51:29,  2.02it/s] 42%|████▏     | 4460/10691 [44:57<51:29,  2.02it/s] 42%|████▏     | 4461/10691 [44:58<51:27,  2.02it/s] 42%|████▏     | 4462/10691 [44:58<51:29,  2.02it/s] 42%|████▏     | 4463/10691 [44:59<51:30,  2.02it/s] 42%|████▏     | 4464/10691 [44:59<51:31,  2.01it/s] 42%|████▏     | 4465/10691 [45:00<51:32,  2.01it/s] 42%|████▏     | 4466/10691 [45:00<51:29,  2.01it/s] 42%|████▏     | 4467/10691 [45:01<51:29,  2.01it/s] 42%|████▏     | 4468/10691 [45:01<51:23,  2.02it/s] 42%|████▏     | 4469/10691 [45:02<51:25,  2.02it/s] 42%|████▏     | 4470/10691 [45:02<51:23,  2.02it/s] 42%|████▏     | 4471/10691 [45:03<51:24,  2.02it/s] 42%|████▏     | 4472/10691 [45:03<51:20,  2.02it/s] 42%|████▏     | 4473/10691 [45:04<51:21,  2.02it/s] 42%|████▏     | 4474/10691 [45:04<51:26,  2.01it/s] 42%|████▏     | 4475/10691 [45:05<51:28,  2.01it/s]                                                    {'loss': 3.0949, 'grad_norm': 0.19827759265899658, 'learning_rate': 0.0007215011984981535, 'epoch': 0.42}
+ 42%|████▏     | 4475/10691 [45:05<51:28,  2.01it/s] 42%|████▏     | 4476/10691 [45:05<51:28,  2.01it/s] 42%|████▏     | 4477/10691 [45:06<51:32,  2.01it/s] 42%|████▏     | 4478/10691 [45:06<51:30,  2.01it/s] 42%|████▏     | 4479/10691 [45:07<51:27,  2.01it/s] 42%|████▏     | 4480/10691 [45:07<51:26,  2.01it/s] 42%|████▏     | 4481/10691 [45:08<51:23,  2.01it/s] 42%|████▏     | 4482/10691 [45:08<51:22,  2.01it/s] 42%|████▏     | 4483/10691 [45:09<51:23,  2.01it/s] 42%|████▏     | 4484/10691 [45:09<51:25,  2.01it/s] 42%|████▏     | 4485/10691 [45:10<51:23,  2.01it/s] 42%|████▏     | 4486/10691 [45:10<51:19,  2.01it/s] 42%|████▏     | 4487/10691 [45:11<51:20,  2.01it/s] 42%|████▏     | 4488/10691 [45:11<51:17,  2.02it/s] 42%|████▏     | 4489/10691 [45:12<51:21,  2.01it/s] 42%|████▏     | 4490/10691 [45:12<51:24,  2.01it/s] 42%|████▏     | 4491/10691 [45:13<51:18,  2.01it/s] 42%|████▏     | 4492/10691 [45:13<51:16,  2.01it/s] 42%|████▏     | 4493/10691 [45:14<51:11,  2.02it/s] 42%|████▏     | 4494/10691 [45:14<51:14,  2.02it/s] 42%|████▏     | 4495/10691 [45:15<51:11,  2.02it/s] 42%|████▏     | 4496/10691 [45:15<51:14,  2.01it/s] 42%|████▏     | 4497/10691 [45:16<51:15,  2.01it/s] 42%|████▏     | 4498/10691 [45:16<51:10,  2.02it/s] 42%|████▏     | 4499/10691 [45:17<51:10,  2.02it/s] 42%|████▏     | 4500/10691 [45:17<51:07,  2.02it/s]                                                    {'loss': 3.0872, 'grad_norm': 0.20191313326358795, 'learning_rate': 0.0007178345431447619, 'epoch': 0.42}
+ 42%|████▏     | 4500/10691 [45:17<51:07,  2.02it/s] 42%|████▏     | 4501/10691 [45:18<51:16,  2.01it/s] 42%|████▏     | 4502/10691 [45:18<51:13,  2.01it/s] 42%|████▏     | 4503/10691 [45:19<51:11,  2.01it/s] 42%|████▏     | 4504/10691 [45:19<51:10,  2.01it/s] 42%|████▏     | 4505/10691 [45:20<51:08,  2.02it/s] 42%|████▏     | 4506/10691 [45:20<51:13,  2.01it/s] 42%|████▏     | 4507/10691 [45:21<51:08,  2.02it/s] 42%|████▏     | 4508/10691 [45:21<51:08,  2.02it/s] 42%|████▏     | 4509/10691 [45:22<51:07,  2.02it/s] 42%|████▏     | 4510/10691 [45:22<51:05,  2.02it/s] 42%|████▏     | 4511/10691 [45:23<51:05,  2.02it/s] 42%|████▏     | 4512/10691 [45:23<51:03,  2.02it/s] 42%|████▏     | 4513/10691 [45:24<51:08,  2.01it/s] 42%|████▏     | 4514/10691 [45:24<51:05,  2.02it/s] 42%|████▏     | 4515/10691 [45:25<51:05,  2.01it/s] 42%|████▏     | 4516/10691 [45:25<51:01,  2.02it/s] 42%|████▏     | 4517/10691 [45:26<51:05,  2.01it/s] 42%|████▏     | 4518/10691 [45:26<51:02,  2.02it/s] 42%|████▏     | 4519/10691 [45:27<51:00,  2.02it/s] 42%|████▏     | 4520/10691 [45:27<50:59,  2.02it/s] 42%|████▏     | 4521/10691 [45:28<50:59,  2.02it/s] 42%|████▏     | 4522/10691 [45:28<50:55,  2.02it/s] 42%|████▏     | 4523/10691 [45:29<50:59,  2.02it/s] 42%|████▏     | 4524/10691 [45:29<50:59,  2.02it/s] 42%|████▏     | 4525/10691 [45:30<51:00,  2.01it/s]                                                    {'loss': 3.0857, 'grad_norm': 0.20569755136966705, 'learning_rate': 0.0007141533712327956, 'epoch': 0.42}
+ 42%|████▏     | 4525/10691 [45:30<51:00,  2.01it/s] 42%|████▏     | 4526/10691 [45:30<51:03,  2.01it/s] 42%|████▏     | 4527/10691 [45:31<51:03,  2.01it/s] 42%|████▏     | 4528/10691 [45:31<51:02,  2.01it/s] 42%|████▏     | 4529/10691 [45:32<51:00,  2.01it/s] 42%|████▏     | 4530/10691 [45:32<50:58,  2.01it/s] 42%|████▏     | 4531/10691 [45:33<50:55,  2.02it/s] 42%|████▏     | 4532/10691 [45:33<50:57,  2.01it/s] 42%|████▏     | 4533/10691 [45:34<50:56,  2.01it/s] 42%|████▏     | 4534/10691 [45:34<50:56,  2.01it/s] 42%|████▏     | 4535/10691 [45:35<50:53,  2.02it/s] 42%|████▏     | 4536/10691 [45:35<50:51,  2.02it/s] 42%|████▏     | 4537/10691 [45:36<50:47,  2.02it/s] 42%|████▏     | 4538/10691 [45:36<50:53,  2.01it/s] 42%|████▏     | 4539/10691 [45:37<50:57,  2.01it/s] 42%|████▏     | 4540/10691 [45:37<50:50,  2.02it/s] 42%|████▏     | 4541/10691 [45:38<50:50,  2.02it/s] 42%|████▏     | 4542/10691 [45:38<50:47,  2.02it/s] 42%|████▏     | 4543/10691 [45:39<50:48,  2.02it/s] 43%|████▎     | 4544/10691 [45:39<50:44,  2.02it/s] 43%|████▎     | 4545/10691 [45:40<50:44,  2.02it/s] 43%|████▎     | 4546/10691 [45:40<50:41,  2.02it/s] 43%|████▎     | 4547/10691 [45:41<50:43,  2.02it/s] 43%|████▎     | 4548/10691 [45:41<50:43,  2.02it/s] 43%|████▎     | 4549/10691 [45:42<50:43,  2.02it/s] 43%|████▎     | 4550/10691 [45:42<50:46,  2.02it/s]                                                    {'loss': 3.0852, 'grad_norm': 0.20000435411930084, 'learning_rate': 0.0007104579280766435, 'epoch': 0.43}
+ 43%|████▎     | 4550/10691 [45:42<50:46,  2.02it/s] 43%|████▎     | 4551/10691 [45:43<50:45,  2.02it/s] 43%|████▎     | 4552/10691 [45:43<50:46,  2.02it/s] 43%|████▎     | 4553/10691 [45:44<50:43,  2.02it/s] 43%|████▎     | 4554/10691 [45:44<50:43,  2.02it/s] 43%|████▎     | 4555/10691 [45:44<50:40,  2.02it/s] 43%|████▎     | 4556/10691 [45:45<50:41,  2.02it/s] 43%|████▎     | 4557/10691 [45:45<50:42,  2.02it/s] 43%|████▎     | 4558/10691 [45:46<50:39,  2.02it/s] 43%|████▎     | 4559/10691 [45:46<50:40,  2.02it/s] 43%|████▎     | 4560/10691 [45:47<50:39,  2.02it/s] 43%|████▎     | 4561/10691 [45:47<50:39,  2.02it/s] 43%|████▎     | 4562/10691 [45:48<50:35,  2.02it/s] 43%|████▎     | 4563/10691 [45:48<50:35,  2.02it/s] 43%|████▎     | 4564/10691 [45:49<50:37,  2.02it/s] 43%|████▎     | 4565/10691 [45:49<50:37,  2.02it/s] 43%|████▎     | 4566/10691 [45:50<50:40,  2.01it/s] 43%|████▎     | 4567/10691 [45:50<50:37,  2.02it/s] 43%|████▎     | 4568/10691 [45:51<50:39,  2.01it/s] 43%|████▎     | 4569/10691 [45:51<50:36,  2.02it/s] 43%|████▎     | 4570/10691 [45:52<50:34,  2.02it/s] 43%|████▎     | 4571/10691 [45:52<50:34,  2.02it/s] 43%|████▎     | 4572/10691 [45:53<59:27,  1.72it/s] 43%|████▎     | 4573/10691 [45:54<56:44,  1.80it/s] 43%|████▎     | 4574/10691 [45:54<54:58,  1.85it/s] 43%|████▎     | 4575/10691 [45:55<53:40,  1.90it/s]                                                    {'loss': 3.0862, 'grad_norm': 0.2037861943244934, 'learning_rate': 0.000706748459941733, 'epoch': 0.43}
+ 43%|████▎     | 4575/10691 [45:55<53:40,  1.90it/s] 43%|████▎     | 4576/10691 [45:55<52:42,  1.93it/s] 43%|████▎     | 4577/10691 [45:56<52:02,  1.96it/s] 43%|████▎     | 4578/10691 [45:56<51:33,  1.98it/s] 43%|████▎     | 4579/10691 [45:57<51:18,  1.99it/s] 43%|████▎     | 4580/10691 [45:57<51:02,  2.00it/s] 43%|████▎     | 4581/10691 [45:58<50:50,  2.00it/s] 43%|████▎     | 4582/10691 [45:58<50:42,  2.01it/s] 43%|████▎     | 4583/10691 [45:59<50:34,  2.01it/s] 43%|████▎     | 4584/10691 [45:59<50:34,  2.01it/s] 43%|████▎     | 4585/10691 [46:00<50:30,  2.02it/s] 43%|████▎     | 4586/10691 [46:00<50:31,  2.01it/s] 43%|████▎     | 4587/10691 [46:01<50:31,  2.01it/s] 43%|████▎     | 4588/10691 [46:01<50:30,  2.01it/s] 43%|████▎     | 4589/10691 [46:02<50:28,  2.01it/s] 43%|████▎     | 4590/10691 [46:02<50:30,  2.01it/s] 43%|████▎     | 4591/10691 [46:03<58:39,  1.73it/s] 43%|████▎     | 4592/10691 [46:03<56:07,  1.81it/s] 43%|████▎     | 4593/10691 [46:04<54:25,  1.87it/s] 43%|████▎     | 4594/10691 [46:04<53:06,  1.91it/s] 43%|████▎     | 4595/10691 [46:05<52:21,  1.94it/s] 43%|████▎     | 4596/10691 [46:05<51:44,  1.96it/s] 43%|████▎     | 4597/10691 [46:06<51:19,  1.98it/s] 43%|████▎     | 4598/10691 [46:06<51:05,  1.99it/s] 43%|████▎     | 4599/10691 [46:07<50:52,  2.00it/s] 43%|████▎     | 4600/10691 [46:07<50:45,  2.00it/s]                                                    {'loss': 3.0814, 'grad_norm': 0.19594445824623108, 'learning_rate': 0.0007030252140281214, 'epoch': 0.43}
+ 43%|████▎     | 4600/10691 [46:07<50:45,  2.00it/s] 43%|████▎     | 4601/10691 [46:08<50:39,  2.00it/s] 43%|████▎     | 4602/10691 [46:08<50:31,  2.01it/s] 43%|████▎     | 4603/10691 [46:09<50:31,  2.01it/s] 43%|████▎     | 4604/10691 [46:09<50:24,  2.01it/s] 43%|████▎     | 4605/10691 [46:10<50:21,  2.01it/s] 43%|████▎     | 4606/10691 [46:10<50:21,  2.01it/s] 43%|████▎     | 4607/10691 [46:11<50:16,  2.02it/s] 43%|████▎     | 4608/10691 [46:11<50:21,  2.01it/s] 43%|████▎     | 4609/10691 [46:12<50:16,  2.02it/s] 43%|████▎     | 4610/10691 [46:12<50:16,  2.02it/s] 43%|████▎     | 4611/10691 [46:13<50:12,  2.02it/s] 43%|████▎     | 4612/10691 [46:13<50:14,  2.02it/s] 43%|████▎     | 4613/10691 [46:14<50:13,  2.02it/s] 43%|████▎     | 4614/10691 [46:14<50:13,  2.02it/s] 43%|████▎     | 4615/10691 [46:15<50:12,  2.02it/s] 43%|████▎     | 4616/10691 [46:15<50:14,  2.02it/s] 43%|████▎     | 4617/10691 [46:16<50:16,  2.01it/s] 43%|████▎     | 4618/10691 [46:16<50:15,  2.01it/s] 43%|████▎     | 4619/10691 [46:17<50:12,  2.02it/s] 43%|████▎     | 4620/10691 [46:17<50:07,  2.02it/s] 43%|████▎     | 4621/10691 [46:18<50:08,  2.02it/s] 43%|████▎     | 4622/10691 [46:18<50:08,  2.02it/s] 43%|████▎     | 4623/10691 [46:19<50:11,  2.02it/s] 43%|████▎     | 4624/10691 [46:19<50:12,  2.01it/s] 43%|████▎     | 4625/10691 [46:20<50:09,  2.02it/s]                                                    {'loss': 3.0746, 'grad_norm': 0.20041830837726593, 'learning_rate': 0.000699288438454021, 'epoch': 0.43}
+ 43%|████▎     | 4625/10691 [46:20<50:09,  2.02it/s] 43%|████▎     | 4626/10691 [46:20<50:13,  2.01it/s] 43%|████▎     | 4627/10691 [46:21<50:10,  2.01it/s] 43%|████▎     | 4628/10691 [46:21<50:09,  2.01it/s] 43%|████▎     | 4629/10691 [46:22<50:11,  2.01it/s] 43%|████▎     | 4630/10691 [46:22<50:09,  2.01it/s] 43%|████▎     | 4631/10691 [46:23<50:13,  2.01it/s] 43%|████▎     | 4632/10691 [46:23<50:07,  2.01it/s] 43%|████▎     | 4633/10691 [46:24<50:07,  2.01it/s] 43%|████▎     | 4634/10691 [46:24<50:06,  2.01it/s] 43%|████▎     | 4635/10691 [46:25<50:02,  2.02it/s] 43%|████▎     | 4636/10691 [46:25<50:00,  2.02it/s] 43%|████▎     | 4637/10691 [46:26<50:01,  2.02it/s] 43%|████▎     | 4638/10691 [46:26<50:01,  2.02it/s] 43%|████▎     | 4639/10691 [46:27<49:57,  2.02it/s] 43%|████▎     | 4640/10691 [46:27<50:01,  2.02it/s] 43%|████▎     | 4641/10691 [46:28<50:02,  2.01it/s] 43%|████▎     | 4642/10691 [46:28<50:02,  2.01it/s] 43%|████▎     | 4643/10691 [46:29<50:03,  2.01it/s] 43%|████▎     | 4644/10691 [46:29<49:59,  2.02it/s] 43%|████▎     | 4645/10691 [46:30<50:04,  2.01it/s] 43%|████▎     | 4646/10691 [46:30<50:00,  2.01it/s] 43%|████▎     | 4647/10691 [46:31<50:00,  2.01it/s] 43%|████▎     | 4648/10691 [46:31<50:00,  2.01it/s] 43%|████▎     | 4649/10691 [46:32<49:58,  2.01it/s] 43%|████▎     | 4650/10691 [46:32<49:59,  2.01it/s]                                                    {'loss': 3.0783, 'grad_norm': 0.20968949794769287, 'learning_rate': 0.0006955383822392642, 'epoch': 0.43}
+ 43%|████▎     | 4650/10691 [46:32<49:59,  2.01it/s] 44%|████▎     | 4651/10691 [46:33<50:00,  2.01it/s] 44%|████▎     | 4652/10691 [46:33<49:56,  2.02it/s] 44%|████▎     | 4653/10691 [46:34<49:58,  2.01it/s] 44%|████▎     | 4654/10691 [46:34<50:03,  2.01it/s] 44%|████▎     | 4655/10691 [46:35<49:59,  2.01it/s] 44%|████▎     | 4656/10691 [46:35<50:00,  2.01it/s] 44%|████▎     | 4657/10691 [46:36<50:00,  2.01it/s] 44%|████▎     | 4658/10691 [46:36<49:57,  2.01it/s] 44%|████▎     | 4659/10691 [46:37<49:55,  2.01it/s] 44%|████▎     | 4660/10691 [46:37<49:56,  2.01it/s] 44%|████▎     | 4661/10691 [46:38<49:51,  2.02it/s] 44%|████▎     | 4662/10691 [46:38<49:52,  2.01it/s] 44%|████▎     | 4663/10691 [46:39<49:49,  2.02it/s] 44%|████▎     | 4664/10691 [46:39<49:52,  2.01it/s] 44%|████▎     | 4665/10691 [46:40<49:48,  2.02it/s] 44%|████▎     | 4666/10691 [46:40<49:48,  2.02it/s] 44%|████▎     | 4667/10691 [46:41<49:52,  2.01it/s] 44%|████▎     | 4668/10691 [46:41<49:48,  2.02it/s] 44%|████▎     | 4669/10691 [46:42<49:48,  2.02it/s] 44%|████▎     | 4670/10691 [46:42<49:46,  2.02it/s] 44%|████▎     | 4671/10691 [46:43<49:50,  2.01it/s] 44%|████▎     | 4672/10691 [46:43<49:49,  2.01it/s] 44%|████▎     | 4673/10691 [46:44<49:48,  2.01it/s] 44%|████▎     | 4674/10691 [46:44<49:52,  2.01it/s] 44%|████▎     | 4675/10691 [46:45<49:49,  2.01it/s]                                                    {'loss': 3.092, 'grad_norm': 0.20829260349273682, 'learning_rate': 0.0006917752952887099, 'epoch': 0.44}
+ 44%|████▎     | 4675/10691 [46:45<49:49,  2.01it/s] 44%|████▎     | 4676/10691 [46:45<49:50,  2.01it/s] 44%|████▎     | 4677/10691 [46:46<49:51,  2.01it/s] 44%|████▍     | 4678/10691 [46:46<49:48,  2.01it/s] 44%|████▍     | 4679/10691 [46:47<49:47,  2.01it/s] 44%|████▍     | 4680/10691 [46:47<49:44,  2.01it/s] 44%|████▍     | 4681/10691 [46:48<49:45,  2.01it/s] 44%|████▍     | 4682/10691 [46:48<49:47,  2.01it/s] 44%|████▍     | 4683/10691 [46:49<49:42,  2.01it/s] 44%|████▍     | 4684/10691 [46:49<49:40,  2.02it/s] 44%|████▍     | 4685/10691 [46:50<49:38,  2.02it/s] 44%|████▍     | 4686/10691 [46:50<49:38,  2.02it/s] 44%|████▍     | 4687/10691 [46:51<49:38,  2.02it/s] 44%|████▍     | 4688/10691 [46:51<49:39,  2.02it/s] 44%|████▍     | 4689/10691 [46:52<49:37,  2.02it/s] 44%|████▍     | 4690/10691 [46:52<49:35,  2.02it/s] 44%|████▍     | 4691/10691 [46:53<49:38,  2.01it/s] 44%|████▍     | 4692/10691 [46:53<49:36,  2.02it/s] 44%|████▍     | 4693/10691 [46:54<49:35,  2.02it/s] 44%|████▍     | 4694/10691 [46:54<49:32,  2.02it/s] 44%|████▍     | 4695/10691 [46:55<49:33,  2.02it/s] 44%|████▍     | 4696/10691 [46:55<49:35,  2.02it/s] 44%|████▍     | 4697/10691 [46:56<49:33,  2.02it/s] 44%|████▍     | 4698/10691 [46:56<49:32,  2.02it/s] 44%|████▍     | 4699/10691 [46:57<49:30,  2.02it/s] 44%|████▍     | 4700/10691 [46:57<49:32,  2.02it/s]                                                    {'loss': 3.0792, 'grad_norm': 0.19631117582321167, 'learning_rate': 0.0006879994283755885, 'epoch': 0.44}
+ 44%|████▍     | 4700/10691 [46:57<49:32,  2.02it/s] 44%|████▍     | 4701/10691 [46:58<49:34,  2.01it/s] 44%|████▍     | 4702/10691 [46:58<49:34,  2.01it/s] 44%|████▍     | 4703/10691 [46:58<49:31,  2.02it/s] 44%|████▍     | 4704/10691 [46:59<49:29,  2.02it/s] 44%|████▍     | 4705/10691 [46:59<49:31,  2.01it/s] 44%|████▍     | 4706/10691 [47:00<49:27,  2.02it/s] 44%|████▍     | 4707/10691 [47:00<49:29,  2.02it/s] 44%|████▍     | 4708/10691 [47:01<49:29,  2.01it/s] 44%|████▍     | 4709/10691 [47:01<49:27,  2.02it/s] 44%|████▍     | 4710/10691 [47:02<49:31,  2.01it/s] 44%|████▍     | 4711/10691 [47:02<49:29,  2.01it/s] 44%|████▍     | 4712/10691 [47:03<49:29,  2.01it/s] 44%|████▍     | 4713/10691 [47:03<49:27,  2.01it/s] 44%|████▍     | 4714/10691 [47:04<49:26,  2.01it/s] 44%|████▍     | 4715/10691 [47:04<49:27,  2.01it/s] 44%|████▍     | 4716/10691 [47:05<49:22,  2.02it/s] 44%|████▍     | 4717/10691 [47:05<49:22,  2.02it/s] 44%|████▍     | 4718/10691 [47:06<49:18,  2.02it/s] 44%|████▍     | 4719/10691 [47:06<49:18,  2.02it/s] 44%|████▍     | 4720/10691 [47:07<49:19,  2.02it/s] 44%|████▍     | 4721/10691 [47:07<49:17,  2.02it/s] 44%|████▍     | 4722/10691 [47:08<49:16,  2.02it/s] 44%|████▍     | 4723/10691 [47:08<49:16,  2.02it/s] 44%|████▍     | 4724/10691 [47:09<49:18,  2.02it/s] 44%|████▍     | 4725/10691 [47:09<49:16,  2.02it/s]                                                    {'loss': 3.0768, 'grad_norm': 0.20916235446929932, 'learning_rate': 0.0006842110331247914, 'epoch': 0.44}
+ 44%|████▍     | 4725/10691 [47:09<49:16,  2.02it/s] 44%|████▍     | 4726/10691 [47:10<49:18,  2.02it/s] 44%|████▍     | 4727/10691 [47:10<49:14,  2.02it/s] 44%|████▍     | 4728/10691 [47:11<49:13,  2.02it/s] 44%|████▍     | 4729/10691 [47:11<49:12,  2.02it/s] 44%|████▍     | 4730/10691 [47:12<49:14,  2.02it/s] 44%|████▍     | 4731/10691 [47:12<49:17,  2.02it/s] 44%|████▍     | 4732/10691 [47:13<49:14,  2.02it/s] 44%|████▍     | 4733/10691 [47:13<49:15,  2.02it/s] 44%|████▍     | 4734/10691 [47:14<49:12,  2.02it/s] 44%|████▍     | 4735/10691 [47:14<49:16,  2.01it/s] 44%|████▍     | 4736/10691 [47:15<49:08,  2.02it/s] 44%|████▍     | 4737/10691 [47:15<49:10,  2.02it/s] 44%|████▍     | 4738/10691 [47:16<49:10,  2.02it/s] 44%|████▍     | 4739/10691 [47:16<49:09,  2.02it/s] 44%|████▍     | 4740/10691 [47:17<49:09,  2.02it/s] 44%|████▍     | 4741/10691 [47:17<49:11,  2.02it/s] 44%|████▍     | 4742/10691 [47:18<49:12,  2.01it/s] 44%|████▍     | 4743/10691 [47:18<49:07,  2.02it/s] 44%|████▍     | 4744/10691 [47:19<49:06,  2.02it/s] 44%|████▍     | 4745/10691 [47:19<49:05,  2.02it/s] 44%|████▍     | 4746/10691 [47:20<49:08,  2.02it/s] 44%|████▍     | 4747/10691 [47:20<49:06,  2.02it/s] 44%|████▍     | 4748/10691 [47:21<49:04,  2.02it/s] 44%|████▍     | 4749/10691 [47:21<49:03,  2.02it/s] 44%|████▍     | 4750/10691 [47:22<49:04,  2.02it/s]                                                    {'loss': 3.0651, 'grad_norm': 0.2019275575876236, 'learning_rate': 0.0006804103619961017, 'epoch': 0.44}
+ 44%|████▍     | 4750/10691 [47:22<49:04,  2.02it/s] 44%|████▍     | 4751/10691 [47:22<49:09,  2.01it/s] 44%|████▍     | 4752/10691 [47:23<49:07,  2.01it/s] 44%|████▍     | 4753/10691 [47:23<49:06,  2.02it/s] 44%|████▍     | 4754/10691 [47:24<49:04,  2.02it/s] 44%|████▍     | 4755/10691 [47:24<49:04,  2.02it/s] 44%|████▍     | 4756/10691 [47:25<49:03,  2.02it/s] 44%|████▍     | 4757/10691 [47:25<49:08,  2.01it/s] 45%|████▍     | 4758/10691 [47:26<49:02,  2.02it/s] 45%|████▍     | 4759/10691 [47:26<49:03,  2.02it/s] 45%|████▍     | 4760/10691 [47:27<49:04,  2.01it/s] 45%|████▍     | 4761/10691 [47:27<49:02,  2.02it/s] 45%|████▍     | 4762/10691 [47:28<49:01,  2.02it/s] 45%|████▍     | 4763/10691 [47:28<49:02,  2.01it/s] 45%|████▍     | 4764/10691 [47:29<49:02,  2.01it/s] 45%|████▍     | 4765/10691 [47:29<49:00,  2.02it/s] 45%|████▍     | 4766/10691 [47:30<48:58,  2.02it/s] 45%|████▍     | 4767/10691 [47:30<48:59,  2.02it/s] 45%|████▍     | 4768/10691 [47:31<48:58,  2.02it/s] 45%|████▍     | 4769/10691 [47:31<48:58,  2.02it/s] 45%|████▍     | 4770/10691 [47:32<48:56,  2.02it/s] 45%|████▍     | 4771/10691 [47:32<48:55,  2.02it/s] 45%|████▍     | 4772/10691 [47:33<48:58,  2.01it/s] 45%|████▍     | 4773/10691 [47:33<49:00,  2.01it/s] 45%|████▍     | 4774/10691 [47:34<49:01,  2.01it/s] 45%|████▍     | 4775/10691 [47:34<48:58,  2.01it/s]                                                    {'loss': 3.0736, 'grad_norm': 0.20435738563537598, 'learning_rate': 0.000676597668267371, 'epoch': 0.45}
+ 45%|████▍     | 4775/10691 [47:34<48:58,  2.01it/s] 45%|████▍     | 4776/10691 [47:35<49:04,  2.01it/s] 45%|████▍     | 4777/10691 [47:35<48:57,  2.01it/s] 45%|████▍     | 4778/10691 [47:36<48:57,  2.01it/s] 45%|████▍     | 4779/10691 [47:36<48:55,  2.01it/s] 45%|████▍     | 4780/10691 [47:37<48:54,  2.01it/s] 45%|████▍     | 4781/10691 [47:37<48:51,  2.02it/s] 45%|████▍     | 4782/10691 [47:38<48:51,  2.02it/s] 45%|████▍     | 4783/10691 [47:38<48:52,  2.01it/s] 45%|████▍     | 4784/10691 [47:39<48:52,  2.01it/s] 45%|████▍     | 4785/10691 [47:39<48:54,  2.01it/s] 45%|████▍     | 4786/10691 [47:40<48:53,  2.01it/s] 45%|████▍     | 4787/10691 [47:40<48:52,  2.01it/s] 45%|████▍     | 4788/10691 [47:41<48:52,  2.01it/s] 45%|████▍     | 4789/10691 [47:41<48:51,  2.01it/s] 45%|████▍     | 4790/10691 [47:42<48:54,  2.01it/s] 45%|████▍     | 4791/10691 [47:42<48:49,  2.01it/s] 45%|████▍     | 4792/10691 [47:43<48:53,  2.01it/s] 45%|████▍     | 4793/10691 [47:43<48:46,  2.02it/s] 45%|████▍     | 4794/10691 [47:44<48:47,  2.01it/s] 45%|████▍     | 4795/10691 [47:44<48:43,  2.02it/s] 45%|████▍     | 4796/10691 [47:45<48:48,  2.01it/s] 45%|████▍     | 4797/10691 [47:45<48:46,  2.01it/s] 45%|████▍     | 4798/10691 [47:46<48:50,  2.01it/s] 45%|████▍     | 4799/10691 [47:46<48:47,  2.01it/s] 45%|████▍     | 4800/10691 [47:47<48:45,  2.01it/s]                                                    {'loss': 3.0698, 'grad_norm': 0.19045686721801758, 'learning_rate': 0.0006727732060176403, 'epoch': 0.45}
+ 45%|████▍     | 4800/10691 [47:47<48:45,  2.01it/s] 45%|████▍     | 4801/10691 [47:47<48:48,  2.01it/s] 45%|████▍     | 4802/10691 [47:48<48:44,  2.01it/s] 45%|████▍     | 4803/10691 [47:48<48:43,  2.01it/s] 45%|████▍     | 4804/10691 [47:49<48:42,  2.01it/s] 45%|████▍     | 4805/10691 [47:49<48:43,  2.01it/s] 45%|████▍     | 4806/10691 [47:50<48:41,  2.01it/s] 45%|████▍     | 4807/10691 [47:50<48:42,  2.01it/s] 45%|████▍     | 4808/10691 [47:51<48:37,  2.02it/s] 45%|████▍     | 4809/10691 [47:51<48:40,  2.01it/s] 45%|████▍     | 4810/10691 [47:52<48:36,  2.02it/s] 45%|████▌     | 4811/10691 [47:52<48:35,  2.02it/s] 45%|████▌     | 4812/10691 [47:53<48:33,  2.02it/s] 45%|████▌     | 4813/10691 [47:53<48:33,  2.02it/s] 45%|████▌     | 4814/10691 [47:54<48:33,  2.02it/s] 45%|████▌     | 4815/10691 [47:54<48:31,  2.02it/s] 45%|████▌     | 4816/10691 [47:55<48:34,  2.02it/s] 45%|████▌     | 4817/10691 [47:55<48:34,  2.02it/s] 45%|████▌     | 4818/10691 [47:56<48:32,  2.02it/s] 45%|████▌     | 4819/10691 [47:56<48:35,  2.01it/s] 45%|████▌     | 4820/10691 [47:57<48:33,  2.02it/s] 45%|████▌     | 4821/10691 [47:57<48:39,  2.01it/s] 45%|████▌     | 4822/10691 [47:58<48:37,  2.01it/s] 45%|████▌     | 4823/10691 [47:58<48:34,  2.01it/s] 45%|████▌     | 4824/10691 [47:59<48:36,  2.01it/s] 45%|████▌     | 4825/10691 [47:59<48:33,  2.01it/s]                                                    {'loss': 3.0704, 'grad_norm': 0.20667259395122528, 'learning_rate': 0.0006689372301102088, 'epoch': 0.45}
+ 45%|████▌     | 4825/10691 [47:59<48:33,  2.01it/s] 45%|████▌     | 4826/10691 [48:00<48:35,  2.01it/s] 45%|████▌     | 4827/10691 [48:00<48:38,  2.01it/s] 45%|████▌     | 4828/10691 [48:01<48:33,  2.01it/s] 45%|████▌     | 4829/10691 [48:01<48:32,  2.01it/s] 45%|████▌     | 4830/10691 [48:02<48:35,  2.01it/s] 45%|████▌     | 4831/10691 [48:02<48:34,  2.01it/s] 45%|████▌     | 4832/10691 [48:03<48:32,  2.01it/s] 45%|████▌     | 4833/10691 [48:03<48:32,  2.01it/s] 45%|████▌     | 4834/10691 [48:04<48:29,  2.01it/s] 45%|████▌     | 4835/10691 [48:04<48:29,  2.01it/s] 45%|████▌     | 4836/10691 [48:05<48:25,  2.02it/s] 45%|████▌     | 4837/10691 [48:05<48:22,  2.02it/s] 45%|████▌     | 4838/10691 [48:05<48:18,  2.02it/s] 45%|████▌     | 4839/10691 [48:06<48:18,  2.02it/s] 45%|████▌     | 4840/10691 [48:06<48:18,  2.02it/s] 45%|████▌     | 4841/10691 [48:07<48:18,  2.02it/s] 45%|████▌     | 4842/10691 [48:07<48:17,  2.02it/s] 45%|████▌     | 4843/10691 [48:08<48:20,  2.02it/s] 45%|████▌     | 4844/10691 [48:08<48:20,  2.02it/s] 45%|████▌     | 4845/10691 [48:09<48:21,  2.01it/s] 45%|████▌     | 4846/10691 [48:09<48:19,  2.02it/s] 45%|████▌     | 4847/10691 [48:10<48:19,  2.02it/s] 45%|████▌     | 4848/10691 [48:10<48:22,  2.01it/s] 45%|████▌     | 4849/10691 [48:11<48:21,  2.01it/s] 45%|████▌     | 4850/10691 [48:11<48:16,  2.02it/s]                                                    {'loss': 3.0625, 'grad_norm': 0.19242466986179352, 'learning_rate': 0.0006650899961756484, 'epoch': 0.45}
+ 45%|████▌     | 4850/10691 [48:11<48:16,  2.02it/s] 45%|████▌     | 4851/10691 [48:12<48:21,  2.01it/s] 45%|████▌     | 4852/10691 [48:12<48:23,  2.01it/s] 45%|████▌     | 4853/10691 [48:13<48:19,  2.01it/s] 45%|████▌     | 4854/10691 [48:13<48:17,  2.01it/s] 45%|████▌     | 4855/10691 [48:14<48:13,  2.02it/s] 45%|████▌     | 4856/10691 [48:14<48:17,  2.01it/s] 45%|████▌     | 4857/10691 [48:15<48:15,  2.01it/s] 45%|████▌     | 4858/10691 [48:15<48:09,  2.02it/s] 45%|████▌     | 4859/10691 [48:16<48:13,  2.02it/s] 45%|████▌     | 4860/10691 [48:16<48:07,  2.02it/s] 45%|████▌     | 4861/10691 [48:17<48:09,  2.02it/s] 45%|████▌     | 4862/10691 [48:17<48:07,  2.02it/s] 45%|████▌     | 4863/10691 [48:18<48:08,  2.02it/s] 45%|████▌     | 4864/10691 [48:18<48:05,  2.02it/s] 46%|████▌     | 4865/10691 [48:19<48:07,  2.02it/s] 46%|████▌     | 4866/10691 [48:19<48:11,  2.01it/s] 46%|████▌     | 4867/10691 [48:20<48:09,  2.02it/s] 46%|████▌     | 4868/10691 [48:20<48:10,  2.01it/s] 46%|████▌     | 4869/10691 [48:21<48:06,  2.02it/s] 46%|████▌     | 4870/10691 [48:21<48:06,  2.02it/s] 46%|████▌     | 4871/10691 [48:22<48:07,  2.02it/s] 46%|████▌     | 4872/10691 [48:22<48:10,  2.01it/s] 46%|████▌     | 4873/10691 [48:23<48:12,  2.01it/s] 46%|████▌     | 4874/10691 [48:23<48:12,  2.01it/s] 46%|████▌     | 4875/10691 [48:24<48:05,  2.02it/s]                                                    {'loss': 3.0606, 'grad_norm': 0.2116992026567459, 'learning_rate': 0.00066123176059477, 'epoch': 0.46}
+ 46%|████▌     | 4875/10691 [48:24<48:05,  2.02it/s] 46%|████▌     | 4876/10691 [48:24<48:09,  2.01it/s] 46%|████▌     | 4877/10691 [48:25<48:10,  2.01it/s] 46%|████▌     | 4878/10691 [48:25<48:07,  2.01it/s] 46%|████▌     | 4879/10691 [48:26<48:09,  2.01it/s] 46%|████▌     | 4880/10691 [48:26<48:01,  2.02it/s] 46%|████▌     | 4881/10691 [48:27<48:07,  2.01it/s] 46%|████▌     | 4882/10691 [48:27<48:03,  2.01it/s] 46%|████▌     | 4883/10691 [48:28<48:01,  2.02it/s] 46%|████▌     | 4884/10691 [48:28<48:00,  2.02it/s] 46%|████▌     | 4885/10691 [48:29<47:58,  2.02it/s] 46%|████▌     | 4886/10691 [48:29<48:01,  2.01it/s] 46%|████▌     | 4887/10691 [48:30<48:00,  2.02it/s] 46%|████▌     | 4888/10691 [48:30<48:00,  2.01it/s] 46%|████▌     | 4889/10691 [48:31<47:56,  2.02it/s] 46%|████▌     | 4890/10691 [48:31<47:57,  2.02it/s] 46%|████▌     | 4891/10691 [48:32<48:01,  2.01it/s] 46%|████▌     | 4892/10691 [48:32<47:58,  2.01it/s] 46%|████▌     | 4893/10691 [48:33<47:59,  2.01it/s] 46%|████▌     | 4894/10691 [48:33<47:56,  2.02it/s] 46%|████▌     | 4895/10691 [48:34<47:56,  2.02it/s] 46%|████▌     | 4896/10691 [48:34<48:01,  2.01it/s] 46%|████▌     | 4897/10691 [48:35<47:59,  2.01it/s] 46%|████▌     | 4898/10691 [48:35<47:56,  2.01it/s] 46%|████▌     | 4899/10691 [48:36<47:51,  2.02it/s] 46%|████▌     | 4900/10691 [48:36<47:51,  2.02it/s]                                                    {'loss': 3.0566, 'grad_norm': 0.2266940474510193, 'learning_rate': 0.000657362780481537, 'epoch': 0.46}
+ 46%|████▌     | 4900/10691 [48:36<47:51,  2.02it/s] 46%|████▌     | 4901/10691 [48:37<47:54,  2.01it/s] 46%|████▌     | 4902/10691 [48:37<47:53,  2.01it/s] 46%|████▌     | 4903/10691 [48:38<47:51,  2.02it/s] 46%|████▌     | 4904/10691 [48:38<47:54,  2.01it/s] 46%|████▌     | 4905/10691 [48:39<47:54,  2.01it/s] 46%|████▌     | 4906/10691 [48:39<47:55,  2.01it/s] 46%|████▌     | 4907/10691 [48:40<47:52,  2.01it/s] 46%|████▌     | 4908/10691 [48:40<47:52,  2.01it/s] 46%|████▌     | 4909/10691 [48:41<47:49,  2.01it/s] 46%|████▌     | 4910/10691 [48:41<47:49,  2.01it/s] 46%|████▌     | 4911/10691 [48:42<47:50,  2.01it/s] 46%|████▌     | 4912/10691 [48:42<47:49,  2.01it/s] 46%|████▌     | 4913/10691 [48:43<47:51,  2.01it/s] 46%|████▌     | 4914/10691 [48:43<47:46,  2.02it/s] 46%|████▌     | 4915/10691 [48:44<47:47,  2.01it/s] 46%|████▌     | 4916/10691 [48:44<47:43,  2.02it/s] 46%|████▌     | 4917/10691 [48:45<47:44,  2.02it/s] 46%|████▌     | 4918/10691 [48:45<47:41,  2.02it/s] 46%|████▌     | 4919/10691 [48:46<47:44,  2.02it/s] 46%|████▌     | 4920/10691 [48:46<47:42,  2.02it/s] 46%|████▌     | 4921/10691 [48:47<47:40,  2.02it/s] 46%|████▌     | 4922/10691 [48:47<47:42,  2.02it/s] 46%|████▌     | 4923/10691 [48:48<47:40,  2.02it/s] 46%|████▌     | 4924/10691 [48:48<47:43,  2.01it/s] 46%|████▌     | 4925/10691 [48:49<47:39,  2.02it/s]                                                    {'loss': 3.054, 'grad_norm': 0.20342634618282318, 'learning_rate': 0.0006534833136659322, 'epoch': 0.46}
+ 46%|████▌     | 4925/10691 [48:49<47:39,  2.02it/s] 46%|████▌     | 4926/10691 [48:49<47:41,  2.01it/s] 46%|████▌     | 4927/10691 [48:50<47:39,  2.02it/s] 46%|████▌     | 4928/10691 [48:50<47:37,  2.02it/s] 46%|████▌     | 4929/10691 [48:51<47:37,  2.02it/s] 46%|████▌     | 4930/10691 [48:51<47:39,  2.01it/s] 46%|████▌     | 4931/10691 [48:52<47:35,  2.02it/s] 46%|████▌     | 4932/10691 [48:52<47:35,  2.02it/s] 46%|████▌     | 4933/10691 [48:53<47:34,  2.02it/s] 46%|████▌     | 4934/10691 [48:53<47:36,  2.02it/s] 46%|████▌     | 4935/10691 [48:54<47:36,  2.01it/s] 46%|████▌     | 4936/10691 [48:54<47:34,  2.02it/s] 46%|████▌     | 4937/10691 [48:55<47:36,  2.01it/s] 46%|████▌     | 4938/10691 [48:55<47:40,  2.01it/s] 46%|████▌     | 4939/10691 [48:56<47:39,  2.01it/s] 46%|████▌     | 4940/10691 [48:56<47:39,  2.01it/s] 46%|████▌     | 4941/10691 [48:57<47:34,  2.01it/s] 46%|████▌     | 4942/10691 [48:57<47:43,  2.01it/s] 46%|████▌     | 4943/10691 [48:58<47:41,  2.01it/s] 46%|████▌     | 4944/10691 [48:58<47:37,  2.01it/s] 46%|████▋     | 4945/10691 [48:59<47:40,  2.01it/s] 46%|████▋     | 4946/10691 [48:59<47:34,  2.01it/s] 46%|████▋     | 4947/10691 [49:00<47:35,  2.01it/s] 46%|████▋     | 4948/10691 [49:00<47:36,  2.01it/s] 46%|████▋     | 4949/10691 [49:01<47:33,  2.01it/s] 46%|████▋     | 4950/10691 [49:01<47:31,  2.01it/s]                                                    {'loss': 3.0627, 'grad_norm': 0.2219560146331787, 'learning_rate': 0.0006495936186767747, 'epoch': 0.46}
+ 46%|████▋     | 4950/10691 [49:01<47:31,  2.01it/s] 46%|████▋     | 4951/10691 [49:02<47:28,  2.01it/s] 46%|████▋     | 4952/10691 [49:02<47:27,  2.02it/s] 46%|████▋     | 4953/10691 [49:03<47:27,  2.02it/s] 46%|████▋     | 4954/10691 [49:03<47:26,  2.02it/s] 46%|████▋     | 4955/10691 [49:04<47:28,  2.01it/s] 46%|████▋     | 4956/10691 [49:04<47:25,  2.02it/s] 46%|████��     | 4957/10691 [49:05<47:27,  2.01it/s] 46%|████▋     | 4958/10691 [49:05<47:24,  2.02it/s] 46%|████▋     | 4959/10691 [49:06<47:24,  2.02it/s] 46%|████▋     | 4960/10691 [49:06<47:20,  2.02it/s] 46%|████▋     | 4961/10691 [49:07<47:22,  2.02it/s] 46%|████▋     | 4962/10691 [49:07<47:21,  2.02it/s] 46%|████▋     | 4963/10691 [49:08<47:18,  2.02it/s] 46%|████▋     | 4964/10691 [49:08<47:20,  2.02it/s] 46%|████▋     | 4965/10691 [49:09<47:17,  2.02it/s] 46%|████▋     | 4966/10691 [49:09<47:21,  2.02it/s] 46%|████▋     | 4967/10691 [49:10<47:32,  2.01it/s] 46%|████▋     | 4968/10691 [49:10<47:27,  2.01it/s] 46%|████▋     | 4969/10691 [49:11<47:24,  2.01it/s] 46%|████▋     | 4970/10691 [49:11<47:26,  2.01it/s] 46%|████▋     | 4971/10691 [49:12<47:20,  2.01it/s] 47%|████▋     | 4972/10691 [49:12<47:19,  2.01it/s] 47%|████▋     | 4973/10691 [49:13<47:21,  2.01it/s] 47%|████▋     | 4974/10691 [49:13<47:20,  2.01it/s] 47%|████▋     | 4975/10691 [49:13<47:21,  2.01it/s]                                                    {'loss': 3.0567, 'grad_norm': 0.19369496405124664, 'learning_rate': 0.0006456939547244927, 'epoch': 0.47}
+ 47%|████▋     | 4975/10691 [49:14<47:21,  2.01it/s] 47%|████▋     | 4976/10691 [49:14<47:19,  2.01it/s] 47%|████▋     | 4977/10691 [49:14<47:20,  2.01it/s] 47%|████▋     | 4978/10691 [49:15<47:19,  2.01it/s] 47%|████▋     | 4979/10691 [49:15<47:26,  2.01it/s] 47%|████▋     | 4980/10691 [49:16<47:23,  2.01it/s] 47%|████▋     | 4981/10691 [49:16<47:17,  2.01it/s] 47%|████▋     | 4982/10691 [49:17<47:14,  2.01it/s] 47%|████▋     | 4983/10691 [49:17<47:13,  2.01it/s] 47%|████▋     | 4984/10691 [49:18<47:11,  2.02it/s] 47%|████▋     | 4985/10691 [49:18<47:13,  2.01it/s] 47%|████▋     | 4986/10691 [49:19<47:11,  2.01it/s] 47%|████▋     | 4987/10691 [49:19<47:11,  2.01it/s] 47%|████▋     | 4988/10691 [49:20<47:14,  2.01it/s] 47%|████▋     | 4989/10691 [49:20<47:11,  2.01it/s] 47%|████▋     | 4990/10691 [49:21<47:12,  2.01it/s] 47%|████▋     | 4991/10691 [49:21<47:13,  2.01it/s] 47%|████▋     | 4992/10691 [49:22<47:11,  2.01it/s] 47%|████▋     | 4993/10691 [49:22<47:13,  2.01it/s] 47%|████▋     | 4994/10691 [49:23<47:09,  2.01it/s] 47%|████▋     | 4995/10691 [49:23<47:07,  2.01it/s] 47%|████▋     | 4996/10691 [49:24<47:05,  2.02it/s] 47%|████▋     | 4997/10691 [49:24<47:04,  2.02it/s] 47%|████▋     | 4998/10691 [49:25<47:04,  2.02it/s] 47%|████▋     | 4999/10691 [49:25<47:03,  2.02it/s] 47%|████▋     | 5000/10691 [49:26<47:05,  2.01it/s]                                                    {'loss': 3.0555, 'grad_norm': 0.20753608644008636, 'learning_rate': 0.0006417845816838486, 'epoch': 0.47}
+ 47%|████▋     | 5000/10691 [49:26<47:05,  2.01it/s] 47%|████▋     | 5001/10691 [49:26<47:09,  2.01it/s] 47%|████▋     | 5002/10691 [49:27<47:10,  2.01it/s] 47%|████▋     | 5003/10691 [49:27<47:06,  2.01it/s] 47%|████▋     | 5004/10691 [49:28<47:05,  2.01it/s] 47%|████▋     | 5005/10691 [49:28<47:03,  2.01it/s] 47%|████▋     | 5006/10691 [49:29<47:07,  2.01it/s] 47%|████▋     | 5007/10691 [49:29<47:01,  2.01it/s] 47%|████▋     | 5008/10691 [49:30<47:03,  2.01it/s] 47%|████▋     | 5009/10691 [49:30<47:00,  2.01it/s] 47%|████▋     | 5010/10691 [49:31<46:59,  2.01it/s] 47%|████▋     | 5011/10691 [49:31<47:03,  2.01it/s] 47%|████▋     | 5012/10691 [49:32<47:00,  2.01it/s] 47%|████▋     | 5013/10691 [49:32<47:00,  2.01it/s] 47%|████▋     | 5014/10691 [49:33<46:56,  2.02it/s] 47%|████▋     | 5015/10691 [49:33<46:57,  2.01it/s] 47%|████▋     | 5016/10691 [49:34<46:55,  2.02it/s] 47%|████▋     | 5017/10691 [49:34<46:56,  2.01it/s] 47%|████▋     | 5018/10691 [49:35<47:00,  2.01it/s] 47%|████▋     | 5019/10691 [49:35<46:55,  2.01it/s] 47%|████▋     | 5020/10691 [49:36<46:58,  2.01it/s] 47%|████▋     | 5021/10691 [49:36<46:54,  2.01it/s] 47%|████▋     | 5022/10691 [49:37<46:54,  2.01it/s] 47%|████▋     | 5023/10691 [49:37<46:49,  2.02it/s] 47%|████▋     | 5024/10691 [49:38<46:50,  2.02it/s] 47%|████▋     | 5025/10691 [49:38<46:49,  2.02it/s]                                                    {'loss': 3.0588, 'grad_norm': 0.20571936666965485, 'learning_rate': 0.0006378657600766217, 'epoch': 0.47}
+ 47%|████▋     | 5025/10691 [49:38<46:49,  2.02it/s] 47%|████▋     | 5026/10691 [49:39<46:53,  2.01it/s] 47%|████▋     | 5027/10691 [49:39<46:51,  2.01it/s] 47%|████▋     | 5028/10691 [49:40<46:49,  2.02it/s] 47%|████▋     | 5029/10691 [49:40<46:52,  2.01it/s] 47%|████▋     | 5030/10691 [49:41<46:49,  2.01it/s] 47%|████▋     | 5031/10691 [49:41<46:47,  2.02it/s] 47%|████▋     | 5032/10691 [49:42<46:43,  2.02it/s] 47%|████▋     | 5033/10691 [49:42<46:43,  2.02it/s] 47%|████▋     | 5034/10691 [49:43<46:39,  2.02it/s] 47%|████▋     | 5035/10691 [49:43<46:41,  2.02it/s] 47%|████▋     | 5036/10691 [49:44<46:47,  2.01it/s] 47%|████▋     | 5037/10691 [49:44<46:44,  2.02it/s] 47%|████▋     | 5038/10691 [49:45<46:45,  2.02it/s] 47%|████▋     | 5039/10691 [49:45<46:42,  2.02it/s] 47%|████▋     | 5040/10691 [49:46<46:44,  2.01it/s] 47%|████▋     | 5041/10691 [49:46<46:47,  2.01it/s] 47%|████▋     | 5042/10691 [49:47<46:42,  2.02it/s] 47%|████▋     | 5043/10691 [49:47<46:45,  2.01it/s] 47%|████▋     | 5044/10691 [49:48<46:40,  2.02it/s] 47%|████▋     | 5045/10691 [49:48<46:40,  2.02it/s] 47%|████▋     | 5046/10691 [49:49<46:41,  2.01it/s] 47%|████▋     | 5047/10691 [49:49<46:39,  2.02it/s] 47%|████▋     | 5048/10691 [49:50<46:38,  2.02it/s] 47%|████▋     | 5049/10691 [49:50<46:37,  2.02it/s] 47%|████▋     | 5050/10691 [49:51<46:37,  2.02it/s]                                                    {'loss': 3.0514, 'grad_norm': 0.19688557088375092, 'learning_rate': 0.0006339377510542461, 'epoch': 0.47}
+ 47%|████▋     | 5050/10691 [49:51<46:37,  2.02it/s] 47%|████▋     | 5051/10691 [49:51<46:41,  2.01it/s] 47%|████▋     | 5052/10691 [49:52<46:38,  2.01it/s] 47%|████▋     | 5053/10691 [49:52<46:39,  2.01it/s] 47%|████▋     | 5054/10691 [49:53<46:36,  2.02it/s] 47%|████▋     | 5055/10691 [49:53<46:37,  2.01it/s] 47%|████▋     | 5056/10691 [49:54<46:36,  2.01it/s] 47%|████▋     | 5057/10691 [49:54<46:35,  2.02it/s] 47%|████▋     | 5058/10691 [49:55<46:33,  2.02it/s] 47%|████▋     | 5059/10691 [49:55<46:32,  2.02it/s] 47%|████▋     | 5060/10691 [49:56<46:32,  2.02it/s] 47%|████▋     | 5061/10691 [49:56<46:32,  2.02it/s] 47%|████▋     | 5062/10691 [49:57<46:30,  2.02it/s] 47%|████▋     | 5063/10691 [49:57<46:31,  2.02it/s] 47%|████▋     | 5064/10691 [49:58<46:32,  2.02it/s] 47%|████▋     | 5065/10691 [49:58<46:31,  2.02it/s] 47%|████▋     | 5066/10691 [49:59<46:30,  2.02it/s] 47%|████▋     | 5067/10691 [49:59<46:25,  2.02it/s] 47%|████▋     | 5068/10691 [50:00<46:28,  2.02it/s] 47%|████▋     | 5069/10691 [50:00<46:24,  2.02it/s] 47%|████▋     | 5070/10691 [50:01<46:27,  2.02it/s] 47%|████▋     | 5071/10691 [50:01<46:28,  2.02it/s] 47%|████▋     | 5072/10691 [50:02<46:28,  2.01it/s] 47%|████▋     | 5073/10691 [50:02<46:25,  2.02it/s] 47%|████▋     | 5074/10691 [50:03<46:24,  2.02it/s] 47%|████▋     | 5075/10691 [50:03<46:24,  2.02it/s]                                                    {'loss': 3.0486, 'grad_norm': 0.19567741453647614, 'learning_rate': 0.0006300008163804085, 'epoch': 0.47}
+ 47%|████▋     | 5075/10691 [50:03<46:24,  2.02it/s] 47%|████▋     | 5076/10691 [50:04<46:32,  2.01it/s] 47%|████▋     | 5077/10691 [50:04<46:29,  2.01it/s] 47%|████▋     | 5078/10691 [50:05<46:25,  2.01it/s] 48%|████▊     | 5079/10691 [50:05<46:26,  2.01it/s] 48%|████▊     | 5080/10691 [50:06<46:23,  2.02it/s] 48%|████▊     | 5081/10691 [50:06<46:24,  2.01it/s] 48%|████▊     | 5082/10691 [50:07<46:19,  2.02it/s] 48%|████▊     | 5083/10691 [50:07<46:23,  2.02it/s] 48%|████▊     | 5084/10691 [50:08<46:23,  2.01it/s] 48%|████▊     | 5085/10691 [50:08<46:21,  2.02it/s] 48%|████▊     | 5086/10691 [50:09<46:23,  2.01it/s] 48%|████▊     | 5087/10691 [50:09<46:17,  2.02it/s] 48%|████▊     | 5088/10691 [50:10<46:19,  2.02it/s] 48%|████▊     | 5089/10691 [50:10<46:18,  2.02it/s] 48%|████▊     | 5090/10691 [50:11<46:21,  2.01it/s] 48%|████▊     | 5091/10691 [50:11<46:23,  2.01it/s] 48%|████▊     | 5092/10691 [50:12<46:21,  2.01it/s] 48%|████▊     | 5093/10691 [50:12<46:21,  2.01it/s] 48%|████▊     | 5094/10691 [50:13<46:21,  2.01it/s] 48%|████▊     | 5095/10691 [50:13<46:17,  2.01it/s] 48%|████▊     | 5096/10691 [50:14<46:21,  2.01it/s] 48%|████▊     | 5097/10691 [50:14<46:15,  2.02it/s] 48%|████▊     | 5098/10691 [50:15<46:17,  2.01it/s] 48%|████▊     | 5099/10691 [50:15<46:13,  2.02it/s] 48%|████▊     | 5100/10691 [50:16<46:13,  2.02it/s]                                                    {'loss': 3.0406, 'grad_norm': 0.1920199990272522, 'learning_rate': 0.0006260552184136034, 'epoch': 0.48}
+ 48%|████▊     | 5100/10691 [50:16<46:13,  2.02it/s] 48%|████▊     | 5101/10691 [50:16<46:17,  2.01it/s] 48%|████▊     | 5102/10691 [50:17<46:13,  2.02it/s] 48%|████▊     | 5103/10691 [50:17<46:16,  2.01it/s] 48%|████▊     | 5104/10691 [50:18<46:13,  2.01it/s] 48%|████▊     | 5105/10691 [50:18<46:11,  2.02it/s] 48%|████▊     | 5106/10691 [50:19<46:10,  2.02it/s] 48%|████▊     | 5107/10691 [50:19<46:08,  2.02it/s] 48%|████▊     | 5108/10691 [50:20<46:09,  2.02it/s] 48%|████▊     | 5109/10691 [50:20<46:07,  2.02it/s] 48%|████▊     | 5110/10691 [50:21<46:08,  2.02it/s] 48%|████▊     | 5111/10691 [50:21<46:12,  2.01it/s] 48%|████▊     | 5112/10691 [50:21<46:08,  2.02it/s] 48%|████▊     | 5113/10691 [50:22<46:13,  2.01it/s] 48%|████▊     | 5114/10691 [50:22<46:06,  2.02it/s] 48%|████▊     | 5115/10691 [50:23<46:09,  2.01it/s] 48%|████▊     | 5116/10691 [50:23<46:09,  2.01it/s] 48%|████▊     | 5117/10691 [50:24<46:06,  2.01it/s] 48%|████▊     | 5118/10691 [50:24<46:09,  2.01it/s] 48%|████▊     | 5119/10691 [50:25<46:04,  2.02it/s] 48%|████▊     | 5120/10691 [50:25<46:03,  2.02it/s] 48%|████▊     | 5121/10691 [50:26<46:00,  2.02it/s] 48%|████▊     | 5122/10691 [50:26<46:03,  2.02it/s] 48%|████▊     | 5123/10691 [50:27<46:02,  2.02it/s] 48%|████▊     | 5124/10691 [50:27<46:00,  2.02it/s] 48%|████▊     | 5125/10691 [50:28<46:02,  2.01it/s]                                                    {'loss': 3.0545, 'grad_norm': 0.19787512719631195, 'learning_rate': 0.0006221012200896499, 'epoch': 0.48}
+ 48%|████▊     | 5125/10691 [50:28<46:02,  2.01it/s] 48%|████▊     | 5126/10691 [50:28<45:59,  2.02it/s] 48%|████▊     | 5127/10691 [50:29<46:01,  2.01it/s] 48%|████▊     | 5128/10691 [50:29<46:01,  2.01it/s] 48%|████▊     | 5129/10691 [50:30<46:04,  2.01it/s] 48%|████▊     | 5130/10691 [50:30<46:03,  2.01it/s] 48%|████▊     | 5131/10691 [50:31<46:02,  2.01it/s] 48%|████▊     | 5132/10691 [50:31<46:00,  2.01it/s] 48%|████▊     | 5133/10691 [50:32<46:00,  2.01it/s] 48%|████▊     | 5134/10691 [50:32<45:59,  2.01it/s] 48%|████▊     | 5135/10691 [50:33<45:56,  2.02it/s] 48%|████▊     | 5136/10691 [50:33<45:57,  2.01it/s] 48%|████▊     | 5137/10691 [50:34<45:57,  2.01it/s] 48%|████▊     | 5138/10691 [50:34<45:57,  2.01it/s] 48%|████▊     | 5139/10691 [50:35<45:52,  2.02it/s] 48%|████▊     | 5140/10691 [50:35<45:55,  2.01it/s] 48%|████▊     | 5141/10691 [50:36<45:53,  2.02it/s] 48%|████▊     | 5142/10691 [50:36<45:53,  2.02it/s] 48%|████▊     | 5143/10691 [50:37<45:57,  2.01it/s] 48%|████▊     | 5144/10691 [50:37<45:54,  2.01it/s] 48%|████▊     | 5145/10691 [50:38<45:55,  2.01it/s] 48%|████▊     | 5146/10691 [50:38<45:53,  2.01it/s] 48%|████▊     | 5147/10691 [50:39<45:53,  2.01it/s] 48%|████▊     | 5148/10691 [50:39<45:50,  2.02it/s] 48%|████▊     | 5149/10691 [50:40<45:53,  2.01it/s] 48%|████▊     | 5150/10691 [50:40<45:54,  2.01it/s]                                                    {'loss': 3.0557, 'grad_norm': 0.212920680642128, 'learning_rate': 0.0006181390849041688, 'epoch': 0.48}
+ 48%|████▊     | 5150/10691 [50:40<45:54,  2.01it/s] 48%|████▊     | 5151/10691 [50:41<45:55,  2.01it/s] 48%|████▊     | 5152/10691 [50:41<45:55,  2.01it/s] 48%|████▊     | 5153/10691 [50:42<45:53,  2.01it/s] 48%|████▊     | 5154/10691 [50:42<45:51,  2.01it/s] 48%|████▊     | 5155/10691 [50:43<45:50,  2.01it/s] 48%|████▊     | 5156/10691 [50:43<45:46,  2.02it/s] 48%|████▊     | 5157/10691 [50:44<45:48,  2.01it/s] 48%|████▊     | 5158/10691 [50:44<45:46,  2.01it/s] 48%|████▊     | 5159/10691 [50:45<45:46,  2.01it/s] 48%|████▊     | 5160/10691 [50:45<45:48,  2.01it/s] 48%|████▊     | 5161/10691 [50:46<45:44,  2.01it/s] 48%|████▊     | 5162/10691 [50:46<45:46,  2.01it/s] 48%|████▊     | 5163/10691 [50:47<45:44,  2.01it/s] 48%|████▊     | 5164/10691 [50:47<45:43,  2.01it/s] 48%|████▊     | 5165/10691 [50:48<45:40,  2.02it/s] 48%|████▊     | 5166/10691 [50:48<45:38,  2.02it/s] 48%|████▊     | 5167/10691 [50:49<45:42,  2.01it/s] 48%|████▊     | 5168/10691 [50:49<45:38,  2.02it/s] 48%|████▊     | 5169/10691 [50:50<45:42,  2.01it/s] 48%|████▊     | 5170/10691 [50:50<45:43,  2.01it/s] 48%|████▊     | 5171/10691 [50:51<45:41,  2.01it/s] 48%|████▊     | 5172/10691 [50:51<45:43,  2.01it/s] 48%|████▊     | 5173/10691 [50:52<45:40,  2.01it/s] 48%|████▊     | 5174/10691 [50:52<45:40,  2.01it/s] 48%|████▊     | 5175/10691 [50:53<45:35,  2.02it/s]                                                    {'loss': 3.0445, 'grad_norm': 0.2042132169008255, 'learning_rate': 0.0006141690768950247, 'epoch': 0.48}
+ 48%|████▊     | 5175/10691 [50:53<45:35,  2.02it/s] 48%|████▊     | 5176/10691 [50:53<45:38,  2.01it/s] 48%|████▊     | 5177/10691 [50:54<45:40,  2.01it/s] 48%|████▊     | 5178/10691 [50:54<45:36,  2.01it/s] 48%|████▊     | 5179/10691 [50:55<45:39,  2.01it/s] 48%|████▊     | 5180/10691 [50:55<45:37,  2.01it/s] 48%|████▊     | 5181/10691 [50:56<45:38,  2.01it/s] 48%|████▊     | 5182/10691 [50:56<45:38,  2.01it/s] 48%|████▊     | 5183/10691 [50:57<45:37,  2.01it/s] 48%|████▊     | 5184/10691 [50:57<45:38,  2.01it/s] 48%|████▊     | 5185/10691 [50:58<45:38,  2.01it/s] 49%|████▊     | 5186/10691 [50:58<45:35,  2.01it/s] 49%|████▊     | 5187/10691 [50:59<45:31,  2.02it/s] 49%|████▊     | 5188/10691 [50:59<45:31,  2.02it/s] 49%|████▊     | 5189/10691 [51:00<45:27,  2.02it/s] 49%|████▊     | 5190/10691 [51:00<45:26,  2.02it/s] 49%|████▊     | 5191/10691 [51:01<45:27,  2.02it/s] 49%|████▊     | 5192/10691 [51:01<45:29,  2.01it/s] 49%|████▊     | 5193/10691 [51:02<45:26,  2.02it/s] 49%|████▊     | 5194/10691 [51:02<45:27,  2.02it/s] 49%|████▊     | 5195/10691 [51:03<45:26,  2.02it/s] 49%|████▊     | 5196/10691 [51:03<45:29,  2.01it/s] 49%|████▊     | 5197/10691 [51:04<45:28,  2.01it/s] 49%|████▊     | 5198/10691 [51:04<45:23,  2.02it/s] 49%|████▊     | 5199/10691 [51:05<45:22,  2.02it/s] 49%|████▊     | 5200/10691 [51:05<45:21,  2.02it/s]                                                    {'loss': 3.0515, 'grad_norm': 0.20713132619857788, 'learning_rate': 0.0006101914606247286, 'epoch': 0.49}
+ 49%|████▊     | 5200/10691 [51:05<45:21,  2.02it/s] 49%|████▊     | 5201/10691 [51:06<45:23,  2.02it/s] 49%|████▊     | 5202/10691 [51:06<45:23,  2.02it/s] 49%|████▊     | 5203/10691 [51:07<45:25,  2.01it/s] 49%|████▊     | 5204/10691 [51:07<45:23,  2.01it/s] 49%|████▊     | 5205/10691 [51:08<45:23,  2.01it/s] 49%|████▊     | 5206/10691 [51:08<45:22,  2.01it/s] 49%|████▊     | 5207/10691 [51:09<45:23,  2.01it/s] 49%|████▊     | 5208/10691 [51:09<45:18,  2.02it/s] 49%|████▊     | 5209/10691 [51:10<45:22,  2.01it/s] 49%|████▊     | 5210/10691 [51:10<45:21,  2.01it/s] 49%|████▊     | 5211/10691 [51:11<45:21,  2.01it/s] 49%|████▉     | 5212/10691 [51:11<45:26,  2.01it/s] 49%|████▉     | 5213/10691 [51:12<45:20,  2.01it/s] 49%|████▉     | 5214/10691 [51:12<45:19,  2.01it/s] 49%|████▉     | 5215/10691 [51:13<45:16,  2.02it/s] 49%|████▉     | 5216/10691 [51:13<45:17,  2.01it/s] 49%|████▉     | 5217/10691 [51:14<45:19,  2.01it/s] 49%|████▉     | 5218/10691 [51:14<45:15,  2.02it/s] 49%|████▉     | 5219/10691 [51:15<45:16,  2.01it/s] 49%|████▉     | 5220/10691 [51:15<45:13,  2.02it/s] 49%|████▉     | 5221/10691 [51:16<45:15,  2.01it/s] 49%|████▉     | 5222/10691 [51:16<45:16,  2.01it/s] 49%|████▉     | 5223/10691 [51:17<45:14,  2.01it/s] 49%|████▉     | 5224/10691 [51:17<45:14,  2.01it/s] 49%|████▉     | 5225/10691 [51:18<45:10,  2.02it/s]                                                    {'loss': 3.0368, 'grad_norm': 0.19790685176849365, 'learning_rate': 0.0006062065011628089, 'epoch': 0.49}
+ 49%|████▉     | 5225/10691 [51:18<45:10,  2.02it/s] 49%|████▉     | 5226/10691 [51:18<45:14,  2.01it/s] 49%|████▉     | 5227/10691 [51:19<45:11,  2.01it/s] 49%|████▉     | 5228/10691 [51:19<45:09,  2.02it/s] 49%|████▉     | 5229/10691 [51:20<45:11,  2.01it/s] 49%|████▉     | 5230/10691 [51:20<45:08,  2.02it/s] 49%|████▉     | 5231/10691 [51:21<45:10,  2.01it/s] 49%|████▉     | 5232/10691 [51:21<45:07,  2.02it/s] 49%|████▉     | 5233/10691 [51:22<45:09,  2.01it/s] 49%|████▉     | 5234/10691 [51:22<45:05,  2.02it/s] 49%|████▉     | 5235/10691 [51:23<45:07,  2.02it/s] 49%|████▉     | 5236/10691 [51:23<45:08,  2.01it/s] 49%|████▉     | 5237/10691 [51:24<45:08,  2.01it/s] 49%|████▉     | 5238/10691 [51:24<45:10,  2.01it/s] 49%|████▉     | 5239/10691 [51:25<45:09,  2.01it/s] 49%|████▉     | 5240/10691 [51:25<45:06,  2.01it/s] 49%|████▉     | 5241/10691 [51:26<45:10,  2.01it/s] 49%|████▉     | 5242/10691 [51:26<45:06,  2.01it/s] 49%|████▉     | 5243/10691 [51:27<45:03,  2.01it/s] 49%|████▉     | 5244/10691 [51:27<45:02,  2.02it/s] 49%|████▉     | 5245/10691 [51:28<45:05,  2.01it/s] 49%|████▉     | 5246/10691 [51:28<45:05,  2.01it/s] 49%|████▉     | 5247/10691 [51:29<45:05,  2.01it/s] 49%|████▉     | 5248/10691 [51:29<45:03,  2.01it/s] 49%|████▉     | 5249/10691 [51:30<45:01,  2.01it/s] 49%|████▉     | 5250/10691 [51:30<45:00,  2.01it/s]                                                    {'loss': 3.0594, 'grad_norm': 0.20940490067005157, 'learning_rate': 0.0006022144640681463, 'epoch': 0.49}
+ 49%|████▉     | 5250/10691 [51:30<45:00,  2.01it/s] 49%|████▉     | 5251/10691 [51:31<45:03,  2.01it/s] 49%|████▉     | 5252/10691 [51:31<45:01,  2.01it/s] 49%|████▉     | 5253/10691 [51:32<45:01,  2.01it/s] 49%|████▉     | 5254/10691 [51:32<45:03,  2.01it/s] 49%|████▉     | 5255/10691 [51:33<45:02,  2.01it/s] 49%|████▉     | 5256/10691 [51:33<45:00,  2.01it/s] 49%|████▉     | 5257/10691 [51:33<45:01,  2.01it/s] 49%|████▉     | 5258/10691 [51:34<45:00,  2.01it/s] 49%|████▉     | 5259/10691 [51:34<45:00,  2.01it/s] 49%|████▉     | 5260/10691 [51:35<44:56,  2.01it/s] 49%|████▉     | 5261/10691 [51:35<44:55,  2.01it/s] 49%|████▉     | 5262/10691 [51:36<44:59,  2.01it/s] 49%|████▉     | 5263/10691 [51:36<44:57,  2.01it/s] 49%|████▉     | 5264/10691 [51:37<44:54,  2.01it/s] 49%|████▉     | 5265/10691 [51:37<44:53,  2.01it/s] 49%|████▉     | 5266/10691 [51:38<44:51,  2.02it/s] 49%|████▉     | 5267/10691 [51:38<44:50,  2.02it/s] 49%|████▉     | 5268/10691 [51:39<44:49,  2.02it/s] 49%|████▉     | 5269/10691 [51:39<44:51,  2.01it/s] 49%|████▉     | 5270/10691 [51:40<44:51,  2.01it/s] 49%|████▉     | 5271/10691 [51:40<44:51,  2.01it/s] 49%|████▉     | 5272/10691 [51:41<44:50,  2.01it/s] 49%|████▉     | 5273/10691 [51:41<44:49,  2.01it/s] 49%|████▉     | 5274/10691 [51:42<44:52,  2.01it/s] 49%|████▉     | 5275/10691 [51:42<44:53,  2.01it/s]                                                    {'loss': 3.0417, 'grad_norm': 0.19770139455795288, 'learning_rate': 0.0005982156153712769, 'epoch': 0.49}
+ 49%|████▉     | 5275/10691 [51:42<44:53,  2.01it/s] 49%|████▉     | 5276/10691 [51:43<44:50,  2.01it/s] 49%|████▉     | 5277/10691 [51:43<44:53,  2.01it/s] 49%|████▉     | 5278/10691 [51:44<44:47,  2.01it/s] 49%|████▉     | 5279/10691 [51:44<44:46,  2.01it/s] 49%|████▉     | 5280/10691 [51:45<44:42,  2.02it/s] 49%|████▉     | 5281/10691 [51:46<51:57,  1.74it/s] 49%|████▉     | 5282/10691 [51:46<49:48,  1.81it/s] 49%|████▉     | 5283/10691 [51:47<48:14,  1.87it/s] 49%|████▉     | 5284/10691 [51:47<47:10,  1.91it/s] 49%|████▉     | 5285/10691 [51:48<46:31,  1.94it/s] 49%|████▉     | 5286/10691 [51:48<45:59,  1.96it/s] 49%|████▉     | 5287/10691 [51:49<45:37,  1.97it/s] 49%|████▉     | 5288/10691 [51:49<45:22,  1.98it/s] 49%|████▉     | 5289/10691 [51:50<45:08,  1.99it/s] 49%|████▉     | 5290/10691 [51:50<45:03,  2.00it/s] 49%|████▉     | 5291/10691 [51:51<44:54,  2.00it/s] 49%|████▉     | 5292/10691 [51:51<44:47,  2.01it/s] 50%|████▉     | 5293/10691 [51:52<44:47,  2.01it/s] 50%|████▉     | 5294/10691 [51:52<44:43,  2.01it/s] 50%|████▉     | 5295/10691 [51:53<44:45,  2.01it/s] 50%|████▉     | 5296/10691 [51:53<44:40,  2.01it/s] 50%|████▉     | 5297/10691 [51:54<44:40,  2.01it/s] 50%|████▉     | 5298/10691 [51:54<44:36,  2.02it/s] 50%|████▉     | 5299/10691 [51:55<44:35,  2.02it/s] 50%|████▉     | 5300/10691 [51:55<44:32,  2.02it/s]                                                    {'loss': 3.0478, 'grad_norm': 0.1976662427186966, 'learning_rate': 0.0005942102215566639, 'epoch': 0.5}
+ 50%|████▉     | 5300/10691 [51:55<44:32,  2.02it/s] 50%|████▉     | 5301/10691 [51:56<44:39,  2.01it/s] 50%|████▉     | 5302/10691 [51:56<44:37,  2.01it/s] 50%|████▉     | 5303/10691 [51:57<44:35,  2.01it/s] 50%|████▉     | 5304/10691 [51:57<44:31,  2.02it/s] 50%|████▉     | 5305/10691 [51:58<51:47,  1.73it/s] 50%|████▉     | 5306/10691 [51:58<49:36,  1.81it/s] 50%|████▉     | 5307/10691 [51:59<48:01,  1.87it/s] 50%|████▉     | 5308/10691 [51:59<46:57,  1.91it/s] 50%|████▉     | 5309/10691 [52:00<46:12,  1.94it/s] 50%|████▉     | 5310/10691 [52:00<45:41,  1.96it/s] 50%|████▉     | 5311/10691 [52:01<45:20,  1.98it/s] 50%|████▉     | 5312/10691 [52:01<45:03,  1.99it/s] 50%|████▉     | 5313/10691 [52:02<44:51,  2.00it/s] 50%|████▉     | 5314/10691 [52:02<44:45,  2.00it/s] 50%|████▉     | 5315/10691 [52:03<44:40,  2.01it/s] 50%|████▉     | 5316/10691 [52:03<44:34,  2.01it/s] 50%|████▉     | 5317/10691 [52:04<44:31,  2.01it/s] 50%|████▉     | 5318/10691 [52:04<44:27,  2.01it/s] 50%|████▉     | 5319/10691 [52:05<44:26,  2.01it/s] 50%|████▉     | 5320/10691 [52:05<44:19,  2.02it/s] 50%|████▉     | 5321/10691 [52:06<44:23,  2.02it/s] 50%|████▉     | 5322/10691 [52:06<44:25,  2.01it/s] 50%|████▉     | 5323/10691 [52:07<44:20,  2.02it/s] 50%|████▉     | 5324/10691 [52:07<44:20,  2.02it/s] 50%|████▉     | 5325/10691 [52:08<44:15,  2.02it/s]                                                    {'loss': 3.0475, 'grad_norm': 0.22222110629081726, 'learning_rate': 0.0005901985495449399, 'epoch': 0.5}
+ 50%|████▉     | 5325/10691 [52:08<44:15,  2.02it/s] 50%|████▉     | 5326/10691 [52:08<44:22,  2.02it/s] 50%|████▉     | 5327/10691 [52:09<44:22,  2.01it/s] 50%|████▉     | 5328/10691 [52:09<44:22,  2.01it/s] 50%|████▉     | 5329/10691 [52:10<44:20,  2.02it/s] 50%|████▉     | 5330/10691 [52:10<44:18,  2.02it/s] 50%|████▉     | 5331/10691 [52:11<44:18,  2.02it/s] 50%|████▉     | 5332/10691 [52:11<44:19,  2.01it/s] 50%|████▉     | 5333/10691 [52:12<44:22,  2.01it/s] 50%|████▉     | 5334/10691 [52:12<44:19,  2.01it/s] 50%|████▉     | 5335/10691 [52:13<44:17,  2.02it/s] 50%|████▉     | 5336/10691 [52:13<44:15,  2.02it/s] 50%|████▉     | 5337/10691 [52:14<44:16,  2.02it/s] 50%|████▉     | 5338/10691 [52:14<44:14,  2.02it/s] 50%|████▉     | 5339/10691 [52:15<44:12,  2.02it/s] 50%|████▉     | 5340/10691 [52:15<44:12,  2.02it/s] 50%|████▉     | 5341/10691 [52:16<44:13,  2.02it/s] 50%|████▉     | 5342/10691 [52:16<44:15,  2.01it/s] 50%|████▉     | 5343/10691 [52:17<44:13,  2.02it/s] 50%|████▉     | 5344/10691 [52:17<44:11,  2.02it/s] 50%|████▉     | 5345/10691 [52:18<44:09,  2.02it/s] 50%|█████     | 5346/10691 [52:18<44:09,  2.02it/s] 50%|█████     | 5347/10691 [52:19<44:09,  2.02it/s] 50%|█████     | 5348/10691 [52:19<44:10,  2.02it/s] 50%|█████     | 5349/10691 [52:20<44:07,  2.02it/s] 50%|█████     | 5350/10691 [52:20<44:07,  2.02it/s]                                                    {'loss': 3.0295, 'grad_norm': 0.20214661955833435, 'learning_rate': 0.000586180866675117, 'epoch': 0.5}
+ 50%|█████     | 5350/10691 [52:20<44:07,  2.02it/s] 50%|█████     | 5351/10691 [52:21<44:10,  2.01it/s] 50%|█████     | 5352/10691 [52:21<44:11,  2.01it/s] 50%|█████     | 5353/10691 [52:22<44:12,  2.01it/s] 50%|█████     | 5354/10691 [52:22<44:11,  2.01it/s] 50%|█████     | 5355/10691 [52:23<44:09,  2.01it/s] 50%|█████     | 5356/10691 [52:23<44:06,  2.02it/s] 50%|█████     | 5357/10691 [52:24<44:03,  2.02it/s] 50%|█████     | 5358/10691 [52:24<44:04,  2.02it/s] 50%|█████     | 5359/10691 [52:25<44:04,  2.02it/s] 50%|█████     | 5360/10691 [52:25<44:03,  2.02it/s] 50%|█████     | 5361/10691 [52:26<44:04,  2.02it/s] 50%|█████     | 5362/10691 [52:26<44:03,  2.02it/s] 50%|█████     | 5363/10691 [52:27<44:02,  2.02it/s] 50%|█████     | 5364/10691 [52:27<44:02,  2.02it/s] 50%|█████     | 5365/10691 [52:28<44:05,  2.01it/s] 50%|█████     | 5366/10691 [52:28<44:04,  2.01it/s] 50%|█████     | 5367/10691 [52:29<44:03,  2.01it/s] 50%|█████     | 5368/10691 [52:29<44:04,  2.01it/s] 50%|█████     | 5369/10691 [52:30<44:03,  2.01it/s] 50%|█████     | 5370/10691 [52:30<44:04,  2.01it/s] 50%|█████     | 5371/10691 [52:31<44:02,  2.01it/s] 50%|█████     | 5372/10691 [52:31<44:03,  2.01it/s] 50%|█████     | 5373/10691 [52:32<43:59,  2.01it/s] 50%|█████     | 5374/10691 [52:32<43:57,  2.02it/s] 50%|█████     | 5375/10691 [52:33<43:57,  2.02it/s]                                                    {'loss': 3.0377, 'grad_norm': 0.20010985434055328, 'learning_rate': 0.0005821574406867741, 'epoch': 0.5}
+ 50%|█████     | 5375/10691 [52:33<43:57,  2.02it/s] 50%|█████     | 5376/10691 [52:33<44:00,  2.01it/s] 50%|█████     | 5377/10691 [52:34<43:59,  2.01it/s] 50%|█████     | 5378/10691 [52:34<43:57,  2.01it/s] 50%|█████     | 5379/10691 [52:35<43:55,  2.02it/s] 50%|█████     | 5380/10691 [52:35<43:53,  2.02it/s] 50%|█████     | 5381/10691 [52:36<43:55,  2.01it/s] 50%|█████     | 5382/10691 [52:36<43:55,  2.01it/s] 50%|█████     | 5383/10691 [52:37<43:54,  2.01it/s] 50%|█████     | 5384/10691 [52:37<43:56,  2.01it/s] 50%|█████     | 5385/10691 [52:38<43:56,  2.01it/s] 50%|█████     | 5386/10691 [52:38<43:53,  2.01it/s] 50%|█████     | 5387/10691 [52:39<43:54,  2.01it/s] 50%|█████     | 5388/10691 [52:39<43:50,  2.02it/s] 50%|█████     | 5389/10691 [52:40<43:52,  2.01it/s] 50%|█████     | 5390/10691 [52:40<43:49,  2.02it/s] 50%|█████     | 5391/10691 [52:41<43:48,  2.02it/s] 50%|█████     | 5392/10691 [52:41<43:43,  2.02it/s] 50%|█████     | 5393/10691 [52:42<43:44,  2.02it/s] 50%|█████     | 5394/10691 [52:42<43:42,  2.02it/s] 50%|█████     | 5395/10691 [52:43<43:44,  2.02it/s] 50%|█████     | 5396/10691 [52:43<43:44,  2.02it/s] 50%|█████     | 5397/10691 [52:44<43:44,  2.02it/s] 50%|█████     | 5398/10691 [52:44<43:45,  2.02it/s] 51%|█████     | 5399/10691 [52:44<43:43,  2.02it/s] 51%|█████     | 5400/10691 [52:45<43:47,  2.01it/s]                                                    {'loss': 3.037, 'grad_norm': 0.19212399423122406, 'learning_rate': 0.0005781285397022122, 'epoch': 0.51}
+ 51%|█████     | 5400/10691 [52:45<43:47,  2.01it/s] 51%|█████     | 5401/10691 [52:45<43:50,  2.01it/s] 51%|█████     | 5402/10691 [52:46<43:52,  2.01it/s] 51%|█████     | 5403/10691 [52:46<43:49,  2.01it/s] 51%|█████     | 5404/10691 [52:47<43:47,  2.01it/s] 51%|█████     | 5405/10691 [52:47<43:44,  2.01it/s] 51%|█████     | 5406/10691 [52:48<43:45,  2.01it/s] 51%|█████     | 5407/10691 [52:48<43:39,  2.02it/s] 51%|█████     | 5408/10691 [52:49<43:39,  2.02it/s] 51%|█████     | 5409/10691 [52:49<43:37,  2.02it/s] 51%|█████     | 5410/10691 [52:50<43:39,  2.02it/s] 51%|█████     | 5411/10691 [52:50<43:40,  2.02it/s] 51%|█████     | 5412/10691 [52:51<43:40,  2.01it/s] 51%|█████     | 5413/10691 [52:51<43:43,  2.01it/s] 51%|█████     | 5414/10691 [52:52<43:42,  2.01it/s] 51%|█████     | 5415/10691 [52:52<43:41,  2.01it/s] 51%|█████     | 5416/10691 [52:53<43:41,  2.01it/s] 51%|█████     | 5417/10691 [52:53<43:38,  2.01it/s] 51%|█████     | 5418/10691 [52:54<43:38,  2.01it/s] 51%|█████     | 5419/10691 [52:54<43:37,  2.01it/s] 51%|█████     | 5420/10691 [52:55<43:38,  2.01it/s] 51%|█████     | 5421/10691 [52:55<43:40,  2.01it/s] 51%|█████     | 5422/10691 [52:56<43:35,  2.01it/s] 51%|█████     | 5423/10691 [52:56<43:36,  2.01it/s] 51%|█████     | 5424/10691 [52:57<43:31,  2.02it/s] 51%|█████     | 5425/10691 [52:57<43:33,  2.02it/s]                                                    {'loss': 3.0405, 'grad_norm': 0.1939452439546585, 'learning_rate': 0.0005740944322085884, 'epoch': 0.51}
+ 51%|█████     | 5425/10691 [52:57<43:33,  2.02it/s] 51%|█████     | 5426/10691 [52:58<43:34,  2.01it/s] 51%|█████     | 5427/10691 [52:58<43:33,  2.01it/s] 51%|█████     | 5428/10691 [52:59<43:33,  2.01it/s] 51%|█████     | 5429/10691 [52:59<43:29,  2.02it/s] 51%|█████     | 5430/10691 [53:00<43:30,  2.02it/s] 51%|█████     | 5431/10691 [53:00<43:25,  2.02it/s] 51%|█████     | 5432/10691 [53:01<43:25,  2.02it/s] 51%|█████     | 5433/10691 [53:01<43:24,  2.02it/s] 51%|█████     | 5434/10691 [53:02<43:23,  2.02it/s] 51%|█████     | 5435/10691 [53:02<43:24,  2.02it/s] 51%|█████     | 5436/10691 [53:03<43:27,  2.02it/s] 51%|█████     | 5437/10691 [53:03<43:28,  2.01it/s] 51%|█████     | 5438/10691 [53:04<43:25,  2.02it/s] 51%|█████     | 5439/10691 [53:04<43:26,  2.01it/s] 51%|█████     | 5440/10691 [53:05<43:24,  2.02it/s] 51%|█████     | 5441/10691 [53:05<43:25,  2.02it/s] 51%|█████     | 5442/10691 [53:06<43:24,  2.02it/s] 51%|█████     | 5443/10691 [53:06<43:23,  2.02it/s] 51%|█████     | 5444/10691 [53:07<43:21,  2.02it/s] 51%|█████     | 5445/10691 [53:07<43:21,  2.02it/s] 51%|█████     | 5446/10691 [53:08<43:21,  2.02it/s] 51%|█████     | 5447/10691 [53:08<43:18,  2.02it/s] 51%|█████     | 5448/10691 [53:09<43:22,  2.01it/s] 51%|█████     | 5449/10691 [53:09<43:19,  2.02it/s] 51%|█████     | 5450/10691 [53:10<43:21,  2.01it/s]                                                    {'loss': 3.0373, 'grad_norm': 0.20634238421916962, 'learning_rate': 0.0005700553870400225, 'epoch': 0.51}
+ 51%|█████     | 5450/10691 [53:10<43:21,  2.01it/s] 51%|█████     | 5451/10691 [53:10<43:20,  2.01it/s] 51%|█████     | 5452/10691 [53:11<43:17,  2.02it/s] 51%|█████     | 5453/10691 [53:11<43:20,  2.01it/s] 51%|█████     | 5454/10691 [53:12<43:15,  2.02it/s] 51%|█████     | 5455/10691 [53:12<43:18,  2.02it/s] 51%|█████     | 5456/10691 [53:13<43:16,  2.02it/s] 51%|█████     | 5457/10691 [53:13<43:17,  2.01it/s] 51%|█████     | 5458/10691 [53:14<43:13,  2.02it/s] 51%|█████     | 5459/10691 [53:14<43:13,  2.02it/s] 51%|█████     | 5460/10691 [53:15<43:14,  2.02it/s] 51%|█████     | 5461/10691 [53:15<43:12,  2.02it/s] 51%|█████     | 5462/10691 [53:16<43:16,  2.01it/s] 51%|█████     | 5463/10691 [53:16<43:14,  2.02it/s] 51%|█████     | 5464/10691 [53:17<43:13,  2.02it/s] 51%|█████     | 5465/10691 [53:17<43:12,  2.02it/s] 51%|█████     | 5466/10691 [53:18<43:12,  2.02it/s] 51%|█████     | 5467/10691 [53:18<43:10,  2.02it/s] 51%|█████     | 5468/10691 [53:19<43:12,  2.01it/s] 51%|█████     | 5469/10691 [53:19<43:10,  2.02it/s] 51%|█████     | 5470/10691 [53:20<43:11,  2.01it/s] 51%|█████     | 5471/10691 [53:20<43:12,  2.01it/s] 51%|█████     | 5472/10691 [53:21<43:11,  2.01it/s] 51%|█████     | 5473/10691 [53:21<43:10,  2.01it/s] 51%|█████     | 5474/10691 [53:22<43:06,  2.02it/s] 51%|█████     | 5475/10691 [53:22<43:12,  2.01it/s]                                                    {'loss': 3.0272, 'grad_norm': 0.1944107711315155, 'learning_rate': 0.0005660116733596826, 'epoch': 0.51}
+ 51%|█████     | 5475/10691 [53:22<43:12,  2.01it/s] 51%|█████     | 5476/10691 [53:23<43:11,  2.01it/s] 51%|█████     | 5477/10691 [53:23<43:12,  2.01it/s] 51%|█████     | 5478/10691 [53:24<43:09,  2.01it/s] 51%|█████     | 5479/10691 [53:24<43:07,  2.01it/s] 51%|█████▏    | 5480/10691 [53:25<43:03,  2.02it/s] 51%|█████▏    | 5481/10691 [53:25<43:01,  2.02it/s] 51%|█████▏    | 5482/10691 [53:26<42:59,  2.02it/s] 51%|█████▏    | 5483/10691 [53:26<43:03,  2.02it/s] 51%|█████▏    | 5484/10691 [53:27<42:58,  2.02it/s] 51%|█████▏    | 5485/10691 [53:27<43:00,  2.02it/s] 51%|█████▏    | 5486/10691 [53:28<42:58,  2.02it/s] 51%|█████▏    | 5487/10691 [53:28<42:59,  2.02it/s] 51%|█████▏    | 5488/10691 [53:29<42:58,  2.02it/s] 51%|█████▏    | 5489/10691 [53:29<42:56,  2.02it/s] 51%|█████▏    | 5490/10691 [53:30<42:55,  2.02it/s] 51%|█████▏    | 5491/10691 [53:30<42:58,  2.02it/s] 51%|█████▏    | 5492/10691 [53:31<42:57,  2.02it/s] 51%|█████▏    | 5493/10691 [53:31<42:58,  2.02it/s] 51%|█████▏    | 5494/10691 [53:32<42:58,  2.02it/s] 51%|█████▏    | 5495/10691 [53:32<42:56,  2.02it/s] 51%|█████▏    | 5496/10691 [53:33<42:57,  2.02it/s] 51%|█████▏    | 5497/10691 [53:33<42:55,  2.02it/s] 51%|█████▏    | 5498/10691 [53:34<42:57,  2.01it/s] 51%|█████▏    | 5499/10691 [53:34<42:56,  2.01it/s] 51%|█████▏    | 5500/10691 [53:35<42:56,  2.02it/s]                                                    {'loss': 3.0326, 'grad_norm': 0.1945933699607849, 'learning_rate': 0.0005619635606418481, 'epoch': 0.51}
+ 51%|█████▏    | 5500/10691 [53:35<42:56,  2.02it/s] 51%|█████▏    | 5501/10691 [53:35<43:02,  2.01it/s] 51%|█████▏    | 5502/10691 [53:36<43:00,  2.01it/s] 51%|█████▏    | 5503/10691 [53:36<43:00,  2.01it/s] 51%|█████▏    | 5504/10691 [53:37<42:58,  2.01it/s] 51%|█████▏    | 5505/10691 [53:37<42:59,  2.01it/s] 52%|█████▏    | 5506/10691 [53:38<42:56,  2.01it/s] 52%|█████▏    | 5507/10691 [53:38<42:52,  2.02it/s] 52%|█████▏    | 5508/10691 [53:39<42:53,  2.01it/s] 52%|█████▏    | 5509/10691 [53:39<42:49,  2.02it/s] 52%|█████▏    | 5510/10691 [53:40<42:53,  2.01it/s] 52%|█████▏    | 5511/10691 [53:40<42:53,  2.01it/s] 52%|█████▏    | 5512/10691 [53:41<42:49,  2.02it/s] 52%|█████▏    | 5513/10691 [53:41<42:52,  2.01it/s] 52%|█████▏    | 5514/10691 [53:42<42:48,  2.02it/s] 52%|█████▏    | 5515/10691 [53:42<42:48,  2.02it/s] 52%|█████▏    | 5516/10691 [53:43<42:44,  2.02it/s] 52%|█████▏    | 5517/10691 [53:43<42:45,  2.02it/s] 52%|█████▏    | 5518/10691 [53:44<42:48,  2.01it/s] 52%|█████▏    | 5519/10691 [53:44<42:43,  2.02it/s] 52%|█████▏    | 5520/10691 [53:45<42:42,  2.02it/s] 52%|█████▏    | 5521/10691 [53:45<42:40,  2.02it/s] 52%|█████▏    | 5522/10691 [53:46<42:40,  2.02it/s] 52%|█████▏    | 5523/10691 [53:46<42:38,  2.02it/s] 52%|█████▏    | 5524/10691 [53:47<42:40,  2.02it/s] 52%|█████▏    | 5525/10691 [53:47<42:37,  2.02it/s]                                                    {'loss': 3.0295, 'grad_norm': 0.20139379799365997, 'learning_rate': 0.0005579113186539516, 'epoch': 0.52}
+ 52%|█████▏    | 5525/10691 [53:47<42:37,  2.02it/s] 52%|█████▏    | 5526/10691 [53:48<42:42,  2.02it/s] 52%|█████▏    | 5527/10691 [53:48<42:43,  2.01it/s] 52%|█████▏    | 5528/10691 [53:49<42:43,  2.01it/s] 52%|█████▏    | 5529/10691 [53:49<42:44,  2.01it/s] 52%|█████▏    | 5530/10691 [53:50<42:42,  2.01it/s] 52%|█████▏    | 5531/10691 [53:50<42:40,  2.02it/s] 52%|█████▏    | 5532/10691 [53:50<42:40,  2.01it/s] 52%|█████▏    | 5533/10691 [53:51<42:39,  2.02it/s] 52%|█████▏    | 5534/10691 [53:51<42:42,  2.01it/s] 52%|█████▏    | 5535/10691 [53:52<42:38,  2.01it/s] 52%|█████▏    | 5536/10691 [53:52<42:37,  2.02it/s] 52%|█████▏    | 5537/10691 [53:53<42:35,  2.02it/s] 52%|█████▏    | 5538/10691 [53:53<42:38,  2.01it/s] 52%|█████▏    | 5539/10691 [53:54<42:36,  2.02it/s] 52%|█████▏    | 5540/10691 [53:54<42:36,  2.01it/s] 52%|█████▏    | 5541/10691 [53:55<42:37,  2.01it/s] 52%|█████▏    | 5542/10691 [53:55<42:33,  2.02it/s] 52%|█████▏    | 5543/10691 [53:56<42:34,  2.02it/s] 52%|█████▏    | 5544/10691 [53:56<42:32,  2.02it/s] 52%|█████▏    | 5545/10691 [53:57<42:31,  2.02it/s] 52%|█████▏    | 5546/10691 [53:57<42:28,  2.02it/s] 52%|█████▏    | 5547/10691 [53:58<42:31,  2.02it/s] 52%|█████▏    | 5548/10691 [53:58<42:31,  2.02it/s] 52%|█████▏    | 5549/10691 [53:59<42:30,  2.02it/s] 52%|█████▏    | 5550/10691 [53:59<42:28,  2.02it/s]                                                    {'loss': 3.0258, 'grad_norm': 0.2050604522228241, 'learning_rate': 0.0005538552174386007, 'epoch': 0.52}
+ 52%|█████▏    | 5550/10691 [53:59<42:28,  2.02it/s] 52%|█████▏    | 5551/10691 [54:00<42:31,  2.01it/s] 52%|█████▏    | 5552/10691 [54:00<42:29,  2.02it/s] 52%|█████▏    | 5553/10691 [54:01<42:28,  2.02it/s] 52%|█████▏    | 5554/10691 [54:01<42:25,  2.02it/s] 52%|█████▏    | 5555/10691 [54:02<42:30,  2.01it/s] 52%|█████▏    | 5556/10691 [54:02<42:26,  2.02it/s] 52%|█████▏    | 5557/10691 [54:03<42:27,  2.02it/s] 52%|█████▏    | 5558/10691 [54:03<42:29,  2.01it/s] 52%|█████▏    | 5559/10691 [54:04<42:27,  2.01it/s] 52%|█████▏    | 5560/10691 [54:04<42:27,  2.01it/s] 52%|█████▏    | 5561/10691 [54:05<42:23,  2.02it/s] 52%|█████▏    | 5562/10691 [54:05<42:26,  2.01it/s] 52%|█████▏    | 5563/10691 [54:06<42:23,  2.02it/s] 52%|█████▏    | 5564/10691 [54:06<42:23,  2.02it/s] 52%|█████▏    | 5565/10691 [54:07<42:21,  2.02it/s] 52%|█████▏    | 5566/10691 [54:07<42:22,  2.02it/s] 52%|█████▏    | 5567/10691 [54:08<42:22,  2.02it/s] 52%|█████▏    | 5568/10691 [54:08<42:22,  2.02it/s] 52%|█████▏    | 5569/10691 [54:09<42:23,  2.01it/s] 52%|█████▏    | 5570/10691 [54:09<42:20,  2.02it/s] 52%|█████▏    | 5571/10691 [54:10<42:21,  2.01it/s] 52%|█████▏    | 5572/10691 [54:10<42:22,  2.01it/s] 52%|█████▏    | 5573/10691 [54:11<42:21,  2.01it/s] 52%|█████▏    | 5574/10691 [54:11<42:20,  2.01it/s] 52%|█████▏    | 5575/10691 [54:12<42:17,  2.02it/s]                                                    {'loss': 3.0161, 'grad_norm': 0.20141953229904175, 'learning_rate': 0.000549795527295584, 'epoch': 0.52}
+ 52%|█████▏    | 5575/10691 [54:12<42:17,  2.02it/s] 52%|█████▏    | 5576/10691 [54:12<42:20,  2.01it/s] 52%|█████▏    | 5577/10691 [54:13<42:16,  2.02it/s] 52%|█████▏    | 5578/10691 [54:13<42:15,  2.02it/s] 52%|█████▏    | 5579/10691 [54:14<42:14,  2.02it/s] 52%|█████▏    | 5580/10691 [54:14<42:15,  2.02it/s] 52%|█████▏    | 5581/10691 [54:15<42:11,  2.02it/s] 52%|█████▏    | 5582/10691 [54:15<42:14,  2.02it/s] 52%|█████▏    | 5583/10691 [54:16<42:15,  2.01it/s] 52%|█████▏    | 5584/10691 [54:16<42:12,  2.02it/s] 52%|█████▏    | 5585/10691 [54:17<42:13,  2.02it/s] 52%|█████▏    | 5586/10691 [54:17<42:10,  2.02it/s] 52%|█████▏    | 5587/10691 [54:18<42:10,  2.02it/s] 52%|█████▏    | 5588/10691 [54:18<42:10,  2.02it/s] 52%|█████▏    | 5589/10691 [54:19<42:08,  2.02it/s] 52%|█████▏    | 5590/10691 [54:19<42:11,  2.02it/s] 52%|█████▏    | 5591/10691 [54:20<42:07,  2.02it/s] 52%|█████▏    | 5592/10691 [54:20<42:08,  2.02it/s] 52%|█████▏    | 5593/10691 [54:21<42:05,  2.02it/s] 52%|█████▏    | 5594/10691 [54:21<42:08,  2.02it/s] 52%|█████▏    | 5595/10691 [54:22<42:05,  2.02it/s] 52%|████���▏    | 5596/10691 [54:22<42:05,  2.02it/s] 52%|█████▏    | 5597/10691 [54:23<42:06,  2.02it/s] 52%|█████▏    | 5598/10691 [54:23<42:04,  2.02it/s] 52%|█████▏    | 5599/10691 [54:24<42:04,  2.02it/s] 52%|█████▏    | 5600/10691 [54:24<42:04,  2.02it/s]                                                    {'loss': 3.032, 'grad_norm': 0.1940847486257553, 'learning_rate': 0.0005457325187638567, 'epoch': 0.52}
+ 52%|█████▏    | 5600/10691 [54:24<42:04,  2.02it/s] 52%|█████▏    | 5601/10691 [54:25<42:07,  2.01it/s] 52%|█████▏    | 5602/10691 [54:25<42:07,  2.01it/s] 52%|█████▏    | 5603/10691 [54:26<42:05,  2.01it/s] 52%|█████▏    | 5604/10691 [54:26<42:04,  2.02it/s] 52%|█████▏    | 5605/10691 [54:27<42:05,  2.01it/s] 52%|█████▏    | 5606/10691 [54:27<42:06,  2.01it/s] 52%|█████▏    | 5607/10691 [54:28<42:07,  2.01it/s] 52%|█████▏    | 5608/10691 [54:28<42:07,  2.01it/s] 52%|█████▏    | 5609/10691 [54:29<42:08,  2.01it/s] 52%|█████▏    | 5610/10691 [54:29<42:06,  2.01it/s] 52%|█████▏    | 5611/10691 [54:30<42:05,  2.01it/s] 52%|█████▏    | 5612/10691 [54:30<42:01,  2.01it/s] 53%|█████▎    | 5613/10691 [54:31<41:59,  2.02it/s] 53%|█████▎    | 5614/10691 [54:31<41:57,  2.02it/s] 53%|█████▎    | 5615/10691 [54:32<42:02,  2.01it/s] 53%|█████▎    | 5616/10691 [54:32<42:02,  2.01it/s] 53%|█████▎    | 5617/10691 [54:33<42:02,  2.01it/s] 53%|█████▎    | 5618/10691 [54:33<42:00,  2.01it/s] 53%|█████▎    | 5619/10691 [54:34<42:00,  2.01it/s] 53%|█████▎    | 5620/10691 [54:34<42:01,  2.01it/s] 53%|█████▎    | 5621/10691 [54:35<41:59,  2.01it/s] 53%|█████▎    | 5622/10691 [54:35<42:01,  2.01it/s] 53%|█████▎    | 5623/10691 [54:36<41:59,  2.01it/s] 53%|█████▎    | 5624/10691 [54:36<41:56,  2.01it/s] 53%|█████▎    | 5625/10691 [54:37<41:58,  2.01it/s]                                                    {'loss': 3.0194, 'grad_norm': 0.19601581990718842, 'learning_rate': 0.0005416664626035127, 'epoch': 0.53}
+ 53%|█████▎    | 5625/10691 [54:37<41:58,  2.01it/s] 53%|█████▎    | 5626/10691 [54:37<41:57,  2.01it/s] 53%|█████▎    | 5627/10691 [54:38<41:54,  2.01it/s] 53%|█████▎    | 5628/10691 [54:38<41:53,  2.01it/s] 53%|█████▎    | 5629/10691 [54:39<41:49,  2.02it/s] 53%|█████▎    | 5630/10691 [54:39<41:52,  2.01it/s] 53%|█████▎    | 5631/10691 [54:40<41:48,  2.02it/s] 53%|█████▎    | 5632/10691 [54:40<41:50,  2.02it/s] 53%|█████▎    | 5633/10691 [54:41<41:50,  2.02it/s] 53%|█████▎    | 5634/10691 [54:41<41:49,  2.02it/s] 53%|█████▎    | 5635/10691 [54:42<41:52,  2.01it/s] 53%|█████▎    | 5636/10691 [54:42<41:52,  2.01it/s] 53%|█████▎    | 5637/10691 [54:43<41:49,  2.01it/s] 53%|█████▎    | 5638/10691 [54:43<41:47,  2.02it/s] 53%|█████▎    | 5639/10691 [54:44<41:46,  2.02it/s] 53%|█████▎    | 5640/10691 [54:44<41:50,  2.01it/s] 53%|█████▎    | 5641/10691 [54:45<41:45,  2.02it/s] 53%|█████▎    | 5642/10691 [54:45<41:46,  2.01it/s] 53%|█████▎    | 5643/10691 [54:46<41:43,  2.02it/s] 53%|█████▎    | 5644/10691 [54:46<41:43,  2.02it/s] 53%|█████▎    | 5645/10691 [54:47<41:44,  2.01it/s] 53%|█████▎    | 5646/10691 [54:47<41:43,  2.02it/s] 53%|█████▎    | 5647/10691 [54:48<41:43,  2.01it/s] 53%|█████▎    | 5648/10691 [54:48<41:43,  2.01it/s] 53%|█████▎    | 5649/10691 [54:49<41:39,  2.02it/s] 53%|█████▎    | 5650/10691 [54:49<41:39,  2.02it/s]                                                    {'loss': 3.0215, 'grad_norm': 0.20305876433849335, 'learning_rate': 0.0005375976297777407, 'epoch': 0.53}
+ 53%|█████▎    | 5650/10691 [54:49<41:39,  2.02it/s] 53%|█████▎    | 5651/10691 [54:50<41:41,  2.02it/s] 53%|█████▎    | 5652/10691 [54:50<41:44,  2.01it/s] 53%|█████▎    | 5653/10691 [54:51<41:39,  2.02it/s] 53%|█████▎    | 5654/10691 [54:51<41:40,  2.01it/s] 53%|█████▎    | 5655/10691 [54:52<41:43,  2.01it/s] 53%|█████▎    | 5656/10691 [54:52<41:38,  2.01it/s] 53%|█████▎    | 5657/10691 [54:53<41:38,  2.02it/s] 53%|█████▎    | 5658/10691 [54:53<41:33,  2.02it/s] 53%|█████▎    | 5659/10691 [54:54<41:36,  2.02it/s] 53%|█████▎    | 5660/10691 [54:54<41:35,  2.02it/s] 53%|█████▎    | 5661/10691 [54:55<41:37,  2.01it/s] 53%|█████▎    | 5662/10691 [54:55<41:39,  2.01it/s] 53%|█████▎    | 5663/10691 [54:56<41:36,  2.01it/s] 53%|█████▎    | 5664/10691 [54:56<41:37,  2.01it/s] 53%|█████▎    | 5665/10691 [54:57<41:36,  2.01it/s] 53%|█████▎    | 5666/10691 [54:57<41:33,  2.02it/s] 53%|█████▎    | 5667/10691 [54:57<41:34,  2.01it/s] 53%|█████▎    | 5668/10691 [54:58<41:32,  2.02it/s] 53%|█████▎    | 5669/10691 [54:58<41:34,  2.01it/s] 53%|█████▎    | 5670/10691 [54:59<41:30,  2.02it/s] 53%|█████▎    | 5671/10691 [54:59<41:29,  2.02it/s] 53%|█████▎    | 5672/10691 [55:00<41:27,  2.02it/s] 53%|█████▎    | 5673/10691 [55:00<41:27,  2.02it/s] 53%|█████▎    | 5674/10691 [55:01<41:27,  2.02it/s] 53%|█████▎    | 5675/10691 [55:01<41:29,  2.01it/s]                                                    {'loss': 3.0164, 'grad_norm': 0.19630250334739685, 'learning_rate': 0.0005335262914347674, 'epoch': 0.53}
+ 53%|█████▎    | 5675/10691 [55:01<41:29,  2.01it/s] 53%|█████▎    | 5676/10691 [55:02<41:29,  2.01it/s] 53%|█████▎    | 5677/10691 [55:02<41:31,  2.01it/s] 53%|█████▎    | 5678/10691 [55:03<41:28,  2.01it/s] 53%|█████▎    | 5679/10691 [55:03<41:26,  2.02it/s] 53%|█████▎    | 5680/10691 [55:04<41:23,  2.02it/s] 53%|█████▎    | 5681/10691 [55:04<41:24,  2.02it/s] 53%|█████▎    | 5682/10691 [55:05<41:26,  2.01it/s] 53%|█████▎    | 5683/10691 [55:05<41:25,  2.01it/s] 53%|█████▎    | 5684/10691 [55:06<41:29,  2.01it/s] 53%|█████▎    | 5685/10691 [55:06<41:27,  2.01it/s] 53%|█████▎    | 5686/10691 [55:07<41:23,  2.02it/s] 53%|█████▎    | 5687/10691 [55:07<41:25,  2.01it/s] 53%|█████▎    | 5688/10691 [55:08<41:23,  2.01it/s] 53%|█████▎    | 5689/10691 [55:08<41:22,  2.01it/s] 53%|█████▎    | 5690/10691 [55:09<41:20,  2.02it/s] 53%|█████▎    | 5691/10691 [55:09<41:20,  2.02it/s] 53%|█████▎    | 5692/10691 [55:10<41:19,  2.02it/s] 53%|█████▎    | 5693/10691 [55:10<41:19,  2.02it/s] 53%|█████▎    | 5694/10691 [55:11<41:16,  2.02it/s] 53%|█████▎    | 5695/10691 [55:11<41:17,  2.02it/s] 53%|█████▎    | 5696/10691 [55:12<41:16,  2.02it/s] 53%|█████▎    | 5697/10691 [55:12<41:16,  2.02it/s] 53%|█████▎    | 5698/10691 [55:13<41:15,  2.02it/s] 53%|█████▎    | 5699/10691 [55:13<41:15,  2.02it/s] 53%|█████▎    | 5700/10691 [55:14<41:16,  2.02it/s]                                                    {'loss': 3.0155, 'grad_norm': 0.21513934433460236, 'learning_rate': 0.0005294527188897875, 'epoch': 0.53}
+ 53%|█████▎    | 5700/10691 [55:14<41:16,  2.02it/s] 53%|█████▎    | 5701/10691 [55:14<41:14,  2.02it/s] 53%|█████▎    | 5702/10691 [55:15<41:19,  2.01it/s] 53%|█████▎    | 5703/10691 [55:15<41:16,  2.01it/s] 53%|█████▎    | 5704/10691 [55:16<41:15,  2.01it/s] 53%|█████▎    | 5705/10691 [55:16<41:14,  2.01it/s] 53%|█████▎    | 5706/10691 [55:17<41:11,  2.02it/s] 53%|█████▎    | 5707/10691 [55:17<41:14,  2.01it/s] 53%|█████▎    | 5708/10691 [55:18<41:11,  2.02it/s] 53%|█████▎    | 5709/10691 [55:18<41:12,  2.02it/s] 53%|█████▎    | 5710/10691 [55:19<41:10,  2.02it/s] 53%|█████▎    | 5711/10691 [55:19<41:11,  2.02it/s] 53%|█████▎    | 5712/10691 [55:20<41:08,  2.02it/s] 53%|█████▎    | 5713/10691 [55:20<41:07,  2.02it/s] 53%|█████▎    | 5714/10691 [55:21<41:08,  2.02it/s] 53%|█████▎    | 5715/10691 [55:21<41:06,  2.02it/s] 53%|█████▎    | 5716/10691 [55:22<41:06,  2.02it/s] 53%|█████▎    | 5717/10691 [55:22<41:06,  2.02it/s] 53%|█████▎    | 5718/10691 [55:23<41:08,  2.01it/s] 53%|█████▎    | 5719/10691 [55:23<41:07,  2.02it/s] 54%|█████▎    | 5720/10691 [55:24<41:05,  2.02it/s] 54%|█████▎    | 5721/10691 [55:24<41:06,  2.01it/s] 54%|█████▎    | 5722/10691 [55:25<41:04,  2.02it/s] 54%|█████▎    | 5723/10691 [55:25<41:02,  2.02it/s] 54%|█████▎    | 5724/10691 [55:26<41:00,  2.02it/s] 54%|█████▎    | 5725/10691 [55:26<41:03,  2.02it/s]                                                    {'loss': 3.0164, 'grad_norm': 0.20445425808429718, 'learning_rate': 0.0005253771836068835, 'epoch': 0.54}
+ 54%|█████▎    | 5725/10691 [55:26<41:03,  2.02it/s] 54%|█████▎    | 5726/10691 [55:27<41:03,  2.02it/s] 54%|█████▎    | 5727/10691 [55:27<41:03,  2.01it/s] 54%|█████▎    | 5728/10691 [55:28<40:59,  2.02it/s] 54%|█████▎    | 5729/10691 [55:28<41:00,  2.02it/s] 54%|█████▎    | 5730/10691 [55:29<41:01,  2.02it/s] 54%|█████▎    | 5731/10691 [55:29<40:59,  2.02it/s] 54%|█████▎    | 5732/10691 [55:30<41:02,  2.01it/s] 54%|█████▎    | 5733/10691 [55:30<41:01,  2.01it/s] 54%|█████▎    | 5734/10691 [55:31<41:01,  2.01it/s] 54%|█████▎    | 5735/10691 [55:31<41:01,  2.01it/s] 54%|█████▎    | 5736/10691 [55:32<41:01,  2.01it/s] 54%|█████▎    | 5737/10691 [55:32<40:59,  2.01it/s] 54%|█████▎    | 5738/10691 [55:33<40:56,  2.02it/s] 54%|█████▎    | 5739/10691 [55:33<40:59,  2.01it/s] 54%|█████▎    | 5740/10691 [55:34<40:58,  2.01it/s] 54%|█████▎    | 5741/10691 [55:34<40:56,  2.01it/s] 54%|█████▎    | 5742/10691 [55:35<40:54,  2.02it/s] 54%|█████▎    | 5743/10691 [55:35<40:53,  2.02it/s] 54%|█████▎    | 5744/10691 [55:36<40:52,  2.02it/s] 54%|█████▎    | 5745/10691 [55:36<40:54,  2.01it/s] 54%|█████▎    | 5746/10691 [55:37<40:51,  2.02it/s] 54%|█████▍    | 5747/10691 [55:37<40:50,  2.02it/s] 54%|█████▍    | 5748/10691 [55:38<40:48,  2.02it/s] 54%|█████▍    | 5749/10691 [55:38<40:49,  2.02it/s] 54%|█████▍    | 5750/10691 [55:39<40:52,  2.01it/s]                                                    {'loss': 3.0109, 'grad_norm': 0.20305567979812622, 'learning_rate': 0.0005212999571809362, 'epoch': 0.54}
+ 54%|█████▍    | 5750/10691 [55:39<40:52,  2.01it/s] 54%|█████▍    | 5751/10691 [55:39<40:52,  2.01it/s] 54%|█████▍    | 5752/10691 [55:40<40:50,  2.02it/s] 54%|█████▍    | 5753/10691 [55:40<40:51,  2.01it/s] 54%|█████▍    | 5754/10691 [55:41<40:47,  2.02it/s] 54%|█████▍    | 5755/10691 [55:41<40:51,  2.01it/s] 54%|█████▍    | 5756/10691 [55:42<40:50,  2.01it/s] 54%|█████▍    | 5757/10691 [55:42<40:48,  2.02it/s] 54%|█████▍    | 5758/10691 [55:43<40:48,  2.01it/s] 54%|█████▍    | 5759/10691 [55:43<40:49,  2.01it/s] 54%|█████▍    | 5760/10691 [55:44<40:49,  2.01it/s] 54%|█████▍    | 5761/10691 [55:44<40:50,  2.01it/s] 54%|█████▍    | 5762/10691 [55:45<40:47,  2.01it/s] 54%|█████▍    | 5763/10691 [55:45<40:45,  2.01it/s] 54%|█████▍    | 5764/10691 [55:46<40:43,  2.02it/s] 54%|█████▍    | 5765/10691 [55:46<40:38,  2.02it/s] 54%|█████▍    | 5766/10691 [55:47<40:39,  2.02it/s] 54%|█████▍    | 5767/10691 [55:47<40:39,  2.02it/s] 54%|█████▍    | 5768/10691 [55:48<40:41,  2.02it/s] 54%|█████▍    | 5769/10691 [55:48<40:39,  2.02it/s] 54%|█████▍    | 5770/10691 [55:49<40:42,  2.01it/s] 54%|█████▍    | 5771/10691 [55:49<40:40,  2.02it/s] 54%|█████▍    | 5772/10691 [55:50<40:39,  2.02it/s] 54%|█████▍    | 5773/10691 [55:50<40:41,  2.01it/s] 54%|█████▍    | 5774/10691 [55:51<40:37,  2.02it/s] 54%|█████▍    | 5775/10691 [55:51<40:38,  2.02it/s]                                                    {'loss': 3.0107, 'grad_norm': 0.2037021368741989, 'learning_rate': 0.0005172213113195239, 'epoch': 0.54}
+ 54%|█████▍    | 5775/10691 [55:51<40:38,  2.02it/s] 54%|█████▍    | 5776/10691 [55:52<40:44,  2.01it/s] 54%|█████▍    | 5777/10691 [55:52<40:39,  2.01it/s] 54%|█████▍    | 5778/10691 [55:53<40:38,  2.02it/s] 54%|█████▍    | 5779/10691 [55:53<40:34,  2.02it/s] 54%|█████▍    | 5780/10691 [55:54<40:33,  2.02it/s] 54%|█████▍    | 5781/10691 [55:54<40:30,  2.02it/s] 54%|█████▍    | 5782/10691 [55:55<40:31,  2.02it/s] 54%|█████▍    | 5783/10691 [55:55<40:34,  2.02it/s] 54%|█████▍    | 5784/10691 [55:56<40:36,  2.01it/s] 54%|█████▍    | 5785/10691 [55:56<40:34,  2.02it/s] 54%|█████▍    | 5786/10691 [55:57<40:32,  2.02it/s] 54%|█████▍    | 5787/10691 [55:57<40:32,  2.02it/s] 54%|█████▍    | 5788/10691 [55:58<40:33,  2.01it/s] 54%|█████▍    | 5789/10691 [55:58<40:34,  2.01it/s] 54%|█████▍    | 5790/10691 [55:59<40:32,  2.01it/s] 54%|█████▍    | 5791/10691 [55:59<40:31,  2.01it/s] 54%|█████▍    | 5792/10691 [56:00<40:33,  2.01it/s] 54%|█████▍    | 5793/10691 [56:00<40:32,  2.01it/s] 54%|█████▍    | 5794/10691 [56:01<40:34,  2.01it/s] 54%|█████▍    | 5795/10691 [56:01<40:32,  2.01it/s] 54%|█████▍    | 5796/10691 [56:01<40:28,  2.02it/s] 54%|█████▍    | 5797/10691 [56:02<40:24,  2.02it/s] 54%|█████▍    | 5798/10691 [56:02<40:23,  2.02it/s] 54%|█████▍    | 5799/10691 [56:03<40:22,  2.02it/s] 54%|█████▍    | 5800/10691 [56:03<40:21,  2.02it/s]                                                    {'loss': 3.0112, 'grad_norm': 0.22521358728408813, 'learning_rate': 0.0005131415178248166, 'epoch': 0.54}
+ 54%|█████▍    | 5800/10691 [56:03<40:21,  2.02it/s] 54%|█████��    | 5801/10691 [56:04<40:26,  2.02it/s] 54%|█████▍    | 5802/10691 [56:04<40:24,  2.02it/s] 54%|█████▍    | 5803/10691 [56:05<40:25,  2.02it/s] 54%|█████▍    | 5804/10691 [56:05<40:24,  2.02it/s] 54%|█████▍    | 5805/10691 [56:06<40:21,  2.02it/s] 54%|█████▍    | 5806/10691 [56:06<40:25,  2.01it/s] 54%|█████▍    | 5807/10691 [56:07<40:22,  2.02it/s] 54%|█████▍    | 5808/10691 [56:07<40:23,  2.02it/s] 54%|█████▍    | 5809/10691 [56:08<40:22,  2.02it/s] 54%|█████▍    | 5810/10691 [56:08<40:22,  2.02it/s] 54%|█████▍    | 5811/10691 [56:09<40:24,  2.01it/s] 54%|█████▍    | 5812/10691 [56:09<40:23,  2.01it/s] 54%|█████▍    | 5813/10691 [56:10<40:23,  2.01it/s] 54%|█████▍    | 5814/10691 [56:10<40:19,  2.02it/s] 54%|█████▍    | 5815/10691 [56:11<40:15,  2.02it/s] 54%|█████▍    | 5816/10691 [56:11<40:19,  2.01it/s] 54%|█████▍    | 5817/10691 [56:12<40:17,  2.02it/s] 54%|█████▍    | 5818/10691 [56:12<40:19,  2.01it/s] 54%|█████▍    | 5819/10691 [56:13<40:13,  2.02it/s] 54%|█████▍    | 5820/10691 [56:13<40:16,  2.02it/s] 54%|█████▍    | 5821/10691 [56:14<40:14,  2.02it/s] 54%|█████▍    | 5822/10691 [56:14<40:14,  2.02it/s] 54%|█████▍    | 5823/10691 [56:15<40:13,  2.02it/s] 54%|█████▍    | 5824/10691 [56:15<40:14,  2.02it/s] 54%|█████▍    | 5825/10691 [56:16<40:15,  2.01it/s]                                                    {'loss': 3.0141, 'grad_norm': 0.18855628371238708, 'learning_rate': 0.0005090608485754632, 'epoch': 0.54}
+ 54%|█████▍    | 5825/10691 [56:16<40:15,  2.01it/s] 54%|█████▍    | 5826/10691 [56:16<40:17,  2.01it/s] 55%|█████▍    | 5827/10691 [56:17<40:17,  2.01it/s] 55%|█████▍    | 5828/10691 [56:17<40:15,  2.01it/s] 55%|█████▍    | 5829/10691 [56:18<40:11,  2.02it/s] 55%|█████▍    | 5830/10691 [56:18<40:06,  2.02it/s] 55%|█████▍    | 5831/10691 [56:19<40:08,  2.02it/s] 55%|█████▍    | 5832/10691 [56:19<40:08,  2.02it/s] 55%|█████▍    | 5833/10691 [56:20<40:08,  2.02it/s] 55%|█████▍    | 5834/10691 [56:20<40:11,  2.01it/s] 55%|█████▍    | 5835/10691 [56:21<40:07,  2.02it/s] 55%|█████▍    | 5836/10691 [56:21<40:07,  2.02it/s] 55%|█████▍    | 5837/10691 [56:22<40:05,  2.02it/s] 55%|█████▍    | 5838/10691 [56:22<40:06,  2.02it/s] 55%|█████▍    | 5839/10691 [56:23<40:02,  2.02it/s] 55%|█████▍    | 5840/10691 [56:23<40:03,  2.02it/s] 55%|█████▍    | 5841/10691 [56:24<40:00,  2.02it/s] 55%|█████▍    | 5842/10691 [56:24<40:02,  2.02it/s] 55%|█████▍    | 5843/10691 [56:25<40:02,  2.02it/s] 55%|█████▍    | 5844/10691 [56:25<40:02,  2.02it/s] 55%|█████▍    | 5845/10691 [56:26<40:05,  2.01it/s] 55%|█████▍    | 5846/10691 [56:26<40:01,  2.02it/s] 55%|█████▍    | 5847/10691 [56:27<40:02,  2.02it/s] 55%|█████▍    | 5848/10691 [56:27<39:59,  2.02it/s] 55%|█████▍    | 5849/10691 [56:28<40:02,  2.02it/s] 55%|█████▍    | 5850/10691 [56:28<39:57,  2.02it/s]                                                    {'loss': 3.0107, 'grad_norm': 0.2114672064781189, 'learning_rate': 0.0005049795755084727, 'epoch': 0.55}
+ 55%|█████▍    | 5850/10691 [56:28<39:57,  2.02it/s] 55%|█████▍    | 5851/10691 [56:29<40:02,  2.01it/s] 55%|█████▍    | 5852/10691 [56:29<39:58,  2.02it/s] 55%|█████▍    | 5853/10691 [56:30<39:57,  2.02it/s] 55%|█████▍    | 5854/10691 [56:30<40:02,  2.01it/s] 55%|█████▍    | 5855/10691 [56:31<39:56,  2.02it/s] 55%|█████▍    | 5856/10691 [56:31<39:59,  2.02it/s] 55%|█████▍    | 5857/10691 [56:32<39:54,  2.02it/s] 55%|█████▍    | 5858/10691 [56:32<39:57,  2.02it/s] 55%|█████▍    | 5859/10691 [56:33<39:55,  2.02it/s] 55%|█████▍    | 5860/10691 [56:33<39:54,  2.02it/s] 55%|█████▍    | 5861/10691 [56:34<39:53,  2.02it/s] 55%|█████▍    | 5862/10691 [56:34<39:53,  2.02it/s] 55%|█████▍    | 5863/10691 [56:35<39:55,  2.02it/s] 55%|█████▍    | 5864/10691 [56:35<39:53,  2.02it/s] 55%|█████▍    | 5865/10691 [56:36<39:53,  2.02it/s] 55%|█████▍    | 5866/10691 [56:36<39:52,  2.02it/s] 55%|█████▍    | 5867/10691 [56:37<39:52,  2.02it/s] 55%|█████▍    | 5868/10691 [56:37<39:55,  2.01it/s] 55%|█████▍    | 5869/10691 [56:38<39:52,  2.02it/s] 55%|█████▍    | 5870/10691 [56:38<39:53,  2.01it/s] 55%|█████▍    | 5871/10691 [56:39<39:50,  2.02it/s] 55%|█████▍    | 5872/10691 [56:39<39:47,  2.02it/s] 55%|█████▍    | 5873/10691 [56:40<39:45,  2.02it/s] 55%|█████▍    | 5874/10691 [56:40<39:45,  2.02it/s] 55%|█████▍    | 5875/10691 [56:41<39:45,  2.02it/s]                                                    {'loss': 3.0091, 'grad_norm': 0.19891583919525146, 'learning_rate': 0.0005008979706010934, 'epoch': 0.55}
+ 55%|█████▍    | 5875/10691 [56:41<39:45,  2.02it/s] 55%|█████▍    | 5876/10691 [56:41<39:48,  2.02it/s] 55%|█████▍    | 5877/10691 [56:42<39:49,  2.01it/s] 55%|█████▍    | 5878/10691 [56:42<39:45,  2.02it/s] 55%|█████▍    | 5879/10691 [56:43<39:48,  2.01it/s] 55%|█████▍    | 5880/10691 [56:43<39:44,  2.02it/s] 55%|█████▌    | 5881/10691 [56:44<39:44,  2.02it/s] 55%|█████▌    | 5882/10691 [56:44<39:42,  2.02it/s] 55%|█████▌    | 5883/10691 [56:45<39:41,  2.02it/s] 55%|█████▌    | 5884/10691 [56:45<39:43,  2.02it/s] 55%|█████▌    | 5885/10691 [56:46<39:43,  2.02it/s] 55%|█████▌    | 5886/10691 [56:46<39:46,  2.01it/s] 55%|█████▌    | 5887/10691 [56:47<39:45,  2.01it/s] 55%|█████▌    | 5888/10691 [56:47<39:42,  2.02it/s] 55%|█████▌    | 5889/10691 [56:48<39:44,  2.01it/s] 55%|█████▌    | 5890/10691 [56:48<39:41,  2.02it/s] 55%|█████▌    | 5891/10691 [56:49<39:42,  2.01it/s] 55%|█████▌    | 5892/10691 [56:49<39:40,  2.02it/s] 55%|█████▌    | 5893/10691 [56:50<39:38,  2.02it/s] 55%|█████▌    | 5894/10691 [56:50<39:38,  2.02it/s] 55%|█████▌    | 5895/10691 [56:51<39:35,  2.02it/s] 55%|█████▌    | 5896/10691 [56:51<39:38,  2.02it/s] 55%|█████▌    | 5897/10691 [56:52<39:37,  2.02it/s] 55%|█████▌    | 5898/10691 [56:52<39:39,  2.01it/s] 55%|█████▌    | 5899/10691 [56:53<39:39,  2.01it/s] 55%|█████▌    | 5900/10691 [56:53<39:35,  2.02it/s]                                                    {'loss': 3.0091, 'grad_norm': 0.20602348446846008, 'learning_rate': 0.0004968163058526867, 'epoch': 0.55}
+ 55%|█████▌    | 5900/10691 [56:53<39:35,  2.02it/s] 55%|█████▌    | 5901/10691 [56:54<39:41,  2.01it/s] 55%|█████▌    | 5902/10691 [56:54<39:36,  2.02it/s] 55%|█████▌    | 5903/10691 [56:55<39:36,  2.01it/s] 55%|█████▌    | 5904/10691 [56:55<39:35,  2.02it/s] 55%|█████▌    | 5905/10691 [56:56<39:36,  2.01it/s] 55%|█████▌    | 5906/10691 [56:56<39:37,  2.01it/s] 55%|█████▌    | 5907/10691 [56:57<39:36,  2.01it/s] 55%|█████▌    | 5908/10691 [56:57<39:35,  2.01it/s] 55%|█████▌    | 5909/10691 [56:58<39:34,  2.01it/s] 55%|█████▌    | 5910/10691 [56:58<39:30,  2.02it/s] 55%|█████▌    | 5911/10691 [56:59<39:28,  2.02it/s] 55%|█████▌    | 5912/10691 [56:59<39:28,  2.02it/s] 55%|█████▌    | 5913/10691 [57:00<39:29,  2.02it/s] 55%|█████▌    | 5914/10691 [57:00<39:26,  2.02it/s] 55%|█████▌    | 5915/10691 [57:01<39:27,  2.02it/s] 55%|█████▌    | 5916/10691 [57:01<39:26,  2.02it/s] 55%|█████▌    | 5917/10691 [57:02<39:29,  2.01it/s] 55%|█████▌    | 5918/10691 [57:02<39:27,  2.02it/s] 55%|█████▌    | 5919/10691 [57:03<39:27,  2.02it/s] 55%|█████▌    | 5920/10691 [57:03<39:27,  2.02it/s] 55%|█████▌    | 5921/10691 [57:03<39:23,  2.02it/s] 55%|█████▌    | 5922/10691 [57:04<39:26,  2.02it/s] 55%|█████▌    | 5923/10691 [57:04<39:24,  2.02it/s] 55%|█████▌    | 5924/10691 [57:05<39:27,  2.01it/s] 55%|█████▌    | 5925/10691 [57:05<39:27,  2.01it/s]                                                    {'loss': 3.0062, 'grad_norm': 0.20487309992313385, 'learning_rate': 0.0004927348532666024, 'epoch': 0.55}
+ 55%|█████▌    | 5925/10691 [57:05<39:27,  2.01it/s] 55%|█████▌    | 5926/10691 [57:06<39:28,  2.01it/s] 55%|█████▌    | 5927/10691 [57:06<39:27,  2.01it/s] 55%|█████▌    | 5928/10691 [57:07<39:27,  2.01it/s] 55%|█████▌    | 5929/10691 [57:07<39:25,  2.01it/s] 55%|█████▌    | 5930/10691 [57:08<39:25,  2.01it/s] 55%|█████▌    | 5931/10691 [57:08<39:22,  2.01it/s] 55%|█████▌    | 5932/10691 [57:09<39:24,  2.01it/s] 55%|█████▌    | 5933/10691 [57:09<39:25,  2.01it/s] 56%|█████▌    | 5934/10691 [57:10<39:26,  2.01it/s] 56%|█████▌    | 5935/10691 [57:10<39:22,  2.01it/s] 56%|█████▌    | 5936/10691 [57:11<39:18,  2.02it/s] 56%|█████▌    | 5937/10691 [57:11<39:19,  2.02it/s] 56%|█████▌    | 5938/10691 [57:12<39:15,  2.02it/s] 56%|█████▌    | 5939/10691 [57:12<39:15,  2.02it/s] 56%|█████▌    | 5940/10691 [57:13<39:15,  2.02it/s] 56%|█████▌    | 5941/10691 [57:13<39:17,  2.01it/s] 56%|█████▌    | 5942/10691 [57:14<39:17,  2.01it/s] 56%|█████▌    | 5943/10691 [57:14<39:16,  2.02it/s] 56%|█████▌    | 5944/10691 [57:15<39:14,  2.02it/s] 56%|█████▌    | 5945/10691 [57:15<39:15,  2.02it/s] 56%|█████▌    | 5946/10691 [57:16<39:12,  2.02it/s] 56%|█████▌    | 5947/10691 [57:16<39:12,  2.02it/s] 56%|█████▌    | 5948/10691 [57:17<39:09,  2.02it/s] 56%|█████▌    | 5949/10691 [57:17<39:12,  2.02it/s] 56%|█████▌    | 5950/10691 [57:18<39:11,  2.02it/s]                                                    {'loss': 2.9997, 'grad_norm': 0.19410040974617004, 'learning_rate': 0.0004886538848320515, 'epoch': 0.56}
+ 56%|█████▌    | 5950/10691 [57:18<39:11,  2.02it/s] 56%|█████▌    | 5951/10691 [57:18<39:11,  2.02it/s] 56%|█████▌    | 5952/10691 [57:19<39:12,  2.01it/s] 56%|█████▌    | 5953/10691 [57:19<39:10,  2.02it/s] 56%|█████▌    | 5954/10691 [57:20<39:10,  2.02it/s] 56%|█████▌    | 5955/10691 [57:20<39:07,  2.02it/s] 56%|█████▌    | 5956/10691 [57:21<39:08,  2.02it/s] 56%|█████▌    | 5957/10691 [57:21<39:08,  2.02it/s] 56%|█████▌    | 5958/10691 [57:22<39:07,  2.02it/s] 56%|█████▌    | 5959/10691 [57:22<39:05,  2.02it/s] 56%|█████▌    | 5960/10691 [57:23<39:07,  2.02it/s] 56%|█████▌    | 5961/10691 [57:23<39:09,  2.01it/s] 56%|█████▌    | 5962/10691 [57:24<39:09,  2.01it/s] 56%|█████▌    | 5963/10691 [57:24<39:07,  2.01it/s] 56%|█████▌    | 5964/10691 [57:25<39:04,  2.02it/s] 56%|█████▌    | 5965/10691 [57:25<39:07,  2.01it/s] 56%|█████▌    | 5966/10691 [57:26<39:06,  2.01it/s] 56%|█████▌    | 5967/10691 [57:26<39:05,  2.01it/s] 56%|█████▌    | 5968/10691 [57:27<39:04,  2.01it/s] 56%|█████▌    | 5969/10691 [57:27<39:02,  2.02it/s] 56%|█████▌    | 5970/10691 [57:28<39:02,  2.02it/s] 56%|█████▌    | 5971/10691 [57:28<39:01,  2.02it/s] 56%|█████▌    | 5972/10691 [57:29<38:59,  2.02it/s] 56%|█████▌    | 5973/10691 [57:29<39:00,  2.02it/s] 56%|█████▌    | 5974/10691 [57:30<39:00,  2.02it/s] 56%|█████▌    | 5975/10691 [57:30<39:01,  2.01it/s]                                                    {'loss': 3.0009, 'grad_norm': 0.19505728781223297, 'learning_rate': 0.00048457367250598116, 'epoch': 0.56}
+ 56%|█████▌    | 5975/10691 [57:30<39:01,  2.01it/s] 56%|█████▌    | 5976/10691 [57:31<39:02,  2.01it/s] 56%|█████▌    | 5977/10691 [57:31<38:58,  2.02it/s] 56%|█████▌    | 5978/10691 [57:32<38:56,  2.02it/s] 56%|█████▌    | 5979/10691 [57:32<38:57,  2.02it/s] 56%|█████▌    | 5980/10691 [57:33<38:55,  2.02it/s] 56%|█████▌    | 5981/10691 [57:33<38:54,  2.02it/s] 56%|█████▌    | 5982/10691 [57:34<38:53,  2.02it/s] 56%|█████▌    | 5983/10691 [57:34<38:54,  2.02it/s] 56%|█████▌    | 5984/10691 [57:35<38:55,  2.02it/s] 56%|█████▌    | 5985/10691 [57:35<38:53,  2.02it/s] 56%|█████▌    | 5986/10691 [57:36<38:53,  2.02it/s] 56%|█████▌    | 5987/10691 [57:36<38:51,  2.02it/s] 56%|█████▌    | 5988/10691 [57:37<38:51,  2.02it/s] 56%|█████▌    | 5989/10691 [57:38<45:06,  1.74it/s] 56%|█████▌    | 5990/10691 [57:38<43:13,  1.81it/s] 56%|█████▌    | 5991/10691 [57:38<41:53,  1.87it/s] 56%|█████▌    | 5992/10691 [57:39<40:57,  1.91it/s] 56%|█████▌    | 5993/10691 [57:39<40:18,  1.94it/s] 56%|█████▌    | 5994/10691 [57:40<39:54,  1.96it/s] 56%|█████▌    | 5995/10691 [57:40<39:31,  1.98it/s] 56%|█████▌    | 5996/10691 [57:41<39:19,  1.99it/s] 56%|█████▌    | 5997/10691 [57:41<39:07,  2.00it/s] 56%|█████▌    | 5998/10691 [57:42<39:02,  2.00it/s] 56%|█████▌    | 5999/10691 [57:42<38:58,  2.01it/s] 56%|█████▌    | 6000/10691 [57:43<38:52,  2.01it/s]                                                    {'loss': 2.9995, 'grad_norm': 0.1991034746170044, 'learning_rate': 0.0004804944881949514, 'epoch': 0.56}
+ 56%|█████▌    | 6000/10691 [57:43<38:52,  2.01it/s] 56%|█████▌    | 6001/10691 [57:43<38:53,  2.01it/s] 56%|█████▌    | 6002/10691 [57:44<38:48,  2.01it/s] 56%|█████▌    | 6003/10691 [57:44<38:48,  2.01it/s] 56%|█████▌    | 6004/10691 [57:45<38:43,  2.02it/s] 56%|█████▌    | 6005/10691 [57:45<38:44,  2.02it/s] 56%|█████▌    | 6006/10691 [57:46<38:40,  2.02it/s] 56%|█████▌    | 6007/10691 [57:46<38:42,  2.02it/s] 56%|█████▌    | 6008/10691 [57:47<38:45,  2.01it/s] 56%|█████▌    | 6009/10691 [57:47<38:43,  2.02it/s] 56%|█████▌    | 6010/10691 [57:48<38:40,  2.02it/s] 56%|█████▌    | 6011/10691 [57:48<38:40,  2.02it/s] 56%|█████▌    | 6012/10691 [57:49<38:39,  2.02it/s] 56%|█████▌    | 6013/10691 [57:49<38:41,  2.02it/s] 56%|█████▋    | 6014/10691 [57:50<45:01,  1.73it/s] 56%|█████▋    | 6015/10691 [57:51<43:04,  1.81it/s] 56%|█████▋    | 6016/10691 [57:51<41:43,  1.87it/s] 56%|█████▋    | 6017/10691 [57:52<40:45,  1.91it/s] 56%|█████▋    | 6018/10691 [57:52<40:08,  1.94it/s] 56%|█████▋    | 6019/10691 [57:53<39:41,  1.96it/s] 56%|█████▋    | 6020/10691 [57:53<39:22,  1.98it/s] 56%|█████▋    | 6021/10691 [57:54<39:05,  1.99it/s] 56%|█████▋    | 6022/10691 [57:54<38:59,  2.00it/s] 56%|█████▋    | 6023/10691 [57:55<38:49,  2.00it/s] 56%|█████▋    | 6024/10691 [57:55<38:47,  2.01it/s] 56%|█████▋    | 6025/10691 [57:56<38:39,  2.01it/s]                                                    {'loss': 2.996, 'grad_norm': 0.21448203921318054, 'learning_rate': 0.0004764166037370144, 'epoch': 0.56}
+ 56%|█████▋    | 6025/10691 [57:56<38:39,  2.01it/s] 56%|█████▋    | 6026/10691 [57:56<38:40,  2.01it/s] 56%|█████▋    | 6027/10691 [57:57<38:39,  2.01it/s] 56%|█████▋    | 6028/10691 [57:57<38:35,  2.01it/s] 56%|█████▋    | 6029/10691 [57:58<38:35,  2.01it/s] 56%|█████▋    | 6030/10691 [57:58<38:32,  2.02it/s] 56%|█████▋    | 6031/10691 [57:59<38:32,  2.02it/s] 56%|█████▋    | 6032/10691 [57:59<38:30,  2.02it/s] 56%|█████▋    | 6033/10691 [58:00<38:29,  2.02it/s] 56%|█████▋    | 6034/10691 [58:00<38:29,  2.02it/s] 56%|█████▋    | 6035/10691 [58:01<38:26,  2.02it/s] 56%|█████▋    | 6036/10691 [58:01<38:34,  2.01it/s] 56%|█████▋    | 6037/10691 [58:02<38:29,  2.02it/s] 56%|█████▋    | 6038/10691 [58:02<38:29,  2.01it/s] 56%|█████▋    | 6039/10691 [58:03<38:30,  2.01it/s] 56%|█████▋    | 6040/10691 [58:03<38:27,  2.02it/s] 57%|█████▋    | 6041/10691 [58:04<38:26,  2.02it/s] 57%|█████▋    | 6042/10691 [58:04<38:25,  2.02it/s] 57%|█████▋    | 6043/10691 [58:05<38:24,  2.02it/s] 57%|█████▋    | 6044/10691 [58:05<38:26,  2.01it/s] 57%|█████▋    | 6045/10691 [58:06<38:26,  2.01it/s] 57%|█████▋    | 6046/10691 [58:06<38:24,  2.02it/s] 57%|█████▋    | 6047/10691 [58:07<38:23,  2.02it/s] 57%|█████▋    | 6048/10691 [58:07<38:23,  2.02it/s] 57%|█████▋    | 6049/10691 [58:08<38:20,  2.02it/s] 57%|█████▋    | 6050/10691 [58:08<38:18,  2.02it/s]                                                    {'loss': 2.9944, 'grad_norm': 0.19720321893692017, 'learning_rate': 0.0004723402908836001, 'epoch': 0.57}
+ 57%|█████▋    | 6050/10691 [58:08<38:18,  2.02it/s] 57%|█████▋    | 6051/10691 [58:09<38:20,  2.02it/s] 57%|█████▋    | 6052/10691 [58:09<38:20,  2.02it/s] 57%|█████▋    | 6053/10691 [58:10<38:22,  2.01it/s] 57%|█████▋    | 6054/10691 [58:10<38:20,  2.02it/s] 57%|█████▋    | 6055/10691 [58:11<38:21,  2.01it/s] 57%|█████▋    | 6056/10691 [58:11<38:19,  2.02it/s] 57%|█████▋    | 6057/10691 [58:11<38:16,  2.02it/s] 57%|█████▋    | 6058/10691 [58:12<38:15,  2.02it/s] 57%|█████▋    | 6059/10691 [58:12<38:18,  2.02it/s] 57%|█████▋    | 6060/10691 [58:13<38:16,  2.02it/s] 57%|█████▋    | 6061/10691 [58:13<38:18,  2.01it/s] 57%|█████▋    | 6062/10691 [58:14<38:15,  2.02it/s] 57%|█████▋    | 6063/10691 [58:14<38:15,  2.02it/s] 57%|█████▋    | 6064/10691 [58:15<38:14,  2.02it/s] 57%|█████▋    | 6065/10691 [58:15<38:15,  2.02it/s] 57%|█████▋    | 6066/10691 [58:16<38:11,  2.02it/s] 57%|█████▋    | 6067/10691 [58:16<38:13,  2.02it/s] 57%|█████▋    | 6068/10691 [58:17<38:09,  2.02it/s] 57%|█████▋    | 6069/10691 [58:17<38:10,  2.02it/s] 57%|█████▋    | 6070/10691 [58:18<38:11,  2.02it/s] 57%|█████▋    | 6071/10691 [58:18<38:09,  2.02it/s] 57%|█████▋    | 6072/10691 [58:19<38:10,  2.02it/s] 57%|█████▋    | 6073/10691 [58:19<38:07,  2.02it/s] 57%|█████▋    | 6074/10691 [58:20<38:11,  2.02it/s] 57%|█████▋    | 6075/10691 [58:20<38:07,  2.02it/s]                                                    {'loss': 3.0058, 'grad_norm': 0.1945004165172577, 'learning_rate': 0.00046826582128140637, 'epoch': 0.57}
+ 57%|█████▋    | 6075/10691 [58:20<38:07,  2.02it/s] 57%|█████▋    | 6076/10691 [58:21<38:09,  2.02it/s] 57%|█████▋    | 6077/10691 [58:21<38:09,  2.02it/s] 57%|██��██▋    | 6078/10691 [58:22<38:07,  2.02it/s] 57%|█████▋    | 6079/10691 [58:22<38:06,  2.02it/s] 57%|█████▋    | 6080/10691 [58:23<38:04,  2.02it/s] 57%|█████▋    | 6081/10691 [58:23<38:06,  2.02it/s] 57%|█████▋    | 6082/10691 [58:24<38:04,  2.02it/s] 57%|█████▋    | 6083/10691 [58:24<38:06,  2.02it/s] 57%|█████▋    | 6084/10691 [58:25<38:09,  2.01it/s] 57%|█████▋    | 6085/10691 [58:25<38:06,  2.01it/s] 57%|█████▋    | 6086/10691 [58:26<38:10,  2.01it/s] 57%|█████▋    | 6087/10691 [58:26<38:05,  2.01it/s] 57%|█████▋    | 6088/10691 [58:27<38:05,  2.01it/s] 57%|█████▋    | 6089/10691 [58:27<38:04,  2.01it/s] 57%|█████▋    | 6090/10691 [58:28<38:03,  2.01it/s] 57%|█████▋    | 6091/10691 [58:28<38:03,  2.01it/s] 57%|█████▋    | 6092/10691 [58:29<38:05,  2.01it/s] 57%|█████▋    | 6093/10691 [58:29<38:00,  2.02it/s] 57%|█████▋    | 6094/10691 [58:30<37:59,  2.02it/s] 57%|█████▋    | 6095/10691 [58:30<37:56,  2.02it/s] 57%|█████▋    | 6096/10691 [58:31<37:55,  2.02it/s] 57%|█████▋    | 6097/10691 [58:31<37:55,  2.02it/s] 57%|█████▋    | 6098/10691 [58:32<37:55,  2.02it/s] 57%|█████▋    | 6099/10691 [58:32<37:54,  2.02it/s] 57%|█████▋    | 6100/10691 [58:33<37:53,  2.02it/s]                                                    {'loss': 3.0065, 'grad_norm': 0.2006179392337799, 'learning_rate': 0.0004641934664542964, 'epoch': 0.57}
+ 57%|█████▋    | 6100/10691 [58:33<37:53,  2.02it/s] 57%|█████▋    | 6101/10691 [58:33<37:55,  2.02it/s] 57%|█████▋    | 6102/10691 [58:34<37:57,  2.02it/s] 57%|█████▋    | 6103/10691 [58:34<37:58,  2.01it/s] 57%|█████▋    | 6104/10691 [58:35<37:56,  2.01it/s] 57%|█████▋    | 6105/10691 [58:35<37:55,  2.01it/s] 57%|█████▋    | 6106/10691 [58:36<37:53,  2.02it/s] 57%|█████▋    | 6107/10691 [58:36<37:54,  2.02it/s] 57%|█████▋    | 6108/10691 [58:37<37:52,  2.02it/s] 57%|█████▋    | 6109/10691 [58:37<37:54,  2.01it/s] 57%|█████▋    | 6110/10691 [58:38<37:50,  2.02it/s] 57%|█████▋    | 6111/10691 [58:38<37:52,  2.02it/s] 57%|█████▋    | 6112/10691 [58:39<37:46,  2.02it/s] 57%|█████▋    | 6113/10691 [58:39<37:50,  2.02it/s] 57%|█████▋    | 6114/10691 [58:40<37:50,  2.02it/s] 57%|█████▋    | 6115/10691 [58:40<37:47,  2.02it/s] 57%|█████▋    | 6116/10691 [58:41<37:48,  2.02it/s] 57%|█████▋    | 6117/10691 [58:41<37:48,  2.02it/s] 57%|█████▋    | 6118/10691 [58:42<37:49,  2.01it/s] 57%|█████▋    | 6119/10691 [58:42<37:48,  2.02it/s] 57%|█████▋    | 6120/10691 [58:43<37:45,  2.02it/s] 57%|█████▋    | 6121/10691 [58:43<37:42,  2.02it/s] 57%|█████▋    | 6122/10691 [58:44<37:41,  2.02it/s] 57%|█████▋    | 6123/10691 [58:44<37:40,  2.02it/s] 57%|█████▋    | 6124/10691 [58:45<37:42,  2.02it/s] 57%|█████▋    | 6125/10691 [58:45<37:42,  2.02it/s]                                                    {'loss': 2.988, 'grad_norm': 0.20253033936023712, 'learning_rate': 0.00046012349778520357, 'epoch': 0.57}
+ 57%|█████▋    | 6125/10691 [58:45<37:42,  2.02it/s] 57%|█████▋    | 6126/10691 [58:46<37:42,  2.02it/s] 57%|█████▋    | 6127/10691 [58:46<37:49,  2.01it/s] 57%|█████▋    | 6128/10691 [58:47<37:48,  2.01it/s] 57%|█████▋    | 6129/10691 [58:47<37:47,  2.01it/s] 57%|█████▋    | 6130/10691 [58:48<37:46,  2.01it/s] 57%|█████▋    | 6131/10691 [58:48<37:42,  2.02it/s] 57%|█████▋    | 6132/10691 [58:49<37:42,  2.02it/s] 57%|█████▋    | 6133/10691 [58:49<37:42,  2.01it/s] 57%|█████▋    | 6134/10691 [58:50<37:42,  2.01it/s] 57%|█████▋    | 6135/10691 [58:50<37:41,  2.01it/s] 57%|█████▋    | 6136/10691 [58:51<37:40,  2.01it/s] 57%|█████▋    | 6137/10691 [58:51<37:40,  2.02it/s] 57%|█████▋    | 6138/10691 [58:52<37:38,  2.02it/s] 57%|█████▋    | 6139/10691 [58:52<37:37,  2.02it/s] 57%|█████▋    | 6140/10691 [58:53<37:33,  2.02it/s] 57%|█████▋    | 6141/10691 [58:53<37:36,  2.02it/s] 57%|█████▋    | 6142/10691 [58:54<37:33,  2.02it/s] 57%|█████▋    | 6143/10691 [58:54<37:35,  2.02it/s] 57%|█████▋    | 6144/10691 [58:55<37:36,  2.02it/s] 57%|█████▋    | 6145/10691 [58:55<37:36,  2.01it/s] 57%|█████▋    | 6146/10691 [58:56<37:36,  2.01it/s] 57%|█████▋    | 6147/10691 [58:56<37:35,  2.01it/s] 58%|█████▊    | 6148/10691 [58:57<37:36,  2.01it/s] 58%|█████▊    | 6149/10691 [58:57<37:33,  2.02it/s] 58%|█████▊    | 6150/10691 [58:58<37:30,  2.02it/s]                                                    {'loss': 2.9974, 'grad_norm': 0.20384082198143005, 'learning_rate': 0.00045605618649804746, 'epoch': 0.58}
+ 58%|█████▊    | 6150/10691 [58:58<37:30,  2.02it/s] 58%|█████▊    | 6151/10691 [58:58<37:32,  2.02it/s] 58%|█████▊    | 6152/10691 [58:59<37:29,  2.02it/s] 58%|█████▊    | 6153/10691 [58:59<37:32,  2.01it/s] 58%|█████▊    | 6154/10691 [59:00<37:31,  2.02it/s] 58%|█████▊    | 6155/10691 [59:00<37:30,  2.02it/s] 58%|█████▊    | 6156/10691 [59:01<37:30,  2.02it/s] 58%|█████▊    | 6157/10691 [59:01<37:28,  2.02it/s] 58%|█████▊    | 6158/10691 [59:02<37:28,  2.02it/s] 58%|█████▊    | 6159/10691 [59:02<37:28,  2.02it/s] 58%|█████▊    | 6160/10691 [59:03<37:26,  2.02it/s] 58%|█████▊    | 6161/10691 [59:03<37:23,  2.02it/s] 58%|█████▊    | 6162/10691 [59:04<37:21,  2.02it/s] 58%|█████▊    | 6163/10691 [59:04<37:21,  2.02it/s] 58%|█████▊    | 6164/10691 [59:05<37:20,  2.02it/s] 58%|█████▊    | 6165/10691 [59:05<37:23,  2.02it/s] 58%|█████▊    | 6166/10691 [59:06<37:21,  2.02it/s] 58%|█████▊    | 6167/10691 [59:06<37:22,  2.02it/s] 58%|█████▊    | 6168/10691 [59:07<37:21,  2.02it/s] 58%|█████▊    | 6169/10691 [59:07<37:20,  2.02it/s] 58%|█████▊    | 6170/10691 [59:08<37:23,  2.01it/s] 58%|█████▊    | 6171/10691 [59:08<37:19,  2.02it/s] 58%|█████▊    | 6172/10691 [59:09<37:19,  2.02it/s] 58%|█████▊    | 6173/10691 [59:09<37:18,  2.02it/s] 58%|█████▊    | 6174/10691 [59:10<37:19,  2.02it/s] 58%|█████▊    | 6175/10691 [59:10<37:18,  2.02it/s]                                                    {'loss': 2.9929, 'grad_norm': 0.1950462907552719, 'learning_rate': 0.00045199180363965873, 'epoch': 0.58}
+ 58%|█████▊    | 6175/10691 [59:10<37:18,  2.02it/s] 58%|█████▊    | 6176/10691 [59:11<37:21,  2.01it/s] 58%|█████▊    | 6177/10691 [59:11<37:20,  2.01it/s] 58%|█████▊    | 6178/10691 [59:12<37:18,  2.02it/s] 58%|█████▊    | 6179/10691 [59:12<37:15,  2.02it/s] 58%|█████▊    | 6180/10691 [59:12<37:13,  2.02it/s] 58%|█████▊    | 6181/10691 [59:13<37:13,  2.02it/s] 58%|█████▊    | 6182/10691 [59:13<37:11,  2.02it/s] 58%|█████▊    | 6183/10691 [59:14<37:10,  2.02it/s] 58%|█████▊    | 6184/10691 [59:14<37:09,  2.02it/s] 58%|█████▊    | 6185/10691 [59:15<37:11,  2.02it/s] 58%|█████▊    | 6186/10691 [59:15<37:11,  2.02it/s] 58%|█████▊    | 6187/10691 [59:16<37:10,  2.02it/s] 58%|█████▊    | 6188/10691 [59:16<37:11,  2.02it/s] 58%|█████▊    | 6189/10691 [59:17<37:09,  2.02it/s] 58%|█████▊    | 6190/10691 [59:17<37:11,  2.02it/s] 58%|█████▊    | 6191/10691 [59:18<37:10,  2.02it/s] 58%|█████▊    | 6192/10691 [59:18<37:09,  2.02it/s] 58%|█████▊    | 6193/10691 [59:19<37:07,  2.02it/s] 58%|█████▊    | 6194/10691 [59:19<37:10,  2.02it/s] 58%|█████▊    | 6195/10691 [59:20<37:06,  2.02it/s] 58%|█████▊    | 6196/10691 [59:20<37:08,  2.02it/s] 58%|█████▊    | 6197/10691 [59:21<37:06,  2.02it/s] 58%|█████▊    | 6198/10691 [59:21<37:07,  2.02it/s] 58%|█████▊    | 6199/10691 [59:22<37:03,  2.02it/s] 58%|█████▊    | 6200/10691 [59:22<37:07,  2.02it/s]                                                    {'loss': 2.9966, 'grad_norm': 0.20685511827468872, 'learning_rate': 0.000447930620061717, 'epoch': 0.58}
+ 58%|█████▊    | 6200/10691 [59:22<37:07,  2.02it/s] 58%|█████▊    | 6201/10691 [59:23<37:12,  2.01it/s] 58%|█████▊    | 6202/10691 [59:23<37:09,  2.01it/s] 58%|█████▊    | 6203/10691 [59:24<37:08,  2.01it/s] 58%|█████▊    | 6204/10691 [59:24<37:07,  2.01it/s] 58%|█████▊    | 6205/10691 [59:25<37:06,  2.02it/s] 58%|█████▊    | 6206/10691 [59:25<37:08,  2.01it/s] 58%|█████▊    | 6207/10691 [59:26<37:06,  2.01it/s] 58%|█████▊    | 6208/10691 [59:26<37:05,  2.01it/s] 58%|█████▊    | 6209/10691 [59:27<37:03,  2.02it/s] 58%|█████▊    | 6210/10691 [59:27<37:05,  2.01it/s] 58%|█████▊    | 6211/10691 [59:28<37:03,  2.02it/s] 58%|█████▊    | 6212/10691 [59:28<37:02,  2.01it/s] 58%|█████▊    | 6213/10691 [59:29<37:01,  2.02it/s] 58%|█████▊    | 6214/10691 [59:29<36:59,  2.02it/s] 58%|█████▊    | 6215/10691 [59:30<36:59,  2.02it/s] 58%|█████▊    | 6216/10691 [59:30<36:56,  2.02it/s] 58%|█████▊    | 6217/10691 [59:31<37:01,  2.01it/s] 58%|█████▊    | 6218/10691 [59:31<37:00,  2.01it/s] 58%|█████▊    | 6219/10691 [59:32<37:00,  2.01it/s] 58%|█████▊    | 6220/10691 [59:32<36:57,  2.02it/s] 58%|█████▊    | 6221/10691 [59:33<36:59,  2.01it/s] 58%|█████▊    | 6222/10691 [59:33<36:58,  2.01it/s] 58%|█████▊    | 6223/10691 [59:34<36:59,  2.01it/s] 58%|█████▊    | 6224/10691 [59:34<36:56,  2.02it/s] 58%|█████▊    | 6225/10691 [59:35<36:57,  2.01it/s]                                                    {'loss': 3.0049, 'grad_norm': 0.20603764057159424, 'learning_rate': 0.0004438729064027002, 'epoch': 0.58}
+ 58%|█████▊    | 6225/10691 [59:35<36:57,  2.01it/s] 58%|█████▊    | 6226/10691 [59:35<36:58,  2.01it/s] 58%|█████▊    | 6227/10691 [59:36<36:55,  2.01it/s] 58%|█████▊    | 6228/10691 [59:36<36:56,  2.01it/s] 58%|█████▊    | 6229/10691 [59:37<36:52,  2.02it/s] 58%|█████▊    | 6230/10691 [59:37<36:53,  2.02it/s] 58%|█████▊    | 6231/10691 [59:38<36:48,  2.02it/s] 58%|█████▊    | 6232/10691 [59:38<36:49,  2.02it/s] 58%|█████▊    | 6233/10691 [59:39<36:52,  2.02it/s] 58%|█████▊    | 6234/10691 [59:39<36:49,  2.02it/s] 58%|█████▊    | 6235/10691 [59:40<36:54,  2.01it/s] 58%|█████▊    | 6236/10691 [59:40<36:52,  2.01it/s] 58%|█████▊    | 6237/10691 [59:41<36:49,  2.02it/s] 58%|█████▊    | 6238/10691 [59:41<36:47,  2.02it/s] 58%|█████▊    | 6239/10691 [59:42<36:48,  2.02it/s] 58%|█████▊    | 6240/10691 [59:42<36:47,  2.02it/s] 58%|█████▊    | 6241/10691 [59:43<36:46,  2.02it/s] 58%|█████▊    | 6242/10691 [59:43<36:47,  2.02it/s] 58%|█████▊    | 6243/10691 [59:44<36:46,  2.02it/s] 58%|█████▊    | 6244/10691 [59:44<36:46,  2.02it/s] 58%|█████▊    | 6245/10691 [59:45<36:46,  2.01it/s] 58%|█████▊    | 6246/10691 [59:45<36:45,  2.02it/s] 58%|█████▊    | 6247/10691 [59:46<36:42,  2.02it/s] 58%|█████▊    | 6248/10691 [59:46<36:44,  2.02it/s] 58%|█████▊    | 6249/10691 [59:47<36:41,  2.02it/s] 58%|█████▊    | 6250/10691 [59:47<36:42,  2.02it/s]                                                    {'loss': 2.9987, 'grad_norm': 0.19951076805591583, 'learning_rate': 0.0004398189330698505, 'epoch': 0.58}
+ 58%|█████▊    | 6250/10691 [59:47<36:42,  2.02it/s] 58%|█████▊    | 6251/10691 [59:48<36:44,  2.01it/s] 58%|█████▊    | 6252/10691 [59:48<36:41,  2.02it/s] 58%|█████▊    | 6253/10691 [59:49<36:40,  2.02it/s] 58%|█████▊    | 6254/10691 [59:49<36:36,  2.02it/s] 59%|█████▊    | 6255/10691 [59:50<36:39,  2.02it/s] 59%|█████▊    | 6256/10691 [59:50<36:35,  2.02it/s] 59%|█████▊    | 6257/10691 [59:51<36:37,  2.02it/s] 59%|█████▊    | 6258/10691 [59:51<36:36,  2.02it/s] 59%|█████▊    | 6259/10691 [59:52<36:37,  2.02it/s] 59%|█████▊    | 6260/10691 [59:52<36:34,  2.02it/s] 59%|█████▊    | 6261/10691 [59:53<36:34,  2.02it/s] 59%|█████▊    | 6262/10691 [59:53<36:31,  2.02it/s] 59%|█████▊    | 6263/10691 [59:54<36:32,  2.02it/s] 59%|█████▊    | 6264/10691 [59:54<36:33,  2.02it/s] 59%|█████▊    | 6265/10691 [59:55<36:33,  2.02it/s] 59%|█████▊    | 6266/10691 [59:55<36:30,  2.02it/s] 59%|█████▊    | 6267/10691 [59:56<36:31,  2.02it/s] 59%|█████▊    | 6268/10691 [59:56<36:36,  2.01it/s] 59%|█████▊    | 6269/10691 [59:57<36:34,  2.02it/s] 59%|█████▊    | 6270/10691 [59:57<36:33,  2.02it/s] 59%|█████▊    | 6271/10691 [59:58<36:34,  2.01it/s] 59%|█████▊    | 6272/10691 [59:58<36:32,  2.02it/s] 59%|█████▊    | 6273/10691 [59:59<36:31,  2.02it/s] 59%|█████▊    | 6274/10691 [59:59<36:29,  2.02it/s] 59%|█████▊    | 6275/10691 [1:00:00<36:31,  2.02it/s]                                                      {'loss': 2.9906, 'grad_norm': 0.19673345983028412, 'learning_rate': 0.00043576897022115337, 'epoch': 0.59}
+ 59%|█████▊    | 6275/10691 [1:00:00<36:31,  2.02it/s] 59%|█████▊    | 6276/10691 [1:00:00<36:30,  2.02it/s] 59%|█████▊    | 6277/10691 [1:00:01<36:29,  2.02it/s] 59%|█████▊    | 6278/10691 [1:00:01<36:28,  2.02it/s] 59%|█████▊    | 6279/10691 [1:00:02<36:29,  2.01it/s] 59%|█████▊    | 6280/10691 [1:00:02<36:30,  2.01it/s] 59%|█████▉    | 6281/10691 [1:00:03<36:30,  2.01it/s] 59%|█████▉    | 6282/10691 [1:00:03<36:30,  2.01it/s] 59%|█████▉    | 6283/10691 [1:00:04<36:29,  2.01it/s] 59%|█████▉    | 6284/10691 [1:00:04<36:27,  2.01it/s] 59%|█████▉    | 6285/10691 [1:00:05<36:27,  2.01it/s] 59%|████��▉    | 6286/10691 [1:00:05<36:25,  2.02it/s] 59%|█████▉    | 6287/10691 [1:00:06<36:25,  2.02it/s] 59%|█████▉    | 6288/10691 [1:00:06<36:25,  2.01it/s] 59%|█████▉    | 6289/10691 [1:00:07<36:23,  2.02it/s] 59%|█████▉    | 6290/10691 [1:00:07<36:21,  2.02it/s] 59%|█████▉    | 6291/10691 [1:00:08<36:25,  2.01it/s] 59%|█████▉    | 6292/10691 [1:00:08<36:22,  2.02it/s] 59%|█████▉    | 6293/10691 [1:00:09<36:21,  2.02it/s] 59%|█████▉    | 6294/10691 [1:00:09<36:20,  2.02it/s] 59%|█████▉    | 6295/10691 [1:00:10<36:21,  2.02it/s] 59%|█████▉    | 6296/10691 [1:00:10<36:23,  2.01it/s] 59%|█████▉    | 6297/10691 [1:00:11<36:21,  2.01it/s] 59%|█████▉    | 6298/10691 [1:00:11<36:23,  2.01it/s] 59%|█████▉    | 6299/10691 [1:00:12<36:21,  2.01it/s] 59%|█████▉    | 6300/10691 [1:00:12<36:24,  2.01it/s]                                                      {'loss': 2.9828, 'grad_norm': 0.1960757076740265, 'learning_rate': 0.00043172328774733455, 'epoch': 0.59}
+ 59%|█████▉    | 6300/10691 [1:00:12<36:24,  2.01it/s] 59%|█████▉    | 6301/10691 [1:00:13<36:27,  2.01it/s] 59%|█████▉    | 6302/10691 [1:00:13<36:22,  2.01it/s] 59%|█████▉    | 6303/10691 [1:00:14<36:21,  2.01it/s] 59%|█████▉    | 6304/10691 [1:00:14<36:17,  2.01it/s] 59%|█████▉    | 6305/10691 [1:00:15<36:19,  2.01it/s] 59%|█████▉    | 6306/10691 [1:00:15<36:18,  2.01it/s] 59%|█████▉    | 6307/10691 [1:00:16<36:15,  2.01it/s] 59%|█████▉    | 6308/10691 [1:00:16<36:18,  2.01it/s] 59%|█████▉    | 6309/10691 [1:00:16<36:16,  2.01it/s] 59%|█████▉    | 6310/10691 [1:00:17<36:15,  2.01it/s] 59%|█████▉    | 6311/10691 [1:00:17<36:14,  2.01it/s] 59%|█████▉    | 6312/10691 [1:00:18<36:11,  2.02it/s] 59%|█████▉    | 6313/10691 [1:00:18<36:10,  2.02it/s] 59%|█████▉    | 6314/10691 [1:00:19<36:09,  2.02it/s] 59%|█████▉    | 6315/10691 [1:00:19<36:11,  2.01it/s] 59%|█████▉    | 6316/10691 [1:00:20<36:12,  2.01it/s] 59%|█████▉    | 6317/10691 [1:00:20<36:09,  2.02it/s] 59%|█████▉    | 6318/10691 [1:00:21<36:07,  2.02it/s] 59%|█████▉    | 6319/10691 [1:00:21<36:06,  2.02it/s] 59%|█████▉    | 6320/10691 [1:00:22<36:06,  2.02it/s] 59%|█████▉    | 6321/10691 [1:00:22<36:03,  2.02it/s] 59%|█████▉    | 6322/10691 [1:00:23<36:05,  2.02it/s] 59%|█████▉    | 6323/10691 [1:00:23<36:03,  2.02it/s] 59%|█████▉    | 6324/10691 [1:00:24<36:06,  2.02it/s] 59%|█████▉    | 6325/10691 [1:00:24<36:07,  2.01it/s]                                                      {'loss': 2.9931, 'grad_norm': 0.192363440990448, 'learning_rate': 0.0004276821552538739, 'epoch': 0.59}
+ 59%|█████▉    | 6325/10691 [1:00:24<36:07,  2.01it/s] 59%|█████▉    | 6326/10691 [1:00:25<36:06,  2.01it/s] 59%|█████▉    | 6327/10691 [1:00:25<36:09,  2.01it/s] 59%|█████▉    | 6328/10691 [1:00:26<36:04,  2.02it/s] 59%|█████▉    | 6329/10691 [1:00:26<36:06,  2.01it/s] 59%|█████▉    | 6330/10691 [1:00:27<36:05,  2.01it/s] 59%|█████▉    | 6331/10691 [1:00:27<36:02,  2.02it/s] 59%|█████▉    | 6332/10691 [1:00:28<36:04,  2.01it/s] 59%|█████▉    | 6333/10691 [1:00:28<36:02,  2.02it/s] 59%|█████▉    | 6334/10691 [1:00:29<36:02,  2.01it/s] 59%|█████▉    | 6335/10691 [1:00:29<36:01,  2.02it/s] 59%|█████▉    | 6336/10691 [1:00:30<36:01,  2.01it/s] 59%|█████▉    | 6337/10691 [1:00:30<36:00,  2.02it/s] 59%|█████▉    | 6338/10691 [1:00:31<35:59,  2.02it/s] 59%|█████▉    | 6339/10691 [1:00:31<36:00,  2.01it/s] 59%|█████▉    | 6340/10691 [1:00:32<35:57,  2.02it/s] 59%|█████▉    | 6341/10691 [1:00:32<36:00,  2.01it/s] 59%|█████▉    | 6342/10691 [1:00:33<36:01,  2.01it/s] 59%|█████▉    | 6343/10691 [1:00:33<36:00,  2.01it/s] 59%|█████▉    | 6344/10691 [1:00:34<35:58,  2.01it/s] 59%|█████▉    | 6345/10691 [1:00:34<35:56,  2.02it/s] 59%|█████▉    | 6346/10691 [1:00:35<35:54,  2.02it/s] 59%|█████▉    | 6347/10691 [1:00:35<35:51,  2.02it/s] 59%|█████▉    | 6348/10691 [1:00:36<35:52,  2.02it/s] 59%|█████▉    | 6349/10691 [1:00:36<35:56,  2.01it/s] 59%|█████▉    | 6350/10691 [1:00:37<35:54,  2.02it/s]                                                      {'loss': 2.9825, 'grad_norm': 0.2173486351966858, 'learning_rate': 0.00042364584204303984, 'epoch': 0.59}
+ 59%|█████▉    | 6350/10691 [1:00:37<35:54,  2.02it/s] 59%|█████▉    | 6351/10691 [1:00:37<35:55,  2.01it/s] 59%|█████▉    | 6352/10691 [1:00:38<35:54,  2.01it/s] 59%|█████▉    | 6353/10691 [1:00:38<35:52,  2.02it/s] 59%|█████▉    | 6354/10691 [1:00:39<35:51,  2.02it/s] 59%|█████▉    | 6355/10691 [1:00:39<35:50,  2.02it/s] 59%|█████▉    | 6356/10691 [1:00:40<35:51,  2.02it/s] 59%|█████▉    | 6357/10691 [1:00:40<35:51,  2.01it/s] 59%|█████▉    | 6358/10691 [1:00:41<35:53,  2.01it/s] 59%|█████▉    | 6359/10691 [1:00:41<35:52,  2.01it/s] 59%|█████▉    | 6360/10691 [1:00:42<35:52,  2.01it/s] 59%|█████▉    | 6361/10691 [1:00:42<35:53,  2.01it/s] 60%|█████▉    | 6362/10691 [1:00:43<35:51,  2.01it/s] 60%|█████▉    | 6363/10691 [1:00:43<35:47,  2.02it/s] 60%|█████▉    | 6364/10691 [1:00:44<35:46,  2.02it/s] 60%|█████▉    | 6365/10691 [1:00:44<35:48,  2.01it/s] 60%|█████▉    | 6366/10691 [1:00:45<35:48,  2.01it/s] 60%|█████▉    | 6367/10691 [1:00:45<35:47,  2.01it/s] 60%|█████▉    | 6368/10691 [1:00:46<35:49,  2.01it/s] 60%|█████▉    | 6369/10691 [1:00:46<35:47,  2.01it/s] 60%|█████▉    | 6370/10691 [1:00:47<35:44,  2.02it/s] 60%|█████▉    | 6371/10691 [1:00:47<35:43,  2.02it/s] 60%|█████▉    | 6372/10691 [1:00:48<35:42,  2.02it/s] 60%|█████▉    | 6373/10691 [1:00:48<35:42,  2.02it/s] 60%|█████▉    | 6374/10691 [1:00:49<35:42,  2.02it/s] 60%|█████▉    | 6375/10691 [1:00:49<35:44,  2.01it/s]                                                      {'loss': 2.9806, 'grad_norm': 0.2004682719707489, 'learning_rate': 0.00041961461709594207, 'epoch': 0.6}
+ 60%|█████▉    | 6375/10691 [1:00:49<35:44,  2.01it/s] 60%|█████▉    | 6376/10691 [1:00:50<35:47,  2.01it/s] 60%|█████▉    | 6377/10691 [1:00:50<35:44,  2.01it/s] 60%|█████▉    | 6378/10691 [1:00:51<35:43,  2.01it/s] 60%|█████▉    | 6379/10691 [1:00:51<35:41,  2.01it/s] 60%|█████▉    | 6380/10691 [1:00:52<35:39,  2.01it/s] 60%|█████▉    | 6381/10691 [1:00:52<35:41,  2.01it/s] 60%|█████▉    | 6382/10691 [1:00:53<35:38,  2.02it/s] 60%|█████▉    | 6383/10691 [1:00:53<35:37,  2.02it/s] 60%|█████▉    | 6384/10691 [1:00:54<35:34,  2.02it/s] 60%|█████▉    | 6385/10691 [1:00:54<35:34,  2.02it/s] 60%|█████▉    | 6386/10691 [1:00:55<35:32,  2.02it/s] 60%|█████▉    | 6387/10691 [1:00:55<35:32,  2.02it/s] 60%|█████▉    | 6388/10691 [1:00:56<35:31,  2.02it/s] 60%|█████▉    | 6389/10691 [1:00:56<35:33,  2.02it/s] 60%|█████▉    | 6390/10691 [1:00:57<35:31,  2.02it/s] 60%|█████▉    | 6391/10691 [1:00:57<35:32,  2.02it/s] 60%|█████▉    | 6392/10691 [1:00:58<35:31,  2.02it/s] 60%|█████▉    | 6393/10691 [1:00:58<35:31,  2.02it/s] 60%|█████▉    | 6394/10691 [1:00:59<35:33,  2.01it/s] 60%|█████▉    | 6395/10691 [1:00:59<35:29,  2.02it/s] 60%|█████▉    | 6396/10691 [1:01:00<35:33,  2.01it/s] 60%|█████▉    | 6397/10691 [1:01:00<35:30,  2.02it/s] 60%|█████▉    | 6398/10691 [1:01:01<35:30,  2.01it/s] 60%|█████▉    | 6399/10691 [1:01:01<35:32,  2.01it/s] 60%|█████▉    | 6400/10691 [1:01:02<35:29,  2.01it/s]                                                      {'loss': 2.9807, 'grad_norm': 0.19242461025714874, 'learning_rate': 0.00041558874905460696, 'epoch': 0.6}
+ 60%|█████▉    | 6400/10691 [1:01:02<35:29,  2.01it/s] 60%|█████▉    | 6401/10691 [1:01:02<35:30,  2.01it/s] 60%|█████▉    | 6402/10691 [1:01:03<35:29,  2.01it/s] 60%|█████▉    | 6403/10691 [1:01:03<35:28,  2.01it/s] 60%|█████▉    | 6404/10691 [1:01:04<35:29,  2.01it/s] 60%|█████▉    | 6405/10691 [1:01:04<35:26,  2.02it/s] 60%|█████▉    | 6406/10691 [1:01:05<35:26,  2.02it/s] 60%|█████▉    | 6407/10691 [1:01:05<35:24,  2.02it/s] 60%|█████▉    | 6408/10691 [1:01:06<35:24,  2.02it/s] 60%|█████▉    | 6409/10691 [1:01:06<35:28,  2.01it/s] 60%|█████▉    | 6410/10691 [1:01:07<35:24,  2.02it/s] 60%|█████▉    | 6411/10691 [1:01:07<35:26,  2.01it/s] 60%|█████▉    | 6412/10691 [1:01:08<35:21,  2.02it/s] 60%|█████▉    | 6413/10691 [1:01:08<35:23,  2.01it/s] 60%|█████▉    | 6414/10691 [1:01:09<35:20,  2.02it/s] 60%|██████    | 6415/10691 [1:01:09<35:22,  2.01it/s] 60%|██████    | 6416/10691 [1:01:10<35:22,  2.01it/s] 60%|██████    | 6417/10691 [1:01:10<35:21,  2.01it/s] 60%|██████    | 6418/10691 [1:01:11<35:21,  2.01it/s] 60%|██████    | 6419/10691 [1:01:11<35:21,  2.01it/s] 60%|██████    | 6420/10691 [1:01:12<35:22,  2.01it/s] 60%|██████    | 6421/10691 [1:01:12<35:19,  2.01it/s] 60%|██████    | 6422/10691 [1:01:13<35:19,  2.01it/s] 60%|██████    | 6423/10691 [1:01:13<35:18,  2.02it/s] 60%|██████    | 6424/10691 [1:01:14<35:19,  2.01it/s] 60%|██████    | 6425/10691 [1:01:14<35:18,  2.01it/s]                                                      {'loss': 2.9862, 'grad_norm': 0.20603738725185394, 'learning_rate': 0.0004115685062040747, 'epoch': 0.6}
+ 60%|██████    | 6425/10691 [1:01:14<35:18,  2.01it/s] 60%|██████    | 6426/10691 [1:01:15<35:21,  2.01it/s] 60%|██████    | 6427/10691 [1:01:15<35:21,  2.01it/s] 60%|██████    | 6428/10691 [1:01:16<35:19,  2.01it/s] 60%|██████    | 6429/10691 [1:01:16<35:20,  2.01it/s] 60%|██████    | 6430/10691 [1:01:17<35:16,  2.01it/s] 60%|██████    | 6431/10691 [1:01:17<35:14,  2.01it/s] 60%|██████    | 6432/10691 [1:01:18<35:14,  2.01it/s] 60%|██████    | 6433/10691 [1:01:18<35:13,  2.01it/s] 60%|██████    | 6434/10691 [1:01:19<35:13,  2.01it/s] 60%|██████    | 6435/10691 [1:01:19<35:14,  2.01it/s] 60%|██████    | 6436/10691 [1:01:20<35:13,  2.01it/s] 60%|██████    | 6437/10691 [1:01:20<35:12,  2.01it/s] 60%|██████    | 6438/10691 [1:01:21<35:11,  2.01it/s] 60%|██████    | 6439/10691 [1:01:21<35:12,  2.01it/s] 60%|██████    | 6440/10691 [1:01:22<35:11,  2.01it/s] 60%|██████    | 6441/10691 [1:01:22<35:10,  2.01it/s] 60%|██████    | 6442/10691 [1:01:23<35:08,  2.01it/s] 60%|██████    | 6443/10691 [1:01:23<35:06,  2.02it/s] 60%|██████    | 6444/10691 [1:01:24<35:04,  2.02it/s] 60%|██████    | 6445/10691 [1:01:24<35:05,  2.02it/s] 60%|██████    | 6446/10691 [1:01:24<35:04,  2.02it/s] 60%|██████    | 6447/10691 [1:01:25<35:04,  2.02it/s] 60%|██████    | 6448/10691 [1:01:25<35:03,  2.02it/s] 60%|██████    | 6449/10691 [1:01:26<35:07,  2.01it/s] 60%|██████    | 6450/10691 [1:01:26<35:06,  2.01it/s]                                                      {'loss': 2.9764, 'grad_norm': 0.19854691624641418, 'learning_rate': 0.00040755415645452167, 'epoch': 0.6}
+ 60%|██████    | 6450/10691 [1:01:26<35:06,  2.01it/s] 60%|██████    | 6451/10691 [1:01:27<35:10,  2.01it/s] 60%|██████    | 6452/10691 [1:01:27<35:09,  2.01it/s] 60%|██████    | 6453/10691 [1:01:28<35:05,  2.01it/s] 60%|██████    | 6454/10691 [1:01:28<35:04,  2.01it/s] 60%|██████    | 6455/10691 [1:01:29<34:59,  2.02it/s] 60%|██████    | 6456/10691 [1:01:29<35:01,  2.02it/s] 60%|██████    | 6457/10691 [1:01:30<35:05,  2.01it/s] 60%|██████    | 6458/10691 [1:01:30<35:01,  2.01it/s] 60%|██████    | 6459/10691 [1:01:31<35:02,  2.01it/s] 60%|██████    | 6460/10691 [1:01:31<35:00,  2.01it/s] 60%|██████    | 6461/10691 [1:01:32<35:01,  2.01it/s] 60%|██████    | 6462/10691 [1:01:32<34:59,  2.01it/s] 60%|██████    | 6463/10691 [1:01:33<34:55,  2.02it/s] 60%|██████    | 6464/10691 [1:01:33<34:54,  2.02it/s] 60%|██████    | 6465/10691 [1:01:34<34:55,  2.02it/s] 60%|██████    | 6466/10691 [1:01:34<34:53,  2.02it/s] 60%|██████    | 6467/10691 [1:01:35<34:52,  2.02it/s] 60%|██████    | 6468/10691 [1:01:35<34:51,  2.02it/s] 61%|██████    | 6469/10691 [1:01:36<34:51,  2.02it/s] 61%|██████    | 6470/10691 [1:01:36<34:55,  2.01it/s] 61%|██████    | 6471/10691 [1:01:37<34:52,  2.02it/s] 61%|██████    | 6472/10691 [1:01:37<34:52,  2.02it/s] 61%|██████    | 6473/10691 [1:01:38<34:49,  2.02it/s] 61%|██████    | 6474/10691 [1:01:38<34:52,  2.02it/s] 61%|██████    | 6475/10691 [1:01:39<34:52,  2.02it/s]                                                      {'loss': 2.9862, 'grad_norm': 0.19915279746055603, 'learning_rate': 0.00040354596732340605, 'epoch': 0.61}
+ 61%|██████    | 6475/10691 [1:01:39<34:52,  2.02it/s] 61%|██████    | 6476/10691 [1:01:39<34:50,  2.02it/s] 61%|██████    | 6477/10691 [1:01:40<34:50,  2.02it/s] 61%|██████    | 6478/10691 [1:01:40<34:47,  2.02it/s] 61%|██████    | 6479/10691 [1:01:41<34:47,  2.02it/s] 61%|██████    | 6480/10691 [1:01:41<34:47,  2.02it/s] 61%|██████    | 6481/10691 [1:01:42<34:47,  2.02it/s] 61%|██████    | 6482/10691 [1:01:42<34:49,  2.01it/s] 61%|██████    | 6483/10691 [1:01:43<34:48,  2.02it/s] 61%|██████    | 6484/10691 [1:01:43<34:49,  2.01it/s] 61%|██████    | 6485/10691 [1:01:44<34:45,  2.02it/s] 61%|██████    | 6486/10691 [1:01:44<34:45,  2.02it/s] 61%|██████    | 6487/10691 [1:01:45<34:43,  2.02it/s] 61%|██████    | 6488/10691 [1:01:45<34:43,  2.02it/s] 61%|██████    | 6489/10691 [1:01:46<34:44,  2.02it/s] 61%|██████    | 6490/10691 [1:01:46<34:44,  2.02it/s] 61%|██████    | 6491/10691 [1:01:47<34:43,  2.02it/s] 61%|██████    | 6492/10691 [1:01:47<34:41,  2.02it/s] 61%|██████    | 6493/10691 [1:01:48<34:42,  2.02it/s] 61%|██████    | 6494/10691 [1:01:48<34:40,  2.02it/s] 61%|██████    | 6495/10691 [1:01:49<34:40,  2.02it/s] 61%|██████    | 6496/10691 [1:01:49<34:41,  2.02it/s] 61%|██████    | 6497/10691 [1:01:50<34:42,  2.01it/s] 61%|██████    | 6498/10691 [1:01:50<34:40,  2.02it/s] 61%|██████    | 6499/10691 [1:01:51<34:39,  2.02it/s] 61%|██████    | 6500/10691 [1:01:51<34:39,  2.02it/s]                                                      {'loss': 2.9749, 'grad_norm': 0.20085549354553223, 'learning_rate': 0.0003995442059176405, 'epoch': 0.61}
+ 61%|██████    | 6500/10691 [1:01:51<34:39,  2.02it/s] 61%|██████    | 6501/10691 [1:01:52<34:42,  2.01it/s] 61%|██████    | 6502/10691 [1:01:52<34:41,  2.01it/s] 61%|██████    | 6503/10691 [1:01:53<34:38,  2.01it/s] 61%|██████    | 6504/10691 [1:01:53<34:36,  2.02it/s] 61%|██████    | 6505/10691 [1:01:54<34:35,  2.02it/s] 61%|██████    | 6506/10691 [1:01:54<34:34,  2.02it/s] 61%|██████    | 6507/10691 [1:01:55<34:34,  2.02it/s] 61%|██████    | 6508/10691 [1:01:55<34:33,  2.02it/s] 61%|██████    | 6509/10691 [1:01:56<34:32,  2.02it/s] 61%|██████    | 6510/10691 [1:01:56<34:33,  2.02it/s] 61%|██████    | 6511/10691 [1:01:57<34:31,  2.02it/s] 61%|██████    | 6512/10691 [1:01:57<34:34,  2.01it/s] 61%|██████    | 6513/10691 [1:01:58<34:32,  2.02it/s] 61%|██████    | 6514/10691 [1:01:58<34:32,  2.02it/s] 61%|██████    | 6515/10691 [1:01:59<34:34,  2.01it/s] 61%|██████    | 6516/10691 [1:01:59<34:34,  2.01it/s] 61%|██████    | 6517/10691 [1:02:00<34:34,  2.01it/s] 61%|██████    | 6518/10691 [1:02:00<34:31,  2.01it/s] 61%|██████    | 6519/10691 [1:02:01<34:31,  2.01it/s] 61%|██████    | 6520/10691 [1:02:01<34:30,  2.01it/s] 61%|██████    | 6521/10691 [1:02:02<34:27,  2.02it/s] 61%|██████    | 6522/10691 [1:02:02<34:27,  2.02it/s] 61%|██████    | 6523/10691 [1:02:03<34:26,  2.02it/s] 61%|██████    | 6524/10691 [1:02:03<34:28,  2.01it/s] 61%|██████    | 6525/10691 [1:02:04<34:27,  2.02it/s]                                                      {'loss': 2.9664, 'grad_norm': 0.20338532328605652, 'learning_rate': 0.0003955491389157922, 'epoch': 0.61}
+ 61%|██████    | 6525/10691 [1:02:04<34:27,  2.02it/s] 61%|██████    | 6526/10691 [1:02:04<34:29,  2.01it/s] 61%|██████    | 6527/10691 [1:02:05<34:27,  2.01it/s] 61%|██████    | 6528/10691 [1:02:05<34:22,  2.02it/s] 61%|██████    | 6529/10691 [1:02:06<34:24,  2.02it/s] 61%|██████    | 6530/10691 [1:02:06<34:22,  2.02it/s] 61%|██████    | 6531/10691 [1:02:07<34:22,  2.02it/s] 61%|██████    | 6532/10691 [1:02:07<34:24,  2.01it/s] 61%|██████    | 6533/10691 [1:02:08<34:24,  2.01it/s] 61%|██████    | 6534/10691 [1:02:08<34:23,  2.02it/s] 61%|██████    | 6535/10691 [1:02:09<34:20,  2.02it/s] 61%|██████    | 6536/10691 [1:02:09<34:21,  2.02it/s] 61%|██████    | 6537/10691 [1:02:10<34:19,  2.02it/s] 61%|██████    | 6538/10691 [1:02:10<34:20,  2.02it/s] 61%|██████    | 6539/10691 [1:02:11<34:20,  2.02it/s] 61%|██████    | 6540/10691 [1:02:11<34:19,  2.02it/s] 61%|██████    | 6541/10691 [1:02:12<34:18,  2.02it/s] 61%|██████    | 6542/10691 [1:02:12<34:17,  2.02it/s] 61%|██████    | 6543/10691 [1:02:13<34:14,  2.02it/s] 61%|██████    | 6544/10691 [1:02:13<34:13,  2.02it/s] 61%|██████    | 6545/10691 [1:02:14<34:14,  2.02it/s] 61%|██████    | 6546/10691 [1:02:14<34:15,  2.02it/s] 61%|██████    | 6547/10691 [1:02:15<34:17,  2.01it/s] 61%|██████    | 6548/10691 [1:02:15<34:15,  2.02it/s] 61%|██████▏   | 6549/10691 [1:02:16<34:14,  2.02it/s] 61%|██████▏   | 6550/10691 [1:02:16<34:14,  2.02it/s]                                                      {'loss': 2.9807, 'grad_norm': 0.21330340206623077, 'learning_rate': 0.0003915610325503111, 'epoch': 0.61}
+ 61%|██████▏   | 6550/10691 [1:02:16<34:14,  2.02it/s] 61%|██████▏   | 6551/10691 [1:02:17<34:16,  2.01it/s] 61%|██████▏   | 6552/10691 [1:02:17<34:15,  2.01it/s] 61%|██████▏   | 6553/10691 [1:02:18<34:15,  2.01it/s] 61%|██████▏   | 6554/10691 [1:02:18<34:13,  2.01it/s] 61%|██████▏   | 6555/10691 [1:02:19<34:11,  2.02it/s] 61%|██████▏   | 6556/10691 [1:02:19<34:10,  2.02it/s] 61%|██████▏   | 6557/10691 [1:02:20<34:10,  2.02it/s] 61%|██████▏   | 6558/10691 [1:02:20<34:10,  2.02it/s] 61%|██████▏   | 6559/10691 [1:02:21<34:12,  2.01it/s] 61%|██████▏   | 6560/10691 [1:02:21<34:10,  2.01it/s] 61%|██████▏   | 6561/10691 [1:02:22<34:09,  2.02it/s] 61%|██████▏   | 6562/10691 [1:02:22<34:05,  2.02it/s] 61%|██████▏   | 6563/10691 [1:02:23<34:05,  2.02it/s] 61%|██████▏   | 6564/10691 [1:02:23<34:05,  2.02it/s] 61%|██████▏   | 6565/10691 [1:02:24<34:04,  2.02it/s] 61%|██████▏   | 6566/10691 [1:02:24<34:04,  2.02it/s] 61%|██████▏   | 6567/10691 [1:02:25<34:06,  2.02it/s] 61%|██████▏   | 6568/10691 [1:02:25<34:05,  2.02it/s] 61%|██████▏   | 6569/10691 [1:02:26<34:05,  2.02it/s] 61%|██████▏   | 6570/10691 [1:02:26<34:04,  2.02it/s] 61%|██████▏   | 6571/10691 [1:02:27<34:04,  2.01it/s] 61%|██████▏   | 6572/10691 [1:02:27<34:03,  2.02it/s] 61%|██████▏   | 6573/10691 [1:02:27<34:01,  2.02it/s] 61%|██████▏   | 6574/10691 [1:02:28<34:00,  2.02it/s] 62%|██████▏   | 6575/10691 [1:02:28<33:58,  2.02it/s]                                                      {'loss': 2.9671, 'grad_norm': 0.19911307096481323, 'learning_rate': 0.0003875801525897886, 'epoch': 0.61}
+ 62%|██████▏   | 6575/10691 [1:02:28<33:58,  2.02it/s] 62%|██████▏   | 6576/10691 [1:02:29<34:01,  2.02it/s] 62%|██████▏   | 6577/10691 [1:02:29<33:59,  2.02it/s] 62%|██████▏   | 6578/10691 [1:02:30<34:00,  2.02it/s] 62%|██████▏   | 6579/10691 [1:02:30<33:57,  2.02it/s] 62%|██████▏   | 6580/10691 [1:02:31<33:58,  2.02it/s] 62%|██████▏   | 6581/10691 [1:02:31<33:58,  2.02it/s] 62%|██████▏   | 6582/10691 [1:02:32<33:56,  2.02it/s] 62%|██████▏   | 6583/10691 [1:02:32<33:57,  2.02it/s] 62%|██████▏   | 6584/10691 [1:02:33<33:53,  2.02it/s] 62%|██████▏   | 6585/10691 [1:02:33<33:54,  2.02it/s] 62%|██████▏   | 6586/10691 [1:02:34<33:54,  2.02it/s] 62%|██████▏   | 6587/10691 [1:02:34<33:52,  2.02it/s] 62%|██████▏   | 6588/10691 [1:02:35<33:51,  2.02it/s] 62%|██████▏   | 6589/10691 [1:02:35<33:54,  2.02it/s] 62%|██████▏   | 6590/10691 [1:02:36<33:54,  2.02it/s] 62%|██████▏   | 6591/10691 [1:02:36<33:53,  2.02it/s] 62%|██████▏   | 6592/10691 [1:02:37<33:54,  2.01it/s] 62%|██████▏   | 6593/10691 [1:02:37<33:54,  2.01it/s] 62%|██████▏   | 6594/10691 [1:02:38<33:53,  2.01it/s] 62%|██████▏   | 6595/10691 [1:02:38<33:50,  2.02it/s] 62%|██████▏   | 6596/10691 [1:02:39<33:50,  2.02it/s] 62%|██████▏   | 6597/10691 [1:02:39<33:51,  2.02it/s] 62%|██████▏   | 6598/10691 [1:02:40<33:50,  2.02it/s] 62%|██████▏   | 6599/10691 [1:02:40<33:50,  2.02it/s] 62%|██████▏   | 6600/10691 [1:02:41<33:49,  2.02it/s]                                                      {'loss': 2.9759, 'grad_norm': 0.211060032248497, 'learning_rate': 0.0003836067643212464, 'epoch': 0.62}
+ 62%|██████▏   | 6600/10691 [1:02:41<33:49,  2.02it/s] 62%|██████▏   | 6601/10691 [1:02:41<33:50,  2.01it/s] 62%|██████▏   | 6602/10691 [1:02:42<33:50,  2.01it/s] 62%|██████▏   | 6603/10691 [1:02:42<33:47,  2.02it/s] 62%|██████▏   | 6604/10691 [1:02:43<33:47,  2.02it/s] 62%|██████▏   | 6605/10691 [1:02:43<33:45,  2.02it/s] 62%|██████▏   | 6606/10691 [1:02:44<33:48,  2.01it/s] 62%|██████▏   | 6607/10691 [1:02:44<33:46,  2.02it/s] 62%|██████▏   | 6608/10691 [1:02:45<33:46,  2.01it/s] 62%|██████▏   | 6609/10691 [1:02:45<33:45,  2.02it/s] 62%|██████▏   | 6610/10691 [1:02:46<33:43,  2.02it/s] 62%|██████▏   | 6611/10691 [1:02:46<33:43,  2.02it/s] 62%|██████▏   | 6612/10691 [1:02:47<33:39,  2.02it/s] 62%|██████▏   | 6613/10691 [1:02:47<33:41,  2.02it/s] 62%|██████▏   | 6614/10691 [1:02:48<33:40,  2.02it/s] 62%|██████▏   | 6615/10691 [1:02:48<33:40,  2.02it/s] 62%|██████▏   | 6616/10691 [1:02:49<33:40,  2.02it/s] 62%|██████▏   | 6617/10691 [1:02:49<33:39,  2.02it/s] 62%|██████▏   | 6618/10691 [1:02:50<33:39,  2.02it/s] 62%|██████▏   | 6619/10691 [1:02:50<33:38,  2.02it/s] 62%|██████▏   | 6620/10691 [1:02:51<33:39,  2.02it/s] 62%|██████▏   | 6621/10691 [1:02:51<33:38,  2.02it/s] 62%|██████▏   | 6622/10691 [1:02:52<33:39,  2.01it/s] 62%|██████▏   | 6623/10691 [1:02:52<33:40,  2.01it/s] 62%|██████▏   | 6624/10691 [1:02:53<33:41,  2.01it/s] 62%|██████▏   | 6625/10691 [1:02:53<33:37,  2.01it/s]                                                      {'loss': 2.9778, 'grad_norm': 0.20315992832183838, 'learning_rate': 0.000379641132532457, 'epoch': 0.62}
+ 62%|██████▏   | 6625/10691 [1:02:53<33:37,  2.01it/s] 62%|██████▏   | 6626/10691 [1:02:54<33:42,  2.01it/s] 62%|██████▏   | 6627/10691 [1:02:54<33:39,  2.01it/s] 62%|██████▏   | 6628/10691 [1:02:55<33:38,  2.01it/s] 62%|██████▏   | 6629/10691 [1:02:55<33:38,  2.01it/s] 62%|██████▏   | 6630/10691 [1:02:56<33:33,  2.02it/s] 62%|██████▏   | 6631/10691 [1:02:56<33:34,  2.02it/s] 62%|██████▏   | 6632/10691 [1:02:57<33:31,  2.02it/s] 62%|██████▏   | 6633/10691 [1:02:57<33:33,  2.02it/s] 62%|██████▏   | 6634/10691 [1:02:58<33:30,  2.02it/s] 62%|██████▏   | 6635/10691 [1:02:58<33:30,  2.02it/s] 62%|██████▏   | 6636/10691 [1:02:59<33:30,  2.02it/s] 62%|██████▏   | 6637/10691 [1:02:59<33:30,  2.02it/s] 62%|██████▏   | 6638/10691 [1:03:00<33:28,  2.02it/s] 62%|██████▏   | 6639/10691 [1:03:00<33:30,  2.02it/s] 62%|██████▏   | 6640/10691 [1:03:01<33:27,  2.02it/s] 62%|██████▏   | 6641/10691 [1:03:01<33:27,  2.02it/s] 62%|██████▏   | 6642/10691 [1:03:02<33:26,  2.02it/s] 62%|██████▏   | 6643/10691 [1:03:02<33:25,  2.02it/s] 62%|██████▏   | 6644/10691 [1:03:03<33:27,  2.02it/s] 62%|██████▏   | 6645/10691 [1:03:03<33:23,  2.02it/s] 62%|██████▏   | 6646/10691 [1:03:04<33:26,  2.02it/s] 62%|██████▏   | 6647/10691 [1:03:04<33:25,  2.02it/s] 62%|██████▏   | 6648/10691 [1:03:05<33:24,  2.02it/s] 62%|██████▏   | 6649/10691 [1:03:05<33:22,  2.02it/s] 62%|██████▏   | 6650/10691 [1:03:06<33:24,  2.02it/s]                                                      {'loss': 2.978, 'grad_norm': 0.21157878637313843, 'learning_rate': 0.00037568352149429927, 'epoch': 0.62}
+ 62%|██████▏   | 6650/10691 [1:03:06<33:24,  2.02it/s] 62%|██████▏   | 6651/10691 [1:03:06<33:23,  2.02it/s] 62%|██████▏   | 6652/10691 [1:03:07<33:23,  2.02it/s] 62%|██████▏   | 6653/10691 [1:03:07<33:24,  2.01it/s] 62%|██████▏   | 6654/10691 [1:03:08<33:20,  2.02it/s] 62%|██████▏   | 6655/10691 [1:03:08<33:20,  2.02it/s] 62%|██████▏   | 6656/10691 [1:03:09<33:20,  2.02it/s] 62%|██████▏   | 6657/10691 [1:03:09<33:21,  2.02it/s] 62%|██████▏   | 6658/10691 [1:03:10<33:17,  2.02it/s] 62%|██████▏   | 6659/10691 [1:03:10<33:19,  2.02it/s] 62%|██████▏   | 6660/10691 [1:03:11<33:20,  2.02it/s] 62%|██████▏   | 6661/10691 [1:03:11<33:18,  2.02it/s] 62%|██████▏   | 6662/10691 [1:03:12<33:16,  2.02it/s] 62%|██████▏   | 6663/10691 [1:03:12<33:14,  2.02it/s] 62%|██████▏   | 6664/10691 [1:03:13<33:15,  2.02it/s] 62%|██████▏   | 6665/10691 [1:03:13<33:16,  2.02it/s] 62%|██████▏   | 6666/10691 [1:03:14<33:15,  2.02it/s] 62%|██████▏   | 6667/10691 [1:03:14<33:13,  2.02it/s] 62%|██████▏   | 6668/10691 [1:03:15<33:14,  2.02it/s] 62%|██████▏   | 6669/10691 [1:03:15<33:12,  2.02it/s] 62%|██████▏   | 6670/10691 [1:03:16<33:13,  2.02it/s] 62%|██████▏   | 6671/10691 [1:03:16<33:12,  2.02it/s] 62%|██████▏   | 6672/10691 [1:03:17<33:13,  2.02it/s] 62%|██████▏   | 6673/10691 [1:03:17<33:14,  2.01it/s] 62%|██████▏   | 6674/10691 [1:03:18<33:12,  2.02it/s] 62%|██████▏   | 6675/10691 [1:03:18<33:12,  2.02it/s]                                                      {'loss': 2.9707, 'grad_norm': 0.19940625131130219, 'learning_rate': 0.0003717341949431469, 'epoch': 0.62}
+ 62%|██████▏   | 6675/10691 [1:03:18<33:12,  2.02it/s] 62%|██████▏   | 6676/10691 [1:03:19<33:12,  2.01it/s] 62%|██████▏   | 6677/10691 [1:03:19<33:12,  2.01it/s] 62%|██████▏   | 6678/10691 [1:03:20<33:12,  2.01it/s] 62%|██████▏   | 6679/10691 [1:03:20<33:10,  2.02it/s] 62%|██████▏   | 6680/10691 [1:03:21<33:25,  2.00it/s] 62%|██████▏   | 6681/10691 [1:03:21<33:20,  2.00it/s] 63%|██████▎   | 6682/10691 [1:03:22<33:16,  2.01it/s] 63%|██████▎   | 6683/10691 [1:03:22<33:14,  2.01it/s] 63%|██████▎   | 6684/10691 [1:03:23<33:13,  2.01it/s] 63%|██████▎   | 6685/10691 [1:03:23<33:11,  2.01it/s] 63%|██████▎   | 6686/10691 [1:03:24<33:10,  2.01it/s] 63%|██████▎   | 6687/10691 [1:03:24<33:11,  2.01it/s] 63%|██████▎   | 6688/10691 [1:03:25<33:07,  2.01it/s] 63%|██████▎   | 6689/10691 [1:03:25<33:07,  2.01it/s] 63%|██████▎   | 6690/10691 [1:03:26<33:06,  2.01it/s] 63%|██████▎   | 6691/10691 [1:03:26<33:07,  2.01it/s] 63%|██████▎   | 6692/10691 [1:03:27<33:03,  2.02it/s] 63%|██████▎   | 6693/10691 [1:03:27<33:04,  2.01it/s] 63%|██████▎   | 6694/10691 [1:03:28<33:00,  2.02it/s] 63%|██████▎   | 6695/10691 [1:03:28<33:02,  2.02it/s] 63%|██████▎   | 6696/10691 [1:03:29<33:03,  2.01it/s] 63%|██████▎   | 6697/10691 [1:03:29<33:03,  2.01it/s] 63%|██████▎   | 6698/10691 [1:03:30<38:26,  1.73it/s] 63%|██████▎   | 6699/10691 [1:03:30<36:47,  1.81it/s] 63%|██████▎   | 6700/10691 [1:03:31<35:38,  1.87it/s]{'loss': 2.9661, 'grad_norm': 0.21222816407680511, 'learning_rate': 0.00036779341606329286, 'epoch': 0.63}                                                      
+ 63%|██████▎   | 6700/10691 [1:03:31<35:38,  1.87it/s] 63%|██████▎   | 6701/10691 [1:03:31<34:51,  1.91it/s] 63%|██████▎   | 6702/10691 [1:03:32<34:18,  1.94it/s] 63%|██████▎   | 6703/10691 [1:03:32<33:51,  1.96it/s] 63%|██████▎   | 6704/10691 [1:03:33<33:34,  1.98it/s] 63%|██████▎   | 6705/10691 [1:03:33<33:21,  1.99it/s] 63%|██████▎   | 6706/10691 [1:03:34<33:15,  2.00it/s] 63%|██████▎   | 6707/10691 [1:03:34<33:10,  2.00it/s] 63%|██████▎   | 6708/10691 [1:03:35<33:03,  2.01it/s] 63%|██████▎   | 6709/10691 [1:03:35<33:02,  2.01it/s] 63%|██████▎   | 6710/10691 [1:03:36<32:56,  2.01it/s] 63%|██████▎   | 6711/10691 [1:03:36<32:58,  2.01it/s] 63%|██████▎   | 6712/10691 [1:03:37<32:53,  2.02it/s] 63%|██████▎   | 6713/10691 [1:03:37<32:53,  2.02it/s] 63%|██████▎   | 6714/10691 [1:03:38<32:53,  2.01it/s] 63%|██████▎   | 6715/10691 [1:03:38<32:53,  2.01it/s] 63%|██████▎   | 6716/10691 [1:03:39<32:53,  2.01it/s] 63%|██████▎   | 6717/10691 [1:03:39<32:51,  2.02it/s] 63%|██████▎   | 6718/10691 [1:03:40<32:52,  2.01it/s] 63%|██████▎   | 6719/10691 [1:03:40<32:50,  2.02it/s] 63%|██████▎   | 6720/10691 [1:03:41<32:49,  2.02it/s] 63%|██████▎   | 6721/10691 [1:03:41<32:52,  2.01it/s] 63%|██████▎   | 6722/10691 [1:03:42<32:49,  2.01it/s] 63%|██████▎   | 6723/10691 [1:03:42<32:51,  2.01it/s] 63%|██████▎   | 6724/10691 [1:03:43<32:47,  2.02it/s] 63%|██████▎   | 6725/10691 [1:03:43<32:46,  2.02it/s]                                                      {'loss': 2.9613, 'grad_norm': 0.21862101554870605, 'learning_rate': 0.0003638614474694105, 'epoch': 0.63}
+ 63%|██████▎   | 6725/10691 [1:03:43<32:46,  2.02it/s] 63%|██████▎   | 6726/10691 [1:03:44<32:48,  2.01it/s] 63%|██████▎   | 6727/10691 [1:03:44<32:46,  2.02it/s] 63%|██████▎   | 6728/10691 [1:03:45<38:09,  1.73it/s] 63%|██████▎   | 6729/10691 [1:03:45<36:30,  1.81it/s] 63%|██████▎   | 6730/10691 [1:03:46<35:23,  1.86it/s] 63%|██████▎   | 6731/10691 [1:03:46<34:35,  1.91it/s] 63%|██████▎   | 6732/10691 [1:03:47<34:01,  1.94it/s] 63%|██████▎   | 6733/10691 [1:03:47<33:36,  1.96it/s] 63%|██████▎   | 6734/10691 [1:03:48<33:17,  1.98it/s] 63%|██████▎   | 6735/10691 [1:03:48<33:05,  1.99it/s] 63%|██████▎   | 6736/10691 [1:03:49<32:59,  2.00it/s] 63%|██████▎   | 6737/10691 [1:03:49<32:54,  2.00it/s] 63%|██████▎   | 6738/10691 [1:03:50<32:49,  2.01it/s] 63%|██████▎   | 6739/10691 [1:03:50<32:47,  2.01it/s] 63%|██████▎   | 6740/10691 [1:03:51<32:47,  2.01it/s] 63%|██████▎   | 6741/10691 [1:03:51<32:42,  2.01it/s] 63%|██████▎   | 6742/10691 [1:03:52<32:39,  2.02it/s] 63%|██████▎   | 6743/10691 [1:03:52<32:38,  2.02it/s] 63%|██████▎   | 6744/10691 [1:03:53<32:38,  2.02it/s] 63%|██████▎   | 6745/10691 [1:03:53<32:36,  2.02it/s] 63%|██████▎   | 6746/10691 [1:03:54<32:35,  2.02it/s] 63%|██████▎   | 6747/10691 [1:03:54<32:34,  2.02it/s] 63%|██████▎   | 6748/10691 [1:03:55<32:34,  2.02it/s] 63%|██████▎   | 6749/10691 [1:03:55<32:32,  2.02it/s] 63%|██████▎   | 6750/10691 [1:03:56<32:34,  2.02it/s]{'loss': 2.9697, 'grad_norm': 0.21812424063682556, 'learning_rate': 0.0003599385511890535, 'epoch': 0.63}                                                      
+ 63%|██████▎   | 6750/10691 [1:03:56<32:34,  2.02it/s] 63%|██████▎   | 6751/10691 [1:03:56<32:40,  2.01it/s] 63%|██████▎   | 6752/10691 [1:03:57<32:36,  2.01it/s] 63%|██████▎   | 6753/10691 [1:03:57<32:35,  2.01it/s] 63%|██████▎   | 6754/10691 [1:03:58<32:31,  2.02it/s] 63%|██████▎   | 6755/10691 [1:03:58<32:35,  2.01it/s] 63%|██████▎   | 6756/10691 [1:03:59<32:32,  2.02it/s] 63%|██████▎   | 6757/10691 [1:03:59<32:33,  2.01it/s] 63%|██████▎   | 6758/10691 [1:04:00<32:33,  2.01it/s] 63%|██████▎   | 6759/10691 [1:04:00<32:30,  2.02it/s] 63%|██████▎   | 6760/10691 [1:04:01<32:28,  2.02it/s] 63%|██████▎   | 6761/10691 [1:04:01<32:26,  2.02it/s] 63%|██████▎   | 6762/10691 [1:04:02<32:27,  2.02it/s] 63%|██████▎   | 6763/10691 [1:04:02<32:28,  2.02it/s] 63%|██████▎   | 6764/10691 [1:04:03<32:27,  2.02it/s] 63%|██████▎   | 6765/10691 [1:04:03<32:28,  2.02it/s] 63%|██████▎   | 6766/10691 [1:04:04<32:26,  2.02it/s] 63%|██████▎   | 6767/10691 [1:04:04<32:27,  2.02it/s] 63%|██████▎   | 6768/10691 [1:04:05<32:27,  2.01it/s] 63%|██████▎   | 6769/10691 [1:04:05<32:27,  2.01it/s] 63%|██████▎   | 6770/10691 [1:04:06<32:25,  2.02it/s] 63%|██████▎   | 6771/10691 [1:04:06<32:23,  2.02it/s] 63%|██████▎   | 6772/10691 [1:04:07<32:24,  2.02it/s] 63%|██████▎   | 6773/10691 [1:04:07<32:23,  2.02it/s] 63%|██████▎   | 6774/10691 [1:04:08<32:22,  2.02it/s] 63%|██████▎   | 6775/10691 [1:04:08<32:22,  2.02it/s]{'loss': 2.9704, 'grad_norm': 0.20039232075214386, 'learning_rate': 0.0003560249886451935, 'epoch': 0.63}
+                                                       63%|██████▎   | 6775/10691 [1:04:08<32:22,  2.02it/s] 63%|██████▎   | 6776/10691 [1:04:09<32:26,  2.01it/s] 63%|██████▎   | 6777/10691 [1:04:09<32:24,  2.01it/s] 63%|██████▎   | 6778/10691 [1:04:10<32:20,  2.02it/s] 63%|██████▎   | 6779/10691 [1:04:10<32:22,  2.01it/s] 63%|██████▎   | 6780/10691 [1:04:11<32:25,  2.01it/s] 63%|██████▎   | 6781/10691 [1:04:11<32:23,  2.01it/s] 63%|██████▎   | 6782/10691 [1:04:12<32:24,  2.01it/s] 63%|██████▎   | 6783/10691 [1:04:12<32:20,  2.01it/s] 63%|██████▎   | 6784/10691 [1:04:13<32:18,  2.02it/s] 63%|██████▎   | 6785/10691 [1:04:13<32:15,  2.02it/s] 63%|██████▎   | 6786/10691 [1:04:14<32:15,  2.02it/s] 63%|██████▎   | 6787/10691 [1:04:14<32:13,  2.02it/s] 63%|██████▎   | 6788/10691 [1:04:15<32:14,  2.02it/s] 64%|██████▎   | 6789/10691 [1:04:15<32:14,  2.02it/s] 64%|██████▎   | 6790/10691 [1:04:16<32:15,  2.02it/s] 64%|██████▎   | 6791/10691 [1:04:16<32:13,  2.02it/s] 64%|██████▎   | 6792/10691 [1:04:17<32:14,  2.02it/s] 64%|██████▎   | 6793/10691 [1:04:17<32:14,  2.01it/s] 64%|██████▎   | 6794/10691 [1:04:18<32:12,  2.02it/s] 64%|██████▎   | 6795/10691 [1:04:18<32:11,  2.02it/s] 64%|██████▎   | 6796/10691 [1:04:19<32:14,  2.01it/s] 64%|██████▎   | 6797/10691 [1:04:19<32:15,  2.01it/s] 64%|██████▎   | 6798/10691 [1:04:20<32:15,  2.01it/s] 64%|██████▎   | 6799/10691 [1:04:20<32:11,  2.01it/s] 64%|██████▎   | 6800/10691 [1:04:21<32:14,  2.01it/s]                                                      {'loss': 2.9684, 'grad_norm': 0.20506902039051056, 'learning_rate': 0.00035212102063879964, 'epoch': 0.64}
+ 64%|██████▎   | 6800/10691 [1:04:21<32:14,  2.01it/s] 64%|██████▎   | 6801/10691 [1:04:21<32:14,  2.01it/s] 64%|██████▎   | 6802/10691 [1:04:22<32:11,  2.01it/s] 64%|██████▎   | 6803/10691 [1:04:22<32:12,  2.01it/s] 64%|██████▎   | 6804/10691 [1:04:23<32:11,  2.01it/s] 64%|██████▎   | 6805/10691 [1:04:23<32:09,  2.01it/s] 64%|██████▎   | 6806/10691 [1:04:24<32:10,  2.01it/s] 64%|██████▎   | 6807/10691 [1:04:24<32:08,  2.01it/s] 64%|██████▎   | 6808/10691 [1:04:25<32:08,  2.01it/s] 64%|██████▎   | 6809/10691 [1:04:25<32:07,  2.01it/s] 64%|██████▎   | 6810/10691 [1:04:26<32:05,  2.02it/s] 64%|██████▎   | 6811/10691 [1:04:26<32:05,  2.02it/s] 64%|██████▎   | 6812/10691 [1:04:27<32:03,  2.02it/s] 64%|██████▎   | 6813/10691 [1:04:27<32:04,  2.01it/s] 64%|██████▎   | 6814/10691 [1:04:28<32:02,  2.02it/s] 64%|██████▎   | 6815/10691 [1:04:28<32:04,  2.01it/s] 64%|██████▍   | 6816/10691 [1:04:29<32:01,  2.02it/s] 64%|████���█▍   | 6817/10691 [1:04:29<32:03,  2.01it/s] 64%|██████▍   | 6818/10691 [1:04:30<32:00,  2.02it/s] 64%|██████▍   | 6819/10691 [1:04:30<32:01,  2.01it/s] 64%|██████▍   | 6820/10691 [1:04:31<31:58,  2.02it/s] 64%|██████▍   | 6821/10691 [1:04:31<31:59,  2.02it/s] 64%|██████▍   | 6822/10691 [1:04:32<31:58,  2.02it/s] 64%|██████▍   | 6823/10691 [1:04:32<31:59,  2.02it/s] 64%|██████▍   | 6824/10691 [1:04:33<31:58,  2.02it/s] 64%|██████▍   | 6825/10691 [1:04:33<31:56,  2.02it/s]                                                      {'loss': 2.9621, 'grad_norm': 0.2187218964099884, 'learning_rate': 0.0003482269073314576, 'epoch': 0.64}
+ 64%|██████▍   | 6825/10691 [1:04:33<31:56,  2.02it/s] 64%|██████▍   | 6826/10691 [1:04:34<31:58,  2.01it/s] 64%|██████▍   | 6827/10691 [1:04:34<31:58,  2.01it/s] 64%|██████▍   | 6828/10691 [1:04:35<31:59,  2.01it/s] 64%|██████▍   | 6829/10691 [1:04:35<31:58,  2.01it/s] 64%|██████▍   | 6830/10691 [1:04:36<31:57,  2.01it/s] 64%|██████▍   | 6831/10691 [1:04:36<31:56,  2.01it/s] 64%|██████▍   | 6832/10691 [1:04:37<31:56,  2.01it/s] 64%|██████▍   | 6833/10691 [1:04:37<31:54,  2.02it/s] 64%|██████▍   | 6834/10691 [1:04:38<31:56,  2.01it/s] 64%|██████▍   | 6835/10691 [1:04:38<31:55,  2.01it/s] 64%|██████▍   | 6836/10691 [1:04:39<31:55,  2.01it/s] 64%|██████▍   | 6837/10691 [1:04:39<31:53,  2.01it/s] 64%|██████▍   | 6838/10691 [1:04:40<31:53,  2.01it/s] 64%|██████▍   | 6839/10691 [1:04:40<31:52,  2.01it/s] 64%|██████▍   | 6840/10691 [1:04:41<31:49,  2.02it/s] 64%|██████▍   | 6841/10691 [1:04:41<31:48,  2.02it/s] 64%|██████▍   | 6842/10691 [1:04:42<31:46,  2.02it/s] 64%|██████▍   | 6843/10691 [1:04:42<31:48,  2.02it/s] 64%|██████▍   | 6844/10691 [1:04:42<31:46,  2.02it/s] 64%|██████▍   | 6845/10691 [1:04:43<31:45,  2.02it/s] 64%|██████▍   | 6846/10691 [1:04:43<31:48,  2.01it/s] 64%|██████▍   | 6847/10691 [1:04:44<31:47,  2.02it/s] 64%|██████▍   | 6848/10691 [1:04:44<31:48,  2.01it/s] 64%|██████▍   | 6849/10691 [1:04:45<31:46,  2.01it/s] 64%|██████▍   | 6850/10691 [1:04:45<31:46,  2.01it/s]                                                      {'loss': 2.9688, 'grad_norm': 0.19219394028186798, 'learning_rate': 0.00034434290822803366, 'epoch': 0.64}
+ 64%|██████▍   | 6850/10691 [1:04:45<31:46,  2.01it/s] 64%|██████▍   | 6851/10691 [1:04:46<31:49,  2.01it/s] 64%|██████▍   | 6852/10691 [1:04:46<31:46,  2.01it/s] 64%|██████▍   | 6853/10691 [1:04:47<31:44,  2.01it/s] 64%|██████▍   | 6854/10691 [1:04:47<31:45,  2.01it/s] 64%|██████▍   | 6855/10691 [1:04:48<31:43,  2.02it/s] 64%|██████▍   | 6856/10691 [1:04:48<31:44,  2.01it/s] 64%|██████▍   | 6857/10691 [1:04:49<31:42,  2.01it/s] 64%|██████▍   | 6858/10691 [1:04:49<31:42,  2.02it/s] 64%|██████▍   | 6859/10691 [1:04:50<31:40,  2.02it/s] 64%|██████▍   | 6860/10691 [1:04:50<31:39,  2.02it/s] 64%|██████▍   | 6861/10691 [1:04:51<31:38,  2.02it/s] 64%|██████▍   | 6862/10691 [1:04:51<31:36,  2.02it/s] 64%|██████▍   | 6863/10691 [1:04:52<31:38,  2.02it/s] 64%|██████▍   | 6864/10691 [1:04:52<31:38,  2.02it/s] 64%|██████▍   | 6865/10691 [1:04:53<31:40,  2.01it/s] 64%|██████▍   | 6866/10691 [1:04:53<31:39,  2.01it/s] 64%|██████▍   | 6867/10691 [1:04:54<31:35,  2.02it/s] 64%|██████▍   | 6868/10691 [1:04:54<31:37,  2.01it/s] 64%|██████▍   | 6869/10691 [1:04:55<31:37,  2.01it/s] 64%|██████▍   | 6870/10691 [1:04:55<31:36,  2.01it/s] 64%|██████▍   | 6871/10691 [1:04:56<31:35,  2.02it/s] 64%|██████▍   | 6872/10691 [1:04:56<31:33,  2.02it/s] 64%|██████▍   | 6873/10691 [1:04:57<31:33,  2.02it/s] 64%|██████▍   | 6874/10691 [1:04:57<31:30,  2.02it/s] 64%|██████▍   | 6875/10691 [1:04:58<31:30,  2.02it/s]{'loss': 2.957, 'grad_norm': 0.22086350619792938, 'learning_rate': 0.00034046928215938, 'epoch': 0.64}
+                                                       64%|██████▍   | 6875/10691 [1:04:58<31:30,  2.02it/s] 64%|██████▍   | 6876/10691 [1:04:58<31:32,  2.02it/s] 64%|██████▍   | 6877/10691 [1:04:59<31:31,  2.02it/s] 64%|██████▍   | 6878/10691 [1:04:59<31:32,  2.02it/s] 64%|██████▍   | 6879/10691 [1:05:00<31:30,  2.02it/s] 64%|██████▍   | 6880/10691 [1:05:00<31:29,  2.02it/s] 64%|██████▍   | 6881/10691 [1:05:01<31:28,  2.02it/s] 64%|██████▍   | 6882/10691 [1:05:01<31:28,  2.02it/s] 64%|██████▍   | 6883/10691 [1:05:02<31:26,  2.02it/s] 64%|██████▍   | 6884/10691 [1:05:02<31:29,  2.02it/s] 64%|██████▍   | 6885/10691 [1:05:03<31:27,  2.02it/s] 64%|██████▍   | 6886/10691 [1:05:03<31:26,  2.02it/s] 64%|██████▍   | 6887/10691 [1:05:04<31:27,  2.02it/s] 64%|██████▍   | 6888/10691 [1:05:04<31:25,  2.02it/s] 64%|██████▍   | 6889/10691 [1:05:05<31:26,  2.02it/s] 64%|██████▍   | 6890/10691 [1:05:05<31:26,  2.02it/s] 64%|██████▍   | 6891/10691 [1:05:06<31:26,  2.01it/s] 64%|██████▍   | 6892/10691 [1:05:06<31:23,  2.02it/s] 64%|██████▍   | 6893/10691 [1:05:07<31:21,  2.02it/s] 64%|██████▍   | 6894/10691 [1:05:07<31:20,  2.02it/s] 64%|██████▍   | 6895/10691 [1:05:08<31:19,  2.02it/s] 65%|██████▍   | 6896/10691 [1:05:08<31:20,  2.02it/s] 65%|██████▍   | 6897/10691 [1:05:09<31:21,  2.02it/s] 65%|██████▍   | 6898/10691 [1:05:09<31:20,  2.02it/s] 65%|██████▍   | 6899/10691 [1:05:10<31:20,  2.02it/s] 65%|██████▍   | 6900/10691 [1:05:10<31:21,  2.02it/s]{'loss': 2.9517, 'grad_norm': 0.22226424515247345, 'learning_rate': 0.00033660628726508713, 'epoch': 0.65}                                                      
+ 65%|██████▍   | 6900/10691 [1:05:10<31:21,  2.02it/s] 65%|██████▍   | 6901/10691 [1:05:11<31:22,  2.01it/s] 65%|██████▍   | 6902/10691 [1:05:11<31:20,  2.02it/s] 65%|██████▍   | 6903/10691 [1:05:12<31:18,  2.02it/s] 65%|██████▍   | 6904/10691 [1:05:12<31:19,  2.01it/s] 65%|██████▍   | 6905/10691 [1:05:13<31:20,  2.01it/s] 65%|██████▍   | 6906/10691 [1:05:13<31:18,  2.01it/s] 65%|██████▍   | 6907/10691 [1:05:14<31:16,  2.02it/s] 65%|██████▍   | 6908/10691 [1:05:14<31:16,  2.02it/s] 65%|██████▍   | 6909/10691 [1:05:15<31:15,  2.02it/s] 65%|██████▍   | 6910/10691 [1:05:15<31:15,  2.02it/s] 65%|██████▍   | 6911/10691 [1:05:16<31:15,  2.02it/s] 65%|██████▍   | 6912/10691 [1:05:16<31:17,  2.01it/s] 65%|██████▍   | 6913/10691 [1:05:17<31:16,  2.01it/s] 65%|██████▍   | 6914/10691 [1:05:17<31:16,  2.01it/s] 65%|██████▍   | 6915/10691 [1:05:18<31:15,  2.01it/s] 65%|██████▍   | 6916/10691 [1:05:18<31:14,  2.01it/s] 65%|██████▍   | 6917/10691 [1:05:19<31:12,  2.02it/s] 65%|██████▍   | 6918/10691 [1:05:19<31:11,  2.02it/s] 65%|██████▍   | 6919/10691 [1:05:20<31:11,  2.02it/s] 65%|██████▍   | 6920/10691 [1:05:20<31:11,  2.02it/s] 65%|██████▍   | 6921/10691 [1:05:21<31:09,  2.02it/s] 65%|██████▍   | 6922/10691 [1:05:21<31:07,  2.02it/s] 65%|██████▍   | 6923/10691 [1:05:22<31:07,  2.02it/s] 65%|██████▍   | 6924/10691 [1:05:22<31:04,  2.02it/s] 65%|██████▍   | 6925/10691 [1:05:23<31:05,  2.02it/s]{'loss': 2.9546, 'grad_norm': 0.19460655748844147, 'learning_rate': 0.0003327541809762805, 'epoch': 0.65}                                                      
+ 65%|██████▍   | 6925/10691 [1:05:23<31:05,  2.02it/s] 65%|██████▍   | 6926/10691 [1:05:23<31:10,  2.01it/s] 65%|██████▍   | 6927/10691 [1:05:24<31:09,  2.01it/s] 65%|██████▍   | 6928/10691 [1:05:24<31:07,  2.02it/s] 65%|██████▍   | 6929/10691 [1:05:25<31:05,  2.02it/s] 65%|██████▍   | 6930/10691 [1:05:25<31:07,  2.01it/s] 65%|██████▍   | 6931/10691 [1:05:26<31:05,  2.02it/s] 65%|██████▍   | 6932/10691 [1:05:26<31:05,  2.01it/s] 65%|██████▍   | 6933/10691 [1:05:27<31:04,  2.02it/s] 65%|██████▍   | 6934/10691 [1:05:27<31:03,  2.02it/s] 65%|██████▍   | 6935/10691 [1:05:28<31:03,  2.02it/s] 65%|██████▍   | 6936/10691 [1:05:28<31:00,  2.02it/s] 65%|██████▍   | 6937/10691 [1:05:29<31:02,  2.02it/s] 65%|██████▍   | 6938/10691 [1:05:29<31:01,  2.02it/s] 65%|██████▍   | 6939/10691 [1:05:30<30:59,  2.02it/s] 65%|██████▍   | 6940/10691 [1:05:30<30:59,  2.02it/s] 65%|██████▍   | 6941/10691 [1:05:31<31:00,  2.02it/s] 65%|██████▍   | 6942/10691 [1:05:31<31:00,  2.01it/s] 65%|██████▍   | 6943/10691 [1:05:32<31:00,  2.01it/s] 65%|██████▍   | 6944/10691 [1:05:32<30:58,  2.02it/s] 65%|██████▍   | 6945/10691 [1:05:33<30:59,  2.01it/s] 65%|██████▍   | 6946/10691 [1:05:33<30:58,  2.02it/s] 65%|██████▍   | 6947/10691 [1:05:34<30:56,  2.02it/s] 65%|██████▍   | 6948/10691 [1:05:34<30:56,  2.02it/s] 65%|██████▍   | 6949/10691 [1:05:35<30:55,  2.02it/s] 65%|██████▌   | 6950/10691 [1:05:35<30:55,  2.02it/s]{'loss': 2.9569, 'grad_norm': 0.21487893164157867, 'learning_rate': 0.00032891321999846607, 'epoch': 0.65}                                                      
+ 65%|██████▌   | 6950/10691 [1:05:35<30:55,  2.02it/s] 65%|██████▌   | 6951/10691 [1:05:36<30:56,  2.01it/s] 65%|██████▌   | 6952/10691 [1:05:36<30:55,  2.01it/s] 65%|██████▌   | 6953/10691 [1:05:37<30:53,  2.02it/s] 65%|██████▌   | 6954/10691 [1:05:37<30:54,  2.02it/s] 65%|██████▌   | 6955/10691 [1:05:38<30:53,  2.02it/s] 65%|██████▌   | 6956/10691 [1:05:38<30:53,  2.02it/s] 65%|██████▌   | 6957/10691 [1:05:39<30:54,  2.01it/s] 65%|██████▌   | 6958/10691 [1:05:39<30:52,  2.02it/s] 65%|██████▌   | 6959/10691 [1:05:40<30:49,  2.02it/s] 65%|██████▌   | 6960/10691 [1:05:40<30:49,  2.02it/s] 65%|██████▌   | 6961/10691 [1:05:41<30:49,  2.02it/s] 65%|██████▌   | 6962/10691 [1:05:41<30:49,  2.02it/s] 65%|██████▌   | 6963/10691 [1:05:42<30:49,  2.02it/s] 65%|██████▌   | 6964/10691 [1:05:42<30:47,  2.02it/s] 65%|██████▌   | 6965/10691 [1:05:43<30:47,  2.02it/s] 65%|██████▌   | 6966/10691 [1:05:43<30:47,  2.02it/s] 65%|██████▌   | 6967/10691 [1:05:44<30:45,  2.02it/s] 65%|██████▌   | 6968/10691 [1:05:44<30:47,  2.02it/s] 65%|██████▌   | 6969/10691 [1:05:45<30:45,  2.02it/s] 65%|██████▌   | 6970/10691 [1:05:45<30:46,  2.01it/s] 65%|██████▌   | 6971/10691 [1:05:45<30:44,  2.02it/s] 65%|██████▌   | 6972/10691 [1:05:46<30:46,  2.01it/s] 65%|██████▌   | 6973/10691 [1:05:46<30:46,  2.01it/s] 65%|██████▌   | 6974/10691 [1:05:47<30:42,  2.02it/s] 65%|██████▌   | 6975/10691 [1:05:47<30:43,  2.02it/s]{'loss': 2.9613, 'grad_norm': 0.20603466033935547, 'learning_rate': 0.0003250836602944228, 'epoch': 0.65}                                                      
+ 65%|██████▌   | 6975/10691 [1:05:47<30:43,  2.02it/s] 65%|██████▌   | 6976/10691 [1:05:48<30:44,  2.01it/s] 65%|██████▌   | 6977/10691 [1:05:48<30:44,  2.01it/s] 65%|██████▌   | 6978/10691 [1:05:49<30:43,  2.01it/s] 65%|██████▌   | 6979/10691 [1:05:49<30:43,  2.01it/s] 65%|██████▌   | 6980/10691 [1:05:50<30:44,  2.01it/s] 65%|██████▌   | 6981/10691 [1:05:50<30:40,  2.02it/s] 65%|██████▌   | 6982/10691 [1:05:51<30:39,  2.02it/s] 65%|██████▌   | 6983/10691 [1:05:51<30:40,  2.01it/s] 65%|██████▌   | 6984/10691 [1:05:52<30:39,  2.02it/s] 65%|██████▌   | 6985/10691 [1:05:52<30:38,  2.02it/s] 65%|██████▌   | 6986/10691 [1:05:53<30:37,  2.02it/s] 65%|██████▌   | 6987/10691 [1:05:53<30:36,  2.02it/s] 65%|██████▌   | 6988/10691 [1:05:54<30:36,  2.02it/s] 65%|██████▌   | 6989/10691 [1:05:54<30:35,  2.02it/s] 65%|██████▌   | 6990/10691 [1:05:55<30:35,  2.02it/s] 65%|██████▌   | 6991/10691 [1:05:55<30:34,  2.02it/s] 65%|██████▌   | 6992/10691 [1:05:56<30:32,  2.02it/s] 65%|██████▌   | 6993/10691 [1:05:56<30:33,  2.02it/s] 65%|██████▌   | 6994/10691 [1:05:57<30:33,  2.02it/s] 65%|██████▌   | 6995/10691 [1:05:57<30:33,  2.02it/s] 65%|██████▌   | 6996/10691 [1:05:58<30:31,  2.02it/s] 65%|██████▌   | 6997/10691 [1:05:58<30:31,  2.02it/s] 65%|██████▌   | 6998/10691 [1:05:59<30:30,  2.02it/s] 65%|██████▌   | 6999/10691 [1:05:59<30:30,  2.02it/s] 65%|██████▌   | 7000/10691 [1:06:00<30:31,  2.01it/s]                                                      {'loss': 2.9495, 'grad_norm': 0.20759737491607666, 'learning_rate': 0.0003212657570671455, 'epoch': 0.65}
+ 65%|██████▌   | 7000/10691 [1:06:00<30:31,  2.01it/s] 65%|██████▌   | 7001/10691 [1:06:00<30:34,  2.01it/s] 65%|██████▌   | 7002/10691 [1:06:01<30:33,  2.01it/s] 66%|██████▌   | 7003/10691 [1:06:01<30:32,  2.01it/s] 66%|██████▌   | 7004/10691 [1:06:02<30:30,  2.01it/s] 66%|██████▌   | 7005/10691 [1:06:02<30:31,  2.01it/s] 66%|██████▌   | 7006/10691 [1:06:03<30:29,  2.01it/s] 66%|██████▌   | 7007/10691 [1:06:03<30:31,  2.01it/s] 66%|██████▌   | 7008/10691 [1:06:04<30:31,  2.01it/s] 66%|██████▌   | 7009/10691 [1:06:04<30:31,  2.01it/s] 66%|██████▌   | 7010/10691 [1:06:05<30:30,  2.01it/s] 66%|██████▌   | 7011/10691 [1:06:05<30:29,  2.01it/s] 66%|██████▌   | 7012/10691 [1:06:06<30:29,  2.01it/s] 66%|██████▌   | 7013/10691 [1:06:06<30:30,  2.01it/s] 66%|██████▌   | 7014/10691 [1:06:07<30:28,  2.01it/s] 66%|██████▌   | 7015/10691 [1:06:07<30:27,  2.01it/s] 66%|██████▌   | 7016/10691 [1:06:08<30:26,  2.01it/s] 66%|██████▌   | 7017/10691 [1:06:08<30:25,  2.01it/s] 66%|██████▌   | 7018/10691 [1:06:09<30:26,  2.01it/s] 66%|██████▌   | 7019/10691 [1:06:09<30:25,  2.01it/s] 66%|██████▌   | 7020/10691 [1:06:10<30:24,  2.01it/s] 66%|██████▌   | 7021/10691 [1:06:10<30:25,  2.01it/s] 66%|██████▌   | 7022/10691 [1:06:11<30:21,  2.01it/s] 66%|██████▌   | 7023/10691 [1:06:11<30:23,  2.01it/s] 66%|██████▌   | 7024/10691 [1:06:12<30:22,  2.01it/s] 66%|██████▌   | 7025/10691 [1:06:12<30:19,  2.01it/s]                                                      {'loss': 2.9577, 'grad_norm': 0.20375044643878937, 'learning_rate': 0.0003174597647428374, 'epoch': 0.66}
+ 66%|██████▌   | 7025/10691 [1:06:12<30:19,  2.01it/s] 66%|██████▌   | 7026/10691 [1:06:13<30:21,  2.01it/s] 66%|██████▌   | 7027/10691 [1:06:13<30:18,  2.02it/s] 66%|██████▌   | 7028/10691 [1:06:14<30:17,  2.02it/s] 66%|██████▌   | 7029/10691 [1:06:14<30:17,  2.01it/s] 66%|██████▌   | 7030/10691 [1:06:15<30:17,  2.01it/s] 66%|██████▌   | 7031/10691 [1:06:15<30:14,  2.02it/s] 66%|██████▌   | 7032/10691 [1:06:16<30:14,  2.02it/s] 66%|██████▌   | 7033/10691 [1:06:16<30:14,  2.02it/s] 66%|██████▌   | 7034/10691 [1:06:17<30:13,  2.02it/s] 66%|██████▌   | 7035/10691 [1:06:17<30:14,  2.02it/s] 66%|██████▌   | 7036/10691 [1:06:18<30:14,  2.01it/s] 66%|██████▌   | 7037/10691 [1:06:18<30:12,  2.02it/s] 66%|██████▌   | 7038/10691 [1:06:19<30:14,  2.01it/s] 66%|██████▌   | 7039/10691 [1:06:19<30:14,  2.01it/s] 66%|██████▌   | 7040/10691 [1:06:20<30:12,  2.01it/s] 66%|██████▌   | 7041/10691 [1:06:20<30:10,  2.02it/s] 66%|██████▌   | 7042/10691 [1:06:21<30:12,  2.01it/s] 66%|██████▌   | 7043/10691 [1:06:21<30:08,  2.02it/s] 66%|██████▌   | 7044/10691 [1:06:22<30:09,  2.02it/s] 66%|██████▌   | 7045/10691 [1:06:22<30:06,  2.02it/s] 66%|██████▌   | 7046/10691 [1:06:23<30:08,  2.02it/s] 66%|██████▌   | 7047/10691 [1:06:23<30:05,  2.02it/s] 66%|██████▌   | 7048/10691 [1:06:24<30:06,  2.02it/s] 66%|██████▌   | 7049/10691 [1:06:24<30:06,  2.02it/s] 66%|██████▌   | 7050/10691 [1:06:25<30:04,  2.02it/s]{'loss': 2.959, 'grad_norm': 0.21106891334056854, 'learning_rate': 0.0003136659369539563, 'epoch': 0.66}
+                                                       66%|██████▌   | 7050/10691 [1:06:25<30:04,  2.02it/s] 66%|██████▌   | 7051/10691 [1:06:25<30:08,  2.01it/s] 66%|██████▌   | 7052/10691 [1:06:26<30:06,  2.01it/s] 66%|██████▌   | 7053/10691 [1:06:26<30:06,  2.01it/s] 66%|██████▌   | 7054/10691 [1:06:27<30:06,  2.01it/s] 66%|██████▌   | 7055/10691 [1:06:27<30:06,  2.01it/s] 66%|██████▌   | 7056/10691 [1:06:28<30:06,  2.01it/s] 66%|██████▌   | 7057/10691 [1:06:28<30:04,  2.01it/s] 66%|██████▌   | 7058/10691 [1:06:29<30:04,  2.01it/s] 66%|██████▌   | 7059/10691 [1:06:29<30:02,  2.01it/s] 66%|██████▌   | 7060/10691 [1:06:30<30:02,  2.01it/s] 66%|██████▌   | 7061/10691 [1:06:30<30:03,  2.01it/s] 66%|██████▌   | 7062/10691 [1:06:31<30:02,  2.01it/s] 66%|██████▌   | 7063/10691 [1:06:31<30:01,  2.01it/s] 66%|██████▌   | 7064/10691 [1:06:32<29:58,  2.02it/s] 66%|██████▌   | 7065/10691 [1:06:32<29:58,  2.02it/s] 66%|██████▌   | 7066/10691 [1:06:33<29:54,  2.02it/s] 66%|██████▌   | 7067/10691 [1:06:33<29:57,  2.02it/s] 66%|██████▌   | 7068/10691 [1:06:34<29:54,  2.02it/s] 66%|██████▌   | 7069/10691 [1:06:34<29:55,  2.02it/s] 66%|██████▌   | 7070/10691 [1:06:35<29:52,  2.02it/s] 66%|██████▌   | 7071/10691 [1:06:35<29:53,  2.02it/s] 66%|██████▌   | 7072/10691 [1:06:36<29:53,  2.02it/s] 66%|██████▌   | 7073/10691 [1:06:36<29:53,  2.02it/s] 66%|██████▌   | 7074/10691 [1:06:37<29:55,  2.01it/s] 66%|██████▌   | 7075/10691 [1:06:37<29:53,  2.02it/s]                                                      {'loss': 2.9598, 'grad_norm': 0.19615373015403748, 'learning_rate': 0.0003098845265223114, 'epoch': 0.66}
+ 66%|██████▌   | 7075/10691 [1:06:37<29:53,  2.02it/s] 66%|██████▌   | 7076/10691 [1:06:38<29:54,  2.01it/s] 66%|██████▌   | 7077/10691 [1:06:38<29:55,  2.01it/s] 66%|██████▌   | 7078/10691 [1:06:39<29:53,  2.01it/s] 66%|██████▌   | 7079/10691 [1:06:39<29:54,  2.01it/s] 66%|██████▌   | 7080/10691 [1:06:40<29:50,  2.02it/s] 66%|██████▌   | 7081/10691 [1:06:40<29:51,  2.02it/s] 66%|██████▌   | 7082/10691 [1:06:41<29:50,  2.02it/s] 66%|██████▋   | 7083/10691 [1:06:41<29:49,  2.02it/s] 66%|██████▋   | 7084/10691 [1:06:42<29:48,  2.02it/s] 66%|██████▋   | 7085/10691 [1:06:42<29:48,  2.02it/s] 66%|██████▋   | 7086/10691 [1:06:43<29:49,  2.01it/s] 66%|██████▋   | 7087/10691 [1:06:43<29:48,  2.02it/s] 66%|██████▋   | 7088/10691 [1:06:44<29:47,  2.02it/s] 66%|██████▋   | 7089/10691 [1:06:44<29:46,  2.02it/s] 66%|██████▋   | 7090/10691 [1:06:45<29:48,  2.01it/s] 66%|██████▋   | 7091/10691 [1:06:45<29:48,  2.01it/s] 66%|██████▋   | 7092/10691 [1:06:46<29:46,  2.01it/s] 66%|██████▋   | 7093/10691 [1:06:46<29:46,  2.01it/s] 66%|██████▋   | 7094/10691 [1:06:47<29:44,  2.02it/s] 66%|██████▋   | 7095/10691 [1:06:47<29:45,  2.01it/s] 66%|██████▋   | 7096/10691 [1:06:48<29:44,  2.01it/s] 66%|██████▋   | 7097/10691 [1:06:48<29:42,  2.02it/s] 66%|██████▋   | 7098/10691 [1:06:49<29:41,  2.02it/s] 66%|██████▋   | 7099/10691 [1:06:49<29:40,  2.02it/s] 66%|██████▋   | 7100/10691 [1:06:50<29:40,  2.02it/s]                                                      {'loss': 2.955, 'grad_norm': 0.19908753037452698, 'learning_rate': 0.0003061157854422158, 'epoch': 0.66}
+ 66%|██████▋   | 7100/10691 [1:06:50<29:40,  2.02it/s] 66%|██████▋   | 7101/10691 [1:06:50<29:42,  2.01it/s] 66%|██████▋   | 7102/10691 [1:06:51<29:45,  2.01it/s] 66%|██████▋   | 7103/10691 [1:06:51<29:43,  2.01it/s] 66%|██████▋   | 7104/10691 [1:06:52<29:42,  2.01it/s] 66%|██████▋   | 7105/10691 [1:06:52<29:41,  2.01it/s] 66%|██████▋   | 7106/10691 [1:06:53<29:40,  2.01it/s] 66%|██████▋   | 7107/10691 [1:06:53<29:40,  2.01it/s] 66%|██████▋   | 7108/10691 [1:06:54<29:38,  2.01it/s] 66%|██████▋   | 7109/10691 [1:06:54<29:37,  2.02it/s] 67%|██████▋   | 7110/10691 [1:06:54<29:36,  2.02it/s] 67%|██████▋   | 7111/10691 [1:06:55<29:37,  2.01it/s] 67%|██████▋   | 7112/10691 [1:06:55<29:36,  2.01it/s] 67%|██████▋   | 7113/10691 [1:06:56<29:35,  2.01it/s] 67%|██████▋   | 7114/10691 [1:06:56<29:36,  2.01it/s] 67%|██████▋   | 7115/10691 [1:06:57<29:34,  2.02it/s] 67%|██████▋   | 7116/10691 [1:06:57<29:33,  2.02it/s] 67%|██████▋   | 7117/10691 [1:06:58<29:32,  2.02it/s] 67%|██████▋   | 7118/10691 [1:06:58<29:33,  2.02it/s] 67%|██████▋   | 7119/10691 [1:06:59<29:30,  2.02it/s] 67%|██████▋   | 7120/10691 [1:06:59<29:30,  2.02it/s] 67%|██████▋   | 7121/10691 [1:07:00<29:31,  2.02it/s] 67%|██████▋   | 7122/10691 [1:07:00<29:29,  2.02it/s] 67%|██████▋   | 7123/10691 [1:07:01<29:28,  2.02it/s] 67%|██████▋   | 7124/10691 [1:07:01<29:25,  2.02it/s] 67%|██████▋   | 7125/10691 [1:07:02<29:27,  2.02it/s]                                                      {'loss': 2.9595, 'grad_norm': 0.19623889029026031, 'learning_rate': 0.00030235996486369267, 'epoch': 0.67}
+ 67%|██████▋   | 7125/10691 [1:07:02<29:27,  2.02it/s] 67%|██████▋   | 7126/10691 [1:07:02<29:28,  2.02it/s] 67%|██████▋   | 7127/10691 [1:07:03<29:28,  2.01it/s] 67%|██████▋   | 7128/10691 [1:07:03<29:28,  2.01it/s] 67%|██████▋   | 7129/10691 [1:07:04<29:26,  2.02it/s] 67%|██████▋   | 7130/10691 [1:07:04<29:28,  2.01it/s] 67%|██████▋   | 7131/10691 [1:07:05<29:24,  2.02it/s] 67%|██████▋   | 7132/10691 [1:07:05<29:25,  2.02it/s] 67%|██████▋   | 7133/10691 [1:07:06<29:23,  2.02it/s] 67%|██████▋   | 7134/10691 [1:07:06<29:23,  2.02it/s] 67%|██████▋   | 7135/10691 [1:07:07<29:24,  2.02it/s] 67%|██████▋   | 7136/10691 [1:07:07<29:24,  2.02it/s] 67%|██████▋   | 7137/10691 [1:07:08<29:23,  2.02it/s] 67%|██████▋   | 7138/10691 [1:07:08<29:21,  2.02it/s] 67%|██████▋   | 7139/10691 [1:07:09<29:21,  2.02it/s] 67%|██████▋   | 7140/10691 [1:07:09<29:20,  2.02it/s] 67%|██████▋   | 7141/10691 [1:07:10<29:20,  2.02it/s] 67%|██████▋   | 7142/10691 [1:07:10<29:18,  2.02it/s] 67%|██████▋   | 7143/10691 [1:07:11<29:20,  2.02it/s] 67%|██████▋   | 7144/10691 [1:07:11<29:19,  2.02it/s] 67%|██████▋   | 7145/10691 [1:07:12<29:18,  2.02it/s] 67%|██████▋   | 7146/10691 [1:07:12<29:18,  2.02it/s] 67%|██████▋   | 7147/10691 [1:07:13<29:17,  2.02it/s] 67%|██████▋   | 7148/10691 [1:07:13<29:15,  2.02it/s] 67%|██████▋   | 7149/10691 [1:07:14<29:15,  2.02it/s] 67%|██████▋   | 7150/10691 [1:07:14<29:14,  2.02it/s]                                                      {'loss': 2.9548, 'grad_norm': 0.22771240770816803, 'learning_rate': 0.00029861731507573963, 'epoch': 0.67}
+ 67%|██████▋   | 7150/10691 [1:07:14<29:14,  2.02it/s] 67%|██████▋   | 7151/10691 [1:07:15<29:20,  2.01it/s] 67%|██████▋   | 7152/10691 [1:07:15<29:19,  2.01it/s] 67%|██████▋   | 7153/10691 [1:07:16<29:17,  2.01it/s] 67%|██████▋   | 7154/10691 [1:07:16<29:19,  2.01it/s] 67%|██████▋   | 7155/10691 [1:07:17<29:19,  2.01it/s] 67%|██████▋   | 7156/10691 [1:07:17<29:16,  2.01it/s] 67%|██████▋   | 7157/10691 [1:07:18<29:15,  2.01it/s] 67%|██████▋   | 7158/10691 [1:07:18<29:12,  2.02it/s] 67%|██████▋   | 7159/10691 [1:07:19<29:13,  2.01it/s] 67%|██████▋   | 7160/10691 [1:07:19<29:10,  2.02it/s] 67%|██████▋   | 7161/10691 [1:07:20<29:12,  2.01it/s] 67%|██████▋   | 7162/10691 [1:07:20<29:15,  2.01it/s] 67%|██████▋   | 7163/10691 [1:07:21<29:11,  2.01it/s] 67%|██████▋   | 7164/10691 [1:07:21<29:11,  2.01it/s] 67%|██████▋   | 7165/10691 [1:07:22<29:09,  2.02it/s] 67%|██████▋   | 7166/10691 [1:07:22<29:09,  2.01it/s] 67%|██████▋   | 7167/10691 [1:07:23<29:07,  2.02it/s] 67%|██████▋   | 7168/10691 [1:07:23<29:07,  2.02it/s] 67%|██████▋   | 7169/10691 [1:07:24<29:09,  2.01it/s] 67%|██████▋   | 7170/10691 [1:07:24<29:05,  2.02it/s] 67%|██████▋   | 7171/10691 [1:07:25<29:07,  2.01it/s] 67%|██████▋   | 7172/10691 [1:07:25<29:04,  2.02it/s] 67%|██████▋   | 7173/10691 [1:07:26<29:05,  2.02it/s] 67%|██████▋   | 7174/10691 [1:07:26<29:02,  2.02it/s] 67%|██████▋   | 7175/10691 [1:07:27<29:04,  2.02it/s]                                                      {'loss': 2.9533, 'grad_norm': 0.2018347680568695, 'learning_rate': 0.00029488808548964915, 'epoch': 0.67}
+ 67%|██████▋   | 7175/10691 [1:07:27<29:04,  2.02it/s] 67%|██████▋   | 7176/10691 [1:07:27<29:08,  2.01it/s] 67%|██████▋   | 7177/10691 [1:07:28<29:07,  2.01it/s] 67%|██████▋   | 7178/10691 [1:07:28<29:05,  2.01it/s] 67%|██████▋   | 7179/10691 [1:07:29<29:03,  2.01it/s] 67%|██████▋   | 7180/10691 [1:07:29<29:02,  2.02it/s] 67%|██████▋   | 7181/10691 [1:07:30<29:06,  2.01it/s] 67%|██████▋   | 7182/10691 [1:07:30<29:04,  2.01it/s] 67%|██████▋   | 7183/10691 [1:07:31<29:04,  2.01it/s] 67%|██████▋   | 7184/10691 [1:07:31<29:05,  2.01it/s] 67%|██████▋   | 7185/10691 [1:07:32<29:02,  2.01it/s] 67%|██████▋   | 7186/10691 [1:07:32<29:01,  2.01it/s] 67%|██████▋   | 7187/10691 [1:07:33<28:59,  2.01it/s] 67%|██████▋   | 7188/10691 [1:07:33<28:58,  2.02it/s] 67%|██████▋   | 7189/10691 [1:07:34<28:56,  2.02it/s] 67%|██████▋   | 7190/10691 [1:07:34<28:58,  2.01it/s] 67%|██████▋   | 7191/10691 [1:07:35<28:57,  2.01it/s] 67%|██████▋   | 7192/10691 [1:07:35<28:55,  2.02it/s] 67%|██████▋   | 7193/10691 [1:07:36<28:55,  2.02it/s] 67%|██████▋   | 7194/10691 [1:07:36<28:57,  2.01it/s] 67%|██████▋   | 7195/10691 [1:07:37<28:56,  2.01it/s] 67%|██████▋   | 7196/10691 [1:07:37<28:53,  2.02it/s] 67%|██████▋   | 7197/10691 [1:07:38<28:52,  2.02it/s] 67%|██████▋   | 7198/10691 [1:07:38<28:50,  2.02it/s] 67%|██████▋   | 7199/10691 [1:07:39<28:50,  2.02it/s] 67%|██████▋   | 7200/10691 [1:07:39<28:50,  2.02it/s]                                                      {'loss': 2.9376, 'grad_norm': 0.21041443943977356, 'learning_rate': 0.0002911725246223866, 'epoch': 0.67}
+ 67%|██████▋   | 7200/10691 [1:07:39<28:50,  2.02it/s] 67%|██████▋   | 7201/10691 [1:07:40<28:52,  2.01it/s] 67%|██████▋   | 7202/10691 [1:07:40<28:52,  2.01it/s] 67%|██████▋   | 7203/10691 [1:07:41<28:49,  2.02it/s] 67%|██████▋   | 7204/10691 [1:07:41<28:51,  2.01it/s] 67%|██████▋   | 7205/10691 [1:07:42<28:49,  2.02it/s] 67%|██████▋   | 7206/10691 [1:07:42<28:49,  2.01it/s] 67%|██████▋   | 7207/10691 [1:07:43<28:49,  2.01it/s] 67%|██████▋   | 7208/10691 [1:07:43<28:47,  2.02it/s] 67%|██████▋   | 7209/10691 [1:07:44<28:47,  2.02it/s] 67%|██████▋   | 7210/10691 [1:07:44<28:47,  2.01it/s] 67%|██████▋   | 7211/10691 [1:07:45<28:48,  2.01it/s] 67%|██████▋   | 7212/10691 [1:07:45<28:48,  2.01it/s] 67%|██████▋   | 7213/10691 [1:07:46<28:47,  2.01it/s] 67%|██████▋   | 7214/10691 [1:07:46<28:48,  2.01it/s] 67%|██████▋   | 7215/10691 [1:07:47<28:45,  2.01it/s] 67%|██████▋   | 7216/10691 [1:07:47<28:42,  2.02it/s] 68%|██████▊   | 7217/10691 [1:07:48<28:43,  2.02it/s] 68%|██████▊   | 7218/10691 [1:07:48<28:41,  2.02it/s] 68%|██████▊   | 7219/10691 [1:07:49<28:42,  2.02it/s] 68%|██████▊   | 7220/10691 [1:07:49<28:42,  2.01it/s] 68%|██████▊   | 7221/10691 [1:07:50<28:42,  2.01it/s] 68%|██████▊   | 7222/10691 [1:07:50<28:42,  2.01it/s] 68%|██████▊   | 7223/10691 [1:07:51<28:39,  2.02it/s] 68%|██████▊   | 7224/10691 [1:07:51<28:41,  2.01it/s] 68%|██████▊   | 7225/10691 [1:07:52<28:39,  2.02it/s]                                                      {'loss': 2.9523, 'grad_norm': 0.19285693764686584, 'learning_rate': 0.0002874708800800304, 'epoch': 0.68}
+ 68%|██████▊   | 7225/10691 [1:07:52<28:39,  2.02it/s] 68%|██████▊   | 7226/10691 [1:07:52<28:40,  2.01it/s] 68%|██████▊   | 7227/10691 [1:07:53<28:40,  2.01it/s] 68%|██████▊   | 7228/10691 [1:07:53<28:37,  2.02it/s] 68%|██████▊   | 7229/10691 [1:07:54<28:40,  2.01it/s] 68%|██████▊   | 7230/10691 [1:07:54<28:39,  2.01it/s] 68%|██████▊   | 7231/10691 [1:07:55<28:39,  2.01it/s] 68%|██████▊   | 7232/10691 [1:07:55<28:35,  2.02it/s] 68%|██████▊   | 7233/10691 [1:07:56<28:34,  2.02it/s] 68%|██████▊   | 7234/10691 [1:07:56<28:33,  2.02it/s] 68%|██████▊   | 7235/10691 [1:07:57<28:34,  2.02it/s] 68%|██████▊   | 7236/10691 [1:07:57<28:32,  2.02it/s] 68%|██████▊   | 7237/10691 [1:07:58<28:34,  2.01it/s] 68%|██████▊   | 7238/10691 [1:07:58<28:31,  2.02it/s] 68%|██████▊   | 7239/10691 [1:07:59<28:32,  2.02it/s] 68%|██████▊   | 7240/10691 [1:07:59<28:31,  2.02it/s] 68%|██████▊   | 7241/10691 [1:08:00<28:32,  2.01it/s] 68%|██████▊   | 7242/10691 [1:08:00<28:31,  2.02it/s] 68%|██████▊   | 7243/10691 [1:08:00<28:31,  2.01it/s] 68%|██████▊   | 7244/10691 [1:08:01<28:32,  2.01it/s] 68%|██████▊   | 7245/10691 [1:08:01<28:30,  2.01it/s] 68%|██████▊   | 7246/10691 [1:08:02<28:30,  2.01it/s] 68%|██████▊   | 7247/10691 [1:08:02<28:28,  2.02it/s] 68%|██████▊   | 7248/10691 [1:08:03<28:28,  2.02it/s] 68%|██████▊   | 7249/10691 [1:08:03<28:27,  2.02it/s] 68%|██████▊   | 7250/10691 [1:08:04<28:26,  2.02it/s]                                                      {'loss': 2.9432, 'grad_norm': 0.2081136256456375, 'learning_rate': 0.00028378339854127135, 'epoch': 0.68}
+ 68%|██████▊   | 7250/10691 [1:08:04<28:26,  2.02it/s] 68%|██████▊   | 7251/10691 [1:08:04<28:28,  2.01it/s] 68%|██████▊   | 7252/10691 [1:08:05<28:28,  2.01it/s] 68%|██████▊   | 7253/10691 [1:08:05<28:28,  2.01it/s] 68%|██████▊   | 7254/10691 [1:08:06<28:26,  2.01it/s] 68%|██████▊   | 7255/10691 [1:08:06<28:26,  2.01it/s] 68%|██████▊   | 7256/10691 [1:08:07<28:26,  2.01it/s] 68%|██████▊   | 7257/10691 [1:08:07<28:25,  2.01it/s] 68%|██████▊   | 7258/10691 [1:08:08<28:24,  2.01it/s] 68%|██████▊   | 7259/10691 [1:08:08<28:22,  2.02it/s] 68%|██████▊   | 7260/10691 [1:08:09<28:21,  2.02it/s] 68%|██████▊   | 7261/10691 [1:08:09<28:21,  2.02it/s] 68%|██████▊   | 7262/10691 [1:08:10<28:20,  2.02it/s] 68%|██████▊   | 7263/10691 [1:08:10<28:22,  2.01it/s] 68%|██████▊   | 7264/10691 [1:08:11<28:22,  2.01it/s] 68%|██████▊   | 7265/10691 [1:08:11<28:23,  2.01it/s] 68%|██████▊   | 7266/10691 [1:08:12<28:22,  2.01it/s] 68%|██████▊   | 7267/10691 [1:08:12<28:22,  2.01it/s] 68%|██████▊   | 7268/10691 [1:08:13<28:19,  2.01it/s] 68%|██████▊   | 7269/10691 [1:08:13<28:19,  2.01it/s] 68%|██████▊   | 7270/10691 [1:08:14<28:21,  2.01it/s] 68%|██████▊   | 7271/10691 [1:08:14<28:20,  2.01it/s] 68%|██████▊   | 7272/10691 [1:08:15<28:17,  2.01it/s] 68%|██████▊   | 7273/10691 [1:08:15<28:16,  2.02it/s] 68%|██████▊   | 7274/10691 [1:08:16<28:16,  2.01it/s] 68%|██████▊   | 7275/10691 [1:08:16<28:16,  2.01it/s]                                                      {'loss': 2.9424, 'grad_norm': 0.20397353172302246, 'learning_rate': 0.0002801103257409728, 'epoch': 0.68}
+ 68%|██████▊   | 7275/10691 [1:08:16<28:16,  2.01it/s] 68%|██████▊   | 7276/10691 [1:08:17<28:18,  2.01it/s] 68%|██████▊   | 7277/10691 [1:08:17<28:17,  2.01it/s] 68%|██████▊   | 7278/10691 [1:08:18<28:17,  2.01it/s] 68%|██████▊   | 7279/10691 [1:08:18<28:15,  2.01it/s] 68%|██████▊   | 7280/10691 [1:08:19<28:15,  2.01it/s] 68%|██████▊   | 7281/10691 [1:08:19<28:13,  2.01it/s] 68%|██████▊   | 7282/10691 [1:08:20<28:13,  2.01it/s] 68%|██████▊   | 7283/10691 [1:08:20<28:10,  2.02it/s] 68%|██████▊   | 7284/10691 [1:08:21<28:11,  2.01it/s] 68%|██████▊   | 7285/10691 [1:08:21<28:10,  2.01it/s] 68%|██████▊   | 7286/10691 [1:08:22<28:09,  2.01it/s] 68%|██████▊   | 7287/10691 [1:08:22<28:09,  2.02it/s] 68%|██████▊   | 7288/10691 [1:08:23<28:09,  2.01it/s] 68%|██████▊   | 7289/10691 [1:08:23<28:09,  2.01it/s] 68%|██████▊   | 7290/10691 [1:08:24<28:07,  2.02it/s] 68%|██████▊   | 7291/10691 [1:08:24<28:08,  2.01it/s] 68%|██████▊   | 7292/10691 [1:08:25<28:06,  2.02it/s] 68%|██████▊   | 7293/10691 [1:08:25<28:06,  2.01it/s] 68%|██████▊   | 7294/10691 [1:08:26<28:07,  2.01it/s] 68%|██████▊   | 7295/10691 [1:08:26<28:05,  2.01it/s] 68%|██████▊   | 7296/10691 [1:08:27<28:05,  2.01it/s] 68%|██████▊   | 7297/10691 [1:08:27<28:01,  2.02it/s] 68%|██████▊   | 7298/10691 [1:08:28<28:02,  2.02it/s] 68%|██████▊   | 7299/10691 [1:08:28<28:00,  2.02it/s] 68%|██████▊   | 7300/10691 [1:08:29<28:01,  2.02it/s]{'loss': 2.9464, 'grad_norm': 0.20165438950061798, 'learning_rate': 0.0002764519064537957, 'epoch': 0.68}
+                                                       68%|██████▊   | 7300/10691 [1:08:29<28:01,  2.02it/s] 68%|██████▊   | 7301/10691 [1:08:29<28:04,  2.01it/s] 68%|██████▊   | 7302/10691 [1:08:30<28:01,  2.02it/s] 68%|██████▊   | 7303/10691 [1:08:30<28:02,  2.01it/s] 68%|██████▊   | 7304/10691 [1:08:31<28:03,  2.01it/s] 68%|██████▊   | 7305/10691 [1:08:31<28:01,  2.01it/s] 68%|██████▊   | 7306/10691 [1:08:32<28:04,  2.01it/s] 68%|██████▊   | 7307/10691 [1:08:32<28:02,  2.01it/s] 68%|██████▊   | 7308/10691 [1:08:33<28:00,  2.01it/s] 68%|██████▊   | 7309/10691 [1:08:33<28:03,  2.01it/s] 68%|██████▊   | 7310/10691 [1:08:34<28:01,  2.01it/s] 68%|██████▊   | 7311/10691 [1:08:34<28:03,  2.01it/s] 68%|██████▊   | 7312/10691 [1:08:35<28:01,  2.01it/s] 68%|██████▊   | 7313/10691 [1:08:35<28:01,  2.01it/s] 68%|██████▊   | 7314/10691 [1:08:36<27:58,  2.01it/s] 68%|██████▊   | 7315/10691 [1:08:36<27:58,  2.01it/s] 68%|██████▊   | 7316/10691 [1:08:37<27:57,  2.01it/s] 68%|██████▊   | 7317/10691 [1:08:37<27:55,  2.01it/s] 68%|██████▊   | 7318/10691 [1:08:38<27:55,  2.01it/s] 68%|██████▊   | 7319/10691 [1:08:38<27:56,  2.01it/s] 68%|██████▊   | 7320/10691 [1:08:39<27:54,  2.01it/s] 68%|██████▊   | 7321/10691 [1:08:39<27:51,  2.02it/s] 68%|██████▊   | 7322/10691 [1:08:40<27:51,  2.02it/s] 68%|██████▊   | 7323/10691 [1:08:40<27:50,  2.02it/s] 69%|██████▊   | 7324/10691 [1:08:41<27:51,  2.01it/s] 69%|██████▊   | 7325/10691 [1:08:41<27:49,  2.02it/s]                                                      {'loss': 2.94, 'grad_norm': 0.19927719235420227, 'learning_rate': 0.0002728083844778867, 'epoch': 0.69}
+ 69%|██████▊   | 7325/10691 [1:08:41<27:49,  2.02it/s] 69%|██████▊   | 7326/10691 [1:08:42<27:50,  2.01it/s] 69%|██████▊   | 7327/10691 [1:08:42<27:52,  2.01it/s] 69%|██████▊   | 7328/10691 [1:08:43<27:48,  2.02it/s] 69%|██████▊   | 7329/10691 [1:08:43<27:49,  2.01it/s] 69%|██████▊   | 7330/10691 [1:08:44<27:45,  2.02it/s] 69%|██████▊   | 7331/10691 [1:08:44<27:47,  2.02it/s] 69%|██████▊   | 7332/10691 [1:08:45<27:45,  2.02it/s] 69%|██████▊   | 7333/10691 [1:08:45<27:45,  2.02it/s] 69%|██████▊   | 7334/10691 [1:08:46<27:44,  2.02it/s] 69%|██████▊   | 7335/10691 [1:08:46<27:43,  2.02it/s] 69%|██████▊   | 7336/10691 [1:08:47<27:43,  2.02it/s] 69%|██████▊   | 7337/10691 [1:08:47<27:43,  2.02it/s] 69%|██████▊   | 7338/10691 [1:08:48<27:42,  2.02it/s] 69%|██████▊   | 7339/10691 [1:08:48<27:42,  2.02it/s] 69%|█████��▊   | 7340/10691 [1:08:49<27:43,  2.01it/s] 69%|██████▊   | 7341/10691 [1:08:49<27:42,  2.02it/s] 69%|██████▊   | 7342/10691 [1:08:50<27:41,  2.02it/s] 69%|██████▊   | 7343/10691 [1:08:50<27:41,  2.01it/s] 69%|██████▊   | 7344/10691 [1:08:51<27:42,  2.01it/s] 69%|██████▊   | 7345/10691 [1:08:51<27:41,  2.01it/s] 69%|██████▊   | 7346/10691 [1:08:52<27:40,  2.01it/s] 69%|██████▊   | 7347/10691 [1:08:52<27:37,  2.02it/s] 69%|██████▊   | 7348/10691 [1:08:53<27:36,  2.02it/s] 69%|██████▊   | 7349/10691 [1:08:53<27:38,  2.02it/s] 69%|██████▊   | 7350/10691 [1:08:54<27:36,  2.02it/s]{'loss': 2.9412, 'grad_norm': 0.20869305729866028, 'learning_rate': 0.00026918000261863084, 'epoch': 0.69}
+                                                       69%|██████▊   | 7350/10691 [1:08:54<27:36,  2.02it/s] 69%|██████▉   | 7351/10691 [1:08:54<27:36,  2.02it/s] 69%|██████▉   | 7352/10691 [1:08:55<27:36,  2.02it/s] 69%|██████▉   | 7353/10691 [1:08:55<27:35,  2.02it/s] 69%|██████▉   | 7354/10691 [1:08:56<27:36,  2.01it/s] 69%|██████▉   | 7355/10691 [1:08:56<27:36,  2.01it/s] 69%|██████▉   | 7356/10691 [1:08:57<27:33,  2.02it/s] 69%|██████▉   | 7357/10691 [1:08:57<27:32,  2.02it/s] 69%|██████▉   | 7358/10691 [1:08:58<27:30,  2.02it/s] 69%|██████▉   | 7359/10691 [1:08:58<27:33,  2.02it/s] 69%|██████▉   | 7360/10691 [1:08:59<27:31,  2.02it/s] 69%|██████▉   | 7361/10691 [1:08:59<27:32,  2.02it/s] 69%|██████▉   | 7362/10691 [1:09:00<27:30,  2.02it/s] 69%|██████▉   | 7363/10691 [1:09:00<27:31,  2.02it/s] 69%|██████▉   | 7364/10691 [1:09:01<27:27,  2.02it/s] 69%|██████▉   | 7365/10691 [1:09:01<27:28,  2.02it/s] 69%|██████▉   | 7366/10691 [1:09:02<27:25,  2.02it/s] 69%|██████▉   | 7367/10691 [1:09:02<27:27,  2.02it/s] 69%|██████▉   | 7368/10691 [1:09:03<27:27,  2.02it/s] 69%|██████▉   | 7369/10691 [1:09:03<27:26,  2.02it/s] 69%|██████▉   | 7370/10691 [1:09:04<27:25,  2.02it/s] 69%|██████▉   | 7371/10691 [1:09:04<27:25,  2.02it/s] 69%|██████▉   | 7372/10691 [1:09:05<27:25,  2.02it/s] 69%|██████▉   | 7373/10691 [1:09:05<27:26,  2.02it/s] 69%|██████▉   | 7374/10691 [1:09:06<27:25,  2.02it/s] 69%|██████▉   | 7375/10691 [1:09:06<27:25,  2.02it/s]                                                      {'loss': 2.9449, 'grad_norm': 0.2047537863254547, 'learning_rate': 0.00026556700267247213, 'epoch': 0.69}
+ 69%|██████▉   | 7375/10691 [1:09:06<27:25,  2.02it/s] 69%|██████▉   | 7376/10691 [1:09:07<27:26,  2.01it/s] 69%|██████▉   | 7377/10691 [1:09:07<27:27,  2.01it/s] 69%|██████▉   | 7378/10691 [1:09:08<27:27,  2.01it/s] 69%|██████▉   | 7379/10691 [1:09:08<27:28,  2.01it/s] 69%|██████▉   | 7380/10691 [1:09:09<27:25,  2.01it/s] 69%|██████▉   | 7381/10691 [1:09:09<27:24,  2.01it/s] 69%|██████▉   | 7382/10691 [1:09:10<27:23,  2.01it/s] 69%|██████▉   | 7383/10691 [1:09:10<27:22,  2.01it/s] 69%|██████▉   | 7384/10691 [1:09:10<27:19,  2.02it/s] 69%|██████▉   | 7385/10691 [1:09:11<27:21,  2.01it/s] 69%|██████▉   | 7386/10691 [1:09:11<27:20,  2.01it/s] 69%|██████▉   | 7387/10691 [1:09:12<27:20,  2.01it/s] 69%|██████▉   | 7388/10691 [1:09:12<27:19,  2.01it/s] 69%|██████▉   | 7389/10691 [1:09:13<27:17,  2.02it/s] 69%|██████▉   | 7390/10691 [1:09:13<27:18,  2.01it/s] 69%|██████▉   | 7391/10691 [1:09:14<27:15,  2.02it/s] 69%|██████▉   | 7392/10691 [1:09:14<27:17,  2.02it/s] 69%|██████▉   | 7393/10691 [1:09:15<27:14,  2.02it/s] 69%|██████▉   | 7394/10691 [1:09:15<27:14,  2.02it/s] 69%|██████▉   | 7395/10691 [1:09:16<27:14,  2.02it/s] 69%|██████▉   | 7396/10691 [1:09:16<27:13,  2.02it/s] 69%|██████▉   | 7397/10691 [1:09:17<27:13,  2.02it/s] 69%|██████▉   | 7398/10691 [1:09:17<27:13,  2.02it/s] 69%|██████▉   | 7399/10691 [1:09:18<27:12,  2.02it/s] 69%|██████▉   | 7400/10691 [1:09:18<27:12,  2.02it/s]                                                      {'loss': 2.9493, 'grad_norm': 0.20515498518943787, 'learning_rate': 0.00026196962541079826, 'epoch': 0.69}
+ 69%|██████▉   | 7400/10691 [1:09:18<27:12,  2.02it/s] 69%|██████▉   | 7401/10691 [1:09:19<27:13,  2.01it/s] 69%|██████▉   | 7402/10691 [1:09:19<27:13,  2.01it/s] 69%|██████▉   | 7403/10691 [1:09:20<27:12,  2.01it/s] 69%|██████▉   | 7404/10691 [1:09:20<27:11,  2.01it/s] 69%|██████▉   | 7405/10691 [1:09:21<27:10,  2.02it/s] 69%|██████▉   | 7406/10691 [1:09:22<31:32,  1.74it/s] 69%|██████▉   | 7407/10691 [1:09:22<30:13,  1.81it/s] 69%|██████▉   | 7408/10691 [1:09:23<29:15,  1.87it/s] 69%|██████▉   | 7409/10691 [1:09:23<28:39,  1.91it/s] 69%|██████▉   | 7410/10691 [1:09:24<28:08,  1.94it/s] 69%|██████▉   | 7411/10691 [1:09:24<27:54,  1.96it/s] 69%|██████▉   | 7412/10691 [1:09:25<27:40,  1.97it/s] 69%|██████▉   | 7413/10691 [1:09:25<27:29,  1.99it/s] 69%|██████▉   | 7414/10691 [1:09:26<27:23,  1.99it/s] 69%|██████▉   | 7415/10691 [1:09:26<27:14,  2.00it/s] 69%|██████▉   | 7416/10691 [1:09:27<27:13,  2.01it/s] 69%|██████▉   | 7417/10691 [1:09:27<27:10,  2.01it/s] 69%|██████▉   | 7418/10691 [1:09:28<27:07,  2.01it/s] 69%|██████▉   | 7419/10691 [1:09:28<27:08,  2.01it/s] 69%|██████▉   | 7420/10691 [1:09:29<27:05,  2.01it/s] 69%|██████▉   | 7421/10691 [1:09:29<27:03,  2.01it/s] 69%|██████▉   | 7422/10691 [1:09:30<27:03,  2.01it/s] 69%|██████▉   | 7423/10691 [1:09:30<27:01,  2.02it/s] 69%|██████▉   | 7424/10691 [1:09:31<27:02,  2.01it/s] 69%|██████▉   | 7425/10691 [1:09:31<27:02,  2.01it/s]{'loss': 2.9417, 'grad_norm': 0.20288164913654327, 'learning_rate': 0.00025838811056389703, 'epoch': 0.69}                                                      
+ 69%|██████▉   | 7425/10691 [1:09:31<27:02,  2.01it/s] 69%|██████▉   | 7426/10691 [1:09:32<27:03,  2.01it/s] 69%|██████▉   | 7427/10691 [1:09:32<27:02,  2.01it/s] 69%|██████▉   | 7428/10691 [1:09:33<27:00,  2.01it/s] 69%|██████▉   | 7429/10691 [1:09:33<26:59,  2.01it/s] 69%|██████▉   | 7430/10691 [1:09:34<26:57,  2.02it/s] 70%|██████▉   | 7431/10691 [1:09:34<26:59,  2.01it/s] 70%|██████▉   | 7432/10691 [1:09:35<26:57,  2.01it/s] 70%|██████▉   | 7433/10691 [1:09:35<26:55,  2.02it/s] 70%|██████▉   | 7434/10691 [1:09:36<26:55,  2.02it/s] 70%|██████▉   | 7435/10691 [1:09:36<26:54,  2.02it/s] 70%|██████▉   | 7436/10691 [1:09:37<26:57,  2.01it/s] 70%|██████▉   | 7437/10691 [1:09:37<31:15,  1.74it/s] 70%|██████▉   | 7438/10691 [1:09:38<29:57,  1.81it/s] 70%|██████▉   | 7439/10691 [1:09:38<29:02,  1.87it/s] 70%|██████▉   | 7440/10691 [1:09:39<28:22,  1.91it/s] 70%|██████▉   | 7441/10691 [1:09:39<27:54,  1.94it/s] 70%|██████▉   | 7442/10691 [1:09:40<27:35,  1.96it/s] 70%|██████▉   | 7443/10691 [1:09:40<27:19,  1.98it/s] 70%|██████▉   | 7444/10691 [1:09:41<27:10,  1.99it/s] 70%|██████▉   | 7445/10691 [1:09:41<27:02,  2.00it/s] 70%|██████▉   | 7446/10691 [1:09:42<26:58,  2.00it/s] 70%|██████▉   | 7447/10691 [1:09:42<26:55,  2.01it/s] 70%|██████▉   | 7448/10691 [1:09:43<26:54,  2.01it/s] 70%|██████▉   | 7449/10691 [1:09:43<26:49,  2.01it/s] 70%|██████▉   | 7450/10691 [1:09:44<26:48,  2.01it/s]                                                      {'loss': 2.9429, 'grad_norm': 0.19968383014202118, 'learning_rate': 0.0002548226968049807, 'epoch': 0.7}
+ 70%|██████▉   | 7450/10691 [1:09:44<26:48,  2.01it/s] 70%|██████▉   | 7451/10691 [1:09:44<26:50,  2.01it/s] 70%|██████▉   | 7452/10691 [1:09:45<26:48,  2.01it/s] 70%|██████▉   | 7453/10691 [1:09:45<26:47,  2.01it/s] 70%|██████▉   | 7454/10691 [1:09:46<26:46,  2.01it/s] 70%|██████▉   | 7455/10691 [1:09:46<26:47,  2.01it/s] 70%|██████▉   | 7456/10691 [1:09:47<26:44,  2.02it/s] 70%|██████▉   | 7457/10691 [1:09:47<26:44,  2.02it/s] 70%|██████▉   | 7458/10691 [1:09:48<26:43,  2.02it/s] 70%|██████▉   | 7459/10691 [1:09:48<26:44,  2.01it/s] 70%|██████▉   | 7460/10691 [1:09:49<26:45,  2.01it/s] 70%|██████▉   | 7461/10691 [1:09:49<26:42,  2.02it/s] 70%|██████▉   | 7462/10691 [1:09:50<26:42,  2.01it/s] 70%|██████▉   | 7463/10691 [1:09:50<26:41,  2.02it/s] 70%|██████▉   | 7464/10691 [1:09:51<26:41,  2.01it/s] 70%|██████▉   | 7465/10691 [1:09:51<26:38,  2.02it/s] 70%|██████▉   | 7466/10691 [1:09:52<26:38,  2.02it/s] 70%|██████▉   | 7467/10691 [1:09:52<26:37,  2.02it/s] 70%|██████▉   | 7468/10691 [1:09:53<26:38,  2.02it/s] 70%|██████▉   | 7469/10691 [1:09:53<26:39,  2.01it/s] 70%|██████▉   | 7470/10691 [1:09:54<26:38,  2.01it/s] 70%|██████▉   | 7471/10691 [1:09:54<26:40,  2.01it/s] 70%|██████▉   | 7472/10691 [1:09:55<26:37,  2.02it/s] 70%|██████▉   | 7473/10691 [1:09:55<26:37,  2.01it/s] 70%|██████▉   | 7474/10691 [1:09:56<26:35,  2.02it/s] 70%|██████▉   | 7475/10691 [1:09:56<26:35,  2.02it/s]{'loss': 2.932, 'grad_norm': 0.2071796953678131, 'learning_rate': 0.00025127362173427956, 'epoch': 0.7}                                                      
+ 70%|██████▉   | 7475/10691 [1:09:56<26:35,  2.02it/s] 70%|██████▉   | 7476/10691 [1:09:57<26:38,  2.01it/s] 70%|██████▉   | 7477/10691 [1:09:57<26:36,  2.01it/s] 70%|██████▉   | 7478/10691 [1:09:58<26:37,  2.01it/s] 70%|██████▉   | 7479/10691 [1:09:58<26:35,  2.01it/s] 70%|██████▉   | 7480/10691 [1:09:59<26:33,  2.01it/s] 70%|██████▉   | 7481/10691 [1:09:59<26:33,  2.01it/s] 70%|██████▉   | 7482/10691 [1:10:00<26:30,  2.02it/s] 70%|██████▉   | 7483/10691 [1:10:00<26:31,  2.02it/s] 70%|███████   | 7484/10691 [1:10:01<26:30,  2.02it/s] 70%|███████   | 7485/10691 [1:10:01<26:32,  2.01it/s] 70%|███████   | 7486/10691 [1:10:02<26:31,  2.01it/s] 70%|███████   | 7487/10691 [1:10:02<26:31,  2.01it/s] 70%|███████   | 7488/10691 [1:10:03<26:30,  2.01it/s] 70%|███████   | 7489/10691 [1:10:03<26:27,  2.02it/s] 70%|███████   | 7490/10691 [1:10:04<26:28,  2.02it/s] 70%|███████   | 7491/10691 [1:10:04<26:26,  2.02it/s] 70%|███████   | 7492/10691 [1:10:05<26:26,  2.02it/s] 70%|███████   | 7493/10691 [1:10:05<26:24,  2.02it/s] 70%|███████   | 7494/10691 [1:10:06<26:24,  2.02it/s] 70%|███████   | 7495/10691 [1:10:06<26:25,  2.02it/s] 70%|███████   | 7496/10691 [1:10:07<26:23,  2.02it/s] 70%|███████   | 7497/10691 [1:10:07<26:27,  2.01it/s] 70%|███████   | 7498/10691 [1:10:08<26:25,  2.01it/s] 70%|███████   | 7499/10691 [1:10:08<26:24,  2.01it/s] 70%|███████   | 7500/10691 [1:10:09<26:22,  2.02it/s]                                                      {'loss': 2.9308, 'grad_norm': 0.21234621107578278, 'learning_rate': 0.00024774112186320914, 'epoch': 0.7}
+ 70%|███████   | 7500/10691 [1:10:09<26:22,  2.02it/s] 70%|███████   | 7501/10691 [1:10:09<26:24,  2.01it/s] 70%|███████   | 7502/10691 [1:10:10<26:22,  2.02it/s] 70%|███████   | 7503/10691 [1:10:10<26:22,  2.01it/s] 70%|███████   | 7504/10691 [1:10:11<26:20,  2.02it/s] 70%|███████   | 7505/10691 [1:10:11<26:20,  2.02it/s] 70%|███████   | 7506/10691 [1:10:12<26:18,  2.02it/s] 70%|███████   | 7507/10691 [1:10:12<26:18,  2.02it/s] 70%|███████   | 7508/10691 [1:10:13<26:17,  2.02it/s] 70%|███████   | 7509/10691 [1:10:13<26:17,  2.02it/s] 70%|███████   | 7510/10691 [1:10:14<26:18,  2.02it/s] 70%|███████   | 7511/10691 [1:10:14<26:18,  2.01it/s] 70%|███████   | 7512/10691 [1:10:15<26:16,  2.02it/s] 70%|███████   | 7513/10691 [1:10:15<26:16,  2.02it/s] 70%|███████   | 7514/10691 [1:10:16<26:15,  2.02it/s] 70%|███████   | 7515/10691 [1:10:16<26:14,  2.02it/s] 70%|███████   | 7516/10691 [1:10:17<26:17,  2.01it/s] 70%|███████   | 7517/10691 [1:10:17<26:15,  2.01it/s] 70%|███████   | 7518/10691 [1:10:18<26:15,  2.01it/s] 70%|███████   | 7519/10691 [1:10:18<26:13,  2.02it/s] 70%|███████   | 7520/10691 [1:10:19<26:15,  2.01it/s] 70%|███████   | 7521/10691 [1:10:19<26:12,  2.02it/s] 70%|███████   | 7522/10691 [1:10:20<26:11,  2.02it/s] 70%|███████   | 7523/10691 [1:10:20<26:10,  2.02it/s] 70%|███████   | 7524/10691 [1:10:20<26:09,  2.02it/s] 70%|███████   | 7525/10691 [1:10:21<26:08,  2.02it/s]                                                      {'loss': 2.9357, 'grad_norm': 0.19436323642730713, 'learning_rate': 0.0002442254325986087, 'epoch': 0.7}
+ 70%|███████   | 7525/10691 [1:10:21<26:08,  2.02it/s] 70%|███████   | 7526/10691 [1:10:21<26:11,  2.01it/s] 70%|███████   | 7527/10691 [1:10:22<26:12,  2.01it/s] 70%|███████   | 7528/10691 [1:10:22<26:09,  2.01it/s] 70%|███████   | 7529/10691 [1:10:23<26:09,  2.02it/s] 70%|███████   | 7530/10691 [1:10:23<26:10,  2.01it/s] 70%|███████   | 7531/10691 [1:10:24<26:09,  2.01it/s] 70%|███████   | 7532/10691 [1:10:24<26:09,  2.01it/s] 70%|███████   | 7533/10691 [1:10:25<26:07,  2.01it/s] 70%|███████   | 7534/10691 [1:10:25<26:06,  2.01it/s] 70%|███████   | 7535/10691 [1:10:26<26:04,  2.02it/s] 70%|███████   | 7536/10691 [1:10:26<26:07,  2.01it/s] 70%|███████   | 7537/10691 [1:10:27<26:05,  2.01it/s] 71%|███████   | 7538/10691 [1:10:27<26:04,  2.01it/s] 71%|███████   | 7539/10691 [1:10:28<26:05,  2.01it/s] 71%|███████   | 7540/10691 [1:10:28<26:03,  2.02it/s] 71%|███████   | 7541/10691 [1:10:29<26:03,  2.01it/s] 71%|███████   | 7542/10691 [1:10:29<26:03,  2.01it/s] 71%|███████   | 7543/10691 [1:10:30<26:05,  2.01it/s] 71%|███████   | 7544/10691 [1:10:30<26:04,  2.01it/s] 71%|███████   | 7545/10691 [1:10:31<26:03,  2.01it/s] 71%|███████   | 7546/10691 [1:10:31<26:01,  2.01it/s] 71%|███████   | 7547/10691 [1:10:32<25:59,  2.02it/s] 71%|███████   | 7548/10691 [1:10:32<26:00,  2.01it/s] 71%|███████   | 7549/10691 [1:10:33<26:01,  2.01it/s] 71%|███████   | 7550/10691 [1:10:33<25:59,  2.01it/s]                                                      {'loss': 2.936, 'grad_norm': 0.20926068723201752, 'learning_rate': 0.00024072678822705375, 'epoch': 0.71}
+ 71%|███████   | 7550/10691 [1:10:33<25:59,  2.01it/s] 71%|███████   | 7551/10691 [1:10:34<26:01,  2.01it/s] 71%|███████   | 7552/10691 [1:10:34<26:01,  2.01it/s] 71%|███████   | 7553/10691 [1:10:35<26:00,  2.01it/s] 71%|███████   | 7554/10691 [1:10:35<25:58,  2.01it/s] 71%|███████   | 7555/10691 [1:10:36<26:00,  2.01it/s] 71%|███████   | 7556/10691 [1:10:36<25:59,  2.01it/s] 71%|███████   | 7557/10691 [1:10:37<25:57,  2.01it/s] 71%|███████   | 7558/10691 [1:10:37<25:57,  2.01it/s] 71%|███████   | 7559/10691 [1:10:38<25:55,  2.01it/s] 71%|███████   | 7560/10691 [1:10:38<25:53,  2.01it/s] 71%|███████   | 7561/10691 [1:10:39<25:52,  2.02it/s] 71%|███████   | 7562/10691 [1:10:39<25:54,  2.01it/s] 71%|███████   | 7563/10691 [1:10:40<25:53,  2.01it/s] 71%|███████   | 7564/10691 [1:10:40<25:52,  2.01it/s] 71%|███████   | 7565/10691 [1:10:41<25:51,  2.01it/s] 71%|███████   | 7566/10691 [1:10:41<25:49,  2.02it/s] 71%|███████   | 7567/10691 [1:10:42<25:49,  2.02it/s] 71%|███████   | 7568/10691 [1:10:42<25:49,  2.02it/s] 71%|███████   | 7569/10691 [1:10:43<25:49,  2.02it/s] 71%|███████   | 7570/10691 [1:10:43<25:49,  2.01it/s] 71%|███████   | 7571/10691 [1:10:44<25:48,  2.01it/s] 71%|███████   | 7572/10691 [1:10:44<25:48,  2.01it/s] 71%|███████   | 7573/10691 [1:10:45<25:45,  2.02it/s] 71%|███████   | 7574/10691 [1:10:45<25:45,  2.02it/s] 71%|███████   | 7575/10691 [1:10:46<25:42,  2.02it/s]                                                      {'loss': 2.9211, 'grad_norm': 0.20066940784454346, 'learning_rate': 0.00023724542189924348, 'epoch': 0.71}
+ 71%|███████   | 7575/10691 [1:10:46<25:42,  2.02it/s] 71%|███████   | 7576/10691 [1:10:46<25:46,  2.01it/s] 71%|███████   | 7577/10691 [1:10:47<25:45,  2.02it/s] 71%|███████   | 7578/10691 [1:10:47<25:45,  2.01it/s] 71%|███████   | 7579/10691 [1:10:48<25:44,  2.01it/s] 71%|███████   | 7580/10691 [1:10:48<25:43,  2.02it/s] 71%|███████   | 7581/10691 [1:10:49<25:44,  2.01it/s] 71%|███████   | 7582/10691 [1:10:49<25:42,  2.02it/s] 71%|███████   | 7583/10691 [1:10:50<25:42,  2.02it/s] 71%|███████   | 7584/10691 [1:10:50<25:39,  2.02it/s] 71%|███████   | 7585/10691 [1:10:51<25:40,  2.02it/s] 71%|███████   | 7586/10691 [1:10:51<25:38,  2.02it/s] 71%|███████   | 7587/10691 [1:10:52<25:38,  2.02it/s] 71%|███████   | 7588/10691 [1:10:52<25:39,  2.02it/s] 71%|███████   | 7589/10691 [1:10:53<25:38,  2.02it/s] 71%|███████   | 7590/10691 [1:10:53<25:39,  2.01it/s] 71%|███████   | 7591/10691 [1:10:54<25:38,  2.02it/s] 71%|███████   | 7592/10691 [1:10:54<25:38,  2.01it/s] 71%|███████   | 7593/10691 [1:10:55<25:37,  2.01it/s] 71%|███████   | 7594/10691 [1:10:55<25:37,  2.01it/s] 71%|███████   | 7595/10691 [1:10:56<25:37,  2.01it/s] 71%|███████   | 7596/10691 [1:10:56<25:36,  2.01it/s] 71%|███████   | 7597/10691 [1:10:57<25:36,  2.01it/s] 71%|███████   | 7598/10691 [1:10:57<25:34,  2.02it/s] 71%|███████   | 7599/10691 [1:10:58<25:33,  2.02it/s] 71%|███████   | 7600/10691 [1:10:58<25:33,  2.02it/s]{'loss': 2.9362, 'grad_norm': 0.19922827184200287, 'learning_rate': 0.0002337815656144619, 'epoch': 0.71}
+                                                       71%|█��█████   | 7600/10691 [1:10:58<25:33,  2.02it/s] 71%|███████   | 7601/10691 [1:10:59<25:37,  2.01it/s] 71%|███████   | 7602/10691 [1:10:59<25:34,  2.01it/s] 71%|███████   | 7603/10691 [1:11:00<25:32,  2.01it/s] 71%|███████   | 7604/10691 [1:11:00<25:34,  2.01it/s] 71%|███████   | 7605/10691 [1:11:01<25:32,  2.01it/s] 71%|███████   | 7606/10691 [1:11:01<25:32,  2.01it/s] 71%|███████   | 7607/10691 [1:11:02<25:30,  2.02it/s] 71%|███████   | 7608/10691 [1:11:02<25:29,  2.02it/s] 71%|███████   | 7609/10691 [1:11:03<25:28,  2.02it/s] 71%|███████   | 7610/10691 [1:11:03<25:27,  2.02it/s] 71%|███████   | 7611/10691 [1:11:04<25:28,  2.01it/s] 71%|███████   | 7612/10691 [1:11:04<25:27,  2.02it/s] 71%|███████   | 7613/10691 [1:11:05<25:27,  2.01it/s] 71%|███████   | 7614/10691 [1:11:05<25:25,  2.02it/s] 71%|███████   | 7615/10691 [1:11:06<25:26,  2.01it/s] 71%|███████   | 7616/10691 [1:11:06<25:27,  2.01it/s] 71%|███████   | 7617/10691 [1:11:07<25:25,  2.01it/s] 71%|███████▏  | 7618/10691 [1:11:07<25:27,  2.01it/s] 71%|███████▏  | 7619/10691 [1:11:08<25:24,  2.02it/s] 71%|███████▏  | 7620/10691 [1:11:08<25:25,  2.01it/s] 71%|███████▏  | 7621/10691 [1:11:09<25:23,  2.01it/s] 71%|███████▏  | 7622/10691 [1:11:09<25:22,  2.02it/s] 71%|███████▏  | 7623/10691 [1:11:10<25:23,  2.01it/s] 71%|███████▏  | 7624/10691 [1:11:10<25:21,  2.02it/s] 71%|███████▏  | 7625/10691 [1:11:11<25:22,  2.01it/s]{'loss': 2.9311, 'grad_norm': 0.21972301602363586, 'learning_rate': 0.00023033545020512003, 'epoch': 0.71}
+                                                       71%|███████▏  | 7625/10691 [1:11:11<25:22,  2.01it/s] 71%|███████▏  | 7626/10691 [1:11:11<25:25,  2.01it/s] 71%|███████▏  | 7627/10691 [1:11:12<25:24,  2.01it/s] 71%|███████▏  | 7628/10691 [1:11:12<25:24,  2.01it/s] 71%|███████▏  | 7629/10691 [1:11:13<25:21,  2.01it/s] 71%|███████▏  | 7630/10691 [1:11:13<25:20,  2.01it/s] 71%|███████▏  | 7631/10691 [1:11:14<25:18,  2.02it/s] 71%|███████▏  | 7632/10691 [1:11:14<25:17,  2.02it/s] 71%|███████▏  | 7633/10691 [1:11:15<25:17,  2.02it/s] 71%|███████▏  | 7634/10691 [1:11:15<25:17,  2.01it/s] 71%|███████▏  | 7635/10691 [1:11:16<25:18,  2.01it/s] 71%|███████▏  | 7636/10691 [1:11:16<25:17,  2.01it/s] 71%|███████▏  | 7637/10691 [1:11:17<25:16,  2.01it/s] 71%|███████▏  | 7638/10691 [1:11:17<25:14,  2.02it/s] 71%|███████▏  | 7639/10691 [1:11:18<25:15,  2.01it/s] 71%|███████▏  | 7640/10691 [1:11:18<25:14,  2.01it/s] 71%|███████▏  | 7641/10691 [1:11:19<25:14,  2.01it/s] 71%|███████▏  | 7642/10691 [1:11:19<25:13,  2.01it/s] 71%|███████▏  | 7643/10691 [1:11:20<25:13,  2.01it/s] 71%|███████▏  | 7644/10691 [1:11:20<25:12,  2.01it/s] 72%|███████▏  | 7645/10691 [1:11:21<25:13,  2.01it/s] 72%|███████▏  | 7646/10691 [1:11:21<25:14,  2.01it/s] 72%|███████▏  | 7647/10691 [1:11:22<25:11,  2.01it/s] 72%|███████▏  | 7648/10691 [1:11:22<25:10,  2.01it/s] 72%|███████▏  | 7649/10691 [1:11:23<25:09,  2.02it/s] 72%|███████▏  | 7650/10691 [1:11:23<25:08,  2.02it/s]{'loss': 2.9195, 'grad_norm': 0.19665440917015076, 'learning_rate': 0.0002269073053213707, 'epoch': 0.72}                                                      
+ 72%|███████▏  | 7650/10691 [1:11:23<25:08,  2.02it/s] 72%|███████▏  | 7651/10691 [1:11:24<25:11,  2.01it/s] 72%|███████▏  | 7652/10691 [1:11:24<25:11,  2.01it/s] 72%|███████▏  | 7653/10691 [1:11:25<25:11,  2.01it/s] 72%|███████▏  | 7654/10691 [1:11:25<25:10,  2.01it/s] 72%|███████▏  | 7655/10691 [1:11:26<25:07,  2.01it/s] 72%|███████▏  | 7656/10691 [1:11:26<25:07,  2.01it/s] 72%|███████▏  | 7657/10691 [1:11:27<25:07,  2.01it/s] 72%|███████▏  | 7658/10691 [1:11:27<25:07,  2.01it/s] 72%|███████▏  | 7659/10691 [1:11:28<25:08,  2.01it/s] 72%|███████▏  | 7660/10691 [1:11:28<25:07,  2.01it/s] 72%|███████▏  | 7661/10691 [1:11:29<25:06,  2.01it/s] 72%|███████▏  | 7662/10691 [1:11:29<25:05,  2.01it/s] 72%|███████▏  | 7663/10691 [1:11:30<25:03,  2.01it/s] 72%|███████▏  | 7664/10691 [1:11:30<25:02,  2.01it/s] 72%|███████▏  | 7665/10691 [1:11:31<25:01,  2.02it/s] 72%|███████▏  | 7666/10691 [1:11:31<25:01,  2.01it/s] 72%|███████▏  | 7667/10691 [1:11:31<25:00,  2.02it/s] 72%|███████▏  | 7668/10691 [1:11:32<24:58,  2.02it/s] 72%|███████▏  | 7669/10691 [1:11:32<25:00,  2.01it/s] 72%|███████▏  | 7670/10691 [1:11:33<24:58,  2.02it/s] 72%|███████▏  | 7671/10691 [1:11:33<24:58,  2.01it/s] 72%|███████▏  | 7672/10691 [1:11:34<24:58,  2.02it/s] 72%|███████▏  | 7673/10691 [1:11:34<24:57,  2.02it/s] 72%|███████▏  | 7674/10691 [1:11:35<24:56,  2.02it/s] 72%|███████▏  | 7675/10691 [1:11:35<24:54,  2.02it/s]{'loss': 2.9349, 'grad_norm': 0.20487596094608307, 'learning_rate': 0.00022349735941580605, 'epoch': 0.72}                                                      
+ 72%|███████▏  | 7675/10691 [1:11:35<24:54,  2.02it/s] 72%|███████▏  | 7676/10691 [1:11:36<24:58,  2.01it/s] 72%|███████▏  | 7677/10691 [1:11:36<24:56,  2.01it/s] 72%|███████▏  | 7678/10691 [1:11:37<24:55,  2.01it/s] 72%|███████▏  | 7679/10691 [1:11:37<24:54,  2.01it/s] 72%|███████▏  | 7680/10691 [1:11:38<24:57,  2.01it/s] 72%|███████▏  | 7681/10691 [1:11:38<24:55,  2.01it/s] 72%|███████▏  | 7682/10691 [1:11:39<24:53,  2.01it/s] 72%|███████▏  | 7683/10691 [1:11:39<24:53,  2.01it/s] 72%|███████▏  | 7684/10691 [1:11:40<24:52,  2.01it/s] 72%|███████▏  | 7685/10691 [1:11:40<24:51,  2.02it/s] 72%|███████▏  | 7686/10691 [1:11:41<24:51,  2.01it/s] 72%|███████▏  | 7687/10691 [1:11:41<24:51,  2.01it/s] 72%|███████▏  | 7688/10691 [1:11:42<24:49,  2.02it/s] 72%|███████▏  | 7689/10691 [1:11:42<24:48,  2.02it/s] 72%|███████▏  | 7690/10691 [1:11:43<24:49,  2.02it/s] 72%|███████▏  | 7691/10691 [1:11:43<24:47,  2.02it/s] 72%|███████▏  | 7692/10691 [1:11:44<24:48,  2.01it/s] 72%|███████▏  | 7693/10691 [1:11:44<24:49,  2.01it/s] 72%|███████▏  | 7694/10691 [1:11:45<24:48,  2.01it/s] 72%|███████▏  | 7695/10691 [1:11:45<24:50,  2.01it/s] 72%|███████▏  | 7696/10691 [1:11:46<24:49,  2.01it/s] 72%|███████▏  | 7697/10691 [1:11:46<24:47,  2.01it/s] 72%|███████▏  | 7698/10691 [1:11:47<24:46,  2.01it/s] 72%|███████▏  | 7699/10691 [1:11:47<24:44,  2.02it/s] 72%|███████▏  | 7700/10691 [1:11:48<24:44,  2.01it/s]                                                      {'loss': 2.9244, 'grad_norm': 0.2093253880739212, 'learning_rate': 0.00022010583972823273, 'epoch': 0.72}
+ 72%|███████▏  | 7700/10691 [1:11:48<24:44,  2.01it/s] 72%|███████▏  | 7701/10691 [1:11:48<24:44,  2.01it/s] 72%|███████▏  | 7702/10691 [1:11:49<24:44,  2.01it/s] 72%|███████▏  | 7703/10691 [1:11:49<24:43,  2.01it/s] 72%|███████▏  | 7704/10691 [1:11:50<24:41,  2.02it/s] 72%|███████▏  | 7705/10691 [1:11:50<24:42,  2.01it/s] 72%|███████▏  | 7706/10691 [1:11:51<24:40,  2.02it/s] 72%|███████▏  | 7707/10691 [1:11:51<24:42,  2.01it/s] 72%|███████▏  | 7708/10691 [1:11:52<24:40,  2.01it/s] 72%|███████▏  | 7709/10691 [1:11:52<24:39,  2.02it/s] 72%|███████▏  | 7710/10691 [1:11:53<24:37,  2.02it/s] 72%|███████▏  | 7711/10691 [1:11:53<24:38,  2.02it/s] 72%|███████▏  | 7712/10691 [1:11:54<24:37,  2.02it/s] 72%|███████▏  | 7713/10691 [1:11:54<24:36,  2.02it/s] 72%|███████▏  | 7714/10691 [1:11:55<24:38,  2.01it/s] 72%|███████▏  | 7715/10691 [1:11:55<24:37,  2.01it/s] 72%|███████▏  | 7716/10691 [1:11:56<24:37,  2.01it/s] 72%|███████▏  | 7717/10691 [1:11:56<24:37,  2.01it/s] 72%|███████▏  | 7718/10691 [1:11:57<24:35,  2.02it/s] 72%|███████▏  | 7719/10691 [1:11:57<24:35,  2.01it/s] 72%|███████▏  | 7720/10691 [1:11:58<24:33,  2.02it/s] 72%|███████▏  | 7721/10691 [1:11:58<24:33,  2.02it/s] 72%|███████▏  | 7722/10691 [1:11:59<24:31,  2.02it/s] 72%|███████▏  | 7723/10691 [1:11:59<24:33,  2.01it/s] 72%|███████▏  | 7724/10691 [1:12:00<24:30,  2.02it/s] 72%|███████▏  | 7725/10691 [1:12:00<24:30,  2.02it/s]                                                      {'loss': 2.9392, 'grad_norm': 0.19824619591236115, 'learning_rate': 0.00021673297227052857, 'epoch': 0.72}
+ 72%|███████▏  | 7725/10691 [1:12:00<24:30,  2.02it/s] 72%|███████▏  | 7726/10691 [1:12:01<24:32,  2.01it/s] 72%|███████▏  | 7727/10691 [1:12:01<24:33,  2.01it/s] 72%|██████��▏  | 7728/10691 [1:12:02<24:32,  2.01it/s] 72%|███████▏  | 7729/10691 [1:12:02<24:31,  2.01it/s] 72%|███████▏  | 7730/10691 [1:12:03<24:31,  2.01it/s] 72%|███████▏  | 7731/10691 [1:12:03<24:32,  2.01it/s] 72%|███████▏  | 7732/10691 [1:12:04<24:30,  2.01it/s] 72%|███████▏  | 7733/10691 [1:12:04<24:29,  2.01it/s] 72%|███████▏  | 7734/10691 [1:12:05<24:29,  2.01it/s] 72%|███████▏  | 7735/10691 [1:12:05<24:27,  2.01it/s] 72%|███████▏  | 7736/10691 [1:12:06<24:27,  2.01it/s] 72%|███████▏  | 7737/10691 [1:12:06<24:26,  2.01it/s] 72%|███████▏  | 7738/10691 [1:12:07<24:27,  2.01it/s] 72%|███████▏  | 7739/10691 [1:12:07<24:26,  2.01it/s] 72%|███████▏  | 7740/10691 [1:12:08<24:25,  2.01it/s] 72%|███████▏  | 7741/10691 [1:12:08<24:22,  2.02it/s] 72%|███████▏  | 7742/10691 [1:12:09<24:24,  2.01it/s] 72%|███████▏  | 7743/10691 [1:12:09<24:23,  2.01it/s] 72%|███████▏  | 7744/10691 [1:12:10<24:22,  2.01it/s] 72%|███████▏  | 7745/10691 [1:12:10<24:23,  2.01it/s] 72%|███████▏  | 7746/10691 [1:12:11<24:20,  2.02it/s] 72%|███████▏  | 7747/10691 [1:12:11<24:20,  2.02it/s] 72%|███████▏  | 7748/10691 [1:12:12<24:19,  2.02it/s] 72%|███████▏  | 7749/10691 [1:12:12<24:18,  2.02it/s] 72%|███████▏  | 7750/10691 [1:12:13<24:18,  2.02it/s]                                                      {'loss': 2.9335, 'grad_norm': 0.1970893293619156, 'learning_rate': 0.00021337898181158184, 'epoch': 0.72}
+ 72%|███████▏  | 7750/10691 [1:12:13<24:18,  2.02it/s] 73%|███████▎  | 7751/10691 [1:12:13<24:23,  2.01it/s] 73%|███████▎  | 7752/10691 [1:12:14<24:24,  2.01it/s] 73%|███████▎  | 7753/10691 [1:12:14<24:23,  2.01it/s] 73%|███████▎  | 7754/10691 [1:12:15<24:20,  2.01it/s] 73%|███████▎  | 7755/10691 [1:12:15<24:18,  2.01it/s] 73%|███████▎  | 7756/10691 [1:12:16<24:16,  2.01it/s] 73%|███████▎  | 7757/10691 [1:12:16<24:16,  2.01it/s] 73%|███████▎  | 7758/10691 [1:12:17<24:16,  2.01it/s] 73%|███████▎  | 7759/10691 [1:12:17<24:15,  2.01it/s] 73%|███████▎  | 7760/10691 [1:12:18<24:15,  2.01it/s] 73%|███████▎  | 7761/10691 [1:12:18<24:14,  2.01it/s] 73%|███████▎  | 7762/10691 [1:12:19<24:12,  2.02it/s] 73%|███████▎  | 7763/10691 [1:12:19<24:11,  2.02it/s] 73%|███████▎  | 7764/10691 [1:12:20<24:09,  2.02it/s] 73%|███████▎  | 7765/10691 [1:12:20<24:11,  2.02it/s] 73%|███████▎  | 7766/10691 [1:12:21<24:11,  2.01it/s] 73%|███████▎  | 7767/10691 [1:12:21<24:11,  2.01it/s] 73%|███████▎  | 7768/10691 [1:12:22<24:09,  2.02it/s] 73%|███████▎  | 7769/10691 [1:12:22<24:09,  2.02it/s] 73%|███████▎  | 7770/10691 [1:12:23<24:09,  2.02it/s] 73%|███████▎  | 7771/10691 [1:12:23<24:08,  2.02it/s] 73%|███████▎  | 7772/10691 [1:12:24<24:09,  2.01it/s] 73%|███████▎  | 7773/10691 [1:12:24<24:09,  2.01it/s] 73%|███████▎  | 7774/10691 [1:12:25<24:07,  2.01it/s] 73%|███████▎  | 7775/10691 [1:12:25<24:08,  2.01it/s]{'loss': 2.9275, 'grad_norm': 0.20376913249492645, 'learning_rate': 0.00021004409186231173, 'epoch': 0.73}
+                                                       73%|███████▎  | 7775/10691 [1:12:25<24:08,  2.01it/s] 73%|███████▎  | 7776/10691 [1:12:26<24:09,  2.01it/s] 73%|███████▎  | 7777/10691 [1:12:26<24:10,  2.01it/s] 73%|███████▎  | 7778/10691 [1:12:27<24:08,  2.01it/s] 73%|███████▎  | 7779/10691 [1:12:27<24:06,  2.01it/s] 73%|███████▎  | 7780/10691 [1:12:28<24:04,  2.01it/s] 73%|███████▎  | 7781/10691 [1:12:28<24:06,  2.01it/s] 73%|███████▎  | 7782/10691 [1:12:29<24:03,  2.02it/s] 73%|███████▎  | 7783/10691 [1:12:29<24:04,  2.01it/s] 73%|███████▎  | 7784/10691 [1:12:30<24:02,  2.02it/s] 73%|███████▎  | 7785/10691 [1:12:30<24:02,  2.01it/s] 73%|███████▎  | 7786/10691 [1:12:31<24:00,  2.02it/s] 73%|███████▎  | 7787/10691 [1:12:31<24:01,  2.01it/s] 73%|███████▎  | 7788/10691 [1:12:32<23:58,  2.02it/s] 73%|███████▎  | 7789/10691 [1:12:32<23:58,  2.02it/s] 73%|███████▎  | 7790/10691 [1:12:33<23:57,  2.02it/s] 73%|███████▎  | 7791/10691 [1:12:33<23:57,  2.02it/s] 73%|███████▎  | 7792/10691 [1:12:34<23:59,  2.01it/s] 73%|███████▎  | 7793/10691 [1:12:34<23:58,  2.02it/s] 73%|███████▎  | 7794/10691 [1:12:35<23:59,  2.01it/s] 73%|███████▎  | 7795/10691 [1:12:35<23:56,  2.02it/s] 73%|███████▎  | 7796/10691 [1:12:36<23:56,  2.02it/s] 73%|███████▎  | 7797/10691 [1:12:36<23:56,  2.01it/s] 73%|███████▎  | 7798/10691 [1:12:37<23:54,  2.02it/s] 73%|███████▎  | 7799/10691 [1:12:37<23:54,  2.02it/s] 73%|███████▎  | 7800/10691 [1:12:38<23:55,  2.01it/s]                                                      {'loss': 2.9338, 'grad_norm': 0.20205821096897125, 'learning_rate': 0.00020672852466077307, 'epoch': 0.73}
+ 73%|███████▎  | 7800/10691 [1:12:38<23:55,  2.01it/s] 73%|███████▎  | 7801/10691 [1:12:38<23:56,  2.01it/s] 73%|███████▎  | 7802/10691 [1:12:39<23:55,  2.01it/s] 73%|███████▎  | 7803/10691 [1:12:39<23:54,  2.01it/s] 73%|███████▎  | 7804/10691 [1:12:40<23:55,  2.01it/s] 73%|███████▎  | 7805/10691 [1:12:40<23:53,  2.01it/s] 73%|███████▎  | 7806/10691 [1:12:41<23:53,  2.01it/s] 73%|███████▎  | 7807/10691 [1:12:41<23:52,  2.01it/s] 73%|███████▎  | 7808/10691 [1:12:41<23:51,  2.01it/s] 73%|███████▎  | 7809/10691 [1:12:42<23:51,  2.01it/s] 73%|███████▎  | 7810/10691 [1:12:42<23:49,  2.02it/s] 73%|███████▎  | 7811/10691 [1:12:43<23:49,  2.01it/s] 73%|███████▎  | 7812/10691 [1:12:43<23:49,  2.01it/s] 73%|███████▎  | 7813/10691 [1:12:44<23:48,  2.01it/s] 73%|███████▎  | 7814/10691 [1:12:44<23:47,  2.02it/s] 73%|███████▎  | 7815/10691 [1:12:45<23:46,  2.02it/s] 73%|███████▎  | 7816/10691 [1:12:45<23:46,  2.01it/s] 73%|███████▎  | 7817/10691 [1:12:46<23:46,  2.02it/s] 73%|███████▎  | 7818/10691 [1:12:46<23:46,  2.01it/s] 73%|███████▎  | 7819/10691 [1:12:47<23:46,  2.01it/s] 73%|███████▎  | 7820/10691 [1:12:47<23:44,  2.02it/s] 73%|███████▎  | 7821/10691 [1:12:48<23:44,  2.02it/s] 73%|███████▎  | 7822/10691 [1:12:48<23:42,  2.02it/s] 73%|███████▎  | 7823/10691 [1:12:49<23:42,  2.02it/s] 73%|███████▎  | 7824/10691 [1:12:49<23:40,  2.02it/s] 73%|███████▎  | 7825/10691 [1:12:50<23:43,  2.01it/s]{'loss': 2.923, 'grad_norm': 0.200948566198349, 'learning_rate': 0.0002034325011573484, 'epoch': 0.73}
+                                                       73%|███████▎  | 7825/10691 [1:12:50<23:43,  2.01it/s] 73%|███████▎  | 7826/10691 [1:12:50<23:43,  2.01it/s] 73%|███████▎  | 7827/10691 [1:12:51<23:43,  2.01it/s] 73%|███████▎  | 7828/10691 [1:12:51<23:42,  2.01it/s] 73%|███████▎  | 7829/10691 [1:12:52<23:40,  2.01it/s] 73%|███████▎  | 7830/10691 [1:12:52<23:40,  2.01it/s] 73%|███████▎  | 7831/10691 [1:12:53<23:39,  2.02it/s] 73%|███████▎  | 7832/10691 [1:12:53<23:40,  2.01it/s] 73%|███████▎  | 7833/10691 [1:12:54<23:40,  2.01it/s] 73%|███████▎  | 7834/10691 [1:12:54<23:37,  2.02it/s] 73%|███████▎  | 7835/10691 [1:12:55<23:37,  2.01it/s] 73%|███████▎  | 7836/10691 [1:12:55<23:37,  2.01it/s] 73%|███████▎  | 7837/10691 [1:12:56<23:36,  2.01it/s] 73%|███████▎  | 7838/10691 [1:12:56<23:35,  2.02it/s] 73%|███████▎  | 7839/10691 [1:12:57<23:34,  2.02it/s] 73%|███████▎  | 7840/10691 [1:12:57<23:35,  2.01it/s] 73%|███████▎  | 7841/10691 [1:12:58<23:35,  2.01it/s] 73%|███████▎  | 7842/10691 [1:12:58<23:35,  2.01it/s] 73%|███████▎  | 7843/10691 [1:12:59<23:33,  2.01it/s] 73%|███████▎  | 7844/10691 [1:12:59<23:32,  2.01it/s] 73%|███████▎  | 7845/10691 [1:13:00<23:32,  2.01it/s] 73%|███████▎  | 7846/10691 [1:13:00<23:32,  2.01it/s] 73%|███████▎  | 7847/10691 [1:13:01<23:30,  2.02it/s] 73%|███████▎  | 7848/10691 [1:13:01<23:29,  2.02it/s] 73%|███████▎  | 7849/10691 [1:13:02<23:30,  2.01it/s] 73%|███████▎  | 7850/10691 [1:13:02<23:30,  2.01it/s]{'loss': 2.9293, 'grad_norm': 0.20119531452655792, 'learning_rate': 0.0002001562410000215, 'epoch': 0.73}                                                      
+ 73%|███████▎  | 7850/10691 [1:13:02<23:30,  2.01it/s] 73%|███████▎  | 7851/10691 [1:13:03<23:31,  2.01it/s] 73%|███████▎  | 7852/10691 [1:13:03<23:29,  2.01it/s] 73%|███████▎  | 7853/10691 [1:13:04<23:28,  2.01it/s] 73%|███████▎  | 7854/10691 [1:13:04<23:26,  2.02it/s] 73%|███████▎  | 7855/10691 [1:13:05<23:26,  2.02it/s] 73%|███████▎  | 7856/10691 [1:13:05<23:26,  2.01it/s] 73%|███████▎  | 7857/10691 [1:13:06<23:25,  2.02it/s] 74%|███████▎  | 7858/10691 [1:13:06<23:27,  2.01it/s] 74%|███████▎  | 7859/10691 [1:13:07<23:26,  2.01it/s] 74%|███████▎  | 7860/10691 [1:13:07<23:26,  2.01it/s] 74%|███████▎  | 7861/10691 [1:13:08<23:25,  2.01it/s] 74%|███████▎  | 7862/10691 [1:13:08<23:24,  2.01it/s] 74%|███████▎  | 7863/10691 [1:13:09<23:21,  2.02it/s] 74%|███████▎  | 7864/10691 [1:13:09<23:22,  2.02it/s] 74%|███████▎  | 7865/10691 [1:13:10<23:19,  2.02it/s] 74%|███████▎  | 7866/10691 [1:13:10<23:21,  2.02it/s] 74%|███████▎  | 7867/10691 [1:13:11<23:20,  2.02it/s] 74%|███████▎  | 7868/10691 [1:13:11<23:21,  2.01it/s] 74%|███████▎  | 7869/10691 [1:13:12<23:21,  2.01it/s] 74%|███████▎  | 7870/10691 [1:13:12<23:19,  2.02it/s] 74%|███████▎  | 7871/10691 [1:13:13<23:21,  2.01it/s] 74%|███████▎  | 7872/10691 [1:13:13<23:20,  2.01it/s] 74%|███████▎  | 7873/10691 [1:13:14<23:18,  2.01it/s] 74%|███████▎  | 7874/10691 [1:13:14<23:17,  2.02it/s] 74%|███████▎  | 7875/10691 [1:13:15<23:15,  2.02it/s]{'loss': 2.9272, 'grad_norm': 0.19975318014621735, 'learning_rate': 0.00019689996251974107, 'epoch': 0.74}                                                      
+ 74%|███████▎  | 7875/10691 [1:13:15<23:15,  2.02it/s] 74%|███████▎  | 7876/10691 [1:13:15<23:19,  2.01it/s] 74%|███████▎  | 7877/10691 [1:13:16<23:18,  2.01it/s] 74%|███████▎  | 7878/10691 [1:13:16<23:17,  2.01it/s] 74%|███████▎  | 7879/10691 [1:13:17<23:14,  2.02it/s] 74%|███████▎  | 7880/10691 [1:13:17<23:14,  2.02it/s] 74%|███████▎  | 7881/10691 [1:13:18<23:14,  2.02it/s] 74%|███████▎  | 7882/10691 [1:13:18<23:12,  2.02it/s] 74%|███████▎  | 7883/10691 [1:13:19<23:15,  2.01it/s] 74%|███████▎  | 7884/10691 [1:13:19<23:14,  2.01it/s] 74%|███████▍  | 7885/10691 [1:13:20<23:13,  2.01it/s] 74%|███████▍  | 7886/10691 [1:13:20<23:11,  2.02it/s] 74%|███████▍  | 7887/10691 [1:13:21<23:10,  2.02it/s] 74%|███████▍  | 7888/10691 [1:13:21<23:14,  2.01it/s] 74%|███████▍  | 7889/10691 [1:13:22<23:11,  2.01it/s] 74%|███████▍  | 7890/10691 [1:13:22<23:11,  2.01it/s] 74%|███████▍  | 7891/10691 [1:13:23<23:11,  2.01it/s] 74%|███████▍  | 7892/10691 [1:13:23<23:08,  2.02it/s] 74%|███████▍  | 7893/10691 [1:13:24<23:09,  2.01it/s] 74%|███████▍  | 7894/10691 [1:13:24<23:06,  2.02it/s] 74%|███████▍  | 7895/10691 [1:13:25<23:07,  2.02it/s] 74%|███████▍  | 7896/10691 [1:13:25<23:06,  2.02it/s] 74%|███████▍  | 7897/10691 [1:13:26<23:07,  2.01it/s] 74%|███████▍  | 7898/10691 [1:13:26<23:05,  2.02it/s] 74%|███████▍  | 7899/10691 [1:13:27<23:05,  2.02it/s] 74%|███████▍  | 7900/10691 [1:13:27<23:07,  2.01it/s]{'loss': 2.9194, 'grad_norm': 0.20242957770824432, 'learning_rate': 0.0001936638827158711, 'epoch': 0.74}
+                                                       74%|███████▍  | 7900/10691 [1:13:27<23:07,  2.01it/s] 74%|███████▍  | 7901/10691 [1:13:28<23:08,  2.01it/s] 74%|███████▍  | 7902/10691 [1:13:28<23:07,  2.01it/s] 74%|███████▍  | 7903/10691 [1:13:29<23:07,  2.01it/s] 74%|███████▍  | 7904/10691 [1:13:29<23:04,  2.01it/s] 74%|███████▍  | 7905/10691 [1:13:30<23:03,  2.01it/s] 74%|███████▍  | 7906/10691 [1:13:30<23:02,  2.01it/s] 74%|███████▍  | 7907/10691 [1:13:31<23:02,  2.01it/s] 74%|███████▍  | 7908/10691 [1:13:31<23:01,  2.02it/s] 74%|███████▍  | 7909/10691 [1:13:32<23:01,  2.01it/s] 74%|███████▍  | 7910/10691 [1:13:32<23:01,  2.01it/s] 74%|███████▍  | 7911/10691 [1:13:33<23:00,  2.01it/s] 74%|███████▍  | 7912/10691 [1:13:33<22:59,  2.01it/s] 74%|███████▍  | 7913/10691 [1:13:34<22:58,  2.02it/s] 74%|███████▍  | 7914/10691 [1:13:34<22:56,  2.02it/s] 74%|███████▍  | 7915/10691 [1:13:35<22:55,  2.02it/s] 74%|███████▍  | 7916/10691 [1:13:35<22:55,  2.02it/s] 74%|███████▍  | 7917/10691 [1:13:36<22:54,  2.02it/s] 74%|███████▍  | 7918/10691 [1:13:36<22:54,  2.02it/s] 74%|███████▍  | 7919/10691 [1:13:37<22:56,  2.01it/s] 74%|███████▍  | 7920/10691 [1:13:37<22:54,  2.02it/s] 74%|███████▍  | 7921/10691 [1:13:38<22:53,  2.02it/s] 74%|███████▍  | 7922/10691 [1:13:38<22:54,  2.02it/s] 74%|███████▍  | 7923/10691 [1:13:39<22:52,  2.02it/s] 74%|███████▍  | 7924/10691 [1:13:39<22:53,  2.02it/s] 74%|███████▍  | 7925/10691 [1:13:40<22:52,  2.02it/s]{'loss': 2.9223, 'grad_norm': 0.19735313951969147, 'learning_rate': 0.00019044821724172945, 'epoch': 0.74}
+                                                       74%|███████▍  | 7925/10691 [1:13:40<22:52,  2.02it/s] 74%|███████▍  | 7926/10691 [1:13:40<22:52,  2.01it/s] 74%|███████▍  | 7927/10691 [1:13:41<22:51,  2.01it/s] 74%|███████▍  | 7928/10691 [1:13:41<22:51,  2.02it/s] 74%|███████▍  | 7929/10691 [1:13:42<22:51,  2.01it/s] 74%|███████▍  | 7930/10691 [1:13:42<22:51,  2.01it/s] 74%|███████▍  | 7931/10691 [1:13:43<22:48,  2.02it/s] 74%|███████▍  | 7932/10691 [1:13:43<22:48,  2.02it/s] 74%|███████▍  | 7933/10691 [1:13:44<22:47,  2.02it/s] 74%|███████▍  | 7934/10691 [1:13:44<22:46,  2.02it/s] 74%|███████▍  | 7935/10691 [1:13:45<22:47,  2.02it/s] 74%|███████▍  | 7936/10691 [1:13:45<22:45,  2.02it/s] 74%|███████▍  | 7937/10691 [1:13:46<22:44,  2.02it/s] 74%|███████▍  | 7938/10691 [1:13:46<22:45,  2.02it/s] 74%|███████▍  | 7939/10691 [1:13:47<22:45,  2.02it/s] 74%|███████▍  | 7940/10691 [1:13:47<22:45,  2.01it/s] 74%|███████▍  | 7941/10691 [1:13:48<22:44,  2.02it/s] 74%|███████▍  | 7942/10691 [1:13:48<22:46,  2.01it/s] 74%|███████▍  | 7943/10691 [1:13:49<22:45,  2.01it/s] 74%|███████▍  | 7944/10691 [1:13:49<22:44,  2.01it/s] 74%|███████▍  | 7945/10691 [1:13:49<22:43,  2.01it/s] 74%|███████▍  | 7946/10691 [1:13:50<22:41,  2.02it/s] 74%|███████▍  | 7947/10691 [1:13:50<22:41,  2.02it/s] 74%|███████▍  | 7948/10691 [1:13:51<22:41,  2.01it/s] 74%|███████▍  | 7949/10691 [1:13:51<22:41,  2.01it/s] 74%|███████▍  | 7950/10691 [1:13:52<22:39,  2.02it/s]{'loss': 2.9277, 'grad_norm': 0.20638981461524963, 'learning_rate': 0.00018725318039021754, 'epoch': 0.74}
+                                                       74%|███████▍  | 7950/10691 [1:13:52<22:39,  2.02it/s] 74%|███████▍  | 7951/10691 [1:13:52<22:41,  2.01it/s] 74%|███████▍  | 7952/10691 [1:13:53<22:39,  2.01it/s] 74%|███████▍  | 7953/10691 [1:13:53<22:39,  2.01it/s] 74%|███████▍  | 7954/10691 [1:13:54<22:37,  2.02it/s] 74%|███████▍  | 7955/10691 [1:13:54<22:38,  2.01it/s] 74%|███████▍  | 7956/10691 [1:13:55<22:37,  2.01it/s] 74%|███████▍  | 7957/10691 [1:13:55<22:38,  2.01it/s] 74%|███████▍  | 7958/10691 [1:13:56<22:37,  2.01it/s] 74%|███████▍  | 7959/10691 [1:13:56<22:38,  2.01it/s] 74%|███████▍  | 7960/10691 [1:13:57<22:36,  2.01it/s] 74%|███████▍  | 7961/10691 [1:13:57<22:36,  2.01it/s] 74%|███████▍  | 7962/10691 [1:13:58<22:34,  2.02it/s] 74%|███████▍  | 7963/10691 [1:13:58<22:33,  2.02it/s] 74%|███████▍  | 7964/10691 [1:13:59<22:31,  2.02it/s] 75%|███████▍  | 7965/10691 [1:13:59<22:30,  2.02it/s] 75%|███████▍  | 7966/10691 [1:14:00<22:31,  2.02it/s] 75%|███████▍  | 7967/10691 [1:14:00<22:29,  2.02it/s] 75%|███████▍  | 7968/10691 [1:14:01<22:31,  2.01it/s] 75%|███████▍  | 7969/10691 [1:14:01<22:29,  2.02it/s] 75%|███████▍  | 7970/10691 [1:14:02<22:30,  2.01it/s] 75%|███████▍  | 7971/10691 [1:14:02<22:30,  2.01it/s] 75%|███████▍  | 7972/10691 [1:14:03<22:28,  2.02it/s] 75%|███████▍  | 7973/10691 [1:14:03<22:29,  2.01it/s] 75%|███████▍  | 7974/10691 [1:14:04<22:28,  2.02it/s] 75%|███████▍  | 7975/10691 [1:14:04<22:28,  2.01it/s]                                                      {'loss': 2.928, 'grad_norm': 0.21072503924369812, 'learning_rate': 0.0001840789850795388, 'epoch': 0.75}
+ 75%|███████▍  | 7975/10691 [1:14:04<22:28,  2.01it/s] 75%|███████▍  | 7976/10691 [1:14:05<22:29,  2.01it/s] 75%|███████▍  | 7977/10691 [1:14:05<22:27,  2.01it/s] 75%|███████▍  | 7978/10691 [1:14:06<22:28,  2.01it/s] 75%|███████▍  | 7979/10691 [1:14:06<22:26,  2.01it/s] 75%|███████▍  | 7980/10691 [1:14:07<22:26,  2.01it/s] 75%|███████▍  | 7981/10691 [1:14:07<22:27,  2.01it/s] 75%|███████▍  | 7982/10691 [1:14:08<22:25,  2.01it/s] 75%|███████▍  | 7983/10691 [1:14:08<22:25,  2.01it/s] 75%|███████▍  | 7984/10691 [1:14:09<22:24,  2.01it/s] 75%|███████▍  | 7985/10691 [1:14:09<22:24,  2.01it/s] 75%|███████▍  | 7986/10691 [1:14:10<22:25,  2.01it/s] 75%|███████▍  | 7987/10691 [1:14:10<22:22,  2.01it/s] 75%|███████▍  | 7988/10691 [1:14:11<22:23,  2.01it/s] 75%|███████▍  | 7989/10691 [1:14:11<22:21,  2.01it/s] 75%|███████▍  | 7990/10691 [1:14:12<22:19,  2.02it/s] 75%|███████▍  | 7991/10691 [1:14:12<22:18,  2.02it/s] 75%|███████▍  | 7992/10691 [1:14:13<22:18,  2.02it/s] 75%|███████▍  | 7993/10691 [1:14:13<22:18,  2.02it/s] 75%|███████▍  | 7994/10691 [1:14:14<22:18,  2.01it/s] 75%|███████▍  | 7995/10691 [1:14:14<22:18,  2.01it/s] 75%|███████▍  | 7996/10691 [1:14:15<22:17,  2.01it/s] 75%|███████▍  | 7997/10691 [1:14:15<22:18,  2.01it/s] 75%|███████▍  | 7998/10691 [1:14:16<22:17,  2.01it/s] 75%|███████▍  | 7999/10691 [1:14:16<22:17,  2.01it/s] 75%|███████▍  | 8000/10691 [1:14:17<22:16,  2.01it/s]                                                      {'loss': 2.9223, 'grad_norm': 0.1992274671792984, 'learning_rate': 0.00018092584283901036, 'epoch': 0.75}
+ 75%|███████▍  | 8000/10691 [1:14:17<22:16,  2.01it/s] 75%|███████▍  | 8001/10691 [1:14:17<22:17,  2.01it/s] 75%|███████▍  | 8002/10691 [1:14:18<22:16,  2.01it/s] 75%|███████▍  | 8003/10691 [1:14:18<22:15,  2.01it/s] 75%|███████▍  | 8004/10691 [1:14:19<22:13,  2.01it/s] 75%|███████▍  | 8005/10691 [1:14:19<22:12,  2.02it/s] 75%|███████▍  | 8006/10691 [1:14:20<22:11,  2.02it/s] 75%|███████▍  | 8007/10691 [1:14:20<22:13,  2.01it/s] 75%|███████▍  | 8008/10691 [1:14:21<22:11,  2.01it/s] 75%|███████▍  | 8009/10691 [1:14:21<22:11,  2.01it/s] 75%|███████▍  | 8010/10691 [1:14:22<22:11,  2.01it/s] 75%|███████▍  | 8011/10691 [1:14:22<22:09,  2.02it/s] 75%|███████▍  | 8012/10691 [1:14:23<22:08,  2.02it/s] 75%|███████▍  | 8013/10691 [1:14:23<22:08,  2.02it/s] 75%|███████▍  | 8014/10691 [1:14:24<22:07,  2.02it/s] 75%|███████▍  | 8015/10691 [1:14:24<22:07,  2.02it/s] 75%|███████▍  | 8016/10691 [1:14:25<22:07,  2.01it/s] 75%|███████▍  | 8017/10691 [1:14:25<22:07,  2.01it/s] 75%|███████▍  | 8018/10691 [1:14:26<22:06,  2.02it/s] 75%|███████▌  | 8019/10691 [1:14:26<22:05,  2.02it/s] 75%|███████▌  | 8020/10691 [1:14:27<22:05,  2.02it/s] 75%|███████▌  | 8021/10691 [1:14:27<22:04,  2.02it/s] 75%|███████▌  | 8022/10691 [1:14:28<22:04,  2.01it/s] 75%|███████▌  | 8023/10691 [1:14:28<22:05,  2.01it/s] 75%|███████▌  | 8024/10691 [1:14:29<22:04,  2.01it/s] 75%|███████▌  | 8025/10691 [1:14:29<22:03,  2.01it/s]                                                      {'loss': 2.9223, 'grad_norm': 0.20413219928741455, 'learning_rate': 0.00017779396379496648, 'epoch': 0.75}
+ 75%|███████▌  | 8025/10691 [1:14:29<22:03,  2.01it/s] 75%|███████▌  | 8026/10691 [1:14:30<22:06,  2.01it/s] 75%|███████▌  | 8027/10691 [1:14:30<22:03,  2.01it/s] 75%|███████▌  | 8028/10691 [1:14:31<22:02,  2.01it/s] 75%|███████▌  | 8029/10691 [1:14:31<22:00,  2.02it/s] 75%|███████▌  | 8030/10691 [1:14:32<22:00,  2.02it/s] 75%|███████▌  | 8031/10691 [1:14:32<21:59,  2.02it/s] 75%|███████▌  | 8032/10691 [1:14:33<22:00,  2.01it/s] 75%|███████▌  | 8033/10691 [1:14:33<22:00,  2.01it/s] 75%|███████▌  | 8034/10691 [1:14:34<21:58,  2.02it/s] 75%|███████▌  | 8035/10691 [1:14:34<21:57,  2.02it/s] 75%|███████▌  | 8036/10691 [1:14:35<21:57,  2.02it/s] 75%|███████▌  | 8037/10691 [1:14:35<21:56,  2.02it/s] 75%|███████▌  | 8038/10691 [1:14:36<21:56,  2.01it/s] 75%|███████▌  | 8039/10691 [1:14:36<21:54,  2.02it/s] 75%|███████▌  | 8040/10691 [1:14:37<21:55,  2.02it/s] 75%|███████▌  | 8041/10691 [1:14:37<21:54,  2.02it/s] 75%|███████▌  | 8042/10691 [1:14:38<21:55,  2.01it/s] 75%|███████▌  | 8043/10691 [1:14:38<21:53,  2.02it/s] 75%|███████▌  | 8044/10691 [1:14:39<21:54,  2.01it/s] 75%|███████▌  | 8045/10691 [1:14:39<21:52,  2.02it/s] 75%|███████▌  | 8046/10691 [1:14:40<21:52,  2.01it/s] 75%|███████▌  | 8047/10691 [1:14:40<21:51,  2.02it/s] 75%|███████▌  | 8048/10691 [1:14:41<21:52,  2.01it/s] 75%|██████���▌  | 8049/10691 [1:14:41<21:53,  2.01it/s] 75%|███████▌  | 8050/10691 [1:14:42<21:51,  2.01it/s]{'loss': 2.9175, 'grad_norm': 0.20744560658931732, 'learning_rate': 0.00017468355665675552, 'epoch': 0.75}                                                      
+ 75%|███████▌  | 8050/10691 [1:14:42<21:51,  2.01it/s] 75%|███████▌  | 8051/10691 [1:14:42<21:52,  2.01it/s] 75%|███████▌  | 8052/10691 [1:14:43<21:49,  2.01it/s] 75%|███████▌  | 8053/10691 [1:14:43<21:50,  2.01it/s] 75%|███████▌  | 8054/10691 [1:14:44<21:48,  2.02it/s] 75%|███████▌  | 8055/10691 [1:14:44<21:49,  2.01it/s] 75%|███████▌  | 8056/10691 [1:14:45<21:48,  2.01it/s] 75%|███████▌  | 8057/10691 [1:14:45<21:48,  2.01it/s] 75%|███████▌  | 8058/10691 [1:14:46<21:46,  2.02it/s] 75%|███████▌  | 8059/10691 [1:14:46<21:46,  2.01it/s] 75%|███████▌  | 8060/10691 [1:14:47<21:44,  2.02it/s] 75%|███████▌  | 8061/10691 [1:14:47<21:45,  2.01it/s] 75%|███████▌  | 8062/10691 [1:14:48<21:44,  2.01it/s] 75%|███████▌  | 8063/10691 [1:14:48<21:43,  2.02it/s] 75%|███████▌  | 8064/10691 [1:14:49<21:43,  2.02it/s] 75%|███████▌  | 8065/10691 [1:14:49<21:42,  2.02it/s] 75%|███████▌  | 8066/10691 [1:14:50<21:43,  2.01it/s] 75%|███████▌  | 8067/10691 [1:14:50<21:42,  2.02it/s] 75%|███████▌  | 8068/10691 [1:14:51<21:41,  2.02it/s] 75%|███████▌  | 8069/10691 [1:14:51<21:42,  2.01it/s] 75%|███████▌  | 8070/10691 [1:14:52<21:40,  2.02it/s] 75%|███████▌  | 8071/10691 [1:14:52<21:41,  2.01it/s] 76%|███████▌  | 8072/10691 [1:14:53<21:42,  2.01it/s] 76%|███████▌  | 8073/10691 [1:14:53<21:40,  2.01it/s] 76%|███████▌  | 8074/10691 [1:14:54<21:39,  2.01it/s] 76%|███████▌  | 8075/10691 [1:14:54<21:39,  2.01it/s]                                                      {'loss': 2.9341, 'grad_norm': 0.20091117918491364, 'learning_rate': 0.0001715948287028324, 'epoch': 0.76}
+ 76%|███████▌  | 8075/10691 [1:14:54<21:39,  2.01it/s] 76%|███████▌  | 8076/10691 [1:14:55<21:40,  2.01it/s] 76%|███████▌  | 8077/10691 [1:14:55<21:39,  2.01it/s] 76%|███████▌  | 8078/10691 [1:14:56<21:37,  2.01it/s] 76%|███████▌  | 8079/10691 [1:14:56<21:38,  2.01it/s] 76%|███████▌  | 8080/10691 [1:14:57<21:37,  2.01it/s] 76%|███████▌  | 8081/10691 [1:14:57<21:36,  2.01it/s] 76%|███████▌  | 8082/10691 [1:14:58<21:36,  2.01it/s] 76%|███████▌  | 8083/10691 [1:14:58<21:35,  2.01it/s] 76%|███████▌  | 8084/10691 [1:14:59<21:34,  2.01it/s] 76%|███████▌  | 8085/10691 [1:14:59<21:36,  2.01it/s] 76%|███████▌  | 8086/10691 [1:15:00<21:36,  2.01it/s] 76%|███████▌  | 8087/10691 [1:15:00<21:34,  2.01it/s] 76%|███████▌  | 8088/10691 [1:15:00<21:33,  2.01it/s] 76%|███████▌  | 8089/10691 [1:15:01<21:32,  2.01it/s] 76%|███████▌  | 8090/10691 [1:15:01<21:31,  2.01it/s] 76%|███████▌  | 8091/10691 [1:15:02<21:32,  2.01it/s] 76%|███████▌  | 8092/10691 [1:15:02<21:30,  2.01it/s] 76%|███████▌  | 8093/10691 [1:15:03<21:31,  2.01it/s] 76%|███████▌  | 8094/10691 [1:15:03<21:31,  2.01it/s] 76%|███████▌  | 8095/10691 [1:15:04<21:30,  2.01it/s] 76%|███████▌  | 8096/10691 [1:15:04<21:30,  2.01it/s] 76%|███████▌  | 8097/10691 [1:15:05<21:29,  2.01it/s] 76%|███████▌  | 8098/10691 [1:15:05<21:28,  2.01it/s] 76%|███████▌  | 8099/10691 [1:15:06<21:26,  2.01it/s] 76%|███████▌  | 8100/10691 [1:15:06<21:27,  2.01it/s]                                                      {'loss': 2.9217, 'grad_norm': 0.20947836339473724, 'learning_rate': 0.00016852798576694363, 'epoch': 0.76}
+ 76%|███████▌  | 8100/10691 [1:15:06<21:27,  2.01it/s] 76%|███████▌  | 8101/10691 [1:15:07<21:29,  2.01it/s] 76%|███████▌  | 8102/10691 [1:15:07<21:28,  2.01it/s] 76%|███████▌  | 8103/10691 [1:15:08<21:26,  2.01it/s] 76%|███████▌  | 8104/10691 [1:15:08<21:26,  2.01it/s] 76%|███████▌  | 8105/10691 [1:15:09<21:25,  2.01it/s] 76%|███████▌  | 8106/10691 [1:15:09<21:24,  2.01it/s] 76%|███████▌  | 8107/10691 [1:15:10<21:22,  2.01it/s] 76%|███████▌  | 8108/10691 [1:15:10<21:21,  2.02it/s] 76%|███████▌  | 8109/10691 [1:15:11<21:20,  2.02it/s] 76%|███████▌  | 8110/10691 [1:15:11<21:19,  2.02it/s] 76%|███████▌  | 8111/10691 [1:15:12<21:20,  2.02it/s] 76%|███████▌  | 8112/10691 [1:15:12<21:19,  2.02it/s] 76%|███████▌  | 8113/10691 [1:15:13<21:18,  2.02it/s] 76%|███████▌  | 8114/10691 [1:15:13<21:18,  2.02it/s] 76%|███████▌  | 8115/10691 [1:15:14<24:43,  1.74it/s] 76%|███████▌  | 8116/10691 [1:15:15<23:41,  1.81it/s] 76%|███████▌  | 8117/10691 [1:15:15<22:56,  1.87it/s] 76%|███████▌  | 8118/10691 [1:15:16<22:28,  1.91it/s] 76%|███████▌  | 8119/10691 [1:15:16<22:04,  1.94it/s] 76%|███████▌  | 8120/10691 [1:15:17<21:49,  1.96it/s] 76%|███████▌  | 8121/10691 [1:15:17<21:39,  1.98it/s] 76%|███████▌  | 8122/10691 [1:15:18<21:30,  1.99it/s] 76%|███████▌  | 8123/10691 [1:15:18<21:26,  2.00it/s] 76%|███████▌  | 8124/10691 [1:15:19<21:22,  2.00it/s] 76%|███████▌  | 8125/10691 [1:15:19<21:21,  2.00it/s]{'loss': 2.9137, 'grad_norm': 0.19599749147891998, 'learning_rate': 0.0001654832322244123, 'epoch': 0.76}
+                                                       76%|███████▌  | 8125/10691 [1:15:19<21:21,  2.00it/s] 76%|███████▌  | 8126/10691 [1:15:20<21:20,  2.00it/s] 76%|███████▌  | 8127/10691 [1:15:20<21:16,  2.01it/s] 76%|███████▌  | 8128/10691 [1:15:21<21:15,  2.01it/s] 76%|███████▌  | 8129/10691 [1:15:21<21:14,  2.01it/s] 76%|███████▌  | 8130/10691 [1:15:22<21:12,  2.01it/s] 76%|███████▌  | 8131/10691 [1:15:22<21:13,  2.01it/s] 76%|███████▌  | 8132/10691 [1:15:23<21:11,  2.01it/s] 76%|███████▌  | 8133/10691 [1:15:23<21:10,  2.01it/s] 76%|███████▌  | 8134/10691 [1:15:24<21:10,  2.01it/s] 76%|███████▌  | 8135/10691 [1:15:24<21:08,  2.01it/s] 76%|███████▌  | 8136/10691 [1:15:25<21:09,  2.01it/s] 76%|███████▌  | 8137/10691 [1:15:25<21:08,  2.01it/s] 76%|███████▌  | 8138/10691 [1:15:26<21:08,  2.01it/s] 76%|███████▌  | 8139/10691 [1:15:26<21:08,  2.01it/s] 76%|███████▌  | 8140/10691 [1:15:27<21:06,  2.01it/s] 76%|███████▌  | 8141/10691 [1:15:27<21:05,  2.01it/s] 76%|███████▌  | 8142/10691 [1:15:28<21:05,  2.01it/s] 76%|███████▌  | 8143/10691 [1:15:28<21:04,  2.01it/s] 76%|███████▌  | 8144/10691 [1:15:29<21:05,  2.01it/s] 76%|███████▌  | 8145/10691 [1:15:29<21:05,  2.01it/s] 76%|███████▌  | 8146/10691 [1:15:30<21:05,  2.01it/s] 76%|███████▌  | 8147/10691 [1:15:30<21:02,  2.01it/s] 76%|███████▌  | 8148/10691 [1:15:31<21:02,  2.01it/s] 76%|███████▌  | 8149/10691 [1:15:31<21:01,  2.01it/s] 76%|███████▌  | 8150/10691 [1:15:32<21:00,  2.02it/s]{'loss': 2.9149, 'grad_norm': 0.19683925807476044, 'learning_rate': 0.00016246077097851802, 'epoch': 0.76}
+                                                       76%|███████▌  | 8150/10691 [1:15:32<21:00,  2.02it/s] 76%|███████▌  | 8151/10691 [1:15:32<24:30,  1.73it/s] 76%|███████▋  | 8152/10691 [1:15:33<23:28,  1.80it/s] 76%|███████▋  | 8153/10691 [1:15:33<22:44,  1.86it/s] 76%|███████▋  | 8154/10691 [1:15:34<22:11,  1.91it/s] 76%|███████▋  | 8155/10691 [1:15:34<21:49,  1.94it/s] 76%|███████▋  | 8156/10691 [1:15:35<21:32,  1.96it/s] 76%|███████▋  | 8157/10691 [1:15:35<21:21,  1.98it/s] 76%|███████▋  | 8158/10691 [1:15:36<21:14,  1.99it/s] 76%|███████▋  | 8159/10691 [1:15:36<21:09,  2.00it/s] 76%|███████▋  | 8160/10691 [1:15:37<21:04,  2.00it/s] 76%|███████▋  | 8161/10691 [1:15:37<21:01,  2.01it/s] 76%|███████▋  | 8162/10691 [1:15:38<20:58,  2.01it/s] 76%|███████▋  | 8163/10691 [1:15:38<20:57,  2.01it/s] 76%|███████▋  | 8164/10691 [1:15:39<20:56,  2.01it/s] 76%|███████▋  | 8165/10691 [1:15:39<20:55,  2.01it/s] 76%|███████▋  | 8166/10691 [1:15:40<20:54,  2.01it/s] 76%|███████▋  | 8167/10691 [1:15:40<20:52,  2.01it/s] 76%|███████▋  | 8168/10691 [1:15:41<20:52,  2.01it/s] 76%|███████▋  | 8169/10691 [1:15:41<20:54,  2.01it/s] 76%|███████▋  | 8170/10691 [1:15:42<20:51,  2.01it/s] 76%|███████▋  | 8171/10691 [1:15:42<20:52,  2.01it/s] 76%|███████▋  | 8172/10691 [1:15:43<20:50,  2.01it/s] 76%|███████▋  | 8173/10691 [1:15:43<20:49,  2.02it/s] 76%|███████▋  | 8174/10691 [1:15:44<20:49,  2.02it/s] 76%|███████▋  | 8175/10691 [1:15:44<20:46,  2.02it/s]                                                      {'loss': 2.9088, 'grad_norm': 0.20223648846149445, 'learning_rate': 0.0001594608034469746, 'epoch': 0.76}
+ 76%|███████▋  | 8175/10691 [1:15:44<20:46,  2.02it/s] 76%|███████▋  | 8176/10691 [1:15:45<20:53,  2.01it/s] 76%|███████▋  | 8177/10691 [1:15:45<20:51,  2.01it/s] 76%|███████▋  | 8178/10691 [1:15:46<20:50,  2.01it/s] 77%|███████▋  | 8179/10691 [1:15:46<20:48,  2.01it/s] 77%|███████▋  | 8180/10691 [1:15:47<20:47,  2.01it/s] 77%|███████▋  | 8181/10691 [1:15:47<20:47,  2.01it/s] 77%|███████▋  | 8182/10691 [1:15:48<20:46,  2.01it/s] 77%|███████▋  | 8183/10691 [1:15:48<20:47,  2.01it/s] 77%|███████▋  | 8184/10691 [1:15:49<20:44,  2.01it/s] 77%|███████▋  | 8185/10691 [1:15:49<20:44,  2.01it/s] 77%|███████▋  | 8186/10691 [1:15:50<20:43,  2.01it/s] 77%|███████▋  | 8187/10691 [1:15:50<20:41,  2.02it/s] 77%|███████▋  | 8188/10691 [1:15:51<20:41,  2.02it/s] 77%|███████▋  | 8189/10691 [1:15:51<20:40,  2.02it/s] 77%|███████▋  | 8190/10691 [1:15:52<20:39,  2.02it/s] 77%|███████▋  | 8191/10691 [1:15:52<20:38,  2.02it/s] 77%|███████▋  | 8192/10691 [1:15:53<20:40,  2.01it/s] 77%|███████▋  | 8193/10691 [1:15:53<20:38,  2.02it/s] 77%|███████▋  | 8194/10691 [1:15:54<20:39,  2.01it/s] 77%|███████▋  | 8195/10691 [1:15:54<20:38,  2.02it/s] 77%|███████▋  | 8196/10691 [1:15:55<20:39,  2.01it/s] 77%|███████▋  | 8197/10691 [1:15:55<20:38,  2.01it/s] 77%|███████▋  | 8198/10691 [1:15:56<20:37,  2.02it/s] 77%|███████▋  | 8199/10691 [1:15:56<20:35,  2.02it/s] 77%|███████▋  | 8200/10691 [1:15:57<20:35,  2.02it/s]{'loss': 2.9142, 'grad_norm': 0.20720462501049042, 'learning_rate': 0.00015648352954850825, 'epoch': 0.77}                                                      
+ 77%|███████▋  | 8200/10691 [1:15:57<20:35,  2.02it/s] 77%|███████▋  | 8201/10691 [1:15:57<20:36,  2.01it/s] 77%|███████▋  | 8202/10691 [1:15:58<20:37,  2.01it/s] 77%|███████▋  | 8203/10691 [1:15:58<20:34,  2.01it/s] 77%|███████▋  | 8204/10691 [1:15:59<20:33,  2.02it/s] 77%|███████▋  | 8205/10691 [1:15:59<20:32,  2.02it/s] 77%|███████▋  | 8206/10691 [1:16:00<20:33,  2.01it/s] 77%|███████▋  | 8207/10691 [1:16:00<20:34,  2.01it/s] 77%|███████▋  | 8208/10691 [1:16:01<20:33,  2.01it/s] 77%|███████▋  | 8209/10691 [1:16:01<20:33,  2.01it/s] 77%|███████▋  | 8210/10691 [1:16:02<20:31,  2.01it/s] 77%|███████▋  | 8211/10691 [1:16:02<20:31,  2.01it/s] 77%|███████▋  | 8212/10691 [1:16:03<20:32,  2.01it/s] 77%|███████▋  | 8213/10691 [1:16:03<20:31,  2.01it/s] 77%|███████▋  | 8214/10691 [1:16:04<20:30,  2.01it/s] 77%|███████▋  | 8215/10691 [1:16:04<20:30,  2.01it/s] 77%|███████▋  | 8216/10691 [1:16:05<20:28,  2.02it/s] 77%|███████▋  | 8217/10691 [1:16:05<20:28,  2.01it/s] 77%|███████▋  | 8218/10691 [1:16:06<20:27,  2.02it/s] 77%|███████▋  | 8219/10691 [1:16:06<20:27,  2.01it/s] 77%|███████▋  | 8220/10691 [1:16:07<20:24,  2.02it/s] 77%|███████▋  | 8221/10691 [1:16:07<20:25,  2.02it/s] 77%|███████▋  | 8222/10691 [1:16:08<20:25,  2.02it/s] 77%|███████▋  | 8223/10691 [1:16:08<20:24,  2.02it/s] 77%|███████▋  | 8224/10691 [1:16:09<20:23,  2.02it/s] 77%|███████▋  | 8225/10691 [1:16:09<20:22,  2.02it/s]                                                      {'loss': 2.9026, 'grad_norm': 0.20129859447479248, 'learning_rate': 0.00015352914768953485, 'epoch': 0.77}
+ 77%|███████▋  | 8225/10691 [1:16:09<20:22,  2.02it/s] 77%|███████▋  | 8226/10691 [1:16:10<20:23,  2.01it/s] 77%|███████▋  | 8227/10691 [1:16:10<20:23,  2.01it/s] 77%|███████▋  | 8228/10691 [1:16:11<20:23,  2.01it/s] 77%|███████▋  | 8229/10691 [1:16:11<20:23,  2.01it/s] 77%|███████▋  | 8230/10691 [1:16:12<20:22,  2.01it/s] 77%|███████▋  | 8231/10691 [1:16:12<20:21,  2.01it/s] 77%|███████▋  | 8232/10691 [1:16:13<20:21,  2.01it/s] 77%|███████▋  | 8233/10691 [1:16:13<20:19,  2.01it/s] 77%|███████▋  | 8234/10691 [1:16:14<20:19,  2.01it/s] 77%|███████▋  | 8235/10691 [1:16:14<20:18,  2.02it/s] 77%|███████▋  | 8236/10691 [1:16:15<20:19,  2.01it/s] 77%|███████▋  | 8237/10691 [1:16:15<20:17,  2.02it/s] 77%|███████▋  | 8238/10691 [1:16:16<20:17,  2.02it/s] 77%|███████▋  | 8239/10691 [1:16:16<20:14,  2.02it/s] 77%|███████▋  | 8240/10691 [1:16:17<20:14,  2.02it/s] 77%|███████▋  | 8241/10691 [1:16:17<20:14,  2.02it/s] 77%|███████▋  | 8242/10691 [1:16:17<20:13,  2.02it/s] 77%|███████▋  | 8243/10691 [1:16:18<20:14,  2.02it/s] 77%|███████▋  | 8244/10691 [1:16:18<20:13,  2.02it/s] 77%|███████▋  | 8245/10691 [1:16:19<20:15,  2.01it/s] 77%|███████▋  | 8246/10691 [1:16:19<20:14,  2.01it/s] 77%|███████▋  | 8247/10691 [1:16:20<20:13,  2.01it/s] 77%|███████▋  | 8248/10691 [1:16:20<20:14,  2.01it/s] 77%|███████▋  | 8249/10691 [1:16:21<20:12,  2.01it/s] 77%|███████▋  | 8250/10691 [1:16:21<20:11,  2.01it/s]                                                      {'loss': 2.907, 'grad_norm': 0.19920802116394043, 'learning_rate': 0.00015059785475093763, 'epoch': 0.77}
+ 77%|███████▋  | 8250/10691 [1:16:21<20:11,  2.01it/s] 77%|███████▋  | 8251/10691 [1:16:22<20:14,  2.01it/s] 77%|███████▋  | 8252/10691 [1:16:22<20:13,  2.01it/s] 77%|███████▋  | 8253/10691 [1:16:23<20:11,  2.01it/s] 77%|███████▋  | 8254/10691 [1:16:23<20:09,  2.01it/s] 77%|███████▋  | 8255/10691 [1:16:24<20:09,  2.01it/s] 77%|███████▋  | 8256/10691 [1:16:24<20:10,  2.01it/s] 77%|███████▋  | 8257/10691 [1:16:25<20:09,  2.01it/s] 77%|███████▋  | 8258/10691 [1:16:25<20:08,  2.01it/s] 77%|███████▋  | 8259/10691 [1:16:26<20:07,  2.01it/s] 77%|███████▋  | 8260/10691 [1:16:26<20:06,  2.02it/s] 77%|███████▋  | 8261/10691 [1:16:27<20:06,  2.01it/s] 77%|███████▋  | 8262/10691 [1:16:27<20:04,  2.02it/s] 77%|███████▋  | 8263/10691 [1:16:28<20:05,  2.01it/s] 77%|███████▋  | 8264/10691 [1:16:28<20:04,  2.02it/s] 77%|███████▋  | 8265/10691 [1:16:29<20:03,  2.02it/s] 77%|███████▋  | 8266/10691 [1:16:29<20:02,  2.02it/s] 77%|███████▋  | 8267/10691 [1:16:30<20:01,  2.02it/s] 77%|███████▋  | 8268/10691 [1:16:30<20:02,  2.02it/s] 77%|███████▋  | 8269/10691 [1:16:31<20:01,  2.02it/s] 77%|███████▋  | 8270/10691 [1:16:31<20:01,  2.01it/s] 77%|███████▋  | 8271/10691 [1:16:32<20:02,  2.01it/s] 77%|███████▋  | 8272/10691 [1:16:32<20:00,  2.02it/s] 77%|███████▋  | 8273/10691 [1:16:33<20:00,  2.01it/s] 77%|███████▋  | 8274/10691 [1:16:33<19:59,  2.02it/s] 77%|███████▋  | 8275/10691 [1:16:34<20:00,  2.01it/s]{'loss': 2.9159, 'grad_norm': 0.20298372209072113, 'learning_rate': 0.00014768984607494806, 'epoch': 0.77}                                                      
+ 77%|███████▋  | 8275/10691 [1:16:34<20:00,  2.01it/s] 77%|███████▋  | 8276/10691 [1:16:34<20:00,  2.01it/s] 77%|███████▋  | 8277/10691 [1:16:35<19:59,  2.01it/s] 77%|███████▋  | 8278/10691 [1:16:35<19:58,  2.01it/s] 77%|███████▋  | 8279/10691 [1:16:36<19:57,  2.01it/s] 77%|███████▋  | 8280/10691 [1:16:36<19:57,  2.01it/s] 77%|███████▋  | 8281/10691 [1:16:37<19:56,  2.01it/s] 77%|███████▋  | 8282/10691 [1:16:37<19:56,  2.01it/s] 77%|███████▋  | 8283/10691 [1:16:38<19:54,  2.02it/s] 77%|███████▋  | 8284/10691 [1:16:38<19:54,  2.02it/s] 77%|███████▋  | 8285/10691 [1:16:39<19:53,  2.02it/s] 78%|███████▊  | 8286/10691 [1:16:39<19:52,  2.02it/s] 78%|███████▊  | 8287/10691 [1:16:40<19:51,  2.02it/s] 78%|███████▊  | 8288/10691 [1:16:40<19:51,  2.02it/s] 78%|███████▊  | 8289/10691 [1:16:41<19:51,  2.02it/s] 78%|███████▊  | 8290/10691 [1:16:41<19:50,  2.02it/s] 78%|███████▊  | 8291/10691 [1:16:42<19:50,  2.02it/s] 78%|███████▊  | 8292/10691 [1:16:42<19:49,  2.02it/s] 78%|███████▊  | 8293/10691 [1:16:43<19:48,  2.02it/s] 78%|███████▊  | 8294/10691 [1:16:43<19:49,  2.02it/s] 78%|███████▊  | 8295/10691 [1:16:44<19:48,  2.02it/s] 78%|███████▊  | 8296/10691 [1:16:44<19:49,  2.01it/s] 78%|███████▊  | 8297/10691 [1:16:45<19:48,  2.01it/s] 78%|███████▊  | 8298/10691 [1:16:45<19:48,  2.01it/s] 78%|███████▊  | 8299/10691 [1:16:46<19:47,  2.01it/s] 78%|███████▊  | 8300/10691 [1:16:46<19:48,  2.01it/s]{'loss': 2.9075, 'grad_norm': 0.1999361366033554, 'learning_rate': 0.00014480531545212638, 'epoch': 0.78}                                                      
+ 78%|███████▊  | 8300/10691 [1:16:46<19:48,  2.01it/s] 78%|███████▊  | 8301/10691 [1:16:47<19:49,  2.01it/s] 78%|███████▊  | 8302/10691 [1:16:47<19:49,  2.01it/s] 78%|███████▊  | 8303/10691 [1:16:48<19:46,  2.01it/s] 78%|███████▊  | 8304/10691 [1:16:48<19:46,  2.01it/s] 78%|███████▊  | 8305/10691 [1:16:49<19:44,  2.01it/s] 78%|███████▊  | 8306/10691 [1:16:49<19:44,  2.01it/s] 78%|███████▊  | 8307/10691 [1:16:50<19:44,  2.01it/s] 78%|███████▊  | 8308/10691 [1:16:50<19:43,  2.01it/s] 78%|███████▊  | 8309/10691 [1:16:51<19:43,  2.01it/s] 78%|███████▊  | 8310/10691 [1:16:51<19:41,  2.01it/s] 78%|███████▊  | 8311/10691 [1:16:52<19:41,  2.01it/s] 78%|███████▊  | 8312/10691 [1:16:52<19:41,  2.01it/s] 78%|███████▊  | 8313/10691 [1:16:53<19:41,  2.01it/s] 78%|███████▊  | 8314/10691 [1:16:53<19:40,  2.01it/s] 78%|███████▊  | 8315/10691 [1:16:54<19:39,  2.02it/s] 78%|███████▊  | 8316/10691 [1:16:54<19:39,  2.01it/s] 78%|███████▊  | 8317/10691 [1:16:55<19:40,  2.01it/s] 78%|███████▊  | 8318/10691 [1:16:55<19:39,  2.01it/s] 78%|███████▊  | 8319/10691 [1:16:56<19:38,  2.01it/s] 78%|███████▊  | 8320/10691 [1:16:56<19:37,  2.01it/s] 78%|███████▊  | 8321/10691 [1:16:57<19:36,  2.01it/s] 78%|███████▊  | 8322/10691 [1:16:57<19:35,  2.01it/s] 78%|███████▊  | 8323/10691 [1:16:58<19:35,  2.01it/s] 78%|███████▊  | 8324/10691 [1:16:58<19:34,  2.02it/s] 78%|███████▊  | 8325/10691 [1:16:59<19:35,  2.01it/s]{'loss': 2.9169, 'grad_norm': 0.20505933463573456, 'learning_rate': 0.00014194445510844938, 'epoch': 0.78}
+                                                       78%|███████▊  | 8325/10691 [1:16:59<19:35,  2.01it/s] 78%|███████▊  | 8326/10691 [1:16:59<19:36,  2.01it/s] 78%|███████▊  | 8327/10691 [1:17:00<19:35,  2.01it/s] 78%|███████▊  | 8328/10691 [1:17:00<19:33,  2.01it/s] 78%|███████▊  | 8329/10691 [1:17:01<19:32,  2.01it/s] 78%|███████▊  | 8330/10691 [1:17:01<19:32,  2.01it/s] 78%|███████▊  | 8331/10691 [1:17:02<19:32,  2.01it/s] 78%|███████▊  | 8332/10691 [1:17:02<19:31,  2.01it/s] 78%|███████▊  | 8333/10691 [1:17:03<19:29,  2.02it/s] 78%|███████▊  | 8334/10691 [1:17:03<19:29,  2.01it/s] 78%|███████▊  | 8335/10691 [1:17:04<19:28,  2.02it/s] 78%|███████▊  | 8336/10691 [1:17:04<19:27,  2.02it/s] 78%|███████▊  | 8337/10691 [1:17:05<19:27,  2.02it/s] 78%|███████▊  | 8338/10691 [1:17:05<19:26,  2.02it/s] 78%|███████▊  | 8339/10691 [1:17:06<19:26,  2.02it/s] 78%|███████▊  | 8340/10691 [1:17:06<19:26,  2.02it/s] 78%|███████▊  | 8341/10691 [1:17:07<19:25,  2.02it/s] 78%|███████▊  | 8342/10691 [1:17:07<19:25,  2.02it/s] 78%|███████▊  | 8343/10691 [1:17:08<19:24,  2.02it/s] 78%|███████▊  | 8344/10691 [1:17:08<19:25,  2.01it/s] 78%|███████▊  | 8345/10691 [1:17:09<19:24,  2.02it/s] 78%|███████▊  | 8346/10691 [1:17:09<19:23,  2.02it/s] 78%|███████▊  | 8347/10691 [1:17:10<19:23,  2.02it/s] 78%|███████▊  | 8348/10691 [1:17:10<19:22,  2.02it/s] 78%|███████▊  | 8349/10691 [1:17:11<19:21,  2.02it/s] 78%|███████▊  | 8350/10691 [1:17:11<19:20,  2.02it/s]{'loss': 2.9048, 'grad_norm': 0.19865816831588745, 'learning_rate': 0.0001391074556924989, 'epoch': 0.78}
+                                                       78%|███████▊  | 8350/10691 [1:17:11<19:20,  2.02it/s] 78%|███████▊  | 8351/10691 [1:17:12<19:22,  2.01it/s] 78%|███████▊  | 8352/10691 [1:17:12<19:20,  2.02it/s] 78%|███████▊  | 8353/10691 [1:17:13<19:19,  2.02it/s] 78%|███████▊  | 8354/10691 [1:17:13<19:19,  2.02it/s] 78%|███████▊  | 8355/10691 [1:17:14<19:18,  2.02it/s] 78%|███████▊  | 8356/10691 [1:17:14<19:19,  2.01it/s] 78%|███████▊  | 8357/10691 [1:17:15<19:18,  2.02it/s] 78%|███████▊  | 8358/10691 [1:17:15<19:18,  2.01it/s] 78%|███████▊  | 8359/10691 [1:17:16<19:17,  2.02it/s] 78%|███████▊  | 8360/10691 [1:17:16<19:16,  2.01it/s] 78%|███████▊  | 8361/10691 [1:17:17<19:15,  2.02it/s] 78%|███████▊  | 8362/10691 [1:17:17<19:16,  2.01it/s] 78%|███████▊  | 8363/10691 [1:17:18<19:17,  2.01it/s] 78%|███████▊  | 8364/10691 [1:17:18<19:15,  2.01it/s] 78%|███████▊  | 8365/10691 [1:17:19<19:15,  2.01it/s] 78%|███████▊  | 8366/10691 [1:17:19<19:17,  2.01it/s] 78%|███████▊  | 8367/10691 [1:17:20<19:13,  2.01it/s] 78%|███████▊  | 8368/10691 [1:17:20<19:14,  2.01it/s] 78%|███████▊  | 8369/10691 [1:17:21<19:12,  2.02it/s] 78%|███████▊  | 8370/10691 [1:17:21<19:12,  2.01it/s] 78%|███████▊  | 8371/10691 [1:17:22<19:10,  2.02it/s] 78%|███████▊  | 8372/10691 [1:17:22<19:09,  2.02it/s] 78%|███████▊  | 8373/10691 [1:17:23<19:09,  2.02it/s] 78%|███████▊  | 8374/10691 [1:17:23<19:11,  2.01it/s] 78%|███████▊  | 8375/10691 [1:17:24<19:10,  2.01it/s]                                                      {'loss': 2.9094, 'grad_norm': 0.2033938467502594, 'learning_rate': 0.0001362945062627575, 'epoch': 0.78}
+ 78%|███████▊  | 8375/10691 [1:17:24<19:10,  2.01it/s] 78%|███████▊  | 8376/10691 [1:17:24<19:12,  2.01it/s] 78%|███████▊  | 8377/10691 [1:17:25<19:10,  2.01it/s] 78%|███████▊  | 8378/10691 [1:17:25<19:10,  2.01it/s] 78%|███████▊  | 8379/10691 [1:17:26<19:08,  2.01it/s] 78%|███████▊  | 8380/10691 [1:17:26<19:06,  2.01it/s] 78%|███████▊  | 8381/10691 [1:17:27<19:06,  2.02it/s] 78%|███████▊  | 8382/10691 [1:17:27<19:06,  2.01it/s] 78%|███████▊  | 8383/10691 [1:17:28<19:04,  2.02it/s] 78%|███████▊  | 8384/10691 [1:17:28<19:06,  2.01it/s] 78%|███████▊  | 8385/10691 [1:17:28<19:05,  2.01it/s] 78%|███████▊  | 8386/10691 [1:17:29<19:06,  2.01it/s] 78%|███████▊  | 8387/10691 [1:17:29<19:04,  2.01it/s] 78%|███████▊  | 8388/10691 [1:17:30<19:03,  2.01it/s] 78%|███████▊  | 8389/10691 [1:17:30<19:03,  2.01it/s] 78%|███████▊  | 8390/10691 [1:17:31<19:03,  2.01it/s] 78%|███████▊  | 8391/10691 [1:17:31<19:02,  2.01it/s] 78%|███████▊  | 8392/10691 [1:17:32<19:02,  2.01it/s] 79%|███████▊  | 8393/10691 [1:17:32<19:00,  2.02it/s] 79%|███████▊  | 8394/10691 [1:17:33<18:59,  2.01it/s] 79%|███████▊  | 8395/10691 [1:17:33<18:58,  2.02it/s] 79%|███████▊  | 8396/10691 [1:17:34<18:57,  2.02it/s] 79%|███████▊  | 8397/10691 [1:17:34<18:56,  2.02it/s] 79%|███████▊  | 8398/10691 [1:17:35<18:58,  2.01it/s] 79%|███████▊  | 8399/10691 [1:17:35<18:56,  2.02it/s] 79%|███████▊  | 8400/10691 [1:17:36<18:57,  2.01it/s]{'loss': 2.9146, 'grad_norm': 0.20063567161560059, 'learning_rate': 0.00013350579427500974, 'epoch': 0.79}                                                      
+ 79%|███████▊  | 8400/10691 [1:17:36<18:57,  2.01it/s] 79%|███████▊  | 8401/10691 [1:17:36<18:58,  2.01it/s] 79%|███████▊  | 8402/10691 [1:17:37<18:55,  2.01it/s] 79%|███████▊  | 8403/10691 [1:17:37<18:54,  2.02it/s] 79%|███████▊  | 8404/10691 [1:17:38<18:54,  2.02it/s] 79%|███████▊  | 8405/10691 [1:17:38<18:54,  2.01it/s] 79%|███████▊  | 8406/10691 [1:17:39<18:52,  2.02it/s] 79%|███████▊  | 8407/10691 [1:17:39<18:53,  2.01it/s] 79%|███████▊  | 8408/10691 [1:17:40<18:51,  2.02it/s] 79%|███████▊  | 8409/10691 [1:17:40<18:51,  2.02it/s] 79%|███████▊  | 8410/10691 [1:17:41<18:52,  2.01it/s] 79%|███████▊  | 8411/10691 [1:17:41<18:50,  2.02it/s] 79%|███████▊  | 8412/10691 [1:17:42<18:51,  2.01it/s] 79%|███████▊  | 8413/10691 [1:17:42<18:50,  2.02it/s] 79%|███████▊  | 8414/10691 [1:17:43<18:50,  2.01it/s] 79%|███████▊  | 8415/10691 [1:17:43<18:50,  2.01it/s] 79%|███████▊  | 8416/10691 [1:17:44<18:49,  2.01it/s] 79%|███████▊  | 8417/10691 [1:17:44<18:50,  2.01it/s] 79%|███████▊  | 8418/10691 [1:17:45<18:48,  2.01it/s] 79%|███████▊  | 8419/10691 [1:17:45<18:48,  2.01it/s] 79%|███████▉  | 8420/10691 [1:17:46<18:47,  2.01it/s] 79%|███████▉  | 8421/10691 [1:17:46<18:46,  2.02it/s] 79%|███████▉  | 8422/10691 [1:17:47<18:44,  2.02it/s] 79%|███████▉  | 8423/10691 [1:17:47<18:44,  2.02it/s] 79%|███████▉  | 8424/10691 [1:17:48<18:44,  2.02it/s] 79%|███████▉  | 8425/10691 [1:17:48<18:43,  2.02it/s]{'loss': 2.909, 'grad_norm': 0.1987849622964859, 'learning_rate': 0.00013074150556984955, 'epoch': 0.79}
+                                                       79%|███████▉  | 8425/10691 [1:17:48<18:43,  2.02it/s] 79%|███████▉  | 8426/10691 [1:17:49<18:44,  2.01it/s] 79%|███████▉  | 8427/10691 [1:17:49<18:42,  2.02it/s] 79%|███████▉  | 8428/10691 [1:17:50<18:42,  2.02it/s] 79%|███████▉  | 8429/10691 [1:17:50<18:41,  2.02it/s] 79%|███████▉  | 8430/10691 [1:17:51<18:41,  2.02it/s] 79%|███████▉  | 8431/10691 [1:17:51<18:42,  2.01it/s] 79%|███████▉  | 8432/10691 [1:17:52<18:39,  2.02it/s] 79%|███████▉  | 8433/10691 [1:17:52<18:40,  2.01it/s] 79%|███████▉  | 8434/10691 [1:17:53<18:38,  2.02it/s] 79%|███████▉  | 8435/10691 [1:17:53<18:39,  2.02it/s] 79%|███████▉  | 8436/10691 [1:17:54<18:38,  2.02it/s] 79%|███████▉  | 8437/10691 [1:17:54<18:37,  2.02it/s] 79%|███████▉  | 8438/10691 [1:17:55<18:38,  2.01it/s] 79%|███████▉  | 8439/10691 [1:17:55<18:38,  2.01it/s] 79%|███████▉  | 8440/10691 [1:17:56<18:37,  2.01it/s] 79%|███████▉  | 8441/10691 [1:17:56<18:36,  2.02it/s] 79%|███████▉  | 8442/10691 [1:17:57<18:36,  2.02it/s] 79%|███████▉  | 8443/10691 [1:17:57<18:36,  2.01it/s] 79%|███████▉  | 8444/10691 [1:17:58<18:35,  2.02it/s] 79%|███████▉  | 8445/10691 [1:17:58<18:35,  2.01it/s] 79%|███████▉  | 8446/10691 [1:17:59<18:34,  2.01it/s] 79%|███████▉  | 8447/10691 [1:17:59<18:35,  2.01it/s] 79%|███████▉  | 8448/10691 [1:18:00<18:35,  2.01it/s] 79%|███████▉  | 8449/10691 [1:18:00<18:34,  2.01it/s] 79%|███████▉  | 8450/10691 [1:18:01<18:33,  2.01it/s]{'loss': 2.895, 'grad_norm': 0.19482210278511047, 'learning_rate': 0.00012800182436029656, 'epoch': 0.79}
+                                                       79%|███████▉  | 8450/10691 [1:18:01<18:33,  2.01it/s] 79%|███████▉  | 8451/10691 [1:18:01<18:35,  2.01it/s] 79%|███████▉  | 8452/10691 [1:18:02<18:33,  2.01it/s] 79%|███████▉  | 8453/10691 [1:18:02<18:33,  2.01it/s] 79%|███████▉  | 8454/10691 [1:18:03<18:33,  2.01it/s] 79%|███████▉  | 8455/10691 [1:18:03<18:31,  2.01it/s] 79%|███████▉  | 8456/10691 [1:18:04<18:31,  2.01it/s] 79%|███████▉  | 8457/10691 [1:18:04<18:31,  2.01it/s] 79%|███████▉  | 8458/10691 [1:18:05<18:29,  2.01it/s] 79%|███████▉  | 8459/10691 [1:18:05<18:28,  2.01it/s] 79%|███████▉  | 8460/10691 [1:18:06<18:27,  2.02it/s] 79%|███████▉  | 8461/10691 [1:18:06<18:27,  2.01it/s] 79%|███████▉  | 8462/10691 [1:18:07<18:27,  2.01it/s] 79%|███████▉  | 8463/10691 [1:18:07<18:26,  2.01it/s] 79%|███████▉  | 8464/10691 [1:18:08<18:26,  2.01it/s] 79%|███████▉  | 8465/10691 [1:18:08<18:25,  2.01it/s] 79%|███████▉  | 8466/10691 [1:18:09<18:25,  2.01it/s] 79%|███████▉  | 8467/10691 [1:18:09<18:25,  2.01it/s] 79%|███████▉  | 8468/10691 [1:18:10<18:23,  2.01it/s] 79%|███████▉  | 8469/10691 [1:18:10<18:23,  2.01it/s] 79%|███████▉  | 8470/10691 [1:18:11<18:22,  2.01it/s] 79%|███████▉  | 8471/10691 [1:18:11<18:22,  2.01it/s] 79%|███████▉  | 8472/10691 [1:18:12<18:22,  2.01it/s] 79%|███████▉  | 8473/10691 [1:18:12<18:21,  2.01it/s] 79%|███████▉  | 8474/10691 [1:18:13<18:20,  2.01it/s] 79%|███████▉  | 8475/10691 [1:18:13<18:19,  2.02it/s]                                                      {'loss': 2.9015, 'grad_norm': 0.19859790802001953, 'learning_rate': 0.00012528693321951922, 'epoch': 0.79}
+ 79%|███████▉  | 8475/10691 [1:18:13<18:19,  2.02it/s] 79%|███████▉  | 8476/10691 [1:18:14<18:20,  2.01it/s] 79%|███████▉  | 8477/10691 [1:18:14<18:19,  2.01it/s] 79%|███████▉  | 8478/10691 [1:18:15<18:18,  2.02it/s] 79%|███████▉  | 8479/10691 [1:18:15<18:16,  2.02it/s] 79%|███████▉  | 8480/10691 [1:18:16<18:16,  2.02it/s] 79%|███████▉  | 8481/10691 [1:18:16<18:15,  2.02it/s] 79%|███████▉  | 8482/10691 [1:18:17<18:15,  2.02it/s] 79%|███████▉  | 8483/10691 [1:18:17<18:15,  2.01it/s] 79%|███████▉  | 8484/10691 [1:18:18<18:15,  2.01it/s] 79%|███████▉  | 8485/10691 [1:18:18<18:15,  2.01it/s] 79%|███████▉  | 8486/10691 [1:18:19<18:16,  2.01it/s] 79%|███████▉  | 8487/10691 [1:18:19<18:14,  2.01it/s] 79%|███████▉  | 8488/10691 [1:18:20<18:14,  2.01it/s] 79%|███████▉  | 8489/10691 [1:18:20<18:13,  2.01it/s] 79%|███████▉  | 8490/10691 [1:18:21<18:12,  2.01it/s] 79%|███████▉  | 8491/10691 [1:18:21<18:12,  2.01it/s] 79%|███████▉  | 8492/10691 [1:18:22<18:11,  2.01it/s] 79%|███████▉  | 8493/10691 [1:18:22<18:11,  2.01it/s] 79%|███████▉  | 8494/10691 [1:18:23<18:10,  2.01it/s] 79%|███████▉  | 8495/10691 [1:18:23<18:09,  2.02it/s] 79%|███████▉  | 8496/10691 [1:18:24<18:10,  2.01it/s] 79%|███████▉  | 8497/10691 [1:18:24<18:08,  2.02it/s] 79%|███████▉  | 8498/10691 [1:18:25<18:08,  2.02it/s] 79%|███████▉  | 8499/10691 [1:18:25<18:08,  2.01it/s] 80%|███████▉  | 8500/10691 [1:18:26<18:07,  2.02it/s]{'loss': 2.9062, 'grad_norm': 0.20365585386753082, 'learning_rate': 0.00012259701306866817, 'epoch': 0.8}
+                                                       80%|███████▉  | 8500/10691 [1:18:26<18:07,  2.02it/s] 80%|███████▉  | 8501/10691 [1:18:26<18:09,  2.01it/s] 80%|███████▉  | 8502/10691 [1:18:27<18:07,  2.01it/s] 80%|███████▉  | 8503/10691 [1:18:27<18:07,  2.01it/s] 80%|███████▉  | 8504/10691 [1:18:28<18:07,  2.01it/s] 80%|███████▉  | 8505/10691 [1:18:28<18:06,  2.01it/s] 80%|███████▉  | 8506/10691 [1:18:29<18:07,  2.01it/s] 80%|███████▉  | 8507/10691 [1:18:29<18:06,  2.01it/s] 80%|███████▉  | 8508/10691 [1:18:30<18:04,  2.01it/s] 80%|███████▉  | 8509/10691 [1:18:30<18:04,  2.01it/s] 80%|███████▉  | 8510/10691 [1:18:31<18:02,  2.02it/s] 80%|███████▉  | 8511/10691 [1:18:31<18:03,  2.01it/s] 80%|███████▉  | 8512/10691 [1:18:32<18:02,  2.01it/s] 80%|███████▉  | 8513/10691 [1:18:32<18:01,  2.01it/s] 80%|███████▉  | 8514/10691 [1:18:33<18:01,  2.01it/s] 80%|███████▉  | 8515/10691 [1:18:33<17:59,  2.02it/s] 80%|███████▉  | 8516/10691 [1:18:34<17:58,  2.02it/s] 80%|███████▉  | 8517/10691 [1:18:34<17:59,  2.01it/s] 80%|███████▉  | 8518/10691 [1:18:35<17:58,  2.01it/s] 80%|███████▉  | 8519/10691 [1:18:35<17:58,  2.01it/s] 80%|███████▉  | 8520/10691 [1:18:36<17:56,  2.02it/s] 80%|███████▉  | 8521/10691 [1:18:36<17:55,  2.02it/s] 80%|███████▉  | 8522/10691 [1:18:37<17:56,  2.02it/s] 80%|███████▉  | 8523/10691 [1:18:37<17:55,  2.02it/s] 80%|███████▉  | 8524/10691 [1:18:38<17:55,  2.02it/s] 80%|███████▉  | 8525/10691 [1:18:38<17:53,  2.02it/s]{'loss': 2.9052, 'grad_norm': 0.20357374846935272, 'learning_rate': 0.0001199322431648206, 'epoch': 0.8}
+                                                       80%|███████▉  | 8525/10691 [1:18:38<17:53,  2.02it/s] 80%|███████▉  | 8526/10691 [1:18:39<17:54,  2.01it/s] 80%|███████▉  | 8527/10691 [1:18:39<17:54,  2.01it/s] 80%|███████▉  | 8528/10691 [1:18:39<17:53,  2.02it/s] 80%|███████▉  | 8529/10691 [1:18:40<17:54,  2.01it/s] 80%|███████▉  | 8530/10691 [1:18:40<17:53,  2.01it/s] 80%|███████▉  | 8531/10691 [1:18:41<17:52,  2.01it/s] 80%|███████▉  | 8532/10691 [1:18:41<17:51,  2.01it/s] 80%|███████▉  | 8533/10691 [1:18:42<17:51,  2.01it/s] 80%|███████▉  | 8534/10691 [1:18:42<17:51,  2.01it/s] 80%|███████▉  | 8535/10691 [1:18:43<17:51,  2.01it/s] 80%|███████▉  | 8536/10691 [1:18:43<17:50,  2.01it/s] 80%|███████▉  | 8537/10691 [1:18:44<17:49,  2.01it/s] 80%|███████▉  | 8538/10691 [1:18:44<17:49,  2.01it/s] 80%|███████▉  | 8539/10691 [1:18:45<17:49,  2.01it/s] 80%|███████▉  | 8540/10691 [1:18:45<17:47,  2.02it/s] 80%|███████▉  | 8541/10691 [1:18:46<17:46,  2.02it/s] 80%|███████▉  | 8542/10691 [1:18:46<17:45,  2.02it/s] 80%|███████▉  | 8543/10691 [1:18:47<17:45,  2.02it/s] 80%|███████▉  | 8544/10691 [1:18:47<17:43,  2.02it/s] 80%|███████▉  | 8545/10691 [1:18:48<17:45,  2.01it/s] 80%|███████▉  | 8546/10691 [1:18:48<17:45,  2.01it/s] 80%|███████▉  | 8547/10691 [1:18:49<17:44,  2.01it/s] 80%|███████▉  | 8548/10691 [1:18:49<17:43,  2.01it/s] 80%|███████▉  | 8549/10691 [1:18:50<17:42,  2.02it/s] 80%|███████▉  | 8550/10691 [1:18:50<17:43,  2.01it/s]{'loss': 2.9086, 'grad_norm': 0.19598272442817688, 'learning_rate': 0.00011729280108903318, 'epoch': 0.8}                                                      
+ 80%|███████▉  | 8550/10691 [1:18:50<17:43,  2.01it/s] 80%|███████▉  | 8551/10691 [1:18:51<17:43,  2.01it/s] 80%|███████▉  | 8552/10691 [1:18:51<17:42,  2.01it/s] 80%|████████  | 8553/10691 [1:18:52<17:42,  2.01it/s] 80%|████████  | 8554/10691 [1:18:52<17:41,  2.01it/s] 80%|████████  | 8555/10691 [1:18:53<17:41,  2.01it/s] 80%|████████  | 8556/10691 [1:18:53<17:40,  2.01it/s] 80%|████████  | 8557/10691 [1:18:54<17:39,  2.01it/s] 80%|████████  | 8558/10691 [1:18:54<17:38,  2.01it/s] 80%|████████  | 8559/10691 [1:18:55<17:37,  2.02it/s] 80%|████████  | 8560/10691 [1:18:55<17:37,  2.01it/s] 80%|████████  | 8561/10691 [1:18:56<17:37,  2.01it/s] 80%|████████  | 8562/10691 [1:18:56<17:36,  2.02it/s] 80%|████████  | 8563/10691 [1:18:57<17:36,  2.01it/s] 80%|████████  | 8564/10691 [1:18:57<17:35,  2.02it/s] 80%|████████  | 8565/10691 [1:18:58<17:34,  2.02it/s] 80%|████████  | 8566/10691 [1:18:58<17:33,  2.02it/s] 80%|████████  | 8567/10691 [1:18:59<17:33,  2.02it/s] 80%|████████  | 8568/10691 [1:18:59<17:33,  2.02it/s] 80%|████████  | 8569/10691 [1:19:00<17:33,  2.01it/s] 80%|████████  | 8570/10691 [1:19:00<17:33,  2.01it/s] 80%|████████  | 8571/10691 [1:19:01<17:34,  2.01it/s] 80%|████████  | 8572/10691 [1:19:01<17:33,  2.01it/s] 80%|████████  | 8573/10691 [1:19:02<17:33,  2.01it/s] 80%|████████  | 8574/10691 [1:19:02<17:32,  2.01it/s] 80%|████████  | 8575/10691 [1:19:03<17:31,  2.01it/s]{'loss': 2.9053, 'grad_norm': 0.20145434141159058, 'learning_rate': 0.00011467886273450889, 'epoch': 0.8}                                                      
+ 80%|████████  | 8575/10691 [1:19:03<17:31,  2.01it/s] 80%|████████  | 8576/10691 [1:19:03<17:32,  2.01it/s] 80%|████████  | 8577/10691 [1:19:04<17:31,  2.01it/s] 80%|████████  | 8578/10691 [1:19:04<17:31,  2.01it/s] 80%|████████  | 8579/10691 [1:19:05<17:30,  2.01it/s] 80%|████████  | 8580/10691 [1:19:05<17:28,  2.01it/s] 80%|████████  | 8581/10691 [1:19:06<17:28,  2.01it/s] 80%|████████  | 8582/10691 [1:19:06<17:27,  2.01it/s] 80%|████████  | 8583/10691 [1:19:07<17:27,  2.01it/s] 80%|████████  | 8584/10691 [1:19:07<17:27,  2.01it/s] 80%|████████  | 8585/10691 [1:19:08<17:25,  2.02it/s] 80%|████████  | 8586/10691 [1:19:08<17:24,  2.02it/s] 80%|████████  | 8587/10691 [1:19:09<17:24,  2.02it/s] 80%|████████  | 8588/10691 [1:19:09<17:23,  2.01it/s] 80%|████████  | 8589/10691 [1:19:10<17:23,  2.01it/s] 80%|████████  | 8590/10691 [1:19:10<17:23,  2.01it/s] 80%|████████  | 8591/10691 [1:19:11<17:21,  2.02it/s] 80%|████████  | 8592/10691 [1:19:11<17:20,  2.02it/s] 80%|████████  | 8593/10691 [1:19:12<17:20,  2.02it/s] 80%|████████  | 8594/10691 [1:19:12<17:19,  2.02it/s] 80%|████████  | 8595/10691 [1:19:13<17:19,  2.02it/s] 80%|████████  | 8596/10691 [1:19:13<17:18,  2.02it/s] 80%|████████  | 8597/10691 [1:19:14<17:18,  2.02it/s] 80%|████████  | 8598/10691 [1:19:14<17:16,  2.02it/s] 80%|████████  | 8599/10691 [1:19:15<17:16,  2.02it/s] 80%|████████  | 8600/10691 [1:19:15<17:16,  2.02it/s]{'loss': 2.8987, 'grad_norm': 0.206048846244812, 'learning_rate': 0.00011209060229487511, 'epoch': 0.8}
+                                                       80%|████████  | 8600/10691 [1:19:15<17:16,  2.02it/s] 80%|████████  | 8601/10691 [1:19:16<17:16,  2.02it/s] 80%|████████  | 8602/10691 [1:19:16<17:17,  2.01it/s] 80%|████████  | 8603/10691 [1:19:17<17:15,  2.02it/s] 80%|████████  | 8604/10691 [1:19:17<17:16,  2.01it/s] 80%|████████  | 8605/10691 [1:19:18<17:15,  2.01it/s] 80%|████████  | 8606/10691 [1:19:18<17:14,  2.02it/s] 81%|████████  | 8607/10691 [1:19:19<17:13,  2.02it/s] 81%|████████  | 8608/10691 [1:19:19<17:13,  2.02it/s] 81%|████████  | 8609/10691 [1:19:20<17:14,  2.01it/s] 81%|████████  | 8610/10691 [1:19:20<17:13,  2.01it/s] 81%|████████  | 8611/10691 [1:19:21<17:13,  2.01it/s] 81%|████████  | 8612/10691 [1:19:21<17:14,  2.01it/s] 81%|████████  | 8613/10691 [1:19:22<17:12,  2.01it/s] 81%|████████  | 8614/10691 [1:19:22<17:11,  2.01it/s] 81%|████████  | 8615/10691 [1:19:23<17:10,  2.02it/s] 81%|████████  | 8616/10691 [1:19:23<17:09,  2.02it/s] 81%|████████  | 8617/10691 [1:19:24<17:09,  2.01it/s] 81%|████████  | 8618/10691 [1:19:24<17:08,  2.01it/s] 81%|████████  | 8619/10691 [1:19:25<17:08,  2.01it/s] 81%|████████  | 8620/10691 [1:19:25<17:08,  2.01it/s] 81%|████████  | 8621/10691 [1:19:26<17:08,  2.01it/s] 81%|████████  | 8622/10691 [1:19:26<17:08,  2.01it/s] 81%|████████  | 8623/10691 [1:19:27<17:06,  2.02it/s] 81%|████████  | 8624/10691 [1:19:27<17:05,  2.02it/s] 81%|████████  | 8625/10691 [1:19:28<17:04,  2.02it/s]                                                      {'loss': 2.9018, 'grad_norm': 0.2032051682472229, 'learning_rate': 0.00010952819225257509, 'epoch': 0.81}
+ 81%|████████  | 8625/10691 [1:19:28<17:04,  2.02it/s] 81%|████████  | 8626/10691 [1:19:28<17:05,  2.01it/s] 81%|████████  | 8627/10691 [1:19:29<17:04,  2.01it/s] 81%|████████  | 8628/10691 [1:19:29<17:05,  2.01it/s] 81%|████████  | 8629/10691 [1:19:30<17:04,  2.01it/s] 81%|████████  | 8630/10691 [1:19:30<17:02,  2.02it/s] 81%|████████  | 8631/10691 [1:19:31<17:01,  2.02it/s] 81%|████████  | 8632/10691 [1:19:31<17:01,  2.02it/s] 81%|████████  | 8633/10691 [1:19:32<17:02,  2.01it/s] 81%|████████  | 8634/10691 [1:19:32<17:01,  2.01it/s] 81%|████████  | 8635/10691 [1:19:33<17:02,  2.01it/s] 81%|████████  | 8636/10691 [1:19:33<17:01,  2.01it/s] 81%|████████  | 8637/10691 [1:19:34<16:59,  2.01it/s] 81%|████████  | 8638/10691 [1:19:34<16:58,  2.02it/s] 81%|████████  | 8639/10691 [1:19:35<16:58,  2.02it/s] 81%|████████  | 8640/10691 [1:19:35<16:57,  2.02it/s] 81%|████████  | 8641/10691 [1:19:36<16:57,  2.02it/s] 81%|████████  | 8642/10691 [1:19:36<16:56,  2.02it/s] 81%|████████  | 8643/10691 [1:19:37<16:54,  2.02it/s] 81%|████████  | 8644/10691 [1:19:37<16:55,  2.02it/s] 81%|████████  | 8645/10691 [1:19:38<16:55,  2.01it/s] 81%|████████  | 8646/10691 [1:19:38<16:54,  2.02it/s] 81%|████████  | 8647/10691 [1:19:39<16:53,  2.02it/s] 81%|████████  | 8648/10691 [1:19:39<16:51,  2.02it/s] 81%|████████  | 8649/10691 [1:19:40<16:52,  2.02it/s] 81%|████████  | 8650/10691 [1:19:40<16:50,  2.02it/s]{'loss': 2.8941, 'grad_norm': 0.19434264302253723, 'learning_rate': 0.00010699180336737452, 'epoch': 0.81}
+                                                       81%|████████  | 8650/10691 [1:19:40<16:50,  2.02it/s] 81%|████████  | 8651/10691 [1:19:41<16:52,  2.01it/s] 81%|████████  | 8652/10691 [1:19:41<16:50,  2.02it/s] 81%|████████  | 8653/10691 [1:19:42<16:52,  2.01it/s] 81%|████████  | 8654/10691 [1:19:42<16:51,  2.01it/s] 81%|████████  | 8655/10691 [1:19:43<16:50,  2.01it/s] 81%|████████  | 8656/10691 [1:19:43<16:50,  2.01it/s] 81%|████████  | 8657/10691 [1:19:44<16:48,  2.02it/s] 81%|████████  | 8658/10691 [1:19:44<16:49,  2.01it/s] 81%|████████  | 8659/10691 [1:19:45<16:48,  2.01it/s] 81%|████████  | 8660/10691 [1:19:45<16:47,  2.02it/s] 81%|████████  | 8661/10691 [1:19:46<16:47,  2.01it/s] 81%|████████  | 8662/10691 [1:19:46<16:47,  2.01it/s] 81%|████████  | 8663/10691 [1:19:47<16:46,  2.01it/s] 81%|████████  | 8664/10691 [1:19:47<16:45,  2.02it/s] 81%|████████  | 8665/10691 [1:19:48<16:44,  2.02it/s] 81%|████████  | 8666/10691 [1:19:48<16:43,  2.02it/s] 81%|████████  | 8667/10691 [1:19:48<16:43,  2.02it/s] 81%|████████  | 8668/10691 [1:19:49<16:43,  2.02it/s] 81%|████████  | 8669/10691 [1:19:49<16:43,  2.02it/s] 81%|████████  | 8670/10691 [1:19:50<16:43,  2.01it/s] 81%|████████  | 8671/10691 [1:19:50<16:43,  2.01it/s] 81%|████████  | 8672/10691 [1:19:51<16:41,  2.02it/s] 81%|████████  | 8673/10691 [1:19:51<16:41,  2.02it/s] 81%|████████  | 8674/10691 [1:19:52<16:39,  2.02it/s] 81%|████████  | 8675/10691 [1:19:52<16:37,  2.02it/s]                                                      {'loss': 2.8959, 'grad_norm': 0.20105719566345215, 'learning_rate': 0.00010448160466498097, 'epoch': 0.81}
+ 81%|████████  | 8675/10691 [1:19:52<16:37,  2.02it/s] 81%|████████  | 8676/10691 [1:19:53<16:40,  2.01it/s] 81%|████████  | 8677/10691 [1:19:53<16:40,  2.01it/s] 81%|████████  | 8678/10691 [1:19:54<16:40,  2.01it/s] 81%|████████  | 8679/10691 [1:19:54<16:39,  2.01it/s] 81%|████████  | 8680/10691 [1:19:55<16:40,  2.01it/s] 81%|████████  | 8681/10691 [1:19:55<16:39,  2.01it/s] 81%|████████  | 8682/10691 [1:19:56<16:38,  2.01it/s] 81%|████████  | 8683/10691 [1:19:56<16:36,  2.02it/s] 81%|████████  | 8684/10691 [1:19:57<16:36,  2.02it/s] 81%|████████  | 8685/10691 [1:19:57<16:36,  2.01it/s] 81%|████████  | 8686/10691 [1:19:58<16:35,  2.01it/s] 81%|████████▏ | 8687/10691 [1:19:58<16:34,  2.02it/s] 81%|████████▏ | 8688/10691 [1:19:59<16:32,  2.02it/s] 81%|████████▏ | 8689/10691 [1:19:59<16:32,  2.02it/s] 81%|████████▏ | 8690/10691 [1:20:00<16:33,  2.01it/s] 81%|████████▏ | 8691/10691 [1:20:00<16:33,  2.01it/s] 81%|████████▏ | 8692/10691 [1:20:01<16:34,  2.01it/s] 81%|████████▏ | 8693/10691 [1:20:01<16:31,  2.01it/s] 81%|████████▏ | 8694/10691 [1:20:02<16:31,  2.01it/s] 81%|████████▏ | 8695/10691 [1:20:02<16:30,  2.02it/s] 81%|████████▏ | 8696/10691 [1:20:03<16:30,  2.02it/s] 81%|████████▏ | 8697/10691 [1:20:03<16:29,  2.02it/s] 81%|████████▏ | 8698/10691 [1:20:04<16:27,  2.02it/s] 81%|████████▏ | 8699/10691 [1:20:04<16:28,  2.02it/s] 81%|████████▏ | 8700/10691 [1:20:05<16:27,  2.02it/s]                                                      {'loss': 2.9115, 'grad_norm': 0.201943039894104, 'learning_rate': 0.00010199776342578059, 'epoch': 0.81}
+ 81%|████████▏ | 8700/10691 [1:20:05<16:27,  2.02it/s] 81%|████████▏ | 8701/10691 [1:20:05<16:28,  2.01it/s] 81%|████████▏ | 8702/10691 [1:20:06<16:28,  2.01it/s] 81%|████████▏ | 8703/10691 [1:20:06<16:27,  2.01it/s] 81%|████████▏ | 8704/10691 [1:20:07<16:26,  2.01it/s] 81%|████████▏ | 8705/10691 [1:20:07<16:26,  2.01it/s] 81%|████████▏ | 8706/10691 [1:20:08<16:25,  2.01it/s] 81%|████████▏ | 8707/10691 [1:20:08<16:24,  2.02it/s] 81%|████████▏ | 8708/10691 [1:20:09<16:25,  2.01it/s] 81%|████████▏ | 8709/10691 [1:20:09<16:24,  2.01it/s] 81%|████████▏ | 8710/10691 [1:20:10<16:23,  2.01it/s] 81%|████████▏ | 8711/10691 [1:20:10<16:23,  2.01it/s] 81%|████████▏ | 8712/10691 [1:20:11<16:22,  2.01it/s] 81%|████████▏ | 8713/10691 [1:20:11<16:22,  2.01it/s] 82%|████████▏ | 8714/10691 [1:20:12<16:22,  2.01it/s] 82%|████████▏ | 8715/10691 [1:20:12<16:21,  2.01it/s] 82%|████████▏ | 8716/10691 [1:20:13<16:20,  2.01it/s] 82%|████████▏ | 8717/10691 [1:20:13<16:19,  2.01it/s] 82%|████████▏ | 8718/10691 [1:20:14<16:20,  2.01it/s] 82%|████████▏ | 8719/10691 [1:20:14<16:19,  2.01it/s] 82%|████████▏ | 8720/10691 [1:20:15<16:19,  2.01it/s] 82%|████████▏ | 8721/10691 [1:20:15<16:17,  2.01it/s] 82%|████████▏ | 8722/10691 [1:20:16<16:16,  2.02it/s] 82%|████████▏ | 8723/10691 [1:20:16<16:15,  2.02it/s] 82%|████████▏ | 8724/10691 [1:20:17<16:15,  2.02it/s] 82%|████████▏ | 8725/10691 [1:20:17<16:14,  2.02it/s]                                                      {'loss': 2.8934, 'grad_norm': 0.19611208140850067, 'learning_rate': 9.954044517369038e-05, 'epoch': 0.82}
+ 82%|████████▏ | 8725/10691 [1:20:17<16:14,  2.02it/s] 82%|████████▏ | 8726/10691 [1:20:18<16:16,  2.01it/s] 82%|████████▏ | 8727/10691 [1:20:18<16:17,  2.01it/s] 82%|████████▏ | 8728/10691 [1:20:19<16:15,  2.01it/s] 82%|████████▏ | 8729/10691 [1:20:19<16:15,  2.01it/s] 82%|████████▏ | 8730/10691 [1:20:20<16:13,  2.01it/s] 82%|████████▏ | 8731/10691 [1:20:20<16:12,  2.02it/s] 82%|████████▏ | 8732/10691 [1:20:21<16:12,  2.02it/s] 82%|████████▏ | 8733/10691 [1:20:21<16:12,  2.01it/s] 82%|████████▏ | 8734/10691 [1:20:22<16:11,  2.01it/s] 82%|████████▏ | 8735/10691 [1:20:22<16:12,  2.01it/s] 82%|████████▏ | 8736/10691 [1:20:23<16:10,  2.01it/s] 82%|████████▏ | 8737/10691 [1:20:23<16:10,  2.01it/s] 82%|████████▏ | 8738/10691 [1:20:24<16:09,  2.02it/s] 82%|████████▏ | 8739/10691 [1:20:24<16:09,  2.01it/s] 82%|████████▏ | 8740/10691 [1:20:25<16:11,  2.01it/s] 82%|████████▏ | 8741/10691 [1:20:25<16:08,  2.01it/s] 82%|████████▏ | 8742/10691 [1:20:26<16:08,  2.01it/s] 82%|████████▏ | 8743/10691 [1:20:26<16:09,  2.01it/s] 82%|████████▏ | 8744/10691 [1:20:27<16:07,  2.01it/s] 82%|████████▏ | 8745/10691 [1:20:27<16:07,  2.01it/s] 82%|████████▏ | 8746/10691 [1:20:28<16:06,  2.01it/s] 82%|████████▏ | 8747/10691 [1:20:28<16:05,  2.01it/s] 82%|████████▏ | 8748/10691 [1:20:29<16:05,  2.01it/s] 82%|████████▏ | 8749/10691 [1:20:29<16:04,  2.01it/s] 82%|████████▏ | 8750/10691 [1:20:30<16:04,  2.01it/s]                                                      {'loss': 2.9017, 'grad_norm': 0.20769301056861877, 'learning_rate': 9.710981366512744e-05, 'epoch': 0.82}
+ 82%|████████▏ | 8750/10691 [1:20:30<16:04,  2.01it/s] 82%|████████▏ | 8751/10691 [1:20:30<16:04,  2.01it/s] 82%|████████▏ | 8752/10691 [1:20:31<16:03,  2.01it/s] 82%|████████▏ | 8753/10691 [1:20:31<16:02,  2.01it/s] 82%|████████▏ | 8754/10691 [1:20:32<16:03,  2.01it/s] 82%|████████▏ | 8755/10691 [1:20:32<16:02,  2.01it/s] 82%|████████▏ | 8756/10691 [1:20:33<16:02,  2.01it/s] 82%|████████▏ | 8757/10691 [1:20:33<15:59,  2.01it/s] 82%|████████▏ | 8758/10691 [1:20:34<16:00,  2.01it/s] 82%|████████▏ | 8759/10691 [1:20:34<15:59,  2.01it/s] 82%|████████▏ | 8760/10691 [1:20:35<15:59,  2.01it/s] 82%|████████▏ | 8761/10691 [1:20:35<15:58,  2.01it/s] 82%|████████▏ | 8762/10691 [1:20:36<15:58,  2.01it/s] 82%|████████▏ | 8763/10691 [1:20:36<15:56,  2.02it/s] 82%|████████▏ | 8764/10691 [1:20:37<15:56,  2.01it/s] 82%|████████▏ | 8765/10691 [1:20:37<15:56,  2.01it/s] 82%|████████▏ | 8766/10691 [1:20:38<15:55,  2.01it/s] 82%|████████▏ | 8767/10691 [1:20:38<15:56,  2.01it/s] 82%|████████▏ | 8768/10691 [1:20:39<15:54,  2.01it/s] 82%|████████▏ | 8769/10691 [1:20:39<15:54,  2.01it/s] 82%|████████▏ | 8770/10691 [1:20:40<15:53,  2.02it/s] 82%|████████▏ | 8771/10691 [1:20:40<15:52,  2.02it/s] 82%|████████▏ | 8772/10691 [1:20:41<15:52,  2.02it/s] 82%|████████▏ | 8773/10691 [1:20:41<15:50,  2.02it/s] 82%|████████▏ | 8774/10691 [1:20:42<15:52,  2.01it/s] 82%|████████▏ | 8775/10691 [1:20:42<15:51,  2.01it/s]                                                      {'loss': 2.892, 'grad_norm': 0.20207805931568146, 'learning_rate': 9.470603087809703e-05, 'epoch': 0.82}
+ 82%|████████▏ | 8775/10691 [1:20:42<15:51,  2.01it/s] 82%|████████▏ | 8776/10691 [1:20:43<15:52,  2.01it/s] 82%|████████▏ | 8777/10691 [1:20:43<15:52,  2.01it/s] 82%|████████▏ | 8778/10691 [1:20:44<15:49,  2.01it/s] 82%|████████▏ | 8779/10691 [1:20:44<15:49,  2.01it/s] 82%|████████▏ | 8780/10691 [1:20:45<15:49,  2.01it/s] 82%|████████▏ | 8781/10691 [1:20:45<15:47,  2.01it/s] 82%|████████▏ | 8782/10691 [1:20:46<15:49,  2.01it/s] 82%|████████▏ | 8783/10691 [1:20:46<15:47,  2.01it/s] 82%|████████▏ | 8784/10691 [1:20:47<15:48,  2.01it/s] 82%|████████▏ | 8785/10691 [1:20:47<15:46,  2.01it/s] 82%|████████▏ | 8786/10691 [1:20:48<15:46,  2.01it/s] 82%|████████▏ | 8787/10691 [1:20:48<15:45,  2.01it/s] 82%|████████▏ | 8788/10691 [1:20:49<15:44,  2.01it/s] 82%|████████▏ | 8789/10691 [1:20:49<15:44,  2.01it/s] 82%|████████▏ | 8790/10691 [1:20:50<15:45,  2.01it/s] 82%|████████▏ | 8791/10691 [1:20:50<15:43,  2.01it/s] 82%|████████▏ | 8792/10691 [1:20:51<15:44,  2.01it/s] 82%|████████▏ | 8793/10691 [1:20:51<15:43,  2.01it/s] 82%|████████▏ | 8794/10691 [1:20:52<15:42,  2.01it/s] 82%|████████▏ | 8795/10691 [1:20:52<15:41,  2.01it/s] 82%|████████▏ | 8796/10691 [1:20:53<15:40,  2.02it/s] 82%|████████▏ | 8797/10691 [1:20:53<15:41,  2.01it/s] 82%|████████▏ | 8798/10691 [1:20:54<15:40,  2.01it/s] 82%|████████▏ | 8799/10691 [1:20:54<15:40,  2.01it/s] 82%|████████▏ | 8800/10691 [1:20:55<15:39,  2.01it/s]{'loss': 2.9038, 'grad_norm': 0.19903986155986786, 'learning_rate': 9.232925700139661e-05, 'epoch': 0.82}                                                      
+ 82%|████████▏ | 8800/10691 [1:20:55<15:39,  2.01it/s] 82%|████████▏ | 8801/10691 [1:20:55<15:38,  2.01it/s] 82%|████████▏ | 8802/10691 [1:20:56<15:38,  2.01it/s] 82%|████████▏ | 8803/10691 [1:20:56<15:36,  2.02it/s] 82%|████████▏ | 8804/10691 [1:20:57<15:35,  2.02it/s] 82%|████████▏ | 8805/10691 [1:20:57<15:36,  2.01it/s] 82%|████████▏ | 8806/10691 [1:20:58<15:35,  2.02it/s] 82%|████████▏ | 8807/10691 [1:20:58<15:36,  2.01it/s] 82%|████████▏ | 8808/10691 [1:20:59<15:35,  2.01it/s] 82%|████████▏ | 8809/10691 [1:20:59<15:35,  2.01it/s] 82%|████████▏ | 8810/10691 [1:21:00<15:33,  2.02it/s] 82%|████████▏ | 8811/10691 [1:21:00<15:32,  2.02it/s] 82%|████████▏ | 8812/10691 [1:21:00<15:31,  2.02it/s] 82%|████████▏ | 8813/10691 [1:21:01<15:31,  2.02it/s] 82%|████████▏ | 8814/10691 [1:21:01<15:31,  2.02it/s] 82%|████████▏ | 8815/10691 [1:21:02<15:31,  2.01it/s] 82%|████████▏ | 8816/10691 [1:21:02<15:30,  2.01it/s] 82%|████████▏ | 8817/10691 [1:21:03<15:30,  2.01it/s] 82%|████████▏ | 8818/10691 [1:21:03<15:30,  2.01it/s] 82%|████████▏ | 8819/10691 [1:21:04<15:30,  2.01it/s] 82%|████████▏ | 8820/10691 [1:21:04<15:29,  2.01it/s] 83%|████████▎ | 8821/10691 [1:21:05<15:29,  2.01it/s] 83%|████████▎ | 8822/10691 [1:21:05<15:27,  2.01it/s] 83%|████████▎ | 8823/10691 [1:21:06<17:55,  1.74it/s] 83%|████████▎ | 8824/10691 [1:21:07<17:10,  1.81it/s] 83%|████████▎ | 8825/10691 [1:21:07<16:38,  1.87it/s]{'loss': 2.8896, 'grad_norm': 0.19431166350841522, 'learning_rate': 8.997965042394252e-05, 'epoch': 0.83}                                                      
+ 83%|████████▎ | 8825/10691 [1:21:07<16:38,  1.87it/s] 83%|████████▎ | 8826/10691 [1:21:08<16:17,  1.91it/s] 83%|████████▎ | 8827/10691 [1:21:08<16:00,  1.94it/s] 83%|████████▎ | 8828/10691 [1:21:09<15:49,  1.96it/s] 83%|████████▎ | 8829/10691 [1:21:09<15:41,  1.98it/s] 83%|████████▎ | 8830/10691 [1:21:10<15:35,  1.99it/s] 83%|████████▎ | 8831/10691 [1:21:10<15:31,  2.00it/s] 83%|████████▎ | 8832/10691 [1:21:11<15:28,  2.00it/s] 83%|████████▎ | 8833/10691 [1:21:11<15:26,  2.01it/s] 83%|████████▎ | 8834/10691 [1:21:12<15:24,  2.01it/s] 83%|████████▎ | 8835/10691 [1:21:12<15:22,  2.01it/s] 83%|████████▎ | 8836/10691 [1:21:13<15:21,  2.01it/s] 83%|████████▎ | 8837/10691 [1:21:13<15:19,  2.02it/s] 83%|████████▎ | 8838/10691 [1:21:14<15:20,  2.01it/s] 83%|████████▎ | 8839/10691 [1:21:14<15:20,  2.01it/s] 83%|████████▎ | 8840/10691 [1:21:15<15:18,  2.02it/s] 83%|████████▎ | 8841/10691 [1:21:15<15:18,  2.01it/s] 83%|████████▎ | 8842/10691 [1:21:16<15:16,  2.02it/s] 83%|████████▎ | 8843/10691 [1:21:16<15:16,  2.02it/s] 83%|████████▎ | 8844/10691 [1:21:17<15:15,  2.02it/s] 83%|████████▎ | 8845/10691 [1:21:17<15:16,  2.01it/s] 83%|████████▎ | 8846/10691 [1:21:18<15:16,  2.01it/s] 83%|████████▎ | 8847/10691 [1:21:18<15:15,  2.01it/s] 83%|████████▎ | 8848/10691 [1:21:19<15:15,  2.01it/s] 83%|████████▎ | 8849/10691 [1:21:19<15:14,  2.01it/s] 83%|████████▎ | 8850/10691 [1:21:20<15:14,  2.01it/s]                                                      {'loss': 2.8996, 'grad_norm': 0.19854876399040222, 'learning_rate': 8.765736772421417e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8850/10691 [1:21:20<15:14,  2.01it/s] 83%|████████▎ | 8851/10691 [1:21:20<15:14,  2.01it/s] 83%|████████▎ | 8852/10691 [1:21:21<15:12,  2.01it/s] 83%|████████▎ | 8853/10691 [1:21:21<15:14,  2.01it/s] 83%|████████▎ | 8854/10691 [1:21:22<15:12,  2.01it/s] 83%|████████▎ | 8855/10691 [1:21:22<15:13,  2.01it/s] 83%|████████▎ | 8856/10691 [1:21:23<15:12,  2.01it/s] 83%|████████▎ | 8857/10691 [1:21:23<15:11,  2.01it/s] 83%|████████▎ | 8858/10691 [1:21:24<15:11,  2.01it/s] 83%|████████▎ | 8859/10691 [1:21:24<15:09,  2.01it/s] 83%|████████▎ | 8860/10691 [1:21:25<17:37,  1.73it/s] 83%|████████▎ | 8861/10691 [1:21:25<16:51,  1.81it/s] 83%|████████▎ | 8862/10691 [1:21:26<16:20,  1.87it/s] 83%|████████▎ | 8863/10691 [1:21:26<15:57,  1.91it/s] 83%|████████▎ | 8864/10691 [1:21:27<15:43,  1.94it/s] 83%|████████▎ | 8865/10691 [1:21:27<15:30,  1.96it/s] 83%|████████▎ | 8866/10691 [1:21:28<15:23,  1.98it/s] 83%|████████▎ | 8867/10691 [1:21:28<15:17,  1.99it/s] 83%|████████▎ | 8868/10691 [1:21:29<15:13,  2.00it/s] 83%|████████▎ | 8869/10691 [1:21:29<15:10,  2.00it/s] 83%|████████▎ | 8870/10691 [1:21:30<15:09,  2.00it/s] 83%|████████▎ | 8871/10691 [1:21:30<15:07,  2.01it/s] 83%|████████▎ | 8872/10691 [1:21:31<15:04,  2.01it/s] 83%|████████▎ | 8873/10691 [1:21:31<15:03,  2.01it/s] 83%|████████▎ | 8874/10691 [1:21:32<15:02,  2.01it/s] 83%|████████▎ | 8875/10691 [1:21:32<15:01,  2.01it/s]                                                      {'loss': 2.901, 'grad_norm': 0.19786107540130615, 'learning_rate': 8.53625636598196e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8875/10691 [1:21:32<15:01,  2.01it/s] 83%|████████▎ | 8876/10691 [1:21:33<15:01,  2.01it/s] 83%|████████▎ | 8877/10691 [1:21:33<15:00,  2.01it/s] 83%|████████▎ | 8878/10691 [1:21:34<15:00,  2.01it/s] 83%|████████▎ | 8879/10691 [1:21:34<14:58,  2.02it/s] 83%|████████▎ | 8880/10691 [1:21:35<14:57,  2.02it/s] 83%|████████▎ | 8881/10691 [1:21:35<14:56,  2.02it/s] 83%|████████▎ | 8882/10691 [1:21:36<14:57,  2.02it/s] 83%|████████▎ | 8883/10691 [1:21:36<14:57,  2.01it/s] 83%|████████▎ | 8884/10691 [1:21:37<14:56,  2.02it/s] 83%|████████▎ | 8885/10691 [1:21:37<14:54,  2.02it/s] 83%|████████▎ | 8886/10691 [1:21:38<14:53,  2.02it/s] 83%|████████▎ | 8887/10691 [1:21:38<14:52,  2.02it/s] 83%|████████▎ | 8888/10691 [1:21:39<14:52,  2.02it/s] 83%|████████▎ | 8889/10691 [1:21:39<14:53,  2.02it/s] 83%|████████▎ | 8890/10691 [1:21:40<14:54,  2.01it/s] 83%|████████▎ | 8891/10691 [1:21:40<14:53,  2.01it/s] 83%|████████▎ | 8892/10691 [1:21:41<14:53,  2.01it/s] 83%|████████▎ | 8893/10691 [1:21:41<14:51,  2.02it/s] 83%|████████▎ | 8894/10691 [1:21:42<14:50,  2.02it/s] 83%|████████▎ | 8895/10691 [1:21:42<14:50,  2.02it/s] 83%|████████▎ | 8896/10691 [1:21:43<14:50,  2.02it/s] 83%|████████▎ | 8897/10691 [1:21:43<14:50,  2.01it/s] 83%|████████▎ | 8898/10691 [1:21:44<14:49,  2.02it/s] 83%|████████▎ | 8899/10691 [1:21:44<14:49,  2.01it/s] 83%|████████▎ | 8900/10691 [1:21:45<14:48,  2.02it/s]                                                      {'loss': 2.888, 'grad_norm': 0.19371074438095093, 'learning_rate': 8.309539115718234e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8900/10691 [1:21:45<14:48,  2.02it/s] 83%|████████▎ | 8901/10691 [1:21:45<14:48,  2.01it/s] 83%|████████▎ | 8902/10691 [1:21:46<14:47,  2.01it/s] 83%|████████▎ | 8903/10691 [1:21:46<14:48,  2.01it/s] 83%|████████▎ | 8904/10691 [1:21:47<14:48,  2.01it/s] 83%|████████▎ | 8905/10691 [1:21:47<14:47,  2.01it/s] 83%|████████▎ | 8906/10691 [1:21:48<14:45,  2.01it/s] 83%|████████▎ | 8907/10691 [1:21:48<14:45,  2.01it/s] 83%|████████▎ | 8908/10691 [1:21:49<14:43,  2.02it/s] 83%|████████▎ | 8909/10691 [1:21:49<14:43,  2.02it/s] 83%|████████▎ | 8910/10691 [1:21:50<14:42,  2.02it/s] 83%|████████▎ | 8911/10691 [1:21:50<14:42,  2.02it/s] 83%|████████▎ | 8912/10691 [1:21:51<14:41,  2.02it/s] 83%|████████▎ | 8913/10691 [1:21:51<14:41,  2.02it/s] 83%|████████▎ | 8914/10691 [1:21:52<14:41,  2.02it/s] 83%|████████▎ | 8915/10691 [1:21:52<14:39,  2.02it/s] 83%|████████▎ | 8916/10691 [1:21:53<14:40,  2.02it/s] 83%|████████▎ | 8917/10691 [1:21:53<14:39,  2.02it/s] 83%|████████▎ | 8918/10691 [1:21:54<14:39,  2.02it/s] 83%|████████▎ | 8919/10691 [1:21:54<14:39,  2.01it/s] 83%|████████▎ | 8920/10691 [1:21:55<14:38,  2.02it/s] 83%|████████▎ | 8921/10691 [1:21:55<14:38,  2.01it/s] 83%|████████▎ | 8922/10691 [1:21:56<14:38,  2.01it/s] 83%|████████▎ | 8923/10691 [1:21:56<14:38,  2.01it/s] 83%|████████▎ | 8924/10691 [1:21:57<14:35,  2.02it/s] 83%|████████▎ | 8925/10691 [1:21:57<14:35,  2.02it/s]                                                      {'loss': 2.8901, 'grad_norm': 0.2118694931268692, 'learning_rate': 8.085600130135045e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8925/10691 [1:21:57<14:35,  2.02it/s] 83%|████████▎ | 8926/10691 [1:21:58<14:35,  2.02it/s] 84%|████████▎ | 8927/10691 [1:21:58<14:34,  2.02it/s] 84%|████████▎ | 8928/10691 [1:21:59<14:34,  2.02it/s] 84%|████████▎ | 8929/10691 [1:21:59<14:34,  2.01it/s] 84%|████████▎ | 8930/10691 [1:22:00<14:35,  2.01it/s] 84%|████████▎ | 8931/10691 [1:22:00<14:34,  2.01it/s] 84%|████████▎ | 8932/10691 [1:22:01<14:34,  2.01it/s] 84%|████████▎ | 8933/10691 [1:22:01<14:33,  2.01it/s] 84%|████████▎ | 8934/10691 [1:22:02<14:31,  2.02it/s] 84%|████████▎ | 8935/10691 [1:22:02<14:31,  2.01it/s] 84%|████████▎ | 8936/10691 [1:22:03<14:30,  2.02it/s] 84%|████████▎ | 8937/10691 [1:22:03<14:29,  2.02it/s] 84%|████████▎ | 8938/10691 [1:22:04<14:29,  2.02it/s] 84%|████████▎ | 8939/10691 [1:22:04<14:30,  2.01it/s] 84%|████████▎ | 8940/10691 [1:22:05<14:29,  2.01it/s] 84%|████████▎ | 8941/10691 [1:22:05<14:28,  2.01it/s] 84%|████████▎ | 8942/10691 [1:22:06<14:29,  2.01it/s] 84%|████████▎ | 8943/10691 [1:22:06<14:28,  2.01it/s] 84%|████████▎ | 8944/10691 [1:22:07<14:28,  2.01it/s] 84%|████████▎ | 8945/10691 [1:22:07<14:26,  2.01it/s] 84%|████████▎ | 8946/10691 [1:22:08<14:26,  2.01it/s] 84%|████████▎ | 8947/10691 [1:22:08<14:24,  2.02it/s] 84%|████████▎ | 8948/10691 [1:22:09<14:25,  2.01it/s] 84%|████████▎ | 8949/10691 [1:22:09<14:23,  2.02it/s] 84%|████████▎ | 8950/10691 [1:22:10<14:24,  2.01it/s]                                                      {'loss': 2.8919, 'grad_norm': 0.20397669076919556, 'learning_rate': 7.864454332592818e-05, 'epoch': 0.84}
+ 84%|████████▎ | 8950/10691 [1:22:10<14:24,  2.01it/s] 84%|████████▎ | 8951/10691 [1:22:10<14:25,  2.01it/s] 84%|████████▎ | 8952/10691 [1:22:11<14:23,  2.01it/s] 84%|████████▎ | 8953/10691 [1:22:11<14:22,  2.01it/s] 84%|████████▍ | 8954/10691 [1:22:12<14:21,  2.02it/s] 84%|████████▍ | 8955/10691 [1:22:12<14:22,  2.01it/s] 84%|████████▍ | 8956/10691 [1:22:13<14:22,  2.01it/s] 84%|████████▍ | 8957/10691 [1:22:13<14:22,  2.01it/s] 84%|████████▍ | 8958/10691 [1:22:14<14:21,  2.01it/s] 84%|████████▍ | 8959/10691 [1:22:14<14:19,  2.01it/s] 84%|████████▍ | 8960/10691 [1:22:14<14:19,  2.01it/s] 84%|████████▍ | 8961/10691 [1:22:15<14:18,  2.01it/s] 84%|████████▍ | 8962/10691 [1:22:15<14:18,  2.01it/s] 84%|████████▍ | 8963/10691 [1:22:16<14:17,  2.01it/s] 84%|████████▍ | 8964/10691 [1:22:16<14:16,  2.02it/s] 84%|████████▍ | 8965/10691 [1:22:17<14:16,  2.02it/s] 84%|████████▍ | 8966/10691 [1:22:17<14:16,  2.01it/s] 84%|████████▍ | 8967/10691 [1:22:18<14:15,  2.02it/s] 84%|████████▍ | 8968/10691 [1:22:18<14:14,  2.02it/s] 84%|████████▍ | 8969/10691 [1:22:19<14:13,  2.02it/s] 84%|████████▍ | 8970/10691 [1:22:19<14:13,  2.02it/s] 84%|████████▍ | 8971/10691 [1:22:20<14:12,  2.02it/s] 84%|████████▍ | 8972/10691 [1:22:20<14:12,  2.02it/s] 84%|████████▍ | 8973/10691 [1:22:21<14:12,  2.02it/s] 84%|████████▍ | 8974/10691 [1:22:21<14:12,  2.01it/s] 84%|████████▍ | 8975/10691 [1:22:22<14:11,  2.02it/s]                                                      {'loss': 2.8979, 'grad_norm': 0.19409297406673431, 'learning_rate': 7.646116460313135e-05, 'epoch': 0.84}
+ 84%|████████▍ | 8975/10691 [1:22:22<14:11,  2.02it/s] 84%|████████▍ | 8976/10691 [1:22:22<14:11,  2.01it/s] 84%|████████▍ | 8977/10691 [1:22:23<14:11,  2.01it/s] 84%|████████▍ | 8978/10691 [1:22:23<14:09,  2.02it/s] 84%|████████▍ | 8979/10691 [1:22:24<14:09,  2.01it/s] 84%|████████▍ | 8980/10691 [1:22:24<14:09,  2.01it/s] 84%|████████▍ | 8981/10691 [1:22:25<14:09,  2.01it/s] 84%|████████▍ | 8982/10691 [1:22:25<14:07,  2.02it/s] 84%|████████▍ | 8983/10691 [1:22:26<14:06,  2.02it/s] 84%|████████▍ | 8984/10691 [1:22:26<14:05,  2.02it/s] 84%|████████▍ | 8985/10691 [1:22:27<14:05,  2.02it/s] 84%|████████▍ | 8986/10691 [1:22:27<14:06,  2.01it/s] 84%|████████▍ | 8987/10691 [1:22:28<14:05,  2.01it/s] 84%|████████▍ | 8988/10691 [1:22:28<14:05,  2.02it/s] 84%|████████▍ | 8989/10691 [1:22:29<14:04,  2.02it/s] 84%|████████▍ | 8990/10691 [1:22:29<14:03,  2.02it/s] 84%|████████▍ | 8991/10691 [1:22:30<14:02,  2.02it/s] 84%|████████▍ | 8992/10691 [1:22:30<14:03,  2.01it/s] 84%|████████▍ | 8993/10691 [1:22:31<14:01,  2.02it/s] 84%|████████▍ | 8994/10691 [1:22:31<14:01,  2.02it/s] 84%|████████▍ | 8995/10691 [1:22:32<14:01,  2.01it/s] 84%|████████▍ | 8996/10691 [1:22:32<14:02,  2.01it/s] 84%|████████▍ | 8997/10691 [1:22:33<14:00,  2.01it/s] 84%|████████▍ | 8998/10691 [1:22:33<13:59,  2.02it/s] 84%|████████▍ | 8999/10691 [1:22:34<13:59,  2.02it/s] 84%|████████▍ | 9000/10691 [1:22:34<13:58,  2.02it/s]                                                      {'loss': 2.9033, 'grad_norm': 0.1939774751663208, 'learning_rate': 7.430601063396524e-05, 'epoch': 0.84}
+ 84%|████████▍ | 9000/10691 [1:22:34<13:58,  2.02it/s] 84%|████████▍ | 9001/10691 [1:22:35<13:59,  2.01it/s] 84%|████████▍ | 9002/10691 [1:22:35<13:59,  2.01it/s] 84%|████████▍ | 9003/10691 [1:22:36<13:59,  2.01it/s] 84%|████████▍ | 9004/10691 [1:22:36<13:57,  2.01it/s] 84%|████████▍ | 9005/10691 [1:22:37<13:57,  2.01it/s] 84%|████████▍ | 9006/10691 [1:22:37<13:56,  2.02it/s] 84%|████████▍ | 9007/10691 [1:22:38<13:55,  2.02it/s] 84%|████████▍ | 9008/10691 [1:22:38<13:55,  2.02it/s] 84%|████████▍ | 9009/10691 [1:22:39<13:54,  2.02it/s] 84%|████████▍ | 9010/10691 [1:22:39<13:53,  2.02it/s] 84%|████████▍ | 9011/10691 [1:22:40<13:54,  2.01it/s] 84%|████████▍ | 9012/10691 [1:22:40<13:54,  2.01it/s] 84%|████████▍ | 9013/10691 [1:22:41<13:53,  2.01it/s] 84%|████████▍ | 9014/10691 [1:22:41<13:52,  2.02it/s] 84%|████████▍ | 9015/10691 [1:22:42<13:52,  2.01it/s] 84%|████████▍ | 9016/10691 [1:22:42<13:51,  2.01it/s] 84%|████████▍ | 9017/10691 [1:22:43<13:50,  2.01it/s] 84%|████████▍ | 9018/10691 [1:22:43<13:50,  2.01it/s] 84%|████████▍ | 9019/10691 [1:22:44<13:49,  2.01it/s] 84%|████████▍ | 9020/10691 [1:22:44<13:49,  2.01it/s] 84%|████████▍ | 9021/10691 [1:22:45<13:49,  2.01it/s] 84%|████████▍ | 9022/10691 [1:22:45<13:48,  2.01it/s] 84%|████████▍ | 9023/10691 [1:22:46<13:48,  2.01it/s] 84%|████████▍ | 9024/10691 [1:22:46<13:47,  2.01it/s] 84%|████████▍ | 9025/10691 [1:22:47<13:48,  2.01it/s]{'loss': 2.8887, 'grad_norm': 0.1963229775428772, 'learning_rate': 7.217922503853009e-05, 'epoch': 0.84}                                                      
+ 84%|████████▍ | 9025/10691 [1:22:47<13:48,  2.01it/s] 84%|████████▍ | 9026/10691 [1:22:47<13:48,  2.01it/s] 84%|████████▍ | 9027/10691 [1:22:48<13:46,  2.01it/s] 84%|████████▍ | 9028/10691 [1:22:48<13:46,  2.01it/s] 84%|████████▍ | 9029/10691 [1:22:49<13:45,  2.01it/s] 84%|████████▍ | 9030/10691 [1:22:49<13:44,  2.01it/s] 84%|████████▍ | 9031/10691 [1:22:50<13:43,  2.02it/s] 84%|████████▍ | 9032/10691 [1:22:50<13:42,  2.02it/s] 84%|████████▍ | 9033/10691 [1:22:51<13:42,  2.02it/s] 85%|████████▍ | 9034/10691 [1:22:51<13:41,  2.02it/s] 85%|████████▍ | 9035/10691 [1:22:52<13:40,  2.02it/s] 85%|████████▍ | 9036/10691 [1:22:52<13:39,  2.02it/s] 85%|████████▍ | 9037/10691 [1:22:53<13:39,  2.02it/s] 85%|████████▍ | 9038/10691 [1:22:53<13:38,  2.02it/s] 85%|████████▍ | 9039/10691 [1:22:54<13:38,  2.02it/s] 85%|████████▍ | 9040/10691 [1:22:54<13:37,  2.02it/s] 85%|████████▍ | 9041/10691 [1:22:55<13:36,  2.02it/s] 85%|████████▍ | 9042/10691 [1:22:55<13:36,  2.02it/s] 85%|████████▍ | 9043/10691 [1:22:56<13:36,  2.02it/s] 85%|████████▍ | 9044/10691 [1:22:56<13:37,  2.02it/s] 85%|████████▍ | 9045/10691 [1:22:57<13:36,  2.02it/s] 85%|████████▍ | 9046/10691 [1:22:57<13:36,  2.01it/s] 85%|████████▍ | 9047/10691 [1:22:58<13:35,  2.02it/s] 85%|████████▍ | 9048/10691 [1:22:58<13:35,  2.02it/s] 85%|████████▍ | 9049/10691 [1:22:59<13:34,  2.02it/s] 85%|████████▍ | 9050/10691 [1:22:59<13:34,  2.01it/s]                                                      {'loss': 2.8985, 'grad_norm': 0.20279984176158905, 'learning_rate': 7.008094954644866e-05, 'epoch': 0.85}
+ 85%|████████▍ | 9050/10691 [1:22:59<13:34,  2.01it/s] 85%|████████▍ | 9051/10691 [1:23:00<13:36,  2.01it/s] 85%|████████▍ | 9052/10691 [1:23:00<13:34,  2.01it/s] 85%|████████▍ | 9053/10691 [1:23:01<13:33,  2.01it/s] 85%|████████▍ | 9054/10691 [1:23:01<13:33,  2.01it/s] 85%|████████▍ | 9055/10691 [1:23:02<13:31,  2.02it/s] 85%|████████▍ | 9056/10691 [1:23:02<13:31,  2.01it/s] 85%|████████▍ | 9057/10691 [1:23:03<13:31,  2.01it/s] 85%|████████▍ | 9058/10691 [1:23:03<13:30,  2.02it/s] 85%|████████▍ | 9059/10691 [1:23:04<13:30,  2.01it/s] 85%|████████▍ | 9060/10691 [1:23:04<13:30,  2.01it/s] 85%|████████▍ | 9061/10691 [1:23:05<13:30,  2.01it/s] 85%|████████▍ | 9062/10691 [1:23:05<13:29,  2.01it/s] 85%|████████▍ | 9063/10691 [1:23:06<13:28,  2.01it/s] 85%|████████▍ | 9064/10691 [1:23:06<13:28,  2.01it/s] 85%|████████▍ | 9065/10691 [1:23:07<13:27,  2.01it/s] 85%|████████▍ | 9066/10691 [1:23:07<13:27,  2.01it/s] 85%|████████▍ | 9067/10691 [1:23:08<13:26,  2.01it/s] 85%|████████▍ | 9068/10691 [1:23:08<13:25,  2.02it/s] 85%|████████▍ | 9069/10691 [1:23:09<13:26,  2.01it/s] 85%|████████▍ | 9070/10691 [1:23:09<13:25,  2.01it/s] 85%|████████▍ | 9071/10691 [1:23:10<13:25,  2.01it/s] 85%|████████▍ | 9072/10691 [1:23:10<13:24,  2.01it/s] 85%|████████▍ | 9073/10691 [1:23:11<13:24,  2.01it/s] 85%|████████▍ | 9074/10691 [1:23:11<13:22,  2.01it/s] 85%|████████▍ | 9075/10691 [1:23:12<13:21,  2.02it/s]{'loss': 2.8922, 'grad_norm': 0.1990915834903717, 'learning_rate': 6.801132398742227e-05, 'epoch': 0.85}                                                      
+ 85%|████████▍ | 9075/10691 [1:23:12<13:21,  2.02it/s] 85%|████████▍ | 9076/10691 [1:23:12<13:23,  2.01it/s] 85%|████████▍ | 9077/10691 [1:23:13<13:24,  2.01it/s] 85%|████████▍ | 9078/10691 [1:23:13<13:24,  2.01it/s] 85%|████████▍ | 9079/10691 [1:23:14<13:22,  2.01it/s] 85%|████████▍ | 9080/10691 [1:23:14<13:21,  2.01it/s] 85%|████████▍ | 9081/10691 [1:23:15<13:20,  2.01it/s] 85%|████████▍ | 9082/10691 [1:23:15<13:19,  2.01it/s] 85%|████████▍ | 9083/10691 [1:23:16<13:18,  2.01it/s] 85%|████████▍ | 9084/10691 [1:23:16<13:16,  2.02it/s] 85%|████████▍ | 9085/10691 [1:23:17<13:17,  2.01it/s] 85%|████████▍ | 9086/10691 [1:23:17<13:16,  2.01it/s] 85%|████████▍ | 9087/10691 [1:23:18<13:16,  2.01it/s] 85%|████████▌ | 9088/10691 [1:23:18<13:15,  2.01it/s] 85%|████████▌ | 9089/10691 [1:23:19<13:15,  2.01it/s] 85%|████████▌ | 9090/10691 [1:23:19<13:15,  2.01it/s] 85%|████████▌ | 9091/10691 [1:23:20<13:14,  2.01it/s] 85%|████████▌ | 9092/10691 [1:23:20<13:13,  2.02it/s] 85%|████████▌ | 9093/10691 [1:23:21<13:12,  2.02it/s] 85%|████████▌ | 9094/10691 [1:23:21<13:12,  2.02it/s] 85%|████████▌ | 9095/10691 [1:23:22<13:11,  2.02it/s] 85%|████████▌ | 9096/10691 [1:23:22<13:12,  2.01it/s] 85%|████████▌ | 9097/10691 [1:23:23<13:11,  2.01it/s] 85%|████████▌ | 9098/10691 [1:23:23<13:10,  2.02it/s] 85%|████████▌ | 9099/10691 [1:23:23<13:10,  2.01it/s] 85%|████████▌ | 9100/10691 [1:23:24<13:09,  2.02it/s]                                                      {'loss': 2.8894, 'grad_norm': 0.19700944423675537, 'learning_rate': 6.59704862819121e-05, 'epoch': 0.85}
+ 85%|████████▌ | 9100/10691 [1:23:24<13:09,  2.02it/s] 85%|████████▌ | 9101/10691 [1:23:24<13:10,  2.01it/s] 85%|████████▌ | 9102/10691 [1:23:25<13:09,  2.01it/s] 85%|████████▌ | 9103/10691 [1:23:25<13:09,  2.01it/s] 85%|████████▌ | 9104/10691 [1:23:26<13:08,  2.01it/s] 85%|████████▌ | 9105/10691 [1:23:26<13:08,  2.01it/s] 85%|████████▌ | 9106/10691 [1:23:27<13:07,  2.01it/s] 85%|████████▌ | 9107/10691 [1:23:27<13:06,  2.01it/s] 85%|████████▌ | 9108/10691 [1:23:28<13:05,  2.02it/s] 85%|████████▌ | 9109/10691 [1:23:28<13:06,  2.01it/s] 85%|████████▌ | 9110/10691 [1:23:29<13:05,  2.01it/s] 85%|████████▌ | 9111/10691 [1:23:29<13:04,  2.01it/s] 85%|████████▌ | 9112/10691 [1:23:30<13:03,  2.02it/s] 85%|████████▌ | 9113/10691 [1:23:30<13:02,  2.02it/s] 85%|████████▌ | 9114/10691 [1:23:31<13:03,  2.01it/s] 85%|████████▌ | 9115/10691 [1:23:31<13:01,  2.02it/s] 85%|████████▌ | 9116/10691 [1:23:32<13:02,  2.01it/s] 85%|████████▌ | 9117/10691 [1:23:32<13:02,  2.01it/s] 85%|████████▌ | 9118/10691 [1:23:33<13:00,  2.02it/s] 85%|████████▌ | 9119/10691 [1:23:33<13:00,  2.01it/s] 85%|████████▌ | 9120/10691 [1:23:34<12:59,  2.02it/s] 85%|████████▌ | 9121/10691 [1:23:34<12:58,  2.02it/s] 85%|████████▌ | 9122/10691 [1:23:35<12:59,  2.01it/s] 85%|████████▌ | 9123/10691 [1:23:35<12:58,  2.01it/s] 85%|████████▌ | 9124/10691 [1:23:36<12:57,  2.01it/s] 85%|████████▌ | 9125/10691 [1:23:36<12:57,  2.01it/s]{'loss': 2.8882, 'grad_norm': 0.19781555235385895, 'learning_rate': 6.395857243194807e-05, 'epoch': 0.85}                                                      
+ 85%|████████▌ | 9125/10691 [1:23:36<12:57,  2.01it/s] 85%|████████▌ | 9126/10691 [1:23:37<12:58,  2.01it/s] 85%|████████▌ | 9127/10691 [1:23:37<12:58,  2.01it/s] 85%|████████▌ | 9128/10691 [1:23:38<12:57,  2.01it/s] 85%|████████▌ | 9129/10691 [1:23:38<12:56,  2.01it/s] 85%|████████▌ | 9130/10691 [1:23:39<12:56,  2.01it/s] 85%|████████▌ | 9131/10691 [1:23:39<12:55,  2.01it/s] 85%|████████▌ | 9132/10691 [1:23:40<12:53,  2.01it/s] 85%|████████▌ | 9133/10691 [1:23:40<12:54,  2.01it/s] 85%|████████▌ | 9134/10691 [1:23:41<12:53,  2.01it/s] 85%|████████▌ | 9135/10691 [1:23:41<12:52,  2.01it/s] 85%|████████▌ | 9136/10691 [1:23:42<12:51,  2.02it/s] 85%|████████▌ | 9137/10691 [1:23:42<12:51,  2.01it/s] 85%|████████▌ | 9138/10691 [1:23:43<12:50,  2.02it/s] 85%|████████▌ | 9139/10691 [1:23:43<12:50,  2.01it/s] 85%|████████▌ | 9140/10691 [1:23:44<12:49,  2.02it/s] 86%|████████▌ | 9141/10691 [1:23:44<12:48,  2.02it/s] 86%|████████▌ | 9142/10691 [1:23:45<12:48,  2.02it/s] 86%|████████▌ | 9143/10691 [1:23:45<12:48,  2.01it/s] 86%|████████▌ | 9144/10691 [1:23:46<12:47,  2.01it/s] 86%|████████▌ | 9145/10691 [1:23:46<12:47,  2.01it/s] 86%|████████▌ | 9146/10691 [1:23:47<12:46,  2.01it/s] 86%|████████▌ | 9147/10691 [1:23:47<12:45,  2.02it/s] 86%|████████▌ | 9148/10691 [1:23:48<12:46,  2.01it/s] 86%|████████▌ | 9149/10691 [1:23:48<12:44,  2.02it/s] 86%|████████▌ | 9150/10691 [1:23:49<12:45,  2.01it/s]                                                      {'loss': 2.8951, 'grad_norm': 0.1990298181772232, 'learning_rate': 6.197571651206629e-05, 'epoch': 0.86}
+ 86%|████████▌ | 9150/10691 [1:23:49<12:45,  2.01it/s] 86%|████████▌ | 9151/10691 [1:23:49<12:45,  2.01it/s] 86%|████████▌ | 9152/10691 [1:23:50<12:44,  2.01it/s] 86%|████████▌ | 9153/10691 [1:23:50<12:44,  2.01it/s] 86%|████████▌ | 9154/10691 [1:23:51<12:44,  2.01it/s] 86%|████████▌ | 9155/10691 [1:23:51<12:43,  2.01it/s] 86%|████████▌ | 9156/10691 [1:23:52<12:43,  2.01it/s] 86%|████████▌ | 9157/10691 [1:23:52<12:41,  2.01it/s] 86%|████████▌ | 9158/10691 [1:23:53<12:41,  2.01it/s] 86%|████████▌ | 9159/10691 [1:23:53<12:41,  2.01it/s] 86%|████████▌ | 9160/10691 [1:23:54<12:40,  2.01it/s] 86%|████████▌ | 9161/10691 [1:23:54<12:39,  2.01it/s] 86%|████████▌ | 9162/10691 [1:23:55<12:38,  2.02it/s] 86%|████████▌ | 9163/10691 [1:23:55<12:37,  2.02it/s] 86%|████████▌ | 9164/10691 [1:23:56<12:37,  2.02it/s] 86%|████████▌ | 9165/10691 [1:23:56<12:36,  2.02it/s] 86%|████████▌ | 9166/10691 [1:23:57<12:37,  2.01it/s] 86%|████████▌ | 9167/10691 [1:23:57<12:36,  2.02it/s] 86%|████████▌ | 9168/10691 [1:23:58<12:35,  2.01it/s] 86%|████████▌ | 9169/10691 [1:23:58<12:34,  2.02it/s] 86%|████████▌ | 9170/10691 [1:23:59<12:34,  2.02it/s] 86%|████████▌ | 9171/10691 [1:23:59<12:34,  2.01it/s] 86%|████████▌ | 9172/10691 [1:24:00<12:33,  2.02it/s] 86%|████████▌ | 9173/10691 [1:24:00<12:32,  2.02it/s] 86%|████████▌ | 9174/10691 [1:24:01<12:33,  2.01it/s] 86%|████████▌ | 9175/10691 [1:24:01<12:32,  2.01it/s]                                                      {'loss': 2.8941, 'grad_norm': 0.19072484970092773, 'learning_rate': 6.002205066037342e-05, 'epoch': 0.86}
+ 86%|████████▌ | 9175/10691 [1:24:01<12:32,  2.01it/s] 86%|████████▌ | 9176/10691 [1:24:02<12:33,  2.01it/s] 86%|████████▌ | 9177/10691 [1:24:02<12:33,  2.01it/s] 86%|████████▌ | 9178/10691 [1:24:03<12:32,  2.01it/s] 86%|████████▌ | 9179/10691 [1:24:03<12:30,  2.01it/s] 86%|████████▌ | 9180/10691 [1:24:04<12:29,  2.02it/s] 86%|██████��█▌ | 9181/10691 [1:24:04<12:29,  2.01it/s] 86%|████████▌ | 9182/10691 [1:24:05<12:30,  2.01it/s] 86%|████████▌ | 9183/10691 [1:24:05<12:29,  2.01it/s] 86%|████████▌ | 9184/10691 [1:24:06<12:28,  2.01it/s] 86%|████████▌ | 9185/10691 [1:24:06<12:27,  2.01it/s] 86%|████████▌ | 9186/10691 [1:24:07<12:27,  2.01it/s] 86%|████████▌ | 9187/10691 [1:24:07<12:27,  2.01it/s] 86%|████████▌ | 9188/10691 [1:24:08<12:26,  2.01it/s] 86%|████████▌ | 9189/10691 [1:24:08<12:25,  2.01it/s] 86%|████████▌ | 9190/10691 [1:24:09<12:25,  2.01it/s] 86%|████████▌ | 9191/10691 [1:24:09<12:24,  2.01it/s] 86%|████████▌ | 9192/10691 [1:24:10<12:25,  2.01it/s] 86%|████████▌ | 9193/10691 [1:24:10<12:23,  2.01it/s] 86%|████████▌ | 9194/10691 [1:24:11<12:23,  2.01it/s] 86%|████████▌ | 9195/10691 [1:24:11<12:24,  2.01it/s] 86%|████████▌ | 9196/10691 [1:24:12<12:23,  2.01it/s] 86%|████████▌ | 9197/10691 [1:24:12<12:22,  2.01it/s] 86%|████████▌ | 9198/10691 [1:24:13<12:20,  2.02it/s] 86%|████████▌ | 9199/10691 [1:24:13<12:21,  2.01it/s] 86%|████████▌ | 9200/10691 [1:24:14<12:21,  2.01it/s]                                                      {'loss': 2.8891, 'grad_norm': 0.19678565859794617, 'learning_rate': 5.809770506974094e-05, 'epoch': 0.86}
+ 86%|████████▌ | 9200/10691 [1:24:14<12:21,  2.01it/s] 86%|████████▌ | 9201/10691 [1:24:14<12:20,  2.01it/s] 86%|████████▌ | 9202/10691 [1:24:15<12:20,  2.01it/s] 86%|████████▌ | 9203/10691 [1:24:15<12:18,  2.01it/s] 86%|████████▌ | 9204/10691 [1:24:16<12:18,  2.01it/s] 86%|████████▌ | 9205/10691 [1:24:16<12:17,  2.01it/s] 86%|████████▌ | 9206/10691 [1:24:17<12:16,  2.02it/s] 86%|████████▌ | 9207/10691 [1:24:17<12:18,  2.01it/s] 86%|████████▌ | 9208/10691 [1:24:18<12:16,  2.01it/s] 86%|████████▌ | 9209/10691 [1:24:18<12:16,  2.01it/s] 86%|████████▌ | 9210/10691 [1:24:19<12:14,  2.02it/s] 86%|████████▌ | 9211/10691 [1:24:19<12:15,  2.01it/s] 86%|████████▌ | 9212/10691 [1:24:20<12:14,  2.01it/s] 86%|████████▌ | 9213/10691 [1:24:20<12:14,  2.01it/s] 86%|████████▌ | 9214/10691 [1:24:21<12:14,  2.01it/s] 86%|████████▌ | 9215/10691 [1:24:21<12:13,  2.01it/s] 86%|████████▌ | 9216/10691 [1:24:22<12:12,  2.01it/s] 86%|████████▌ | 9217/10691 [1:24:22<12:11,  2.02it/s] 86%|████████▌ | 9218/10691 [1:24:23<12:11,  2.01it/s] 86%|████████▌ | 9219/10691 [1:24:23<12:10,  2.02it/s] 86%|████████▌ | 9220/10691 [1:24:24<12:09,  2.02it/s] 86%|████████▋ | 9221/10691 [1:24:24<12:10,  2.01it/s] 86%|████████▋ | 9222/10691 [1:24:25<12:09,  2.01it/s] 86%|████████▋ | 9223/10691 [1:24:25<12:09,  2.01it/s] 86%|████████▋ | 9224/10691 [1:24:26<12:07,  2.02it/s] 86%|████████▋ | 9225/10691 [1:24:26<12:07,  2.01it/s]                                                      {'loss': 2.8908, 'grad_norm': 0.19702011346817017, 'learning_rate': 5.62028079791303e-05, 'epoch': 0.86}
+ 86%|████████▋ | 9225/10691 [1:24:26<12:07,  2.01it/s] 86%|████████▋ | 9226/10691 [1:24:27<12:09,  2.01it/s] 86%|████████▋ | 9227/10691 [1:24:27<12:07,  2.01it/s] 86%|████████▋ | 9228/10691 [1:24:28<12:07,  2.01it/s] 86%|████████▋ | 9229/10691 [1:24:28<12:06,  2.01it/s] 86%|████████▋ | 9230/10691 [1:24:29<12:05,  2.01it/s] 86%|████████▋ | 9231/10691 [1:24:29<12:05,  2.01it/s] 86%|████████▋ | 9232/10691 [1:24:30<12:04,  2.01it/s] 86%|████████▋ | 9233/10691 [1:24:30<12:05,  2.01it/s] 86%|████████▋ | 9234/10691 [1:24:31<12:04,  2.01it/s] 86%|████████▋ | 9235/10691 [1:24:31<12:02,  2.01it/s] 86%|████████▋ | 9236/10691 [1:24:32<12:02,  2.01it/s] 86%|████████▋ | 9237/10691 [1:24:32<12:01,  2.02it/s] 86%|████████▋ | 9238/10691 [1:24:33<12:01,  2.01it/s] 86%|████████▋ | 9239/10691 [1:24:33<12:01,  2.01it/s] 86%|████████▋ | 9240/10691 [1:24:34<11:59,  2.02it/s] 86%|████████▋ | 9241/10691 [1:24:34<11:59,  2.01it/s] 86%|████████▋ | 9242/10691 [1:24:35<11:59,  2.01it/s] 86%|████████▋ | 9243/10691 [1:24:35<11:58,  2.01it/s] 86%|████████▋ | 9244/10691 [1:24:36<11:57,  2.02it/s] 86%|████████▋ | 9245/10691 [1:24:36<11:57,  2.02it/s] 86%|████████▋ | 9246/10691 [1:24:37<11:58,  2.01it/s] 86%|████████▋ | 9247/10691 [1:24:37<11:57,  2.01it/s] 87%|████████▋ | 9248/10691 [1:24:37<11:56,  2.01it/s] 87%|████████▋ | 9249/10691 [1:24:38<11:55,  2.02it/s] 87%|████████▋ | 9250/10691 [1:24:38<11:54,  2.02it/s]                                                      {'loss': 2.8853, 'grad_norm': 0.19666235148906708, 'learning_rate': 5.433748566504559e-05, 'epoch': 0.87}
+ 87%|████████▋ | 9250/10691 [1:24:38<11:54,  2.02it/s] 87%|████████▋ | 9251/10691 [1:24:39<11:56,  2.01it/s] 87%|████████▋ | 9252/10691 [1:24:39<11:55,  2.01it/s] 87%|████████▋ | 9253/10691 [1:24:40<11:54,  2.01it/s] 87%|████████▋ | 9254/10691 [1:24:40<11:54,  2.01it/s] 87%|████████▋ | 9255/10691 [1:24:41<11:53,  2.01it/s] 87%|████████▋ | 9256/10691 [1:24:41<11:53,  2.01it/s] 87%|████████▋ | 9257/10691 [1:24:42<11:53,  2.01it/s] 87%|████████▋ | 9258/10691 [1:24:42<11:52,  2.01it/s] 87%|████████▋ | 9259/10691 [1:24:43<11:52,  2.01it/s] 87%|████████▋ | 9260/10691 [1:24:43<11:51,  2.01it/s] 87%|████████▋ | 9261/10691 [1:24:44<11:50,  2.01it/s] 87%|████████▋ | 9262/10691 [1:24:44<11:51,  2.01it/s] 87%|████████▋ | 9263/10691 [1:24:45<11:49,  2.01it/s] 87%|████████▋ | 9264/10691 [1:24:45<11:49,  2.01it/s] 87%|████████▋ | 9265/10691 [1:24:46<11:47,  2.02it/s] 87%|████████▋ | 9266/10691 [1:24:46<11:47,  2.01it/s] 87%|████████▋ | 9267/10691 [1:24:47<11:46,  2.01it/s] 87%|████████▋ | 9268/10691 [1:24:47<11:46,  2.01it/s] 87%|████████▋ | 9269/10691 [1:24:48<11:45,  2.01it/s] 87%|████████▋ | 9270/10691 [1:24:48<11:46,  2.01it/s] 87%|████████▋ | 9271/10691 [1:24:49<11:45,  2.01it/s] 87%|████████▋ | 9272/10691 [1:24:49<11:45,  2.01it/s] 87%|████████▋ | 9273/10691 [1:24:50<11:44,  2.01it/s] 87%|████████▋ | 9274/10691 [1:24:50<11:43,  2.01it/s] 87%|████████▋ | 9275/10691 [1:24:51<11:43,  2.01it/s]{'loss': 2.8814, 'grad_norm': 0.19945062696933746, 'learning_rate': 5.2501862433119106e-05, 'epoch': 0.87}
+                                                       87%|████████▋ | 9275/10691 [1:24:51<11:43,  2.01it/s] 87%|████████▋ | 9276/10691 [1:24:51<11:43,  2.01it/s] 87%|████████▋ | 9277/10691 [1:24:52<11:43,  2.01it/s] 87%|████████▋ | 9278/10691 [1:24:52<11:42,  2.01it/s] 87%|████████▋ | 9279/10691 [1:24:53<11:41,  2.01it/s] 87%|████████▋ | 9280/10691 [1:24:53<11:42,  2.01it/s] 87%|████████▋ | 9281/10691 [1:24:54<11:40,  2.01it/s] 87%|████████▋ | 9282/10691 [1:24:54<11:40,  2.01it/s] 87%|████████▋ | 9283/10691 [1:24:55<11:39,  2.01it/s] 87%|████████▋ | 9284/10691 [1:24:55<11:38,  2.01it/s] 87%|████████▋ | 9285/10691 [1:24:56<11:38,  2.01it/s] 87%|████████▋ | 9286/10691 [1:24:56<11:37,  2.02it/s] 87%|████████▋ | 9287/10691 [1:24:57<11:36,  2.01it/s] 87%|████████▋ | 9288/10691 [1:24:57<11:36,  2.01it/s] 87%|████████▋ | 9289/10691 [1:24:58<11:36,  2.01it/s] 87%|████████▋ | 9290/10691 [1:24:58<11:36,  2.01it/s] 87%|████████▋ | 9291/10691 [1:24:59<11:35,  2.01it/s] 87%|████████▋ | 9292/10691 [1:24:59<11:34,  2.01it/s] 87%|████████▋ | 9293/10691 [1:25:00<11:34,  2.01it/s] 87%|████████▋ | 9294/10691 [1:25:00<11:32,  2.02it/s] 87%|████████▋ | 9295/10691 [1:25:01<11:32,  2.02it/s] 87%|████████▋ | 9296/10691 [1:25:01<11:31,  2.02it/s] 87%|████████▋ | 9297/10691 [1:25:02<11:31,  2.01it/s] 87%|████████▋ | 9298/10691 [1:25:02<11:31,  2.02it/s] 87%|████████▋ | 9299/10691 [1:25:03<11:31,  2.01it/s] 87%|████████▋ | 9300/10691 [1:25:03<11:31,  2.01it/s]{'loss': 2.8887, 'grad_norm': 0.1990669220685959, 'learning_rate': 5.069606060982762e-05, 'epoch': 0.87}                                                      
+ 87%|████████▋ | 9300/10691 [1:25:03<11:31,  2.01it/s] 87%|████████▋ | 9301/10691 [1:25:04<11:30,  2.01it/s] 87%|████████▋ | 9302/10691 [1:25:04<11:29,  2.01it/s] 87%|████████▋ | 9303/10691 [1:25:05<11:28,  2.02it/s] 87%|████████▋ | 9304/10691 [1:25:05<11:28,  2.02it/s] 87%|████████▋ | 9305/10691 [1:25:06<11:27,  2.02it/s] 87%|████████▋ | 9306/10691 [1:25:06<11:27,  2.01it/s] 87%|████████▋ | 9307/10691 [1:25:07<11:27,  2.01it/s] 87%|████████▋ | 9308/10691 [1:25:07<11:26,  2.01it/s] 87%|████████▋ | 9309/10691 [1:25:08<11:26,  2.01it/s] 87%|████████▋ | 9310/10691 [1:25:08<11:26,  2.01it/s] 87%|████████▋ | 9311/10691 [1:25:09<11:24,  2.01it/s] 87%|████████▋ | 9312/10691 [1:25:09<11:24,  2.01it/s] 87%|████████▋ | 9313/10691 [1:25:10<11:23,  2.02it/s] 87%|████████▋ | 9314/10691 [1:25:10<11:23,  2.02it/s] 87%|████████▋ | 9315/10691 [1:25:11<11:22,  2.02it/s] 87%|████████▋ | 9316/10691 [1:25:11<11:22,  2.02it/s] 87%|████████▋ | 9317/10691 [1:25:12<11:22,  2.01it/s] 87%|████████▋ | 9318/10691 [1:25:12<11:21,  2.02it/s] 87%|████████▋ | 9319/10691 [1:25:13<11:21,  2.01it/s] 87%|████████▋ | 9320/10691 [1:25:13<11:20,  2.01it/s] 87%|████████▋ | 9321/10691 [1:25:14<11:20,  2.01it/s] 87%|████████▋ | 9322/10691 [1:25:14<11:19,  2.01it/s] 87%|████████▋ | 9323/10691 [1:25:15<11:19,  2.01it/s] 87%|████████▋ | 9324/10691 [1:25:15<11:19,  2.01it/s] 87%|████████▋ | 9325/10691 [1:25:16<11:19,  2.01it/s]                                                      {'loss': 2.8951, 'grad_norm': 0.19581599533557892, 'learning_rate': 4.892020053434021e-05, 'epoch': 0.87}
+ 87%|████████▋ | 9325/10691 [1:25:16<11:19,  2.01it/s] 87%|████████▋ | 9326/10691 [1:25:16<11:19,  2.01it/s] 87%|████████▋ | 9327/10691 [1:25:17<11:18,  2.01it/s] 87%|████████▋ | 9328/10691 [1:25:17<11:16,  2.01it/s] 87%|████████▋ | 9329/10691 [1:25:18<11:16,  2.01it/s] 87%|████████▋ | 9330/10691 [1:25:18<11:15,  2.01it/s] 87%|████████▋ | 9331/10691 [1:25:19<11:15,  2.01it/s] 87%|████████▋ | 9332/10691 [1:25:19<11:15,  2.01it/s] 87%|████████▋ | 9333/10691 [1:25:20<11:14,  2.01it/s] 87%|████████▋ | 9334/10691 [1:25:20<11:13,  2.02it/s] 87%|████████▋ | 9335/10691 [1:25:21<11:13,  2.01it/s] 87%|████████▋ | 9336/10691 [1:25:21<11:12,  2.02it/s] 87%|████████▋ | 9337/10691 [1:25:22<11:11,  2.02it/s] 87%|████████▋ | 9338/10691 [1:25:22<11:11,  2.01it/s] 87%|████████▋ | 9339/10691 [1:25:23<11:11,  2.01it/s] 87%|████████▋ | 9340/10691 [1:25:23<11:10,  2.02it/s] 87%|████████▋ | 9341/10691 [1:25:24<11:09,  2.02it/s] 87%|████████▋ | 9342/10691 [1:25:24<11:09,  2.02it/s] 87%|████████▋ | 9343/10691 [1:25:25<11:08,  2.02it/s] 87%|████████▋ | 9344/10691 [1:25:25<11:08,  2.02it/s] 87%|████████▋ | 9345/10691 [1:25:26<11:08,  2.01it/s] 87%|████████▋ | 9346/10691 [1:25:26<11:07,  2.01it/s] 87%|████████▋ | 9347/10691 [1:25:27<11:07,  2.01it/s] 87%|████████▋ | 9348/10691 [1:25:27<11:07,  2.01it/s] 87%|████████▋ | 9349/10691 [1:25:28<11:07,  2.01it/s] 87%|████████▋ | 9350/10691 [1:25:28<11:06,  2.01it/s]{'loss': 2.8943, 'grad_norm': 0.1946120411157608, 'learning_rate': 4.717440055049926e-05, 'epoch': 0.87}
+                                                       87%|████████▋ | 9350/10691 [1:25:28<11:06,  2.01it/s] 87%|████████▋ | 9351/10691 [1:25:29<11:05,  2.01it/s] 87%|████████▋ | 9352/10691 [1:25:29<11:05,  2.01it/s] 87%|████████▋ | 9353/10691 [1:25:30<11:05,  2.01it/s] 87%|████████▋ | 9354/10691 [1:25:30<11:05,  2.01it/s] 88%|████████▊ | 9355/10691 [1:25:31<11:04,  2.01it/s] 88%|████████▊ | 9356/10691 [1:25:31<11:03,  2.01it/s] 88%|████████▊ | 9357/10691 [1:25:32<11:03,  2.01it/s] 88%|████████▊ | 9358/10691 [1:25:32<11:02,  2.01it/s] 88%|████████▊ | 9359/10691 [1:25:33<11:02,  2.01it/s] 88%|████████▊ | 9360/10691 [1:25:33<11:01,  2.01it/s] 88%|████████▊ | 9361/10691 [1:25:34<11:00,  2.01it/s] 88%|████████▊ | 9362/10691 [1:25:34<10:59,  2.01it/s] 88%|████████▊ | 9363/10691 [1:25:35<10:59,  2.01it/s] 88%|████████▊ | 9364/10691 [1:25:35<10:59,  2.01it/s] 88%|████████▊ | 9365/10691 [1:25:36<10:57,  2.02it/s] 88%|████████▊ | 9366/10691 [1:25:36<10:58,  2.01it/s] 88%|████████▊ | 9367/10691 [1:25:37<10:57,  2.01it/s] 88%|████████▊ | 9368/10691 [1:25:37<10:56,  2.01it/s] 88%|████████▊ | 9369/10691 [1:25:38<10:57,  2.01it/s] 88%|████████▊ | 9370/10691 [1:25:38<10:56,  2.01it/s] 88%|████████▊ | 9371/10691 [1:25:39<10:56,  2.01it/s] 88%|████████▊ | 9372/10691 [1:25:39<10:56,  2.01it/s] 88%|████████▊ | 9373/10691 [1:25:40<10:54,  2.01it/s] 88%|████████▊ | 9374/10691 [1:25:40<10:54,  2.01it/s] 88%|████████▊ | 9375/10691 [1:25:41<10:53,  2.01it/s]{'loss': 2.894, 'grad_norm': 0.20083121955394745, 'learning_rate': 4.545877699893347e-05, 'epoch': 0.88}                                                      
+ 88%|████████▊ | 9375/10691 [1:25:41<10:53,  2.01it/s] 88%|████████▊ | 9376/10691 [1:25:41<10:54,  2.01it/s] 88%|████████▊ | 9377/10691 [1:25:42<10:53,  2.01it/s] 88%|████████▊ | 9378/10691 [1:25:42<10:53,  2.01it/s] 88%|████████▊ | 9379/10691 [1:25:43<10:52,  2.01it/s] 88%|████████▊ | 9380/10691 [1:25:43<10:53,  2.01it/s] 88%|████████▊ | 9381/10691 [1:25:44<10:52,  2.01it/s] 88%|████████▊ | 9382/10691 [1:25:44<10:52,  2.01it/s] 88%|████████▊ | 9383/10691 [1:25:45<10:51,  2.01it/s] 88%|████████▊ | 9384/10691 [1:25:45<10:50,  2.01it/s] 88%|████████▊ | 9385/10691 [1:25:46<10:49,  2.01it/s] 88%|████████▊ | 9386/10691 [1:25:46<10:49,  2.01it/s] 88%|████████▊ | 9387/10691 [1:25:47<10:49,  2.01it/s] 88%|████████▊ | 9388/10691 [1:25:47<10:48,  2.01it/s] 88%|████████▊ | 9389/10691 [1:25:48<10:48,  2.01it/s] 88%|████████▊ | 9390/10691 [1:25:48<10:47,  2.01it/s] 88%|████████▊ | 9391/10691 [1:25:49<10:46,  2.01it/s] 88%|████████▊ | 9392/10691 [1:25:49<10:45,  2.01it/s] 88%|████████▊ | 9393/10691 [1:25:50<10:45,  2.01it/s] 88%|████████▊ | 9394/10691 [1:25:50<10:46,  2.01it/s] 88%|████████▊ | 9395/10691 [1:25:51<10:45,  2.01it/s] 88%|████████▊ | 9396/10691 [1:25:51<10:44,  2.01it/s] 88%|████████▊ | 9397/10691 [1:25:52<10:43,  2.01it/s] 88%|████████▊ | 9398/10691 [1:25:52<10:43,  2.01it/s] 88%|████████▊ | 9399/10691 [1:25:53<10:41,  2.01it/s] 88%|████████▊ | 9400/10691 [1:25:53<10:42,  2.01it/s]{'loss': 2.8804, 'grad_norm': 0.2009478062391281, 'learning_rate': 4.3773444209305294e-05, 'epoch': 0.88}
+                                                       88%|████████▊ | 9400/10691 [1:25:53<10:42,  2.01it/s] 88%|████████▊ | 9401/10691 [1:25:54<10:41,  2.01it/s] 88%|████████▊ | 9402/10691 [1:25:54<10:40,  2.01it/s] 88%|████████▊ | 9403/10691 [1:25:55<10:40,  2.01it/s] 88%|████████▊ | 9404/10691 [1:25:55<10:39,  2.01it/s] 88%|████████▊ | 9405/10691 [1:25:56<10:38,  2.01it/s] 88%|████████▊ | 9406/10691 [1:25:56<10:36,  2.02it/s] 88%|████████▊ | 9407/10691 [1:25:56<10:36,  2.02it/s] 88%|████████▊ | 9408/10691 [1:25:57<10:36,  2.02it/s] 88%|████████▊ | 9409/10691 [1:25:57<10:36,  2.01it/s] 88%|████████▊ | 9410/10691 [1:25:58<10:35,  2.01it/s] 88%|████████▊ | 9411/10691 [1:25:58<10:35,  2.01it/s] 88%|████████▊ | 9412/10691 [1:25:59<10:34,  2.01it/s] 88%|████████▊ | 9413/10691 [1:25:59<10:34,  2.02it/s] 88%|████████▊ | 9414/10691 [1:26:00<10:33,  2.02it/s] 88%|████████▊ | 9415/10691 [1:26:00<10:32,  2.02it/s] 88%|████████▊ | 9416/10691 [1:26:01<10:31,  2.02it/s] 88%|████████▊ | 9417/10691 [1:26:01<10:31,  2.02it/s] 88%|████████▊ | 9418/10691 [1:26:02<10:31,  2.02it/s] 88%|████████▊ | 9419/10691 [1:26:02<10:30,  2.02it/s] 88%|████████▊ | 9420/10691 [1:26:03<10:31,  2.01it/s] 88%|████████▊ | 9421/10691 [1:26:03<10:29,  2.02it/s] 88%|████████▊ | 9422/10691 [1:26:04<10:29,  2.01it/s] 88%|████████▊ | 9423/10691 [1:26:04<10:30,  2.01it/s] 88%|████████▊ | 9424/10691 [1:26:05<10:28,  2.02it/s] 88%|████████▊ | 9425/10691 [1:26:05<10:28,  2.01it/s]                                                      {'loss': 2.8864, 'grad_norm': 0.19906984269618988, 'learning_rate': 4.2118514492691715e-05, 'epoch': 0.88}
+ 88%|████████▊ | 9425/10691 [1:26:05<10:28,  2.01it/s] 88%|████████▊ | 9426/10691 [1:26:06<10:29,  2.01it/s] 88%|████████▊ | 9427/10691 [1:26:06<10:28,  2.01it/s] 88%|████████▊ | 9428/10691 [1:26:07<10:28,  2.01it/s] 88%|████████▊ | 9429/10691 [1:26:07<10:26,  2.01it/s] 88%|████████▊ | 9430/10691 [1:26:08<10:26,  2.01it/s] 88%|████████▊ | 9431/10691 [1:26:08<10:25,  2.02it/s] 88%|████████▊ | 9432/10691 [1:26:09<10:24,  2.02it/s] 88%|████████▊ | 9433/10691 [1:26:09<10:24,  2.01it/s] 88%|████████▊ | 9434/10691 [1:26:10<10:23,  2.02it/s] 88%|████████▊ | 9435/10691 [1:26:10<10:23,  2.01it/s] 88%|████████▊ | 9436/10691 [1:26:11<10:22,  2.02it/s] 88%|████████▊ | 9437/10691 [1:26:11<10:22,  2.01it/s] 88%|████████▊ | 9438/10691 [1:26:12<10:21,  2.02it/s] 88%|████████▊ | 9439/10691 [1:26:12<10:20,  2.02it/s] 88%|████████▊ | 9440/10691 [1:26:13<10:20,  2.02it/s] 88%|████████▊ | 9441/10691 [1:26:13<10:20,  2.01it/s] 88%|████████▊ | 9442/10691 [1:26:14<10:19,  2.02it/s] 88%|████████▊ | 9443/10691 [1:26:14<10:19,  2.02it/s] 88%|████████▊ | 9444/10691 [1:26:15<10:18,  2.02it/s] 88%|████████▊ | 9445/10691 [1:26:15<10:18,  2.02it/s] 88%|████████▊ | 9446/10691 [1:26:16<10:18,  2.01it/s] 88%|████████▊ | 9447/10691 [1:26:16<10:17,  2.01it/s] 88%|████████▊ | 9448/10691 [1:26:17<10:16,  2.02it/s] 88%|████████▊ | 9449/10691 [1:26:17<10:16,  2.02it/s] 88%|████████▊ | 9450/10691 [1:26:18<10:15,  2.02it/s]{'loss': 2.897, 'grad_norm': 0.19543519616127014, 'learning_rate': 4.0494098134099936e-05, 'epoch': 0.88}
+                                                       88%|████████▊ | 9450/10691 [1:26:18<10:15,  2.02it/s] 88%|████████▊ | 9451/10691 [1:26:18<10:16,  2.01it/s] 88%|████████▊ | 9452/10691 [1:26:19<10:16,  2.01it/s] 88%|████████▊ | 9453/10691 [1:26:19<10:14,  2.01it/s] 88%|████████▊ | 9454/10691 [1:26:20<10:14,  2.01it/s] 88%|████████▊ | 9455/10691 [1:26:20<10:13,  2.01it/s] 88%|████████▊ | 9456/10691 [1:26:21<10:12,  2.02it/s] 88%|████████▊ | 9457/10691 [1:26:21<10:12,  2.02it/s] 88%|████████▊ | 9458/10691 [1:26:22<10:12,  2.01it/s] 88%|████████▊ | 9459/10691 [1:26:22<10:11,  2.01it/s] 88%|████████▊ | 9460/10691 [1:26:23<10:11,  2.01it/s] 88%|████████▊ | 9461/10691 [1:26:23<10:11,  2.01it/s] 89%|████████▊ | 9462/10691 [1:26:24<10:10,  2.01it/s] 89%|████████▊ | 9463/10691 [1:26:24<10:11,  2.01it/s] 89%|████████▊ | 9464/10691 [1:26:25<10:10,  2.01it/s] 89%|████████▊ | 9465/10691 [1:26:25<10:10,  2.01it/s] 89%|████████▊ | 9466/10691 [1:26:26<10:09,  2.01it/s] 89%|████████▊ | 9467/10691 [1:26:26<10:08,  2.01it/s] 89%|████████▊ | 9468/10691 [1:26:27<10:09,  2.01it/s] 89%|████████▊ | 9469/10691 [1:26:27<10:08,  2.01it/s] 89%|████████▊ | 9470/10691 [1:26:28<10:07,  2.01it/s] 89%|████████▊ | 9471/10691 [1:26:28<10:07,  2.01it/s] 89%|████████▊ | 9472/10691 [1:26:29<10:06,  2.01it/s] 89%|████████▊ | 9473/10691 [1:26:29<10:05,  2.01it/s] 89%|████████▊ | 9474/10691 [1:26:30<10:05,  2.01it/s] 89%|████████▊ | 9475/10691 [1:26:30<10:04,  2.01it/s]                                                      {'loss': 2.8862, 'grad_norm': 0.19917982816696167, 'learning_rate': 3.8900303385118186e-05, 'epoch': 0.89}
+ 89%|████████▊ | 9475/10691 [1:26:30<10:04,  2.01it/s] 89%|████████▊ | 9476/10691 [1:26:31<10:04,  2.01it/s] 89%|████████▊ | 9477/10691 [1:26:31<10:04,  2.01it/s] 89%|████████▊ | 9478/10691 [1:26:32<10:03,  2.01it/s] 89%|████████▊ | 9479/10691 [1:26:32<10:03,  2.01it/s] 89%|████████▊ | 9480/10691 [1:26:33<10:02,  2.01it/s] 89%|████████▊ | 9481/10691 [1:26:33<10:01,  2.01it/s] 89%|████████▊ | 9482/10691 [1:26:34<10:01,  2.01it/s] 89%|████████▊ | 9483/10691 [1:26:34<10:00,  2.01it/s] 89%|████████▊ | 9484/10691 [1:26:35<10:00,  2.01it/s] 89%|████████▊ | 9485/10691 [1:26:35<10:00,  2.01it/s] 89%|████████▊ | 9486/10691 [1:26:36<09:59,  2.01it/s] 89%|████████▊ | 9487/10691 [1:26:36<09:58,  2.01it/s] 89%|████████▊ | 9488/10691 [1:26:37<09:57,  2.01it/s] 89%|████████▉ | 9489/10691 [1:26:37<09:57,  2.01it/s] 89%|████████▉ | 9490/10691 [1:26:38<09:56,  2.01it/s] 89%|████████▉ | 9491/10691 [1:26:38<09:55,  2.01it/s] 89%|████████▉ | 9492/10691 [1:26:39<09:54,  2.02it/s] 89%|████���███▉ | 9493/10691 [1:26:39<09:54,  2.01it/s] 89%|████████▉ | 9494/10691 [1:26:40<09:54,  2.01it/s] 89%|████████▉ | 9495/10691 [1:26:40<09:53,  2.01it/s] 89%|████████▉ | 9496/10691 [1:26:41<09:53,  2.01it/s] 89%|████████▉ | 9497/10691 [1:26:41<09:53,  2.01it/s] 89%|████████▉ | 9498/10691 [1:26:42<09:52,  2.01it/s] 89%|████████▉ | 9499/10691 [1:26:42<09:52,  2.01it/s] 89%|████████▉ | 9500/10691 [1:26:43<09:51,  2.01it/s]                                                      {'loss': 2.8833, 'grad_norm': 0.1959584802389145, 'learning_rate': 3.733723645670106e-05, 'epoch': 0.89}
+ 89%|████████▉ | 9500/10691 [1:26:43<09:51,  2.01it/s] 89%|████████▉ | 9501/10691 [1:26:43<09:52,  2.01it/s] 89%|████████▉ | 9502/10691 [1:26:44<09:52,  2.01it/s] 89%|████████▉ | 9503/10691 [1:26:44<09:51,  2.01it/s] 89%|████████▉ | 9504/10691 [1:26:45<09:50,  2.01it/s] 89%|████████▉ | 9505/10691 [1:26:45<09:50,  2.01it/s] 89%|████████▉ | 9506/10691 [1:26:46<09:49,  2.01it/s] 89%|████████▉ | 9507/10691 [1:26:46<09:48,  2.01it/s] 89%|████████▉ | 9508/10691 [1:26:47<09:47,  2.01it/s] 89%|████████▉ | 9509/10691 [1:26:47<09:47,  2.01it/s] 89%|████████▉ | 9510/10691 [1:26:48<09:47,  2.01it/s] 89%|████████▉ | 9511/10691 [1:26:48<09:46,  2.01it/s] 89%|████████▉ | 9512/10691 [1:26:49<09:45,  2.01it/s] 89%|████████▉ | 9513/10691 [1:26:49<09:45,  2.01it/s] 89%|████████▉ | 9514/10691 [1:26:50<09:44,  2.01it/s] 89%|████████▉ | 9515/10691 [1:26:50<09:44,  2.01it/s] 89%|████████▉ | 9516/10691 [1:26:51<09:43,  2.01it/s] 89%|████████▉ | 9517/10691 [1:26:51<09:43,  2.01it/s] 89%|████████▉ | 9518/10691 [1:26:52<09:42,  2.01it/s] 89%|████████▉ | 9519/10691 [1:26:52<09:42,  2.01it/s] 89%|████████▉ | 9520/10691 [1:26:53<09:41,  2.01it/s] 89%|████████▉ | 9521/10691 [1:26:53<09:41,  2.01it/s] 89%|████████▉ | 9522/10691 [1:26:54<09:40,  2.01it/s] 89%|████████▉ | 9523/10691 [1:26:54<09:40,  2.01it/s] 89%|████████▉ | 9524/10691 [1:26:55<09:40,  2.01it/s] 89%|████████▉ | 9525/10691 [1:26:55<09:39,  2.01it/s]{'loss': 2.8924, 'grad_norm': 0.19101248681545258, 'learning_rate': 3.580500151209254e-05, 'epoch': 0.89}
+                                                       89%|████████▉ | 9525/10691 [1:26:55<09:39,  2.01it/s] 89%|████████▉ | 9526/10691 [1:26:56<09:39,  2.01it/s] 89%|████████▉ | 9527/10691 [1:26:56<09:39,  2.01it/s] 89%|████████▉ | 9528/10691 [1:26:57<09:38,  2.01it/s] 89%|████████▉ | 9529/10691 [1:26:57<09:37,  2.01it/s] 89%|████████▉ | 9530/10691 [1:26:58<09:36,  2.01it/s] 89%|████████▉ | 9531/10691 [1:26:58<09:36,  2.01it/s] 89%|████████▉ | 9532/10691 [1:26:59<11:08,  1.73it/s] 89%|████████▉ | 9533/10691 [1:26:59<10:39,  1.81it/s] 89%|████████▉ | 9534/10691 [1:27:00<10:19,  1.87it/s] 89%|████████▉ | 9535/10691 [1:27:00<10:05,  1.91it/s] 89%|████████▉ | 9536/10691 [1:27:01<09:54,  1.94it/s] 89%|████████▉ | 9537/10691 [1:27:01<09:48,  1.96it/s] 89%|████████▉ | 9538/10691 [1:27:02<09:43,  1.98it/s] 89%|████████▉ | 9539/10691 [1:27:02<09:38,  1.99it/s] 89%|████████▉ | 9540/10691 [1:27:03<09:36,  2.00it/s] 89%|████████▉ | 9541/10691 [1:27:03<09:33,  2.00it/s] 89%|████████▉ | 9542/10691 [1:27:04<09:32,  2.01it/s] 89%|████████▉ | 9543/10691 [1:27:04<09:31,  2.01it/s] 89%|████████▉ | 9544/10691 [1:27:05<09:29,  2.01it/s] 89%|████████▉ | 9545/10691 [1:27:05<09:28,  2.02it/s] 89%|████████▉ | 9546/10691 [1:27:06<09:28,  2.01it/s] 89%|████████▉ | 9547/10691 [1:27:06<09:27,  2.02it/s] 89%|████████▉ | 9548/10691 [1:27:07<09:27,  2.02it/s] 89%|████████▉ | 9549/10691 [1:27:07<09:26,  2.02it/s] 89%|████████▉ | 9550/10691 [1:27:08<09:26,  2.02it/s]                                                      {'loss': 2.8863, 'grad_norm': 0.19324646890163422, 'learning_rate': 3.4303700659883804e-05, 'epoch': 0.89}
+ 89%|████████▉ | 9550/10691 [1:27:08<09:26,  2.02it/s] 89%|████████▉ | 9551/10691 [1:27:08<09:26,  2.01it/s] 89%|████████▉ | 9552/10691 [1:27:09<09:25,  2.01it/s] 89%|████████▉ | 9553/10691 [1:27:09<09:25,  2.01it/s] 89%|████████▉ | 9554/10691 [1:27:10<09:24,  2.01it/s] 89%|████████▉ | 9555/10691 [1:27:10<09:24,  2.01it/s] 89%|████████▉ | 9556/10691 [1:27:11<09:23,  2.01it/s] 89%|████████▉ | 9557/10691 [1:27:11<09:22,  2.01it/s] 89%|████████▉ | 9558/10691 [1:27:12<09:22,  2.01it/s] 89%|████████▉ | 9559/10691 [1:27:12<09:21,  2.02it/s] 89%|████████▉ | 9560/10691 [1:27:13<09:21,  2.01it/s] 89%|████████▉ | 9561/10691 [1:27:13<09:21,  2.01it/s] 89%|████████▉ | 9562/10691 [1:27:14<09:21,  2.01it/s] 89%|████████▉ | 9563/10691 [1:27:14<09:21,  2.01it/s] 89%|████████▉ | 9564/10691 [1:27:15<09:19,  2.01it/s] 89%|████████▉ | 9565/10691 [1:27:15<09:19,  2.01it/s] 89%|████████▉ | 9566/10691 [1:27:16<09:19,  2.01it/s] 89%|████████▉ | 9567/10691 [1:27:16<09:18,  2.01it/s] 89%|████████▉ | 9568/10691 [1:27:17<09:18,  2.01it/s] 90%|████████▉ | 9569/10691 [1:27:17<09:16,  2.01it/s] 90%|████████▉ | 9570/10691 [1:27:18<09:16,  2.01it/s] 90%|████████▉ | 9571/10691 [1:27:18<09:16,  2.01it/s] 90%|████████▉ | 9572/10691 [1:27:19<09:15,  2.02it/s] 90%|████████▉ | 9573/10691 [1:27:19<09:15,  2.01it/s] 90%|████████▉ | 9574/10691 [1:27:20<10:48,  1.72it/s] 90%|████████▉ | 9575/10691 [1:27:20<10:20,  1.80it/s]{'loss': 2.8854, 'grad_norm': 0.19307813048362732, 'learning_rate': 3.283343394720889e-05, 'epoch': 0.9}
+                                                       90%|████████▉ | 9575/10691 [1:27:20<10:20,  1.80it/s] 90%|████████▉ | 9576/10691 [1:27:21<10:01,  1.86it/s] 90%|████████▉ | 9577/10691 [1:27:21<09:46,  1.90it/s] 90%|████████▉ | 9578/10691 [1:27:22<09:37,  1.93it/s] 90%|████████▉ | 9579/10691 [1:27:22<09:29,  1.95it/s] 90%|████████▉ | 9580/10691 [1:27:23<09:23,  1.97it/s] 90%|████████▉ | 9581/10691 [1:27:23<09:19,  1.98it/s] 90%|████████▉ | 9582/10691 [1:27:24<09:16,  1.99it/s] 90%|████████▉ | 9583/10691 [1:27:24<09:14,  2.00it/s] 90%|████████▉ | 9584/10691 [1:27:25<09:12,  2.00it/s] 90%|████████▉ | 9585/10691 [1:27:25<09:11,  2.00it/s] 90%|████████▉ | 9586/10691 [1:27:26<09:10,  2.01it/s] 90%|████████▉ | 9587/10691 [1:27:26<09:09,  2.01it/s] 90%|████████▉ | 9588/10691 [1:27:27<09:08,  2.01it/s] 90%|████████▉ | 9589/10691 [1:27:27<09:07,  2.01it/s] 90%|████████▉ | 9590/10691 [1:27:28<09:06,  2.01it/s] 90%|████████▉ | 9591/10691 [1:27:28<09:06,  2.01it/s] 90%|████████▉ | 9592/10691 [1:27:29<09:06,  2.01it/s] 90%|████████▉ | 9593/10691 [1:27:29<09:05,  2.01it/s] 90%|████████▉ | 9594/10691 [1:27:30<09:04,  2.01it/s] 90%|████████▉ | 9595/10691 [1:27:30<09:05,  2.01it/s] 90%|████████▉ | 9596/10691 [1:27:31<09:04,  2.01it/s] 90%|████████▉ | 9597/10691 [1:27:31<09:03,  2.01it/s] 90%|████████▉ | 9598/10691 [1:27:32<09:02,  2.01it/s] 90%|████████▉ | 9599/10691 [1:27:32<09:03,  2.01it/s] 90%|████████▉ | 9600/10691 [1:27:33<09:02,  2.01it/s]                                                      {'loss': 2.8852, 'grad_norm': 0.1959642916917801, 'learning_rate': 3.139429935307775e-05, 'epoch': 0.9}
+ 90%|████████▉ | 9600/10691 [1:27:33<09:02,  2.01it/s] 90%|████████▉ | 9601/10691 [1:27:33<09:02,  2.01it/s] 90%|████████▉ | 9602/10691 [1:27:34<09:00,  2.01it/s] 90%|████████▉ | 9603/10691 [1:27:34<09:00,  2.01it/s] 90%|████████▉ | 9604/10691 [1:27:35<08:59,  2.01it/s] 90%|████████▉ | 9605/10691 [1:27:35<08:59,  2.01it/s] 90%|████████▉ | 9606/10691 [1:27:36<08:58,  2.01it/s] 90%|████████▉ | 9607/10691 [1:27:36<08:57,  2.02it/s] 90%|████████▉ | 9608/10691 [1:27:37<08:58,  2.01it/s] 90%|████████▉ | 9609/10691 [1:27:37<08:57,  2.01it/s] 90%|████████▉ | 9610/10691 [1:27:38<08:57,  2.01it/s] 90%|████████▉ | 9611/10691 [1:27:38<08:56,  2.01it/s] 90%|████████▉ | 9612/10691 [1:27:39<08:56,  2.01it/s] 90%|████████▉ | 9613/10691 [1:27:39<08:55,  2.01it/s] 90%|████████▉ | 9614/10691 [1:27:40<08:54,  2.01it/s] 90%|████████▉ | 9615/10691 [1:27:40<08:54,  2.01it/s] 90%|████████▉ | 9616/10691 [1:27:41<08:54,  2.01it/s] 90%|████████▉ | 9617/10691 [1:27:41<08:53,  2.01it/s] 90%|████████▉ | 9618/10691 [1:27:42<08:52,  2.01it/s] 90%|████████▉ | 9619/10691 [1:27:42<08:51,  2.02it/s] 90%|████████▉ | 9620/10691 [1:27:43<08:51,  2.02it/s] 90%|████████▉ | 9621/10691 [1:27:43<08:50,  2.02it/s] 90%|█████████ | 9622/10691 [1:27:44<08:50,  2.02it/s] 90%|█████████ | 9623/10691 [1:27:44<08:49,  2.02it/s] 90%|█████████ | 9624/10691 [1:27:45<08:49,  2.01it/s] 90%|█████████ | 9625/10691 [1:27:45<08:49,  2.01it/s]{'loss': 2.8847, 'grad_norm': 0.19940869510173798, 'learning_rate': 2.9986392781846728e-05, 'epoch': 0.9}
+                                                       90%|█████████ | 9625/10691 [1:27:45<08:49,  2.01it/s] 90%|█████████ | 9626/10691 [1:27:46<08:49,  2.01it/s] 90%|█████████ | 9627/10691 [1:27:46<08:48,  2.01it/s] 90%|█████████ | 9628/10691 [1:27:47<08:47,  2.02it/s] 90%|█████████ | 9629/10691 [1:27:47<08:47,  2.01it/s] 90%|█████████ | 9630/10691 [1:27:48<08:46,  2.01it/s] 90%|█████████ | 9631/10691 [1:27:48<08:47,  2.01it/s] 90%|█████████ | 9632/10691 [1:27:49<08:46,  2.01it/s] 90%|█████████ | 9633/10691 [1:27:49<08:45,  2.01it/s] 90%|█████████ | 9634/10691 [1:27:50<08:45,  2.01it/s] 90%|█████████ | 9635/10691 [1:27:50<08:43,  2.02it/s] 90%|█████████ | 9636/10691 [1:27:51<08:43,  2.01it/s] 90%|█████████ | 9637/10691 [1:27:51<08:43,  2.01it/s] 90%|█████████ | 9638/10691 [1:27:52<08:42,  2.01it/s] 90%|█████████ | 9639/10691 [1:27:52<08:42,  2.01it/s] 90%|█████████ | 9640/10691 [1:27:53<08:41,  2.01it/s] 90%|█████████ | 9641/10691 [1:27:53<08:41,  2.01it/s] 90%|█████████ | 9642/10691 [1:27:54<08:40,  2.02it/s] 90%|█████████ | 9643/10691 [1:27:54<08:40,  2.01it/s] 90%|█████████ | 9644/10691 [1:27:55<08:39,  2.02it/s] 90%|█████████ | 9645/10691 [1:27:55<08:38,  2.02it/s] 90%|█████████ | 9646/10691 [1:27:56<08:38,  2.02it/s] 90%|█████████ | 9647/10691 [1:27:56<08:37,  2.02it/s] 90%|█████████ | 9648/10691 [1:27:57<08:37,  2.02it/s] 90%|█████████ | 9649/10691 [1:27:57<08:36,  2.02it/s] 90%|█████████ | 9650/10691 [1:27:58<08:36,  2.01it/s]{'loss': 2.8902, 'grad_norm': 0.19684270024299622, 'learning_rate': 2.860980805682728e-05, 'epoch': 0.9}
+                                                       90%|█████████ | 9650/10691 [1:27:58<08:36,  2.01it/s] 90%|█████████ | 9651/10691 [1:27:58<08:37,  2.01it/s] 90%|█████████ | 9652/10691 [1:27:59<08:36,  2.01it/s] 90%|█████████ | 9653/10691 [1:27:59<08:35,  2.01it/s] 90%|█████████ | 9654/10691 [1:28:00<08:36,  2.01it/s] 90%|█████████ | 9655/10691 [1:28:00<08:35,  2.01it/s] 90%|█████████ | 9656/10691 [1:28:01<08:34,  2.01it/s] 90%|█████████ | 9657/10691 [1:28:01<08:33,  2.01it/s] 90%|█████████ | 9658/10691 [1:28:02<08:32,  2.01it/s] 90%|█████████ | 9659/10691 [1:28:02<08:32,  2.01it/s] 90%|█████████ | 9660/10691 [1:28:03<08:31,  2.01it/s] 90%|█████████ | 9661/10691 [1:28:03<08:31,  2.01it/s] 90%|█████████ | 9662/10691 [1:28:04<08:30,  2.01it/s] 90%|█████████ | 9663/10691 [1:28:04<08:30,  2.01it/s] 90%|█████████ | 9664/10691 [1:28:05<08:29,  2.02it/s] 90%|█████████ | 9665/10691 [1:28:05<08:29,  2.01it/s] 90%|█████████ | 9666/10691 [1:28:06<08:29,  2.01it/s] 90%|█████████ | 9667/10691 [1:28:06<08:28,  2.01it/s] 90%|█████████ | 9668/10691 [1:28:07<08:28,  2.01it/s] 90%|█████████ | 9669/10691 [1:28:07<08:27,  2.01it/s] 90%|█████████ | 9670/10691 [1:28:08<08:27,  2.01it/s] 90%|█████████ | 9671/10691 [1:28:08<08:26,  2.02it/s] 90%|█████████ | 9672/10691 [1:28:09<08:25,  2.02it/s] 90%|█████████ | 9673/10691 [1:28:09<08:25,  2.02it/s] 90%|█████████ | 9674/10691 [1:28:10<08:24,  2.02it/s] 90%|█████████ | 9675/10691 [1:28:10<08:24,  2.01it/s]{'loss': 2.8834, 'grad_norm': 0.1926296055316925, 'learning_rate': 2.7264636914033858e-05, 'epoch': 0.9}
+                                                       90%|█████████ | 9675/10691 [1:28:10<08:24,  2.01it/s] 91%|█████████ | 9676/10691 [1:28:11<08:24,  2.01it/s] 91%|█████████ | 9677/10691 [1:28:11<08:24,  2.01it/s] 91%|█████████ | 9678/10691 [1:28:12<08:24,  2.01it/s] 91%|█████████ | 9679/10691 [1:28:12<08:23,  2.01it/s] 91%|█████████ | 9680/10691 [1:28:13<08:22,  2.01it/s] 91%|█████████ | 9681/10691 [1:28:13<08:21,  2.01it/s] 91%|█████████ | 9682/10691 [1:28:14<08:21,  2.01it/s] 91%|█████████ | 9683/10691 [1:28:14<08:21,  2.01it/s] 91%|█████████ | 9684/10691 [1:28:15<08:20,  2.01it/s] 91%|█████████ | 9685/10691 [1:28:15<08:19,  2.01it/s] 91%|█████████ | 9686/10691 [1:28:16<08:19,  2.01it/s] 91%|█████████ | 9687/10691 [1:28:16<08:18,  2.01it/s] 91%|█████████ | 9688/10691 [1:28:17<08:18,  2.01it/s] 91%|█████████ | 9689/10691 [1:28:17<08:18,  2.01it/s] 91%|█████████ | 9690/10691 [1:28:18<08:17,  2.01it/s] 91%|█████████ | 9691/10691 [1:28:18<08:16,  2.01it/s] 91%|█████████ | 9692/10691 [1:28:19<08:16,  2.01it/s] 91%|█████████ | 9693/10691 [1:28:19<08:15,  2.01it/s] 91%|█████████ | 9694/10691 [1:28:20<08:15,  2.01it/s] 91%|█████████ | 9695/10691 [1:28:20<08:14,  2.01it/s] 91%|█████████ | 9696/10691 [1:28:21<08:14,  2.01it/s] 91%|█████████ | 9697/10691 [1:28:21<08:14,  2.01it/s] 91%|█████████ | 9698/10691 [1:28:22<08:14,  2.01it/s] 91%|█████████ | 9699/10691 [1:28:22<08:13,  2.01it/s] 91%|█████████ | 9700/10691 [1:28:23<08:13,  2.01it/s]{'loss': 2.8851, 'grad_norm': 0.19675271213054657, 'learning_rate': 2.5950968996070412e-05, 'epoch': 0.91}
+                                                       91%|█████████ | 9700/10691 [1:28:23<08:13,  2.01it/s] 91%|█████████ | 9701/10691 [1:28:23<08:13,  2.01it/s] 91%|█████████ | 9702/10691 [1:28:24<08:12,  2.01it/s] 91%|█████████ | 9703/10691 [1:28:24<08:11,  2.01it/s] 91%|█████████ | 9704/10691 [1:28:25<08:10,  2.01it/s] 91%|█████████ | 9705/10691 [1:28:25<08:09,  2.01it/s] 91%|█████████ | 9706/10691 [1:28:26<08:09,  2.01it/s] 91%|█████████ | 9707/10691 [1:28:26<08:09,  2.01it/s] 91%|█████████ | 9708/10691 [1:28:27<08:08,  2.01it/s] 91%|█████████ | 9709/10691 [1:28:27<08:08,  2.01it/s] 91%|█████████ | 9710/10691 [1:28:28<08:07,  2.01it/s] 91%|█████████ | 9711/10691 [1:28:28<08:06,  2.01it/s] 91%|█████████ | 9712/10691 [1:28:29<08:07,  2.01it/s] 91%|█████████ | 9713/10691 [1:28:29<08:06,  2.01it/s] 91%|█████████ | 9714/10691 [1:28:30<08:06,  2.01it/s] 91%|█████████ | 9715/10691 [1:28:30<08:04,  2.01it/s] 91%|█████████ | 9716/10691 [1:28:31<08:04,  2.01it/s] 91%|█████████ | 9717/10691 [1:28:31<08:03,  2.01it/s] 91%|█████████ | 9718/10691 [1:28:32<08:02,  2.02it/s] 91%|█████████ | 9719/10691 [1:28:32<08:03,  2.01it/s] 91%|█████████ | 9720/10691 [1:28:33<08:02,  2.01it/s] 91%|█████████ | 9721/10691 [1:28:33<08:02,  2.01it/s] 91%|█████████ | 9722/10691 [1:28:34<08:02,  2.01it/s] 91%|█████████ | 9723/10691 [1:28:34<08:01,  2.01it/s] 91%|█████████ | 9724/10691 [1:28:35<08:00,  2.01it/s] 91%|█████████ | 9725/10691 [1:28:35<07:59,  2.01it/s]                                                      {'loss': 2.8818, 'grad_norm': 0.19843848049640656, 'learning_rate': 2.4668891846156782e-05, 'epoch': 0.91}
+ 91%|█████████ | 9725/10691 [1:28:35<07:59,  2.01it/s] 91%|█████████ | 9726/10691 [1:28:36<07:59,  2.01it/s] 91%|█████████ | 9727/10691 [1:28:36<07:59,  2.01it/s] 91%|█████████ | 9728/10691 [1:28:37<07:58,  2.01it/s] 91%|█████████ | 9729/10691 [1:28:37<07:57,  2.01it/s] 91%|█████████ | 9730/10691 [1:28:38<07:57,  2.01it/s] 91%|█████████ | 9731/10691 [1:28:38<07:57,  2.01it/s] 91%|█████████ | 9732/10691 [1:28:38<07:56,  2.01it/s] 91%|█████████ | 9733/10691 [1:28:39<07:56,  2.01it/s] 91%|█████████ | 9734/10691 [1:28:39<07:55,  2.01it/s] 91%|█████████ | 9735/10691 [1:28:40<07:55,  2.01it/s] 91%|█████████ | 9736/10691 [1:28:40<07:53,  2.02it/s] 91%|█████████ | 9737/10691 [1:28:41<07:53,  2.01it/s] 91%|█████████ | 9738/10691 [1:28:41<07:53,  2.01it/s] 91%|█████████ | 9739/10691 [1:28:42<07:52,  2.01it/s] 91%|█████████ | 9740/10691 [1:28:42<07:52,  2.01it/s] 91%|█████████ | 9741/10691 [1:28:43<07:50,  2.02it/s] 91%|█████████ | 9742/10691 [1:28:43<07:51,  2.01it/s] 91%|█████████ | 9743/10691 [1:28:44<07:51,  2.01it/s] 91%|█████████ | 9744/10691 [1:28:44<07:50,  2.01it/s] 91%|█████████ | 9745/10691 [1:28:45<07:50,  2.01it/s] 91%|█████████ | 9746/10691 [1:28:45<07:49,  2.01it/s] 91%|█████████ | 9747/10691 [1:28:46<07:48,  2.01it/s] 91%|█████████ | 9748/10691 [1:28:46<07:49,  2.01it/s] 91%|█████████ | 9749/10691 [1:28:47<07:48,  2.01it/s] 91%|█████████ | 9750/10691 [1:28:47<07:47,  2.01it/s]{'loss': 2.8784, 'grad_norm': 0.19762107729911804, 'learning_rate': 2.341849090229453e-05, 'epoch': 0.91}                                                      
+ 91%|█████████ | 9750/10691 [1:28:47<07:47,  2.01it/s] 91%|█████████ | 9751/10691 [1:28:48<07:47,  2.01it/s] 91%|█████████ | 9752/10691 [1:28:48<07:47,  2.01it/s] 91%|█████████ | 9753/10691 [1:28:49<07:46,  2.01it/s] 91%|█████████ | 9754/10691 [1:28:49<07:45,  2.01it/s] 91%|█████████ | 9755/10691 [1:28:50<07:45,  2.01it/s] 91%|█████████▏| 9756/10691 [1:28:50<07:44,  2.01it/s] 91%|█████████▏| 9757/10691 [1:28:51<07:44,  2.01it/s] 91%|█████████▏| 9758/10691 [1:28:51<07:43,  2.01it/s] 91%|█████████▏| 9759/10691 [1:28:52<07:43,  2.01it/s] 91%|█████████▏| 9760/10691 [1:28:52<07:42,  2.01it/s] 91%|█████████▏| 9761/10691 [1:28:53<07:42,  2.01it/s] 91%|█████████▏| 9762/10691 [1:28:53<07:41,  2.01it/s] 91%|█████████▏| 9763/10691 [1:28:54<07:41,  2.01it/s] 91%|█████████▏| 9764/10691 [1:28:54<07:40,  2.01it/s] 91%|█████████▏| 9765/10691 [1:28:55<07:40,  2.01it/s] 91%|█████████▏| 9766/10691 [1:28:55<07:40,  2.01it/s] 91%|█████████▏| 9767/10691 [1:28:56<07:39,  2.01it/s] 91%|█████████▏| 9768/10691 [1:28:56<07:39,  2.01it/s] 91%|█████████▏| 9769/10691 [1:28:57<07:39,  2.01it/s] 91%|█████████▏| 9770/10691 [1:28:57<07:38,  2.01it/s] 91%|█████████▏| 9771/10691 [1:28:58<07:38,  2.01it/s] 91%|█████████▏| 9772/10691 [1:28:58<07:36,  2.01it/s] 91%|█████████▏| 9773/10691 [1:28:59<07:36,  2.01it/s] 91%|█████████▏| 9774/10691 [1:28:59<07:36,  2.01it/s] 91%|█████████▏| 9775/10691 [1:29:00<07:35,  2.01it/s]                                                      {'loss': 2.885, 'grad_norm': 0.19783996045589447, 'learning_rate': 2.2199849491573444e-05, 'epoch': 0.91}
+ 91%|█████████▏| 9775/10691 [1:29:00<07:35,  2.01it/s] 91%|█████████▏| 9776/10691 [1:29:00<07:35,  2.01it/s] 91%|█████████▏| 9777/10691 [1:29:01<07:34,  2.01it/s] 91%|█████████▏| 9778/10691 [1:29:01<07:33,  2.01it/s] 91%|█████████▏| 9779/10691 [1:29:02<07:33,  2.01it/s] 91%|█████████▏| 9780/10691 [1:29:02<07:33,  2.01it/s] 91%|█████████▏| 9781/10691 [1:29:03<07:32,  2.01it/s] 91%|█████████▏| 9782/10691 [1:29:03<07:31,  2.01it/s] 92%|█████████▏| 9783/10691 [1:29:04<07:31,  2.01it/s] 92%|█████████▏| 9784/10691 [1:29:04<07:30,  2.01it/s] 92%|█████████▏| 9785/10691 [1:29:05<07:30,  2.01it/s] 92%|█████████▏| 9786/10691 [1:29:05<07:29,  2.01it/s] 92%|█████████▏| 9787/10691 [1:29:06<07:28,  2.01it/s] 92%|█████████▏| 9788/10691 [1:29:06<07:28,  2.01it/s] 92%|█████████▏| 9789/10691 [1:29:07<07:28,  2.01it/s] 92%|█████████▏| 9790/10691 [1:29:07<07:28,  2.01it/s] 92%|█████████▏| 9791/10691 [1:29:08<07:27,  2.01it/s] 92%|█████████▏| 9792/10691 [1:29:08<07:26,  2.01it/s] 92%|█████████▏| 9793/10691 [1:29:09<07:26,  2.01it/s] 92%|█████████▏| 9794/10691 [1:29:09<07:25,  2.01it/s] 92%|█████████▏| 9795/10691 [1:29:10<07:25,  2.01it/s] 92%|█████████▏| 9796/10691 [1:29:10<07:25,  2.01it/s] 92%|█████████▏| 9797/10691 [1:29:11<07:24,  2.01it/s] 92%|█████████▏| 9798/10691 [1:29:11<07:23,  2.01it/s] 92%|█████████▏| 9799/10691 [1:29:12<07:23,  2.01it/s] 92%|█████████▏| 9800/10691 [1:29:12<07:22,  2.01it/s]{'loss': 2.8811, 'grad_norm': 0.1949934959411621, 'learning_rate': 2.101304882461863e-05, 'epoch': 0.92}
+                                                       92%|█████████▏| 9800/10691 [1:29:12<07:22,  2.01it/s] 92%|█████████▏| 9801/10691 [1:29:13<07:23,  2.01it/s] 92%|█████████▏| 9802/10691 [1:29:13<07:22,  2.01it/s] 92%|█████████▏| 9803/10691 [1:29:14<07:21,  2.01it/s] 92%|█████████▏| 9804/10691 [1:29:14<07:21,  2.01it/s] 92%|█████████▏| 9805/10691 [1:29:15<07:20,  2.01it/s] 92%|█████████▏| 9806/10691 [1:29:15<07:20,  2.01it/s] 92%|█████████▏| 9807/10691 [1:29:16<07:19,  2.01it/s] 92%|█████████▏| 9808/10691 [1:29:16<07:18,  2.01it/s] 92%|█████████▏| 9809/10691 [1:29:17<07:18,  2.01it/s] 92%|█████████▏| 9810/10691 [1:29:17<07:18,  2.01it/s] 92%|█████████▏| 9811/10691 [1:29:18<07:17,  2.01it/s] 92%|█████████▏| 9812/10691 [1:29:18<07:16,  2.01it/s] 92%|█████████▏| 9813/10691 [1:29:19<07:15,  2.01it/s] 92%|█████████▏| 9814/10691 [1:29:19<07:15,  2.01it/s] 92%|█████████▏| 9815/10691 [1:29:20<07:15,  2.01it/s] 92%|█████████▏| 9816/10691 [1:29:20<07:14,  2.01it/s] 92%|█████████▏| 9817/10691 [1:29:21<07:14,  2.01it/s] 92%|█████████▏| 9818/10691 [1:29:21<07:13,  2.01it/s] 92%|█████████▏| 9819/10691 [1:29:22<07:13,  2.01it/s] 92%|█████████▏| 9820/10691 [1:29:22<07:12,  2.01it/s] 92%|█████████▏| 9821/10691 [1:29:23<07:12,  2.01it/s] 92%|█████████▏| 9822/10691 [1:29:23<07:11,  2.01it/s] 92%|█████████▏| 9823/10691 [1:29:24<07:10,  2.01it/s] 92%|█████████▏| 9824/10691 [1:29:24<07:10,  2.01it/s] 92%|█████████▏| 9825/10691 [1:29:25<07:10,  2.01it/s]{'loss': 2.8865, 'grad_norm': 0.19586126506328583, 'learning_rate': 1.9858167990178587e-05, 'epoch': 0.92}
+                                                       92%|█████████▏| 9825/10691 [1:29:25<07:10,  2.01it/s] 92%|█████████▏| 9826/10691 [1:29:25<07:10,  2.01it/s] 92%|█████████▏| 9827/10691 [1:29:26<07:09,  2.01it/s] 92%|█████████▏| 9828/10691 [1:29:26<07:08,  2.01it/s] 92%|█████████▏| 9829/10691 [1:29:27<07:08,  2.01it/s] 92%|█████████▏| 9830/10691 [1:29:27<07:07,  2.01it/s] 92%|█████████▏| 9831/10691 [1:29:28<07:07,  2.01it/s] 92%|█████████▏| 9832/10691 [1:29:28<07:07,  2.01it/s] 92%|█████████▏| 9833/10691 [1:29:29<07:06,  2.01it/s] 92%|█████████▏| 9834/10691 [1:29:29<07:06,  2.01it/s] 92%|█████████▏| 9835/10691 [1:29:30<07:05,  2.01it/s] 92%|█████████▏| 9836/10691 [1:29:30<07:05,  2.01it/s] 92%|█████████▏| 9837/10691 [1:29:31<07:04,  2.01it/s] 92%|█████████▏| 9838/10691 [1:29:31<07:04,  2.01it/s] 92%|█████████▏| 9839/10691 [1:29:32<07:03,  2.01it/s] 92%|█████████▏| 9840/10691 [1:29:32<07:02,  2.01it/s] 92%|█████████▏| 9841/10691 [1:29:33<07:02,  2.01it/s] 92%|█████████▏| 9842/10691 [1:29:33<07:01,  2.01it/s] 92%|█████████▏| 9843/10691 [1:29:34<07:01,  2.01it/s] 92%|█████████▏| 9844/10691 [1:29:34<07:01,  2.01it/s] 92%|█████████▏| 9845/10691 [1:29:35<07:00,  2.01it/s] 92%|█████████▏| 9846/10691 [1:29:35<07:00,  2.01it/s] 92%|█████████▏| 9847/10691 [1:29:36<06:59,  2.01it/s] 92%|█████████▏| 9848/10691 [1:29:36<06:58,  2.01it/s] 92%|█████████▏| 9849/10691 [1:29:37<06:58,  2.01it/s] 92%|█████████▏| 9850/10691 [1:29:37<06:58,  2.01it/s]{'loss': 2.8842, 'grad_norm': 0.1918095350265503, 'learning_rate': 1.87352839498548e-05, 'epoch': 0.92}                                                      
+ 92%|█████████▏| 9850/10691 [1:29:37<06:58,  2.01it/s] 92%|█████████▏| 9851/10691 [1:29:38<06:58,  2.01it/s] 92%|█████████▏| 9852/10691 [1:29:38<06:57,  2.01it/s] 92%|█████████▏| 9853/10691 [1:29:39<06:57,  2.01it/s] 92%|█████████▏| 9854/10691 [1:29:39<06:55,  2.01it/s] 92%|█████████▏| 9855/10691 [1:29:40<06:55,  2.01it/s] 92%|█████████▏| 9856/10691 [1:29:40<06:55,  2.01it/s] 92%|█████████▏| 9857/10691 [1:29:41<06:54,  2.01it/s] 92%|█████████▏| 9858/10691 [1:29:41<06:54,  2.01it/s] 92%|█████████▏| 9859/10691 [1:29:42<06:53,  2.01it/s] 92%|█████████▏| 9860/10691 [1:29:42<06:52,  2.01it/s] 92%|█████████▏| 9861/10691 [1:29:43<06:52,  2.01it/s] 92%|█████████▏| 9862/10691 [1:29:43<06:51,  2.01it/s] 92%|█████████▏| 9863/10691 [1:29:44<06:51,  2.01it/s] 92%|█████████▏| 9864/10691 [1:29:44<06:50,  2.01it/s] 92%|█████████▏| 9865/10691 [1:29:45<06:50,  2.01it/s] 92%|█████████▏| 9866/10691 [1:29:45<06:50,  2.01it/s] 92%|█████████▏| 9867/10691 [1:29:46<06:49,  2.01it/s] 92%|█████████▏| 9868/10691 [1:29:46<06:49,  2.01it/s] 92%|█████████▏| 9869/10691 [1:29:47<06:48,  2.01it/s] 92%|█████████▏| 9870/10691 [1:29:47<06:48,  2.01it/s] 92%|█████████▏| 9871/10691 [1:29:48<06:47,  2.01it/s] 92%|█████████▏| 9872/10691 [1:29:48<06:46,  2.01it/s] 92%|█████████▏| 9873/10691 [1:29:49<06:45,  2.02it/s] 92%|█████████▏| 9874/10691 [1:29:49<06:44,  2.02it/s] 92%|█████████▏| 9875/10691 [1:29:50<06:45,  2.01it/s]{'loss': 2.8834, 'grad_norm': 0.19394615292549133, 'learning_rate': 1.7644471532972772e-05, 'epoch': 0.92}
+                                                       92%|█████████▏| 9875/10691 [1:29:50<06:45,  2.01it/s] 92%|█████████▏| 9876/10691 [1:29:50<06:45,  2.01it/s] 92%|█████████▏| 9877/10691 [1:29:51<06:44,  2.01it/s] 92%|█████████▏| 9878/10691 [1:29:51<06:44,  2.01it/s] 92%|█████████▏| 9879/10691 [1:29:52<06:42,  2.02it/s] 92%|█████████▏| 9880/10691 [1:29:52<06:42,  2.01it/s] 92%|█████████▏| 9881/10691 [1:29:53<06:42,  2.01it/s] 92%|█████████▏| 9882/10691 [1:29:53<06:41,  2.01it/s] 92%|█████████▏| 9883/10691 [1:29:54<06:41,  2.01it/s] 92%|█████████▏| 9884/10691 [1:29:54<06:40,  2.01it/s] 92%|█████████▏| 9885/10691 [1:29:55<06:40,  2.01it/s] 92%|█████████▏| 9886/10691 [1:29:55<06:40,  2.01it/s] 92%|█████████▏| 9887/10691 [1:29:56<06:39,  2.01it/s] 92%|█████████▏| 9888/10691 [1:29:56<06:39,  2.01it/s] 92%|█████████▏| 9889/10691 [1:29:57<06:38,  2.01it/s] 93%|█████████▎| 9890/10691 [1:29:57<06:38,  2.01it/s] 93%|█████████▎| 9891/10691 [1:29:58<06:37,  2.01it/s] 93%|█████████▎| 9892/10691 [1:29:58<06:37,  2.01it/s] 93%|█████████▎| 9893/10691 [1:29:59<06:37,  2.01it/s] 93%|█████████▎| 9894/10691 [1:29:59<06:36,  2.01it/s] 93%|█████████▎| 9895/10691 [1:30:00<06:35,  2.01it/s] 93%|█████████▎| 9896/10691 [1:30:00<06:35,  2.01it/s] 93%|█████████▎| 9897/10691 [1:30:01<06:34,  2.01it/s] 93%|█████████▎| 9898/10691 [1:30:01<06:34,  2.01it/s] 93%|█████████▎| 9899/10691 [1:30:02<06:33,  2.01it/s] 93%|█████████▎| 9900/10691 [1:30:02<06:33,  2.01it/s]{'loss': 2.8864, 'grad_norm': 0.19475257396697998, 'learning_rate': 1.658580343159538e-05, 'epoch': 0.93}
+                                                       93%|█████████▎| 9900/10691 [1:30:02<06:33,  2.01it/s] 93%|█████████▎| 9901/10691 [1:30:03<06:33,  2.01it/s] 93%|█████████▎| 9902/10691 [1:30:03<06:32,  2.01it/s] 93%|█████████▎| 9903/10691 [1:30:04<06:31,  2.01it/s] 93%|█████████▎| 9904/10691 [1:30:04<06:31,  2.01it/s] 93%|█████████▎| 9905/10691 [1:30:04<06:30,  2.01it/s] 93%|█████████▎| 9906/10691 [1:30:05<06:29,  2.01it/s] 93%|█████████▎| 9907/10691 [1:30:05<06:29,  2.01it/s] 93%|█████████▎| 9908/10691 [1:30:06<06:29,  2.01it/s] 93%|█████████▎| 9909/10691 [1:30:06<06:28,  2.01it/s] 93%|█████████▎| 9910/10691 [1:30:07<06:27,  2.01it/s] 93%|█████████▎| 9911/10691 [1:30:07<06:26,  2.02it/s] 93%|█████████▎| 9912/10691 [1:30:08<06:26,  2.02it/s] 93%|█████████▎| 9913/10691 [1:30:08<06:25,  2.02it/s] 93%|█████████▎| 9914/10691 [1:30:09<06:25,  2.02it/s] 93%|█████████▎| 9915/10691 [1:30:09<06:24,  2.02it/s] 93%|█████████▎| 9916/10691 [1:30:10<06:24,  2.02it/s] 93%|█████████▎| 9917/10691 [1:30:10<06:24,  2.01it/s] 93%|█████████▎| 9918/10691 [1:30:11<06:24,  2.01it/s] 93%|█████████▎| 9919/10691 [1:30:11<06:23,  2.01it/s] 93%|█████████▎| 9920/10691 [1:30:12<06:22,  2.01it/s] 93%|█████████▎| 9921/10691 [1:30:12<06:22,  2.01it/s] 93%|█████████▎| 9922/10691 [1:30:13<06:22,  2.01it/s] 93%|█████████▎| 9923/10691 [1:30:13<06:21,  2.01it/s] 93%|█████████▎| 9924/10691 [1:30:14<06:21,  2.01it/s] 93%|█████████▎| 9925/10691 [1:30:14<06:20,  2.01it/s]{'loss': 2.8816, 'grad_norm': 0.19257235527038574, 'learning_rate': 1.5559350195679223e-05, 'epoch': 0.93}
+                                                       93%|█████████▎| 9925/10691 [1:30:14<06:20,  2.01it/s] 93%|█████████▎| 9926/10691 [1:30:15<06:20,  2.01it/s] 93%|█████████▎| 9927/10691 [1:30:15<06:19,  2.01it/s] 93%|█████████▎| 9928/10691 [1:30:16<06:19,  2.01it/s] 93%|█████████▎| 9929/10691 [1:30:16<06:18,  2.01it/s] 93%|█████████▎| 9930/10691 [1:30:17<06:17,  2.02it/s] 93%|█████████▎| 9931/10691 [1:30:17<06:17,  2.01it/s] 93%|█████████▎| 9932/10691 [1:30:18<06:16,  2.01it/s] 93%|█████████▎| 9933/10691 [1:30:18<06:16,  2.02it/s] 93%|█████████▎| 9934/10691 [1:30:19<06:16,  2.01it/s] 93%|█████████▎| 9935/10691 [1:30:19<06:15,  2.01it/s] 93%|█████████▎| 9936/10691 [1:30:20<06:15,  2.01it/s] 93%|█████████▎| 9937/10691 [1:30:20<06:14,  2.01it/s] 93%|█████████▎| 9938/10691 [1:30:21<06:13,  2.01it/s] 93%|█████████▎| 9939/10691 [1:30:21<06:13,  2.02it/s] 93%|█████████▎| 9940/10691 [1:30:22<06:12,  2.01it/s] 93%|█████████▎| 9941/10691 [1:30:22<06:12,  2.01it/s] 93%|█████████▎| 9942/10691 [1:30:23<06:12,  2.01it/s] 93%|█████████▎| 9943/10691 [1:30:23<06:12,  2.01it/s] 93%|█████████▎| 9944/10691 [1:30:24<06:11,  2.01it/s] 93%|█████████▎| 9945/10691 [1:30:24<06:10,  2.01it/s] 93%|█████████▎| 9946/10691 [1:30:25<06:10,  2.01it/s] 93%|█████████▎| 9947/10691 [1:30:25<06:09,  2.01it/s] 93%|█████████▎| 9948/10691 [1:30:26<06:09,  2.01it/s] 93%|█████████▎| 9949/10691 [1:30:26<06:08,  2.01it/s] 93%|█████████▎| 9950/10691 [1:30:27<06:08,  2.01it/s]                                                      {'loss': 2.8874, 'grad_norm': 0.19301213324069977, 'learning_rate': 1.4565180228372222e-05, 'epoch': 0.93}
+ 93%|█████████▎| 9950/10691 [1:30:27<06:08,  2.01it/s] 93%|█████████▎| 9951/10691 [1:30:27<06:08,  2.01it/s] 93%|█████████▎| 9952/10691 [1:30:28<06:07,  2.01it/s] 93%|█████████▎| 9953/10691 [1:30:28<06:07,  2.01it/s] 93%|█████████▎| 9954/10691 [1:30:29<06:06,  2.01it/s] 93%|█████████▎| 9955/10691 [1:30:29<06:06,  2.01it/s] 93%|█████████▎| 9956/10691 [1:30:30<06:05,  2.01it/s] 93%|█████████▎| 9957/10691 [1:30:30<06:04,  2.01it/s] 93%|█████████▎| 9958/10691 [1:30:31<06:04,  2.01it/s] 93%|█████████▎| 9959/10691 [1:30:31<06:04,  2.01it/s] 93%|█████████▎| 9960/10691 [1:30:32<06:03,  2.01it/s] 93%|█████████▎| 9961/10691 [1:30:32<06:02,  2.01it/s] 93%|█████████▎| 9962/10691 [1:30:33<06:02,  2.01it/s] 93%|█████████▎| 9963/10691 [1:30:33<06:02,  2.01it/s] 93%|█████████▎| 9964/10691 [1:30:34<06:01,  2.01it/s] 93%|█████████▎| 9965/10691 [1:30:34<06:00,  2.01it/s] 93%|█████████▎| 9966/10691 [1:30:35<06:00,  2.01it/s] 93%|█████████▎| 9967/10691 [1:30:35<06:00,  2.01it/s] 93%|█████████▎| 9968/10691 [1:30:36<05:59,  2.01it/s] 93%|█████████▎| 9969/10691 [1:30:36<05:59,  2.01it/s] 93%|█████████▎| 9970/10691 [1:30:37<05:58,  2.01it/s] 93%|█████████▎| 9971/10691 [1:30:37<05:57,  2.01it/s] 93%|█████████▎| 9972/10691 [1:30:38<05:57,  2.01it/s] 93%|█████████▎| 9973/10691 [1:30:38<05:56,  2.01it/s] 93%|█████████▎| 9974/10691 [1:30:39<05:56,  2.01it/s] 93%|█████████▎| 9975/10691 [1:30:39<05:56,  2.01it/s]                                                      {'loss': 2.8887, 'grad_norm': 0.19285167753696442, 'learning_rate': 1.3603359781456048e-05, 'epoch': 0.93}
+ 93%|█████████▎| 9975/10691 [1:30:39<05:56,  2.01it/s] 93%|█████████▎| 9976/10691 [1:30:40<05:56,  2.01it/s] 93%|█████████▎| 9977/10691 [1:30:40<05:55,  2.01it/s] 93%|█████████▎| 9978/10691 [1:30:41<05:54,  2.01it/s] 93%|█████████▎| 9979/10691 [1:30:41<05:54,  2.01it/s] 93%|█████████▎| 9980/10691 [1:30:42<05:53,  2.01it/s] 93%|█████████▎| 9981/10691 [1:30:42<05:52,  2.01it/s] 93%|█████████▎| 9982/10691 [1:30:43<05:52,  2.01it/s] 93%|█████████▎| 9983/10691 [1:30:43<05:51,  2.01it/s] 93%|█████████▎| 9984/10691 [1:30:44<05:52,  2.01it/s] 93%|█████████▎| 9985/10691 [1:30:44<05:51,  2.01it/s] 93%|█████████▎| 9986/10691 [1:30:45<05:50,  2.01it/s] 93%|█████████▎| 9987/10691 [1:30:45<05:50,  2.01it/s] 93%|█████████▎| 9988/10691 [1:30:46<05:49,  2.01it/s] 93%|█████████▎| 9989/10691 [1:30:46<05:49,  2.01it/s] 93%|█████████▎| 9990/10691 [1:30:47<05:48,  2.01it/s] 93%|█████████▎| 9991/10691 [1:30:47<05:48,  2.01it/s] 93%|█████████▎| 9992/10691 [1:30:48<05:47,  2.01it/s] 93%|█████████▎| 9993/10691 [1:30:48<05:46,  2.01it/s] 93%|█████████▎| 9994/10691 [1:30:49<05:46,  2.01it/s] 93%|█████████▎| 9995/10691 [1:30:49<05:46,  2.01it/s] 93%|█████████▎| 9996/10691 [1:30:50<05:44,  2.01it/s] 94%|█████████▎| 9997/10691 [1:30:50<05:44,  2.01it/s] 94%|█████████▎| 9998/10691 [1:30:51<05:44,  2.01it/s] 94%|█████████▎| 9999/10691 [1:30:51<05:43,  2.02it/s] 94%|█████████▎| 10000/10691 [1:30:52<05:42,  2.02it/s]{'loss': 2.882, 'grad_norm': 0.19246986508369446, 'learning_rate': 1.2673952950930545e-05, 'epoch': 0.94}
+                                                        94%|█████████▎| 10000/10691 [1:30:52<05:42,  2.02it/s] 94%|█████████▎| 10001/10691 [1:30:52<05:42,  2.01it/s] 94%|█████████▎| 10002/10691 [1:30:53<05:42,  2.01it/s] 94%|█████████▎| 10003/10691 [1:30:53<05:41,  2.01it/s] 94%|█████████▎| 10004/10691 [1:30:54<05:41,  2.01it/s] 94%|█████████▎| 10005/10691 [1:30:54<05:41,  2.01it/s] 94%|█████████▎| 10006/10691 [1:30:55<05:40,  2.01it/s] 94%|█████████▎| 10007/10691 [1:30:55<05:39,  2.01it/s] 94%|█████████▎| 10008/10691 [1:30:56<05:38,  2.02it/s] 94%|█████████▎| 10009/10691 [1:30:56<05:38,  2.01it/s] 94%|█████████▎| 10010/10691 [1:30:57<05:38,  2.01it/s] 94%|█████████▎| 10011/10691 [1:30:57<05:38,  2.01it/s] 94%|█████████▎| 10012/10691 [1:30:58<05:37,  2.01it/s] 94%|█████████▎| 10013/10691 [1:30:58<05:37,  2.01it/s] 94%|█████████▎| 10014/10691 [1:30:59<05:36,  2.01it/s] 94%|█████████▎| 10015/10691 [1:30:59<05:36,  2.01it/s] 94%|█████████▎| 10016/10691 [1:31:00<05:35,  2.01it/s] 94%|█████████▎| 10017/10691 [1:31:00<05:35,  2.01it/s] 94%|█████████▎| 10018/10691 [1:31:01<05:34,  2.01it/s] 94%|█████████▎| 10019/10691 [1:31:01<05:33,  2.01it/s] 94%|█████████▎| 10020/10691 [1:31:02<05:33,  2.01it/s] 94%|█████████▎| 10021/10691 [1:31:02<05:32,  2.01it/s] 94%|█████████▎| 10022/10691 [1:31:03<05:32,  2.01it/s] 94%|█████████▍| 10023/10691 [1:31:03<05:32,  2.01it/s] 94%|█████████▍| 10024/10691 [1:31:04<05:32,  2.01it/s] 94%|█████████▍| 10025/10691 [1:31:04<05:31,  2.01it/s]{'loss': 2.881, 'grad_norm': 0.1950678825378418, 'learning_rate': 1.1777021672742527e-05, 'epoch': 0.94}
+                                                        94%|█████████▍| 10025/10691 [1:31:04<05:31,  2.01it/s] 94%|█████████▍| 10026/10691 [1:31:05<05:31,  2.00it/s] 94%|█████████▍| 10027/10691 [1:31:05<05:31,  2.01it/s] 94%|█████████▍| 10028/10691 [1:31:06<05:30,  2.01it/s] 94%|█████████▍| 10029/10691 [1:31:06<05:29,  2.01it/s] 94%|█████████▍| 10030/10691 [1:31:07<05:28,  2.01it/s] 94%|█████████▍| 10031/10691 [1:31:07<05:28,  2.01it/s] 94%|█████████▍| 10032/10691 [1:31:08<05:27,  2.01it/s] 94%|█████████▍| 10033/10691 [1:31:08<05:27,  2.01it/s] 94%|█████████▍| 10034/10691 [1:31:09<05:26,  2.01it/s] 94%|█████████▍| 10035/10691 [1:31:09<05:25,  2.01it/s] 94%|█████████▍| 10036/10691 [1:31:10<05:25,  2.01it/s] 94%|█████████▍| 10037/10691 [1:31:10<05:25,  2.01it/s] 94%|█████████▍| 10038/10691 [1:31:11<05:24,  2.01it/s] 94%|█████████▍| 10039/10691 [1:31:11<05:24,  2.01it/s] 94%|█████████▍| 10040/10691 [1:31:12<05:23,  2.01it/s] 94%|█████████▍| 10041/10691 [1:31:12<05:23,  2.01it/s] 94%|█████████▍| 10042/10691 [1:31:13<05:22,  2.01it/s] 94%|█████████▍| 10043/10691 [1:31:13<05:21,  2.01it/s] 94%|█████████▍| 10044/10691 [1:31:14<05:21,  2.01it/s] 94%|█████████▍| 10045/10691 [1:31:14<05:20,  2.02it/s] 94%|█████████▍| 10046/10691 [1:31:15<05:20,  2.01it/s] 94%|█████████▍| 10047/10691 [1:31:15<05:20,  2.01it/s] 94%|█████████▍| 10048/10691 [1:31:16<05:19,  2.01it/s] 94%|█████████▍| 10049/10691 [1:31:16<05:19,  2.01it/s] 94%|█████████▍| 10050/10691 [1:31:17<05:19,  2.01it/s]                                                       {'loss': 2.8812, 'grad_norm': 0.1947135180234909, 'learning_rate': 1.0912625718658587e-05, 'epoch': 0.94}
+ 94%|█████████▍| 10050/10691 [1:31:17<05:19,  2.01it/s] 94%|█████████▍| 10051/10691 [1:31:17<05:19,  2.01it/s] 94%|█████████▍| 10052/10691 [1:31:18<05:18,  2.01it/s] 94%|█████████▍| 10053/10691 [1:31:18<05:17,  2.01it/s] 94%|█████████▍| 10054/10691 [1:31:19<05:16,  2.01it/s] 94%|█████████▍| 10055/10691 [1:31:19<05:15,  2.01it/s] 94%|█████████▍| 10056/10691 [1:31:20<05:15,  2.02it/s] 94%|█████████▍| 10057/10691 [1:31:20<05:14,  2.01it/s] 94%|█████████▍| 10058/10691 [1:31:21<05:14,  2.01it/s] 94%|█████████▍| 10059/10691 [1:31:21<05:14,  2.01it/s] 94%|█████████▍| 10060/10691 [1:31:22<05:13,  2.01it/s] 94%|█████████▍| 10061/10691 [1:31:22<05:12,  2.01it/s] 94%|█████████▍| 10062/10691 [1:31:23<05:12,  2.01it/s] 94%|█████████▍| 10063/10691 [1:31:23<05:12,  2.01it/s] 94%|█████████▍| 10064/10691 [1:31:24<05:11,  2.01it/s] 94%|█████████▍| 10065/10691 [1:31:24<05:11,  2.01it/s] 94%|█████████▍| 10066/10691 [1:31:25<05:10,  2.01it/s] 94%|█████████▍| 10067/10691 [1:31:25<05:10,  2.01it/s] 94%|█████████▍| 10068/10691 [1:31:26<05:09,  2.01it/s] 94%|█████████▍| 10069/10691 [1:31:26<05:09,  2.01it/s] 94%|█████████▍| 10070/10691 [1:31:27<05:09,  2.01it/s] 94%|█████████▍| 10071/10691 [1:31:27<05:08,  2.01it/s] 94%|█████████▍| 10072/10691 [1:31:28<05:08,  2.01it/s] 94%|█████████▍| 10073/10691 [1:31:28<05:07,  2.01it/s] 94%|█████████▍| 10074/10691 [1:31:29<05:06,  2.01it/s] 94%|█████████▍| 10075/10691 [1:31:29<05:06,  2.01it/s]{'loss': 2.8813, 'grad_norm': 0.19190247356891632, 'learning_rate': 1.0080822692281388e-05, 'epoch': 0.94}
+                                                        94%|█████████▍| 10075/10691 [1:31:29<05:06,  2.01it/s] 94%|█████████▍| 10076/10691 [1:31:29<05:05,  2.01it/s] 94%|█████████▍| 10077/10691 [1:31:30<05:05,  2.01it/s] 94%|█████████▍| 10078/10691 [1:31:30<05:04,  2.01it/s] 94%|█████████▍| 10079/10691 [1:31:31<05:04,  2.01it/s] 94%|█████████▍| 10080/10691 [1:31:31<05:03,  2.01it/s] 94%|█████████▍| 10081/10691 [1:31:32<05:03,  2.01it/s] 94%|█████████▍| 10082/10691 [1:31:32<05:03,  2.01it/s] 94%|█████████▍| 10083/10691 [1:31:33<05:02,  2.01it/s] 94%|█████████▍| 10084/10691 [1:31:33<05:01,  2.01it/s] 94%|█████████▍| 10085/10691 [1:31:34<05:01,  2.01it/s] 94%|█████████▍| 10086/10691 [1:31:34<05:01,  2.01it/s] 94%|█████████▍| 10087/10691 [1:31:35<05:00,  2.01it/s] 94%|█████████▍| 10088/10691 [1:31:35<05:00,  2.01it/s] 94%|█████████▍| 10089/10691 [1:31:36<04:59,  2.01it/s] 94%|█████████▍| 10090/10691 [1:31:36<04:58,  2.01it/s] 94%|█████████▍| 10091/10691 [1:31:37<04:58,  2.01it/s] 94%|█████████▍| 10092/10691 [1:31:37<04:57,  2.01it/s] 94%|█████████▍| 10093/10691 [1:31:38<04:57,  2.01it/s] 94%|█████████▍| 10094/10691 [1:31:38<04:56,  2.01it/s] 94%|█████████▍| 10095/10691 [1:31:39<04:56,  2.01it/s] 94%|█████████▍| 10096/10691 [1:31:39<04:55,  2.01it/s] 94%|█████████▍| 10097/10691 [1:31:40<04:54,  2.01it/s] 94%|█████████▍| 10098/10691 [1:31:40<04:54,  2.01it/s] 94%|█████████▍| 10099/10691 [1:31:41<04:53,  2.02it/s] 94%|█████████▍| 10100/10691 [1:31:41<04:53,  2.02it/s]{'loss': 2.8897, 'grad_norm': 0.19486980140209198, 'learning_rate': 9.281668025211465e-06, 'epoch': 0.94}
+                                                        94%|█████████▍| 10100/10691 [1:31:41<04:53,  2.02it/s] 94%|█████████▍| 10101/10691 [1:31:42<04:53,  2.01it/s] 94%|████████���▍| 10102/10691 [1:31:42<04:52,  2.01it/s] 95%|█████████▍| 10103/10691 [1:31:43<04:52,  2.01it/s] 95%|█████████▍| 10104/10691 [1:31:43<04:51,  2.01it/s] 95%|█████████▍| 10105/10691 [1:31:44<04:51,  2.01it/s] 95%|█████████▍| 10106/10691 [1:31:44<04:51,  2.01it/s] 95%|█████████▍| 10107/10691 [1:31:45<04:50,  2.01it/s] 95%|█████████▍| 10108/10691 [1:31:45<04:50,  2.01it/s] 95%|█████████▍| 10109/10691 [1:31:46<04:49,  2.01it/s] 95%|█████████▍| 10110/10691 [1:31:46<04:48,  2.01it/s] 95%|█████████▍| 10111/10691 [1:31:47<04:48,  2.01it/s] 95%|█████████▍| 10112/10691 [1:31:47<04:48,  2.01it/s] 95%|█████████▍| 10113/10691 [1:31:48<04:47,  2.01it/s] 95%|█████████▍| 10114/10691 [1:31:48<04:46,  2.01it/s] 95%|█████████▍| 10115/10691 [1:31:49<04:46,  2.01it/s] 95%|█████████▍| 10116/10691 [1:31:49<04:45,  2.01it/s] 95%|█████████▍| 10117/10691 [1:31:50<04:45,  2.01it/s] 95%|█████████▍| 10118/10691 [1:31:50<04:44,  2.01it/s] 95%|█████████▍| 10119/10691 [1:31:51<04:44,  2.01it/s] 95%|█████████▍| 10120/10691 [1:31:51<04:43,  2.01it/s] 95%|█████████▍| 10121/10691 [1:31:52<04:42,  2.02it/s] 95%|█████████▍| 10122/10691 [1:31:52<04:42,  2.02it/s] 95%|█████████▍| 10123/10691 [1:31:53<04:41,  2.01it/s] 95%|█████████▍| 10124/10691 [1:31:53<04:41,  2.01it/s] 95%|█████████▍| 10125/10691 [1:31:54<04:41,  2.01it/s]                                                       {'loss': 2.885, 'grad_norm': 0.19161905348300934, 'learning_rate': 8.515214973352837e-06, 'epoch': 0.95}
+ 95%|█████████▍| 10125/10691 [1:31:54<04:41,  2.01it/s] 95%|█████████▍| 10126/10691 [1:31:54<04:40,  2.01it/s] 95%|█████████▍| 10127/10691 [1:31:55<04:40,  2.01it/s] 95%|█████████▍| 10128/10691 [1:31:55<04:40,  2.01it/s] 95%|█████████▍| 10129/10691 [1:31:56<04:39,  2.01it/s] 95%|█████████▍| 10130/10691 [1:31:56<04:39,  2.01it/s] 95%|█████████▍| 10131/10691 [1:31:57<04:38,  2.01it/s] 95%|█████████▍| 10132/10691 [1:31:57<04:37,  2.01it/s] 95%|█████████▍| 10133/10691 [1:31:58<04:37,  2.01it/s] 95%|█████████▍| 10134/10691 [1:31:58<04:37,  2.01it/s] 95%|█████████▍| 10135/10691 [1:31:59<04:36,  2.01it/s] 95%|█████████▍| 10136/10691 [1:31:59<04:35,  2.01it/s] 95%|█████████▍| 10137/10691 [1:32:00<04:35,  2.01it/s] 95%|█████████▍| 10138/10691 [1:32:00<04:35,  2.01it/s] 95%|█████████▍| 10139/10691 [1:32:01<04:34,  2.01it/s] 95%|█████████▍| 10140/10691 [1:32:01<04:33,  2.01it/s] 95%|█████████▍| 10141/10691 [1:32:02<04:33,  2.01it/s] 95%|█████████▍| 10142/10691 [1:32:02<04:33,  2.01it/s] 95%|█████████▍| 10143/10691 [1:32:03<04:32,  2.01it/s] 95%|█████████▍| 10144/10691 [1:32:03<04:31,  2.01it/s] 95%|█████████▍| 10145/10691 [1:32:04<04:31,  2.01it/s] 95%|█████████▍| 10146/10691 [1:32:04<04:30,  2.01it/s] 95%|█████████▍| 10147/10691 [1:32:05<04:30,  2.01it/s] 95%|█████████▍| 10148/10691 [1:32:05<04:29,  2.01it/s] 95%|█████████▍| 10149/10691 [1:32:06<04:29,  2.01it/s] 95%|█████████▍| 10150/10691 [1:32:06<04:28,  2.01it/s]                                                       {'loss': 2.8828, 'grad_norm': 0.19592490792274475, 'learning_rate': 7.781514613364294e-06, 'epoch': 0.95}
+ 95%|█████████▍| 10150/10691 [1:32:06<04:28,  2.01it/s] 95%|█████████▍| 10151/10691 [1:32:07<04:28,  2.01it/s] 95%|█████████▍| 10152/10691 [1:32:07<04:28,  2.01it/s] 95%|█████████▍| 10153/10691 [1:32:08<04:27,  2.01it/s] 95%|█████████▍| 10154/10691 [1:32:08<04:26,  2.01it/s] 95%|█████████▍| 10155/10691 [1:32:09<04:26,  2.01it/s] 95%|█████████▍| 10156/10691 [1:32:09<04:25,  2.01it/s] 95%|█████████▌| 10157/10691 [1:32:10<04:25,  2.01it/s] 95%|█████████▌| 10158/10691 [1:32:10<04:24,  2.01it/s] 95%|█████████▌| 10159/10691 [1:32:11<04:24,  2.01it/s] 95%|█████████▌| 10160/10691 [1:32:11<04:23,  2.01it/s] 95%|█████████▌| 10161/10691 [1:32:12<04:22,  2.02it/s] 95%|█████████▌| 10162/10691 [1:32:12<04:22,  2.01it/s] 95%|█████████▌| 10163/10691 [1:32:13<04:22,  2.01it/s] 95%|█████████▌| 10164/10691 [1:32:13<04:21,  2.01it/s] 95%|█████████▌| 10165/10691 [1:32:14<04:21,  2.01it/s] 95%|█████████▌| 10166/10691 [1:32:14<04:20,  2.01it/s] 95%|█████████▌| 10167/10691 [1:32:15<04:20,  2.01it/s] 95%|█████████▌| 10168/10691 [1:32:15<04:20,  2.01it/s] 95%|█████████▌| 10169/10691 [1:32:16<04:19,  2.01it/s] 95%|█████████▌| 10170/10691 [1:32:16<04:19,  2.01it/s] 95%|█████████▌| 10171/10691 [1:32:17<04:18,  2.01it/s] 95%|█████████▌| 10172/10691 [1:32:17<04:18,  2.01it/s] 95%|█████████▌| 10173/10691 [1:32:18<04:17,  2.01it/s] 95%|█████████▌| 10174/10691 [1:32:18<04:17,  2.01it/s] 95%|█████████▌| 10175/10691 [1:32:19<04:16,  2.01it/s]{'loss': 2.8718, 'grad_norm': 0.19126009941101074, 'learning_rate': 7.0806158392554e-06, 'epoch': 0.95}
+                                                        95%|█████████▌| 10175/10691 [1:32:19<04:16,  2.01it/s] 95%|█████████▌| 10176/10691 [1:32:19<04:16,  2.01it/s] 95%|█████████▌| 10177/10691 [1:32:20<04:15,  2.01it/s] 95%|█████████▌| 10178/10691 [1:32:20<04:15,  2.01it/s] 95%|█████████▌| 10179/10691 [1:32:21<04:14,  2.01it/s] 95%|█████████▌| 10180/10691 [1:32:21<04:13,  2.01it/s] 95%|█████████▌| 10181/10691 [1:32:22<04:13,  2.01it/s] 95%|█████████▌| 10182/10691 [1:32:22<04:12,  2.01it/s] 95%|█████████▌| 10183/10691 [1:32:23<04:12,  2.01it/s] 95%|█████████▌| 10184/10691 [1:32:23<04:11,  2.01it/s] 95%|█████████▌| 10185/10691 [1:32:24<04:11,  2.01it/s] 95%|█████████▌| 10186/10691 [1:32:24<04:11,  2.01it/s] 95%|█████████▌| 10187/10691 [1:32:25<04:10,  2.01it/s] 95%|█████████▌| 10188/10691 [1:32:25<04:09,  2.01it/s] 95%|█████████▌| 10189/10691 [1:32:26<04:09,  2.01it/s] 95%|█████████▌| 10190/10691 [1:32:26<04:08,  2.02it/s] 95%|█████████▌| 10191/10691 [1:32:27<04:08,  2.01it/s] 95%|█████████▌| 10192/10691 [1:32:27<04:07,  2.01it/s] 95%|█████████▌| 10193/10691 [1:32:28<04:07,  2.01it/s] 95%|█████████▌| 10194/10691 [1:32:28<04:06,  2.02it/s] 95%|█████████▌| 10195/10691 [1:32:29<04:06,  2.01it/s] 95%|█████████▌| 10196/10691 [1:32:29<04:06,  2.01it/s] 95%|█████████▌| 10197/10691 [1:32:30<04:05,  2.01it/s] 95%|█████████▌| 10198/10691 [1:32:30<04:04,  2.01it/s] 95%|█████████▌| 10199/10691 [1:32:31<04:04,  2.01it/s] 95%|█████████▌| 10200/10691 [1:32:31<04:03,  2.01it/s]{'loss': 2.8695, 'grad_norm': 0.1934252828359604, 'learning_rate': 6.412565359128375e-06, 'epoch': 0.95}
+                                                        95%|█████████▌| 10200/10691 [1:32:31<04:03,  2.01it/s] 95%|█████████▌| 10201/10691 [1:32:32<04:03,  2.01it/s] 95%|█████████▌| 10202/10691 [1:32:32<04:03,  2.01it/s] 95%|█████████▌| 10203/10691 [1:32:33<04:03,  2.01it/s] 95%|█████████▌| 10204/10691 [1:32:33<04:02,  2.01it/s] 95%|█████████▌| 10205/10691 [1:32:34<04:01,  2.01it/s] 95%|█████████▌| 10206/10691 [1:32:34<04:00,  2.01it/s] 95%|█████████▌| 10207/10691 [1:32:35<04:00,  2.01it/s] 95%|█████████▌| 10208/10691 [1:32:35<03:59,  2.01it/s] 95%|█████████▌| 10209/10691 [1:32:36<03:59,  2.01it/s] 96%|█████████▌| 10210/10691 [1:32:36<03:59,  2.01it/s] 96%|█████████▌| 10211/10691 [1:32:37<03:58,  2.01it/s] 96%|█████████▌| 10212/10691 [1:32:37<03:57,  2.01it/s] 96%|█████████▌| 10213/10691 [1:32:38<03:57,  2.01it/s] 96%|█████████▌| 10214/10691 [1:32:38<03:56,  2.01it/s] 96%|█████████▌| 10215/10691 [1:32:39<03:56,  2.01it/s] 96%|█████████▌| 10216/10691 [1:32:39<03:55,  2.01it/s] 96%|█████████▌| 10217/10691 [1:32:40<03:55,  2.01it/s] 96%|█████████▌| 10218/10691 [1:32:40<03:54,  2.01it/s] 96%|█████████▌| 10219/10691 [1:32:41<03:54,  2.01it/s] 96%|█████████▌| 10220/10691 [1:32:41<03:54,  2.01it/s] 96%|█████████▌| 10221/10691 [1:32:42<03:53,  2.01it/s] 96%|█████████▌| 10222/10691 [1:32:42<03:52,  2.01it/s] 96%|█████████▌| 10223/10691 [1:32:43<03:52,  2.01it/s] 96%|█████████▌| 10224/10691 [1:32:43<03:52,  2.01it/s] 96%|█████████▌| 10225/10691 [1:32:44<03:52,  2.01it/s]{'loss': 2.8845, 'grad_norm': 0.19247892498970032, 'learning_rate': 5.777407692065473e-06, 'epoch': 0.96}
+                                                        96%|█████████▌| 10225/10691 [1:32:44<03:52,  2.01it/s] 96%|█████████▌| 10226/10691 [1:32:44<03:51,  2.01it/s] 96%|█████████▌| 10227/10691 [1:32:45<03:51,  2.01it/s] 96%|█████████▌| 10228/10691 [1:32:45<03:50,  2.01it/s] 96%|█████████▌| 10229/10691 [1:32:46<03:49,  2.01it/s] 96%|█████████▌| 10230/10691 [1:32:46<03:49,  2.01it/s] 96%|█████████▌| 10231/10691 [1:32:47<03:48,  2.01it/s] 96%|█████████▌| 10232/10691 [1:32:47<03:48,  2.01it/s] 96%|█████████▌| 10233/10691 [1:32:48<03:47,  2.01it/s] 96%|█████████▌| 10234/10691 [1:32:48<03:47,  2.01it/s] 96%|█████████▌| 10235/10691 [1:32:49<03:46,  2.01it/s] 96%|█████████▌| 10236/10691 [1:32:49<03:46,  2.01it/s] 96%|█████████▌| 10237/10691 [1:32:50<03:45,  2.01it/s] 96%|█████████▌| 10238/10691 [1:32:50<03:45,  2.01it/s] 96%|█████████▌| 10239/10691 [1:32:51<03:44,  2.01it/s] 96%|█████████▌| 10240/10691 [1:32:51<04:19,  1.74it/s] 96%|█████████▌| 10241/10691 [1:32:52<04:08,  1.81it/s] 96%|█████████▌| 10242/10691 [1:32:52<04:00,  1.87it/s] 96%|█████████▌| 10243/10691 [1:32:53<03:54,  1.91it/s] 96%|█████████▌| 10244/10691 [1:32:53<03:50,  1.94it/s] 96%|█████████▌| 10245/10691 [1:32:54<03:47,  1.96it/s] 96%|█████████▌| 10246/10691 [1:32:54<03:45,  1.98it/s] 96%|█████████▌| 10247/10691 [1:32:55<03:43,  1.99it/s] 96%|█████████▌| 10248/10691 [1:32:55<03:41,  2.00it/s] 96%|█████████▌| 10249/10691 [1:32:56<03:40,  2.00it/s] 96%|█████████▌| 10250/10691 [1:32:56<03:39,  2.00it/s]{'loss': 2.8814, 'grad_norm': 0.19300369918346405, 'learning_rate': 5.1751851651620775e-06, 'epoch': 0.96}                                                       
+ 96%|█████████▌| 10250/10691 [1:32:56<03:39,  2.00it/s] 96%|█████████▌| 10251/10691 [1:32:57<03:39,  2.01it/s] 96%|█████████▌| 10252/10691 [1:32:57<03:38,  2.01it/s] 96%|█████████▌| 10253/10691 [1:32:58<03:37,  2.01it/s] 96%|█████████▌| 10254/10691 [1:32:58<03:37,  2.01it/s] 96%|█████████▌| 10255/10691 [1:32:59<03:36,  2.01it/s] 96%|█████████▌| 10256/10691 [1:32:59<03:36,  2.01it/s] 96%|█████████▌| 10257/10691 [1:33:00<03:35,  2.01it/s] 96%|█████████▌| 10258/10691 [1:33:00<03:35,  2.01it/s] 96%|█████████▌| 10259/10691 [1:33:01<03:34,  2.01it/s] 96%|█████████▌| 10260/10691 [1:33:01<03:33,  2.01it/s] 96%|█████████▌| 10261/10691 [1:33:02<03:33,  2.02it/s] 96%|█████████▌| 10262/10691 [1:33:02<03:33,  2.01it/s] 96%|█████████▌| 10263/10691 [1:33:03<03:32,  2.01it/s] 96%|█████████▌| 10264/10691 [1:33:03<03:32,  2.01it/s] 96%|█████████▌| 10265/10691 [1:33:04<03:31,  2.01it/s] 96%|█████████▌| 10266/10691 [1:33:04<03:31,  2.01it/s] 96%|█████████▌| 10267/10691 [1:33:05<03:31,  2.01it/s] 96%|█████████▌| 10268/10691 [1:33:05<03:30,  2.01it/s] 96%|█████████▌| 10269/10691 [1:33:06<03:29,  2.01it/s] 96%|█████████▌| 10270/10691 [1:33:06<03:29,  2.01it/s] 96%|█████████▌| 10271/10691 [1:33:07<03:28,  2.01it/s] 96%|█████████▌| 10272/10691 [1:33:07<03:28,  2.01it/s] 96%|█████████▌| 10273/10691 [1:33:08<03:28,  2.01it/s] 96%|█████████▌| 10274/10691 [1:33:08<03:27,  2.01it/s] 96%|█████████▌| 10275/10691 [1:33:09<03:26,  2.01it/s]{'loss': 2.8846, 'grad_norm': 0.19306668639183044, 'learning_rate': 4.605937910705793e-06, 'epoch': 0.96}                                                       
+ 96%|█████████▌| 10275/10691 [1:33:09<03:26,  2.01it/s] 96%|█████████▌| 10276/10691 [1:33:09<03:26,  2.01it/s] 96%|█████████▌| 10277/10691 [1:33:10<03:25,  2.01it/s] 96%|█████████▌| 10278/10691 [1:33:10<03:25,  2.01it/s] 96%|█████████▌| 10279/10691 [1:33:11<03:24,  2.01it/s] 96%|█████████▌| 10280/10691 [1:33:11<03:24,  2.01it/s] 96%|█████████▌| 10281/10691 [1:33:12<03:23,  2.01it/s] 96%|█████████���| 10282/10691 [1:33:12<03:23,  2.01it/s] 96%|█████████▌| 10283/10691 [1:33:13<03:56,  1.72it/s] 96%|█████████▌| 10284/10691 [1:33:13<03:45,  1.80it/s] 96%|█████████▌| 10285/10691 [1:33:14<03:38,  1.86it/s] 96%|█████████▌| 10286/10691 [1:33:14<03:32,  1.90it/s] 96%|█████████▌| 10287/10691 [1:33:15<03:28,  1.94it/s] 96%|█████████▌| 10288/10691 [1:33:15<03:25,  1.96it/s] 96%|█████████▌| 10289/10691 [1:33:16<03:23,  1.98it/s] 96%|█████████▌| 10290/10691 [1:33:16<03:21,  1.99it/s] 96%|█████████▋| 10291/10691 [1:33:17<03:20,  1.99it/s] 96%|█████████▋| 10292/10691 [1:33:17<03:19,  2.00it/s] 96%|█████████▋| 10293/10691 [1:33:18<03:18,  2.00it/s] 96%|█████████▋| 10294/10691 [1:33:18<03:18,  2.01it/s] 96%|█████████▋| 10295/10691 [1:33:19<03:17,  2.01it/s] 96%|█████████▋| 10296/10691 [1:33:19<03:16,  2.01it/s] 96%|█████████▋| 10297/10691 [1:33:20<03:16,  2.01it/s] 96%|█████████▋| 10298/10691 [1:33:20<03:15,  2.01it/s] 96%|█████████▋| 10299/10691 [1:33:21<03:15,  2.01it/s] 96%|█████████▋| 10300/10691 [1:33:21<03:14,  2.01it/s]                                                       {'loss': 2.8713, 'grad_norm': 0.19455912709236145, 'learning_rate': 4.069703863502749e-06, 'epoch': 0.96}
+ 96%|█████████▋| 10300/10691 [1:33:21<03:14,  2.01it/s] 96%|█████████▋| 10301/10691 [1:33:22<03:14,  2.00it/s] 96%|█████████▋| 10302/10691 [1:33:22<03:14,  2.00it/s] 96%|█████████▋| 10303/10691 [1:33:23<03:13,  2.01it/s] 96%|█████████▋| 10304/10691 [1:33:23<03:12,  2.01it/s] 96%|█████████▋| 10305/10691 [1:33:24<03:11,  2.01it/s] 96%|█████████▋| 10306/10691 [1:33:24<03:11,  2.01it/s] 96%|█████████▋| 10307/10691 [1:33:25<03:10,  2.02it/s] 96%|█████████▋| 10308/10691 [1:33:25<03:10,  2.01it/s] 96%|█████████▋| 10309/10691 [1:33:26<03:09,  2.01it/s] 96%|█████████▋| 10310/10691 [1:33:26<03:09,  2.01it/s] 96%|█████████▋| 10311/10691 [1:33:27<03:08,  2.01it/s] 96%|█████████▋| 10312/10691 [1:33:27<03:08,  2.01it/s] 96%|█████████▋| 10313/10691 [1:33:28<03:07,  2.01it/s] 96%|█████████▋| 10314/10691 [1:33:28<03:07,  2.02it/s] 96%|█████████▋| 10315/10691 [1:33:29<03:06,  2.01it/s] 96%|█████████▋| 10316/10691 [1:33:29<03:06,  2.01it/s] 97%|█████████▋| 10317/10691 [1:33:30<03:05,  2.01it/s] 97%|█████████▋| 10318/10691 [1:33:30<03:05,  2.01it/s] 97%|█████████▋| 10319/10691 [1:33:31<03:04,  2.01it/s] 97%|█████████▋| 10320/10691 [1:33:31<03:04,  2.01it/s] 97%|█████████▋| 10321/10691 [1:33:32<03:03,  2.01it/s] 97%|█████████▋| 10322/10691 [1:33:32<03:03,  2.01it/s] 97%|█████████▋| 10323/10691 [1:33:33<03:03,  2.01it/s] 97%|█████████▋| 10324/10691 [1:33:33<03:02,  2.01it/s] 97%|█████████▋| 10325/10691 [1:33:34<03:02,  2.01it/s]{'loss': 2.8831, 'grad_norm': 0.19418801367282867, 'learning_rate': 3.566518758348847e-06, 'epoch': 0.97}
+                                                        97%|█████████▋| 10325/10691 [1:33:34<03:02,  2.01it/s] 97%|█████████▋| 10326/10691 [1:33:34<03:01,  2.01it/s] 97%|█████████▋| 10327/10691 [1:33:35<03:01,  2.01it/s] 97%|█████████▋| 10328/10691 [1:33:35<03:00,  2.01it/s] 97%|█████████▋| 10329/10691 [1:33:36<03:00,  2.01it/s] 97%|█████████▋| 10330/10691 [1:33:36<02:59,  2.01it/s] 97%|█████████▋| 10331/10691 [1:33:37<02:59,  2.01it/s] 97%|█████████▋| 10332/10691 [1:33:37<02:58,  2.01it/s] 97%|█████████▋| 10333/10691 [1:33:38<02:58,  2.01it/s] 97%|█████████▋| 10334/10691 [1:33:38<02:57,  2.01it/s] 97%|█████████▋| 10335/10691 [1:33:39<02:57,  2.01it/s] 97%|█████████▋| 10336/10691 [1:33:39<02:56,  2.01it/s] 97%|█████████▋| 10337/10691 [1:33:40<02:55,  2.01it/s] 97%|█████████▋| 10338/10691 [1:33:40<02:55,  2.01it/s] 97%|█████████▋| 10339/10691 [1:33:41<02:54,  2.01it/s] 97%|█████████▋| 10340/10691 [1:33:41<02:54,  2.01it/s] 97%|█████████▋| 10341/10691 [1:33:42<02:53,  2.01it/s] 97%|█████████▋| 10342/10691 [1:33:42<02:53,  2.01it/s] 97%|█████████▋| 10343/10691 [1:33:43<02:53,  2.01it/s] 97%|█████████▋| 10344/10691 [1:33:43<02:52,  2.01it/s] 97%|█████████▋| 10345/10691 [1:33:44<02:51,  2.01it/s] 97%|█████████▋| 10346/10691 [1:33:44<02:51,  2.01it/s] 97%|█████████▋| 10347/10691 [1:33:45<02:50,  2.01it/s] 97%|█████████▋| 10348/10691 [1:33:45<02:50,  2.01it/s] 97%|█████████▋| 10349/10691 [1:33:46<02:50,  2.01it/s] 97%|█████████▋| 10350/10691 [1:33:46<02:49,  2.01it/s]{'loss': 2.8879, 'grad_norm': 0.19370433688163757, 'learning_rate': 3.096416127648771e-06, 'epoch': 0.97}
+                                                        97%|█████████▋| 10350/10691 [1:33:46<02:49,  2.01it/s] 97%|█████████▋| 10351/10691 [1:33:47<02:49,  2.01it/s] 97%|█████████▋| 10352/10691 [1:33:47<02:48,  2.01it/s] 97%|█████████▋| 10353/10691 [1:33:48<02:47,  2.01it/s] 97%|█████████▋| 10354/10691 [1:33:48<02:47,  2.01it/s] 97%|█████████▋| 10355/10691 [1:33:49<02:46,  2.01it/s] 97%|█████████▋| 10356/10691 [1:33:49<02:46,  2.01it/s] 97%|█████████▋| 10357/10691 [1:33:50<02:45,  2.01it/s] 97%|█████████▋| 10358/10691 [1:33:50<02:45,  2.01it/s] 97%|█████████▋| 10359/10691 [1:33:51<02:44,  2.01it/s] 97%|█████████▋| 10360/10691 [1:33:51<02:44,  2.01it/s] 97%|█████████▋| 10361/10691 [1:33:52<02:43,  2.01it/s] 97%|█████████▋| 10362/10691 [1:33:52<02:43,  2.01it/s] 97%|█████████▋| 10363/10691 [1:33:53<02:42,  2.01it/s] 97%|█████████▋| 10364/10691 [1:33:53<02:42,  2.01it/s] 97%|█████████▋| 10365/10691 [1:33:54<02:42,  2.01it/s] 97%|█████████▋| 10366/10691 [1:33:54<02:42,  2.01it/s] 97%|█████████▋| 10367/10691 [1:33:55<02:41,  2.01it/s] 97%|█████████▋| 10368/10691 [1:33:55<02:40,  2.01it/s] 97%|█████████▋| 10369/10691 [1:33:56<02:40,  2.01it/s] 97%|█████████▋| 10370/10691 [1:33:56<02:39,  2.01it/s] 97%|█████████▋| 10371/10691 [1:33:57<02:39,  2.01it/s] 97%|█████████▋| 10372/10691 [1:33:57<02:38,  2.01it/s] 97%|█████████▋| 10373/10691 [1:33:58<02:38,  2.01it/s] 97%|█████████▋| 10374/10691 [1:33:58<02:38,  2.01it/s] 97%|█████████▋| 10375/10691 [1:33:59<02:37,  2.01it/s]                                                       {'loss': 2.8747, 'grad_norm': 0.1897730678319931, 'learning_rate': 2.6594272991812828e-06, 'epoch': 0.97}
+ 97%|█████████▋| 10375/10691 [1:33:59<02:37,  2.01it/s] 97%|█████████▋| 10376/10691 [1:33:59<02:37,  2.00it/s] 97%|█████████▋| 10377/10691 [1:34:00<02:36,  2.01it/s] 97%|█████████▋| 10378/10691 [1:34:00<02:36,  2.01it/s] 97%|█████████▋| 10379/10691 [1:34:01<02:35,  2.01it/s] 97%|█████████▋| 10380/10691 [1:34:01<02:34,  2.01it/s] 97%|█████████▋| 10381/10691 [1:34:02<02:34,  2.01it/s] 97%|█████████▋| 10382/10691 [1:34:02<02:33,  2.01it/s] 97%|█████████▋| 10383/10691 [1:34:03<02:33,  2.01it/s] 97%|█████████▋| 10384/10691 [1:34:03<02:32,  2.01it/s] 97%|█████████▋| 10385/10691 [1:34:04<02:32,  2.01it/s] 97%|█████████▋| 10386/10691 [1:34:04<02:31,  2.01it/s] 97%|█████████▋| 10387/10691 [1:34:05<02:31,  2.01it/s] 97%|█████████▋| 10388/10691 [1:34:05<02:30,  2.01it/s] 97%|█████████▋| 10389/10691 [1:34:06<02:30,  2.01it/s] 97%|█████████▋| 10390/10691 [1:34:06<02:29,  2.01it/s] 97%|█████████▋| 10391/10691 [1:34:07<02:29,  2.01it/s] 97%|█████████▋| 10392/10691 [1:34:07<02:28,  2.01it/s] 97%|█████████▋| 10393/10691 [1:34:08<02:28,  2.01it/s] 97%|█████████▋| 10394/10691 [1:34:08<02:27,  2.01it/s] 97%|█████████▋| 10395/10691 [1:34:09<02:27,  2.01it/s] 97%|█████████▋| 10396/10691 [1:34:09<02:26,  2.01it/s] 97%|█████████▋| 10397/10691 [1:34:10<02:26,  2.01it/s] 97%|█████████▋| 10398/10691 [1:34:10<02:25,  2.01it/s] 97%|█████████▋| 10399/10691 [1:34:11<02:25,  2.01it/s] 97%|█████████▋| 10400/10691 [1:34:11<02:24,  2.01it/s]{'loss': 2.8745, 'grad_norm': 0.1904703974723816, 'learning_rate': 2.2555813940114965e-06, 'epoch': 0.97}
+                                                        97%|█████████▋| 10400/10691 [1:34:11<02:24,  2.01it/s] 97%|█████████▋| 10401/10691 [1:34:12<02:24,  2.01it/s] 97%|█████████▋| 10402/10691 [1:34:12<02:23,  2.01it/s] 97%|█████████▋| 10403/10691 [1:34:13<02:23,  2.01it/s] 97%|█████████▋| 10404/10691 [1:34:13<02:22,  2.01it/s] 97%|█████████▋| 10405/10691 [1:34:14<02:22,  2.01it/s] 97%|█████████▋| 10406/10691 [1:34:14<02:21,  2.01it/s] 97%|█████████▋| 10407/10691 [1:34:15<02:21,  2.01it/s] 97%|█████████▋| 10408/10691 [1:34:15<02:20,  2.01it/s] 97%|█████████▋| 10409/10691 [1:34:16<02:20,  2.01it/s] 97%|█████████▋| 10410/10691 [1:34:16<02:19,  2.01it/s] 97%|█████████▋| 10411/10691 [1:34:17<02:19,  2.01it/s] 97%|█████████▋| 10412/10691 [1:34:17<02:18,  2.01it/s] 97%|█████████▋| 10413/10691 [1:34:18<02:18,  2.01it/s] 97%|█████████▋| 10414/10691 [1:34:18<02:17,  2.01it/s] 97%|█████████▋| 10415/10691 [1:34:19<02:17,  2.01it/s] 97%|█████████▋| 10416/10691 [1:34:19<02:16,  2.01it/s] 97%|█████████▋| 10417/10691 [1:34:20<02:16,  2.01it/s] 97%|█████████▋| 10418/10691 [1:34:20<02:15,  2.01it/s] 97%|█████████▋| 10419/10691 [1:34:21<02:15,  2.01it/s] 97%|█████████▋| 10420/10691 [1:34:21<02:14,  2.01it/s] 97%|█████████▋| 10421/10691 [1:34:22<02:14,  2.01it/s] 97%|█████████▋| 10422/10691 [1:34:22<02:13,  2.01it/s] 97%|█████████▋| 10423/10691 [1:34:23<02:13,  2.01it/s] 98%|█████████▊| 10424/10691 [1:34:23<02:12,  2.01it/s] 98%|█████████▊| 10425/10691 [1:34:24<02:12,  2.01it/s]{'loss': 2.891, 'grad_norm': 0.19203884899616241, 'learning_rate': 1.884905324550379e-06, 'epoch': 0.98}
+                                                        98%|█████████▊| 10425/10691 [1:34:24<02:12,  2.01it/s] 98%|█████████▊| 10426/10691 [1:34:24<02:12,  2.01it/s] 98%|█████████▊| 10427/10691 [1:34:25<02:11,  2.00it/s] 98%|█████████▊| 10428/10691 [1:34:25<02:11,  2.01it/s] 98%|█████████▊| 10429/10691 [1:34:26<02:10,  2.01it/s] 98%|█████████▊| 10430/10691 [1:34:26<02:09,  2.01it/s] 98%|█████████▊| 10431/10691 [1:34:27<02:09,  2.01it/s] 98%|█████████▊| 10432/10691 [1:34:27<02:08,  2.01it/s] 98%|█████████▊| 10433/10691 [1:34:28<02:08,  2.01it/s] 98%|█████████▊| 10434/10691 [1:34:28<02:07,  2.01it/s] 98%|█████████▊| 10435/10691 [1:34:29<02:07,  2.01it/s] 98%|█████████▊| 10436/10691 [1:34:29<02:06,  2.02it/s] 98%|█████████▊| 10437/10691 [1:34:30<02:06,  2.02it/s] 98%|█████████▊| 10438/10691 [1:34:30<02:05,  2.02it/s] 98%|█████████▊| 10439/10691 [1:34:31<02:05,  2.01it/s] 98%|█████████▊| 10440/10691 [1:34:31<02:04,  2.01it/s] 98%|█████████▊| 10441/10691 [1:34:31<02:04,  2.01it/s] 98%|█████████▊| 10442/10691 [1:34:32<02:03,  2.01it/s] 98%|█████████▊| 10443/10691 [1:34:32<02:03,  2.01it/s] 98%|█████████▊| 10444/10691 [1:34:33<02:02,  2.01it/s] 98%|█████████▊| 10445/10691 [1:34:33<02:02,  2.01it/s] 98%|█████████▊| 10446/10691 [1:34:34<02:01,  2.01it/s] 98%|█████████▊| 10447/10691 [1:34:34<02:01,  2.01it/s] 98%|█████████▊| 10448/10691 [1:34:35<02:00,  2.01it/s] 98%|█████████▊| 10449/10691 [1:34:35<02:00,  2.01it/s] 98%|█████████▊| 10450/10691 [1:34:36<01:59,  2.01it/s]{'loss': 2.8883, 'grad_norm': 0.19205071032047272, 'learning_rate': 1.5474237927611268e-06, 'epoch': 0.98}                                                       
+ 98%|█████████▊| 10450/10691 [1:34:36<01:59,  2.01it/s] 98%|█████████▊| 10451/10691 [1:34:36<01:59,  2.01it/s] 98%|█████████▊| 10452/10691 [1:34:37<01:58,  2.01it/s] 98%|█████████▊| 10453/10691 [1:34:37<01:58,  2.01it/s] 98%|█████████▊| 10454/10691 [1:34:38<01:57,  2.01it/s] 98%|█████████▊| 10455/10691 [1:34:38<01:57,  2.01it/s] 98%|█████████▊| 10456/10691 [1:34:39<01:56,  2.01it/s] 98%|█████████▊| 10457/10691 [1:34:39<01:56,  2.01it/s] 98%|█████████▊| 10458/10691 [1:34:40<01:55,  2.01it/s] 98%|█████████▊| 10459/10691 [1:34:40<01:55,  2.01it/s] 98%|█████████▊| 10460/10691 [1:34:41<01:54,  2.01it/s] 98%|█████████▊| 10461/10691 [1:34:41<01:54,  2.02it/s] 98%|█████████���| 10462/10691 [1:34:42<01:53,  2.01it/s] 98%|█████████▊| 10463/10691 [1:34:42<01:53,  2.01it/s] 98%|█████████▊| 10464/10691 [1:34:43<01:52,  2.01it/s] 98%|█████████▊| 10465/10691 [1:34:43<01:52,  2.01it/s] 98%|█████████▊| 10466/10691 [1:34:44<01:51,  2.02it/s] 98%|█████████▊| 10467/10691 [1:34:44<01:51,  2.01it/s] 98%|█████████▊| 10468/10691 [1:34:45<01:50,  2.01it/s] 98%|█████████▊| 10469/10691 [1:34:45<01:50,  2.01it/s] 98%|█████████▊| 10470/10691 [1:34:46<01:49,  2.01it/s] 98%|█████████▊| 10471/10691 [1:34:46<01:49,  2.01it/s] 98%|█████████▊| 10472/10691 [1:34:47<01:48,  2.01it/s] 98%|█████████▊| 10473/10691 [1:34:47<01:48,  2.01it/s] 98%|█████████▊| 10474/10691 [1:34:48<01:47,  2.01it/s] 98%|█████████▊| 10475/10691 [1:34:48<01:47,  2.01it/s]{'loss': 2.8786, 'grad_norm': 0.1951909214258194, 'learning_rate': 1.2431592885131515e-06, 'epoch': 0.98}
+                                                        98%|█████████▊| 10475/10691 [1:34:48<01:47,  2.01it/s] 98%|█████████▊| 10476/10691 [1:34:49<01:46,  2.01it/s] 98%|█████████▊| 10477/10691 [1:34:49<01:46,  2.01it/s] 98%|█████████▊| 10478/10691 [1:34:50<01:45,  2.01it/s] 98%|█████████▊| 10479/10691 [1:34:50<01:45,  2.01it/s] 98%|█████████▊| 10480/10691 [1:34:51<01:44,  2.01it/s] 98%|█████████▊| 10481/10691 [1:34:51<01:44,  2.01it/s] 98%|█████████▊| 10482/10691 [1:34:52<01:43,  2.01it/s] 98%|█████████▊| 10483/10691 [1:34:52<01:43,  2.01it/s] 98%|█████████▊| 10484/10691 [1:34:53<01:42,  2.01it/s] 98%|█████████▊| 10485/10691 [1:34:53<01:42,  2.01it/s] 98%|█████████▊| 10486/10691 [1:34:54<01:41,  2.01it/s] 98%|█████████▊| 10487/10691 [1:34:54<01:41,  2.01it/s] 98%|█████████▊| 10488/10691 [1:34:55<01:40,  2.01it/s] 98%|█████████▊| 10489/10691 [1:34:55<01:40,  2.01it/s] 98%|█████████▊| 10490/10691 [1:34:56<01:39,  2.01it/s] 98%|█████████▊| 10491/10691 [1:34:56<01:39,  2.01it/s] 98%|█████████▊| 10492/10691 [1:34:57<01:38,  2.01it/s] 98%|█████████▊| 10493/10691 [1:34:57<01:38,  2.01it/s] 98%|█████████▊| 10494/10691 [1:34:58<01:37,  2.01it/s] 98%|█████████▊| 10495/10691 [1:34:58<01:37,  2.01it/s] 98%|█████████▊| 10496/10691 [1:34:59<01:36,  2.01it/s] 98%|█████████▊| 10497/10691 [1:34:59<01:36,  2.01it/s] 98%|█████████▊| 10498/10691 [1:35:00<01:35,  2.01it/s] 98%|█████████▊| 10499/10691 [1:35:00<01:35,  2.02it/s] 98%|█████████▊| 10500/10691 [1:35:01<01:34,  2.01it/s]{'loss': 2.8798, 'grad_norm': 0.19327270984649658, 'learning_rate': 9.72132088083333e-07, 'epoch': 0.98}
+                                                        98%|█████████▊| 10500/10691 [1:35:01<01:34,  2.01it/s] 98%|█████████▊| 10501/10691 [1:35:01<01:34,  2.01it/s] 98%|█████████▊| 10502/10691 [1:35:02<01:33,  2.01it/s] 98%|█████████▊| 10503/10691 [1:35:02<01:33,  2.01it/s] 98%|█████████▊| 10504/10691 [1:35:03<01:33,  2.01it/s] 98%|█████████▊| 10505/10691 [1:35:03<01:32,  2.01it/s] 98%|█████████▊| 10506/10691 [1:35:04<01:32,  2.01it/s] 98%|█████████▊| 10507/10691 [1:35:04<01:31,  2.01it/s] 98%|█████████▊| 10508/10691 [1:35:05<01:30,  2.01it/s] 98%|█████████▊| 10509/10691 [1:35:05<01:30,  2.01it/s] 98%|█████████▊| 10510/10691 [1:35:06<01:29,  2.02it/s] 98%|█████████▊| 10511/10691 [1:35:06<01:29,  2.01it/s] 98%|█████████▊| 10512/10691 [1:35:07<01:28,  2.02it/s] 98%|█████████▊| 10513/10691 [1:35:07<01:28,  2.01it/s] 98%|█████████▊| 10514/10691 [1:35:08<01:27,  2.01it/s] 98%|█████████▊| 10515/10691 [1:35:08<01:27,  2.01it/s] 98%|█████████▊| 10516/10691 [1:35:09<01:26,  2.01it/s] 98%|█████████▊| 10517/10691 [1:35:09<01:26,  2.01it/s] 98%|█████████▊| 10518/10691 [1:35:10<01:25,  2.01it/s] 98%|█████████▊| 10519/10691 [1:35:10<01:25,  2.01it/s] 98%|█████████▊| 10520/10691 [1:35:11<01:24,  2.01it/s] 98%|█████████▊| 10521/10691 [1:35:11<01:24,  2.01it/s] 98%|█████████▊| 10522/10691 [1:35:12<01:23,  2.01it/s] 98%|█████████▊| 10523/10691 [1:35:12<01:23,  2.01it/s] 98%|█████████▊| 10524/10691 [1:35:13<01:22,  2.01it/s] 98%|█████████▊| 10525/10691 [1:35:13<01:22,  2.01it/s]                                                       {'loss': 2.8871, 'grad_norm': 0.1909700483083725, 'learning_rate': 7.343602528045445e-07, 'epoch': 0.98}
+ 98%|█████████▊| 10525/10691 [1:35:13<01:22,  2.01it/s] 98%|█████████▊| 10526/10691 [1:35:14<01:22,  2.01it/s] 98%|█████████▊| 10527/10691 [1:35:14<01:21,  2.01it/s] 98%|█████████▊| 10528/10691 [1:35:15<01:20,  2.01it/s] 98%|█████████▊| 10529/10691 [1:35:15<01:20,  2.01it/s] 98%|█████████▊| 10530/10691 [1:35:16<01:19,  2.01it/s] 99%|█████████▊| 10531/10691 [1:35:16<01:19,  2.01it/s] 99%|█████████▊| 10532/10691 [1:35:17<01:18,  2.01it/s] 99%|█████████▊| 10533/10691 [1:35:17<01:18,  2.01it/s] 99%|█████████▊| 10534/10691 [1:35:18<01:18,  2.01it/s] 99%|█████████▊| 10535/10691 [1:35:18<01:17,  2.01it/s] 99%|█████████▊| 10536/10691 [1:35:19<01:17,  2.01it/s] 99%|█████████▊| 10537/10691 [1:35:19<01:16,  2.01it/s] 99%|█████████▊| 10538/10691 [1:35:20<01:16,  2.01it/s] 99%|█████████▊| 10539/10691 [1:35:20<01:15,  2.01it/s] 99%|█████████▊| 10540/10691 [1:35:21<01:15,  2.01it/s] 99%|█████████▊| 10541/10691 [1:35:21<01:14,  2.01it/s] 99%|█████████▊| 10542/10691 [1:35:22<01:14,  2.01it/s] 99%|█████████▊| 10543/10691 [1:35:22<01:13,  2.01it/s] 99%|█████████▊| 10544/10691 [1:35:23<01:13,  2.01it/s] 99%|█████████▊| 10545/10691 [1:35:23<01:12,  2.01it/s] 99%|█████████▊| 10546/10691 [1:35:24<01:12,  2.01it/s] 99%|█████████▊| 10547/10691 [1:35:24<01:11,  2.01it/s] 99%|█████████▊| 10548/10691 [1:35:25<01:11,  2.01it/s] 99%|█████████▊| 10549/10691 [1:35:25<01:10,  2.01it/s] 99%|█████████▊| 10550/10691 [1:35:26<01:10,  2.01it/s]{'loss': 2.8798, 'grad_norm': 0.19122782349586487, 'learning_rate': 5.298596278626166e-07, 'epoch': 0.99}
+                                                        99%|█████████▊| 10550/10691 [1:35:26<01:10,  2.01it/s] 99%|█████████▊| 10551/10691 [1:35:26<01:09,  2.01it/s] 99%|█████████▊| 10552/10691 [1:35:27<01:09,  2.01it/s] 99%|█████████▊| 10553/10691 [1:35:27<01:08,  2.01it/s] 99%|█████████▊| 10554/10691 [1:35:28<01:08,  2.01it/s] 99%|█████████▊| 10555/10691 [1:35:28<01:07,  2.01it/s] 99%|█████████▊| 10556/10691 [1:35:29<01:07,  2.01it/s] 99%|█████████▊| 10557/10691 [1:35:29<01:06,  2.01it/s] 99%|█████████▉| 10558/10691 [1:35:30<01:06,  2.01it/s] 99%|█████████▉| 10559/10691 [1:35:30<01:05,  2.01it/s] 99%|█████████▉| 10560/10691 [1:35:31<01:05,  2.01it/s] 99%|█████████▉| 10561/10691 [1:35:31<01:04,  2.01it/s] 99%|█████████▉| 10562/10691 [1:35:32<01:04,  2.01it/s] 99%|█████████▉| 10563/10691 [1:35:32<01:03,  2.01it/s] 99%|█████████▉| 10564/10691 [1:35:33<01:03,  2.01it/s] 99%|█████████▉| 10565/10691 [1:35:33<01:02,  2.01it/s] 99%|█████████▉| 10566/10691 [1:35:34<01:02,  2.01it/s] 99%|█████████▉| 10567/10691 [1:35:34<01:01,  2.01it/s] 99%|█████████▉| 10568/10691 [1:35:35<01:01,  2.01it/s] 99%|█████████▉| 10569/10691 [1:35:35<01:00,  2.01it/s] 99%|█████████▉| 10570/10691 [1:35:36<01:00,  2.01it/s] 99%|█████████▉| 10571/10691 [1:35:36<00:59,  2.01it/s] 99%|█████████▉| 10572/10691 [1:35:37<00:59,  2.01it/s] 99%|█████████▉| 10573/10691 [1:35:37<00:58,  2.01it/s] 99%|█████████▉| 10574/10691 [1:35:38<00:58,  2.01it/s] 99%|█████████▉| 10575/10691 [1:35:38<00:57,  2.01it/s]{'loss': 2.8818, 'grad_norm': 0.19505107402801514, 'learning_rate': 3.5864384123973637e-07, 'epoch': 0.99}                                                       
+ 99%|█████████▉| 10575/10691 [1:35:38<00:57,  2.01it/s] 99%|█████████▉| 10576/10691 [1:35:39<00:57,  2.01it/s] 99%|█████████▉| 10577/10691 [1:35:39<00:56,  2.01it/s] 99%|█████████▉| 10578/10691 [1:35:40<00:56,  2.01it/s] 99%|█████████▉| 10579/10691 [1:35:40<00:55,  2.01it/s] 99%|█████████▉| 10580/10691 [1:35:41<00:55,  2.01it/s] 99%|████████���▉| 10581/10691 [1:35:41<00:54,  2.01it/s] 99%|█████████▉| 10582/10691 [1:35:42<00:54,  2.01it/s] 99%|█████████▉| 10583/10691 [1:35:42<00:53,  2.01it/s] 99%|█████████▉| 10584/10691 [1:35:43<00:53,  2.01it/s] 99%|█████████▉| 10585/10691 [1:35:43<00:52,  2.01it/s] 99%|█████████▉| 10586/10691 [1:35:44<00:52,  2.01it/s] 99%|█████████▉| 10587/10691 [1:35:44<00:51,  2.01it/s] 99%|█████████▉| 10588/10691 [1:35:45<00:51,  2.01it/s] 99%|█████████▉| 10589/10691 [1:35:45<00:50,  2.01it/s] 99%|█████████▉| 10590/10691 [1:35:46<00:50,  2.01it/s] 99%|█████████▉| 10591/10691 [1:35:46<00:49,  2.01it/s] 99%|█████████▉| 10592/10691 [1:35:47<00:49,  2.01it/s] 99%|█████████▉| 10593/10691 [1:35:47<00:48,  2.01it/s] 99%|█████████▉| 10594/10691 [1:35:48<00:48,  2.01it/s] 99%|█████████▉| 10595/10691 [1:35:48<00:47,  2.01it/s] 99%|█████████▉| 10596/10691 [1:35:49<00:47,  2.01it/s] 99%|█████████▉| 10597/10691 [1:35:49<00:46,  2.01it/s] 99%|█████████▉| 10598/10691 [1:35:50<00:46,  2.01it/s] 99%|█████████▉| 10599/10691 [1:35:50<00:45,  2.01it/s] 99%|█████████▉| 10600/10691 [1:35:51<00:45,  2.01it/s]                                                       {'loss': 2.876, 'grad_norm': 0.1956322193145752, 'learning_rate': 2.207243028067296e-07, 'epoch': 0.99}
+ 99%|█████████▉| 10600/10691 [1:35:51<00:45,  2.01it/s] 99%|█████████▉| 10601/10691 [1:35:51<00:44,  2.01it/s] 99%|█████████▉| 10602/10691 [1:35:52<00:44,  2.01it/s] 99%|█████████▉| 10603/10691 [1:35:52<00:43,  2.01it/s] 99%|█████████▉| 10604/10691 [1:35:53<00:43,  2.01it/s] 99%|█████████▉| 10605/10691 [1:35:53<00:42,  2.01it/s] 99%|█████████▉| 10606/10691 [1:35:54<00:42,  2.01it/s] 99%|█████████▉| 10607/10691 [1:35:54<00:41,  2.01it/s] 99%|█████████▉| 10608/10691 [1:35:55<00:41,  2.01it/s] 99%|█████████▉| 10609/10691 [1:35:55<00:40,  2.01it/s] 99%|█████████▉| 10610/10691 [1:35:56<00:40,  2.01it/s] 99%|█████████▉| 10611/10691 [1:35:56<00:39,  2.01it/s] 99%|█████████▉| 10612/10691 [1:35:56<00:39,  2.01it/s] 99%|█████████▉| 10613/10691 [1:35:57<00:38,  2.01it/s] 99%|█████████▉| 10614/10691 [1:35:57<00:38,  2.01it/s] 99%|█████████▉| 10615/10691 [1:35:58<00:37,  2.01it/s] 99%|█████████▉| 10616/10691 [1:35:58<00:37,  2.01it/s] 99%|█████████▉| 10617/10691 [1:35:59<00:36,  2.01it/s] 99%|█████████▉| 10618/10691 [1:35:59<00:36,  2.01it/s] 99%|█████████▉| 10619/10691 [1:36:00<00:35,  2.01it/s] 99%|█████████▉| 10620/10691 [1:36:00<00:35,  2.01it/s] 99%|█████████▉| 10621/10691 [1:36:01<00:34,  2.01it/s] 99%|█████████▉| 10622/10691 [1:36:01<00:34,  2.01it/s] 99%|█████████▉| 10623/10691 [1:36:02<00:33,  2.01it/s] 99%|█████████▉| 10624/10691 [1:36:02<00:33,  2.01it/s] 99%|█████████▉| 10625/10691 [1:36:03<00:32,  2.01it/s]{'loss': 2.8849, 'grad_norm': 0.19478067755699158, 'learning_rate': 1.161102035625583e-07, 'epoch': 0.99}
+                                                        99%|█████████▉| 10625/10691 [1:36:03<00:32,  2.01it/s] 99%|█████████▉| 10626/10691 [1:36:03<00:32,  2.01it/s] 99%|█████████▉| 10627/10691 [1:36:04<00:31,  2.01it/s] 99%|█████████▉| 10628/10691 [1:36:04<00:31,  2.01it/s] 99%|█████████▉| 10629/10691 [1:36:05<00:30,  2.01it/s] 99%|█████████▉| 10630/10691 [1:36:05<00:30,  2.01it/s] 99%|█████████▉| 10631/10691 [1:36:06<00:29,  2.01it/s] 99%|█████████▉| 10632/10691 [1:36:06<00:29,  2.02it/s] 99%|█████████▉| 10633/10691 [1:36:07<00:28,  2.02it/s] 99%|█████████▉| 10634/10691 [1:36:07<00:28,  2.01it/s] 99%|█████████▉| 10635/10691 [1:36:08<00:27,  2.01it/s] 99%|█████████▉| 10636/10691 [1:36:08<00:27,  2.01it/s] 99%|█████████▉| 10637/10691 [1:36:09<00:26,  2.01it/s]100%|█████████▉| 10638/10691 [1:36:09<00:26,  2.01it/s]100%|█████████▉| 10639/10691 [1:36:10<00:25,  2.01it/s]100%|█████████▉| 10640/10691 [1:36:10<00:25,  2.01it/s]100%|█████████▉| 10641/10691 [1:36:11<00:24,  2.01it/s]100%|█████████▉| 10642/10691 [1:36:11<00:24,  2.01it/s]100%|█████████▉| 10643/10691 [1:36:12<00:23,  2.01it/s]100%|█████████▉| 10644/10691 [1:36:12<00:23,  2.01it/s]100%|█████████▉| 10645/10691 [1:36:13<00:22,  2.01it/s]100%|█████████▉| 10646/10691 [1:36:13<00:22,  2.01it/s]100%|█████████▉| 10647/10691 [1:36:14<00:21,  2.01it/s]100%|█████████▉| 10648/10691 [1:36:14<00:21,  2.01it/s]100%|█████████▉| 10649/10691 [1:36:15<00:20,  2.01it/s]100%|█████████▉| 10650/10691 [1:36:15<00:20,  2.01it/s]                                                       {'loss': 2.8822, 'grad_norm': 0.19085152447223663, 'learning_rate': 4.480851502186578e-08, 'epoch': 1.0}
+100%|█████████▉| 10650/10691 [1:36:15<00:20,  2.01it/s]100%|█████████▉| 10651/10691 [1:36:16<00:19,  2.01it/s]100%|█████████▉| 10652/10691 [1:36:16<00:19,  2.01it/s]100%|█████████▉| 10653/10691 [1:36:17<00:18,  2.01it/s]100%|█████████▉| 10654/10691 [1:36:17<00:18,  2.01it/s]100%|█████████▉| 10655/10691 [1:36:18<00:17,  2.01it/s]100%|█████████▉| 10656/10691 [1:36:18<00:17,  2.01it/s]100%|█████████▉| 10657/10691 [1:36:19<00:16,  2.01it/s]100%|█████████▉| 10658/10691 [1:36:19<00:16,  2.01it/s]100%|█████████▉| 10659/10691 [1:36:20<00:15,  2.01it/s]100%|█████████▉| 10660/10691 [1:36:20<00:15,  2.01it/s]100%|█████████▉| 10661/10691 [1:36:21<00:14,  2.01it/s]100%|█████████▉| 10662/10691 [1:36:21<00:14,  2.01it/s]100%|█████████▉| 10663/10691 [1:36:22<00:13,  2.01it/s]100%|█████████▉| 10664/10691 [1:36:22<00:13,  2.01it/s]100%|█████████▉| 10665/10691 [1:36:23<00:12,  2.01it/s]100%|█████████▉| 10666/10691 [1:36:23<00:12,  2.01it/s]100%|█████████▉| 10667/10691 [1:36:24<00:11,  2.01it/s]100%|█████████▉| 10668/10691 [1:36:24<00:11,  2.01it/s]100%|█████████▉| 10669/10691 [1:36:25<00:10,  2.01it/s]100%|█████████▉| 10670/10691 [1:36:25<00:10,  2.01it/s]100%|█████████▉| 10671/10691 [1:36:26<00:09,  2.01it/s]100%|█████████▉| 10672/10691 [1:36:26<00:09,  2.01it/s]100%|█████████▉| 10673/10691 [1:36:27<00:08,  2.01it/s]100%|█████████▉| 10674/10691 [1:36:27<00:08,  2.01it/s]100%|█████████▉| 10675/10691 [1:36:28<00:07,  2.01it/s]{'loss': 2.8795, 'grad_norm': 0.18962973356246948, 'learning_rate': 6.823988750237486e-09, 'epoch': 1.0}                                                       
+100%|█████████▉| 10675/10691 [1:36:28<00:07,  2.01it/s]100%|█████████▉| 10676/10691 [1:36:28<00:07,  2.01it/s]100%|█████████▉| 10677/10691 [1:36:29<00:06,  2.01it/s]100%|█████████▉| 10678/10691 [1:36:29<00:06,  2.01it/s]100%|█████████▉| 10679/10691 [1:36:30<00:05,  2.01it/s]100%|█████████▉| 10680/10691 [1:36:30<00:05,  2.01it/s]100%|█████████▉| 10681/10691 [1:36:31<00:04,  2.01it/s]100%|█████████▉| 10682/10691 [1:36:31<00:04,  2.01it/s]100%|█████████▉| 10683/10691 [1:36:32<00:03,  2.01it/s]100%|█████████▉| 10684/10691 [1:36:32<00:03,  2.01it/s]100%|█████████▉| 10685/10691 [1:36:33<00:03,  2.00it/s]100%|█████████▉| 10686/10691 [1:36:33<00:02,  2.00it/s]100%|█████████▉| 10687/10691 [1:36:34<00:01,  2.00it/s]100%|█████████▉| 10688/10691 [1:36:34<00:01,  2.00it/s]100%|█████████▉| 10689/10691 [1:36:35<00:00,  2.01it/s]100%|█████████▉| 10690/10691 [1:36:35<00:00,  2.01it/s]100%|██████████| 10691/10691 [1:36:37<00:00,  1.28it/s]                                                       {'train_runtime': 5809.5656, 'train_samples_per_second': 1884.481, 'train_steps_per_second': 1.84, 'train_loss': 3.2626080868476324, 'epoch': 1.0}
+100%|██████████| 10691/10691 [1:36:49<00:00,  1.28it/s]100%|██████████| 10691/10691 [1:36:49<00:00,  1.84it/s]
 Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.