File size: 23,305 Bytes
be5548b
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
# we selected the parameters
# PPO: 543, 845, 544

# soc inf grid search
# Ask pointing boxes

# 545
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 0.1
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 0.1
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 5 --*intrinsic-reward-coef 0.1
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 0.1
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 30 --*intrinsic-reward-coef 0.1
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 0.1

--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 1
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 1
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 5 --*intrinsic-reward-coef 1
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 1
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 30 --*intrinsic-reward-coef 1
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 1

--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 5
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 5
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 5 --*intrinsic-reward-coef 5
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 5
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 30 --*intrinsic-reward-coef 5
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 5

--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 10
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 10
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 5 --*intrinsic-reward-coef 10
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 10
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 30 --*intrinsic-reward-coef 10
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 10

--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 30
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 30
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 5 --*intrinsic-reward-coef 30
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 30
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 30 --*intrinsic-reward-coef 30
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 30

--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 100
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 100
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 5 --*intrinsic-reward-coef 100
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 100
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 30 --*intrinsic-reward-coef 100
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 100

## 845
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 0.1
## 544
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_soc_inf_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type soc_inf --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 0.1