File size: 46,823 Bytes
be5548b
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
# soc inf
#--slurm_conf jz_long_2gpus --nb_seeds 4 --model Social_influence_experiments --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --ppo-hp-tuning --*env SocialAI-DummyParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards
#--slurm_conf jz_long_2gpus --nb_seeds 4 --model Social_influence_experiments --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --ppo-hp-tuning --*env SocialAI-DummyParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 10 0.5 --clip-eps 0.2 --recurrence 10 --*max-grad-norm 0.5 --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 0.1 --*optim-eps 1e-05 --*epochs 4 --*lr 0.0001

# no bonus
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search_no_bonus --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --optim-eps 1e-05 --epochs 4 --*lr 0.01
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search_no_bonus --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --optim-eps 1e-05 --epochs 4 --*lr 0.001
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search_no_bonus --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search_no_bonus --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

# grid search

# loss coef = 0.1

--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.01
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.001
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.01
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.001
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.01
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.001
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.01
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.001
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.01
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.001
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 0.1 --*intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

## loss coef = 1

--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.01
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.001
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.01
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.001
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.01
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.001
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.01
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.001
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.01
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.001
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 1 --*intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

## loss coef = 10

--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.01
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.001
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.01
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.001
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.01
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.001
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.01
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.001
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 10 --*intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

# loss coef = 100
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.01
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.001
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.01
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.001
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.01
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.001
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.01
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.001
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --*env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --*exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --*intrinsic-reward-loss-coef 100 --*intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0001