File size: 11,174 Bytes
be5548b
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
## squeue -u utu57ed -i 1 -o "%.18i %.9P %.130j %.8u %.2t %.10M %.6D %R"
##
### RND
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_rnd_mask  --compact-save --algo ppo --*env MiniGrid-MultiRoom-N2-S4-v0  --save-interval 10 --frames 50000000  --arch original_endpool_res --custom-ppo-rnd-reference --exploration-bonus --exploration-bonus-type rnd
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_rnd_mask  --compact-save --algo ppo --*env MiniGrid-MultiRoom-N4-S5-v0  --save-interval 10 --frames 50000000  --arch original_endpool_res --custom-ppo-rnd-reference --exploration-bonus --exploration-bonus-type rnd
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_rnd_mask  --compact-save --algo ppo --*env MiniGrid-MultiRoomNoisyTV-N7-S4-v0 --save-interval 10 --frames 50000000  --arch original_endpool_res --custom-ppo-rnd-reference --exploration-bonus --exploration-bonus-type rnd
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_rnd_mask  --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0  --save-interval 10 --frames 50000000  --arch original_endpool_res --custom-ppo-rnd-reference --exploration-bonus --exploration-bonus-type rnd
### Basic
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_raw  --compact-save --algo ppo --*env MiniGrid-MultiRoom-N2-S4-v0  --save-interval 10 --frames 50000000  --arch original_endpool_res --custom-ppo-rnd-reference
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_raw  --compact-save --algo ppo --*env MiniGrid-MultiRoom-N4-S5-v0  --save-interval 10 --frames 50000000  --arch original_endpool_res --custom-ppo-rnd-reference
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_raw  --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0  --save-interval 10 --frames 50000000  --arch original_endpool_res --custom-ppo-rnd-reference
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_raw  --compact-save --algo ppo --*env MiniGrid-MultiRoomNoisyTV-N7-S4-v0 --save-interval 10 --frames 50000000  --arch original_endpool_res --custom-ppo-rnd-reference
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_raw  --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0  --save-interval 10 --frames 50000000  --arch original_endpool_res --custom-ppo-rnd-reference
### RIDE
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_ride  --compact-save --algo ppo --*env MiniGrid-MultiRoom-N2-S4-v0  --save-interval 10 --frames 50000000  --arch original_endpool_res --custom-ppo-ride-reference --exploration-bonus --exploration-bonus-type ride
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_ride  --compact-save --algo ppo --*env MiniGrid-MultiRoom-N4-S5-v0  --save-interval 10 --frames 50000000  --arch original_endpool_res --custom-ppo-ride-reference --exploration-bonus --exploration-bonus-type ride
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_ride  --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0  --save-interval 10 --frames 50000000  --arch original_endpool_res --custom-ppo-ride-reference --exploration-bonus --exploration-bonus-type ride
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_ride  --compact-save --algo ppo --*env MiniGrid-MultiRoomNoisyTV-N7-S4-v0 --save-interval 10 --frames 50000000  --arch original_endpool_res --custom-ppo-ride-reference --exploration-bonus --exploration-bonus-type ride
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_ride  --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0  --save-interval 10 --frames 50000000  --arch original_endpool_res --custom-ppo-ride-reference --exploration-bonus --exploration-bonus-type ride
#

# old
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model ref_rnd   --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0  --save-interval 10 --frames 50000000  --arch original_endpool_res --*custom-ppo-rnd --exploration-bonus --exploration-bonus-type rnd
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model ref_ride  --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0  --save-interval 10 --frames 50000000  --arch original_endpool_res --*custom-ppo-ride --exploration-bonus --exploration-bonus-type ride
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model kc_ref_rnd   --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0  --save-interval 10 --frames 50000000  --arch original_endpool_res --*custom-ppo-rnd --exploration-bonus --exploration-bonus-type rnd
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model kc_ref_ride  --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0  --save-interval 10 --frames 50000000  --arch original_endpool_res --*custom-ppo-ride --exploration-bonus --exploration-bonus-type ride

# MultiRoom N7 S4
# with vs ride parametres

## memore and Ref model
## no
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model new_ref_no --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0  --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference
## rnd
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model new_ref_rnd --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0  --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference --exploration-bonus --*exploration-bonus-type rnd
## ride
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model new_ref_ride --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0  --save-interval 10 --ride-ref-agent --*custom-ppo-ride-reference --exploration-bonus --*exploration-bonus-type ride
##
#
## with vs ride parametres: key corridor
## no
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model new_kc_ref_no --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0  --save-interval 10  --ride-ref-agent --*custom-ppo-rnd-reference
## rnd
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model new_kc_ref_rnd --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0  --save-interval 10  --ride-ref-agent --*custom-ppo-rnd-reference --exploration-bonus --*exploration-bonus-type rnd
## ride
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model new_kc_ref_ride --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0  --save-interval 10 --ride-ref-agent --*custom-ppo-ride-reference --exploration-bonus --*exploration-bonus-type ride
#
## conclution: it doesn't work with our params, we have to use reference params
## NOTE: also here recurrence was 1 because it's their envs, for our envs we have to change the recurrence

# testing
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model testing_ref_rnd_agent --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0  --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference --exploration-bonus --*exploration-bonus-type rnd
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model testing_ref_rnd_preproc --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0  --save-interval 10 --*custom-ppo-rnd-reference --exploration-bonus --*exploration-bonus-type rnd

# testing
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model testing_kc_ref_ride_agent --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0  --save-interval 10 --ride-ref-agent --*custom-ppo-ride-reference --exploration-bonus --*exploration-bonus-type ride
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model testing_kc_ref_ride_preproc --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0  --save-interval 10 --*custom-ppo-ride-reference --exploration-bonus --*exploration-bonus-type ride


# Ref model
# no
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_REF_no  --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0  --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference
# rnd
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_REF_rnd  --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0  --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference --exploration-bonus --*exploration-bonus-type rnd
# ride
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_REF_ride  --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0  --save-interval 10 --ride-ref-agent --*custom-ppo-ride-reference --exploration-bonus --*exploration-bonus-type ride

##
#
## with vs ride parametres: key corridor
## no
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_kc_REF_no  --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0  --save-interval 10  --ride-ref-agent --*custom-ppo-rnd-reference
## rnd
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_kc_REF_rnd  --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0  --save-interval 10  --ride-ref-agent --*custom-ppo-rnd-reference --exploration-bonus --*exploration-bonus-type rnd
## ride
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_kc_REF_ride  --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0  --save-interval 10 --ride-ref-agent --*custom-ppo-ride-reference --exploration-bonus --*exploration-bonus-type ride
## ride small reward
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_kc_ref_ride_small_rew  --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0  --save-interval 10 --ride-ref-agent --*custom-ppo-ride-reference --exploration-bonus --*exploration-bonus-type ride --intrinsic-reward-coef 0.05
## rnd small reward
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_kc_ref_rnd_small_rew  --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0  --save-interval 10  --ride-ref-agent --*custom-ppo-rnd-reference --exploration-bonus --*exploration-bonus-type rnd --intrinsic-reward-coef 0.05