Spaces:
Running
Running
## squeue -u utu57ed -i 1 -o "%.18i %.9P %.130j %.8u %.2t %.10M %.6D %R" | |
## | |
### RND | |
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_rnd_mask --compact-save --algo ppo --*env MiniGrid-MultiRoom-N2-S4-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-rnd-reference --exploration-bonus --exploration-bonus-type rnd | |
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_rnd_mask --compact-save --algo ppo --*env MiniGrid-MultiRoom-N4-S5-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-rnd-reference --exploration-bonus --exploration-bonus-type rnd | |
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_rnd_mask --compact-save --algo ppo --*env MiniGrid-MultiRoomNoisyTV-N7-S4-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-rnd-reference --exploration-bonus --exploration-bonus-type rnd | |
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_rnd_mask --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-rnd-reference --exploration-bonus --exploration-bonus-type rnd | |
### Basic | |
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_raw --compact-save --algo ppo --*env MiniGrid-MultiRoom-N2-S4-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-rnd-reference | |
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_raw --compact-save --algo ppo --*env MiniGrid-MultiRoom-N4-S5-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-rnd-reference | |
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_raw --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-rnd-reference | |
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_raw --compact-save --algo ppo --*env MiniGrid-MultiRoomNoisyTV-N7-S4-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-rnd-reference | |
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_raw --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-rnd-reference | |
### RIDE | |
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_ride --compact-save --algo ppo --*env MiniGrid-MultiRoom-N2-S4-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-ride-reference --exploration-bonus --exploration-bonus-type ride | |
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_ride --compact-save --algo ppo --*env MiniGrid-MultiRoom-N4-S5-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-ride-reference --exploration-bonus --exploration-bonus-type ride | |
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_ride --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-ride-reference --exploration-bonus --exploration-bonus-type ride | |
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_ride --compact-save --algo ppo --*env MiniGrid-MultiRoomNoisyTV-N7-S4-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-ride-reference --exploration-bonus --exploration-bonus-type ride | |
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_ride --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-ride-reference --exploration-bonus --exploration-bonus-type ride | |
# | |
# old | |
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model ref_rnd --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --*custom-ppo-rnd --exploration-bonus --exploration-bonus-type rnd | |
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model ref_ride --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --*custom-ppo-ride --exploration-bonus --exploration-bonus-type ride | |
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model kc_ref_rnd --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --*custom-ppo-rnd --exploration-bonus --exploration-bonus-type rnd | |
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model kc_ref_ride --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --*custom-ppo-ride --exploration-bonus --exploration-bonus-type ride | |
# MultiRoom N7 S4 | |
# with vs ride parametres | |
## memore and Ref model | |
## no | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model new_ref_no --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference | |
## rnd | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model new_ref_rnd --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference --exploration-bonus --*exploration-bonus-type rnd | |
## ride | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model new_ref_ride --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-ride-reference --exploration-bonus --*exploration-bonus-type ride | |
## | |
# | |
## with vs ride parametres: key corridor | |
## no | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model new_kc_ref_no --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference | |
## rnd | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model new_kc_ref_rnd --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference --exploration-bonus --*exploration-bonus-type rnd | |
## ride | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model new_kc_ref_ride --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-ride-reference --exploration-bonus --*exploration-bonus-type ride | |
# | |
## conclution: it doesn't work with our params, we have to use reference params | |
## NOTE: also here recurrence was 1 because it's their envs, for our envs we have to change the recurrence | |
# testing | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model testing_ref_rnd_agent --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference --exploration-bonus --*exploration-bonus-type rnd | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model testing_ref_rnd_preproc --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --*custom-ppo-rnd-reference --exploration-bonus --*exploration-bonus-type rnd | |
# testing | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model testing_kc_ref_ride_agent --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-ride-reference --exploration-bonus --*exploration-bonus-type ride | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model testing_kc_ref_ride_preproc --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --*custom-ppo-ride-reference --exploration-bonus --*exploration-bonus-type ride | |
# Ref model | |
# no | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_REF_no --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference | |
# rnd | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_REF_rnd --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference --exploration-bonus --*exploration-bonus-type rnd | |
# ride | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_REF_ride --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-ride-reference --exploration-bonus --*exploration-bonus-type ride | |
## | |
# | |
## with vs ride parametres: key corridor | |
## no | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_kc_REF_no --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference | |
## rnd | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_kc_REF_rnd --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference --exploration-bonus --*exploration-bonus-type rnd | |
## ride | |
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_kc_REF_ride --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-ride-reference --exploration-bonus --*exploration-bonus-type ride | |
## ride small reward | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_kc_ref_ride_small_rew --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-ride-reference --exploration-bonus --*exploration-bonus-type ride --intrinsic-reward-coef 0.05 | |
## rnd small reward | |
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_kc_ref_rnd_small_rew --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference --exploration-bonus --*exploration-bonus-type rnd --intrinsic-reward-coef 0.05 | |