Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

.summary/0/events.out.tfevents.1731044698.ali +3 -0
README.md +1 -1
config.json +3 -3
replay.mp4 +2 -2
sf_log.txt +201 -0

.summary/0/events.out.tfevents.1731044698.ali ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:848ae94ba298ce109de75afbb1c7e6a1cc2538f598e387e83a0c58299c897ea6
+size 40

README.md CHANGED Viewed

@@ -15,7 +15,7 @@ model-index:
       type: doom_health_gathering_supreme
     metrics:
     - type: mean_reward
-      value: 4.07 +/- 0.70
       name: mean_reward
       verified: false
 ---

       type: doom_health_gathering_supreme
     metrics:
     - type: mean_reward
+      value: 4.08 +/- 0.71
       name: mean_reward
       verified: false
 ---

config.json CHANGED Viewed

@@ -15,8 +15,8 @@
   "worker_num_splits": 2,
   "policy_workers_per_policy": 1,
   "max_policy_lag": 1000,
-  "num_workers": 8,
-  "num_envs_per_worker": 4,
   "batch_size": 1024,
   "num_batches_per_epoch": 1,
   "num_epochs": 1,
@@ -65,7 +65,7 @@
   "summaries_use_frameskip": true,
   "heartbeat_interval": 20,
   "heartbeat_reporting_interval": 600,
-  "train_for_env_steps": 1000000000,
   "train_for_seconds": 10000000000,
   "save_every_sec": 120,
   "keep_checkpoints": 2,

   "worker_num_splits": 2,
   "policy_workers_per_policy": 1,
   "max_policy_lag": 1000,
+  "num_workers": 16,
+  "num_envs_per_worker": 8,
   "batch_size": 1024,
   "num_batches_per_epoch": 1,
   "num_epochs": 1,
   "summaries_use_frameskip": true,
   "heartbeat_interval": 20,
   "heartbeat_reporting_interval": 600,
+  "train_for_env_steps": 5000,
   "train_for_seconds": 10000000000,
   "save_every_sec": 120,
   "keep_checkpoints": 2,

replay.mp4 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b800b24655a949eb854d52221fcae684e142841d25dc693d343231d6d13d9f32
-size 63879708

 version https://git-lfs.github.com/spec/v1
+oid sha256:34c3b38abb21f9dfe9a972f3123b53aee70f68f042118197032506f87dcce15a
+size 63559401

sf_log.txt CHANGED Viewed

@@ -36788,3 +36788,204 @@ main_loop: 29019.2188
 [2024-11-08 07:32:14,337][41694] Avg episode rewards: #0: 4.619, true rewards: #0: 4.069
 [2024-11-08 07:32:14,339][41694] Avg episode reward: 4.619, avg true_objective: 4.069
 [2024-11-08 07:34:27,542][41694] Replay video saved to /root/hfRL/ml/LunarLander-v2/train_dir/default_experiment/replay.mp4!

 [2024-11-08 07:32:14,337][41694] Avg episode rewards: #0: 4.619, true rewards: #0: 4.069
 [2024-11-08 07:32:14,339][41694] Avg episode reward: 4.619, avg true_objective: 4.069
 [2024-11-08 07:34:27,542][41694] Replay video saved to /root/hfRL/ml/LunarLander-v2/train_dir/default_experiment/replay.mp4!
+[2024-11-08 07:34:47,182][41694] The model has been pushed to https://huggingface.co/alidenewade/rl_course_vizdoom_health_gathering_supreme-alid
+[2024-11-08 07:44:57,962][41694] Environment doom_basic already registered, overwriting...
+[2024-11-08 07:44:58,190][41694] Environment doom_two_colors_easy already registered, overwriting...
+[2024-11-08 07:44:58,195][41694] Environment doom_two_colors_hard already registered, overwriting...
+[2024-11-08 07:44:58,200][41694] Environment doom_dm already registered, overwriting...
+[2024-11-08 07:44:58,205][41694] Environment doom_dwango5 already registered, overwriting...
+[2024-11-08 07:44:58,208][41694] Environment doom_my_way_home_flat_actions already registered, overwriting...
+[2024-11-08 07:44:58,212][41694] Environment doom_defend_the_center_flat_actions already registered, overwriting...
+[2024-11-08 07:44:58,216][41694] Environment doom_my_way_home already registered, overwriting...
+[2024-11-08 07:44:58,218][41694] Environment doom_deadly_corridor already registered, overwriting...
+[2024-11-08 07:44:58,220][41694] Environment doom_defend_the_center already registered, overwriting...
+[2024-11-08 07:44:58,223][41694] Environment doom_defend_the_line already registered, overwriting...
+[2024-11-08 07:44:58,225][41694] Environment doom_health_gathering already registered, overwriting...
+[2024-11-08 07:44:58,227][41694] Environment doom_health_gathering_supreme already registered, overwriting...
+[2024-11-08 07:44:58,229][41694] Environment doom_battle already registered, overwriting...
+[2024-11-08 07:44:58,230][41694] Environment doom_battle2 already registered, overwriting...
+[2024-11-08 07:44:58,234][41694] Environment doom_duel_bots already registered, overwriting...
+[2024-11-08 07:44:58,236][41694] Environment doom_deathmatch_bots already registered, overwriting...
+[2024-11-08 07:44:58,238][41694] Environment doom_duel already registered, overwriting...
+[2024-11-08 07:44:58,241][41694] Environment doom_deathmatch_full already registered, overwriting...
+[2024-11-08 07:44:58,242][41694] Environment doom_benchmark already registered, overwriting...
+[2024-11-08 07:44:58,245][41694] register_encoder_factory: <function make_vizdoom_encoder at 0x7f45dd724c10>
+[2024-11-08 07:44:58,567][41694] Loading existing experiment configuration from /root/hfRL/ml/LunarLander-v2/train_dir/default_experiment/config.json
+[2024-11-08 07:44:58,570][41694] Overriding arg 'num_workers' with value 16 passed from command line
+[2024-11-08 07:44:58,571][41694] Overriding arg 'num_envs_per_worker' with value 8 passed from command line
+[2024-11-08 07:44:58,573][41694] Overriding arg 'train_for_env_steps' with value 5000 passed from command line
+[2024-11-08 07:44:58,582][41694] Experiment dir /root/hfRL/ml/LunarLander-v2/train_dir/default_experiment already exists!
+[2024-11-08 07:44:58,585][41694] Resuming existing experiment from /root/hfRL/ml/LunarLander-v2/train_dir/default_experiment...
+[2024-11-08 07:44:58,589][41694] Weights and Biases integration disabled
+[2024-11-08 07:44:58,655][41694] Environment var CUDA_VISIBLE_DEVICES is 0
+[2024-11-08 07:45:16,919][41694] Starting experiment with the following configuration:
+help=False
+algo=APPO
+env=doom_health_gathering_supreme
+experiment=default_experiment
+train_dir=/root/hfRL/ml/LunarLander-v2/train_dir
+restart_behavior=resume
+device=gpu
+seed=None
+num_policies=1
+async_rl=True
+serial_mode=False
+batched_sampling=False
+num_batches_to_accumulate=2
+worker_num_splits=2
+policy_workers_per_policy=1
+max_policy_lag=1000
+num_workers=16
+num_envs_per_worker=8
+batch_size=1024
+num_batches_per_epoch=1
+num_epochs=1
+rollout=32
+recurrence=32
+shuffle_minibatches=False
+gamma=0.99
+reward_scale=1.0
+reward_clip=1000.0
+value_bootstrap=False
+normalize_returns=True
+exploration_loss_coeff=0.001
+value_loss_coeff=0.5
+kl_loss_coeff=0.0
+exploration_loss=symmetric_kl
+gae_lambda=0.95
+ppo_clip_ratio=0.1
+ppo_clip_value=0.2
+with_vtrace=False
+vtrace_rho=1.0
+vtrace_c=1.0
+optimizer=adam
+adam_eps=1e-06
+adam_beta1=0.9
+adam_beta2=0.999
+max_grad_norm=4.0
+learning_rate=0.0003
+lr_schedule=constant
+lr_schedule_kl_threshold=0.008
+lr_adaptive_min=1e-06
+lr_adaptive_max=0.01
+obs_subtract_mean=0.0
+obs_scale=255.0
+normalize_input=True
+normalize_input_keys=None
+decorrelate_experience_max_seconds=0
+decorrelate_envs_on_one_worker=True
+actor_worker_gpus=[]
+set_workers_cpu_affinity=True
+force_envs_single_thread=False
+default_niceness=0
+log_to_file=True
+experiment_summaries_interval=10
+flush_summaries_interval=30
+stats_avg=100
+summaries_use_frameskip=True
+heartbeat_interval=20
+heartbeat_reporting_interval=600
+train_for_env_steps=5000
+train_for_seconds=10000000000
+save_every_sec=120
+keep_checkpoints=2
+load_checkpoint_kind=latest
+save_milestones_sec=-1
+save_best_every_sec=5
+save_best_metric=reward
+save_best_after=100000
+benchmark=False
+encoder_mlp_layers=[512, 512]
+encoder_conv_architecture=convnet_simple
+encoder_conv_mlp_layers=[512]
+use_rnn=True
+rnn_size=512
+rnn_type=gru
+rnn_num_layers=1
+decoder_mlp_layers=[]
+nonlinearity=elu
+policy_initialization=orthogonal
+policy_init_gain=1.0
+actor_critic_share_weights=True
+adaptive_stddev=True
+continuous_tanh_scale=0.0
+initial_stddev=1.0
+use_env_info_cache=False
+env_gpu_actions=False
+env_gpu_observations=True
+env_frameskip=4
+env_framestack=1
+pixel_format=CHW
+use_record_episode_statistics=False
+with_wandb=False
+wandb_user=None
+wandb_project=sample_factory
+wandb_group=None
+wandb_job_type=SF
+wandb_tags=[]
+with_pbt=False
+pbt_mix_policies_in_one_env=True
+pbt_period_env_steps=5000000
+pbt_start_mutation=20000000
+pbt_replace_fraction=0.3
+pbt_mutation_rate=0.15
+pbt_replace_reward_gap=0.1
+pbt_replace_reward_gap_absolute=1e-06
+pbt_optimize_gamma=False
+pbt_target_objective=true_objective
+pbt_perturb_min=1.1
+pbt_perturb_max=1.5
+num_agents=-1
+num_humans=0
+num_bots=-1
+start_bot_difficulty=None
+timelimit=None
+res_w=128
+res_h=72
+wide_aspect_ratio=False
+eval_env_frameskip=1
+fps=35
+command_line=--env=doom_health_gathering_supreme --num_workers=8 --num_envs_per_worker=4 --train_for_env_steps=4000000
+cli_args={'env': 'doom_health_gathering_supreme', 'num_workers': 8, 'num_envs_per_worker': 4, 'train_for_env_steps': 4000000}
+git_hash=unknown
+git_repo_name=not a git repository
+[2024-11-08 07:45:16,921][41694] Saving configuration to /root/hfRL/ml/LunarLander-v2/train_dir/default_experiment/config.json...
+[2024-11-08 07:45:16,924][41694] Rollout worker 0 uses device cpu
+[2024-11-08 07:45:16,926][41694] Rollout worker 1 uses device cpu
+[2024-11-08 07:45:16,928][41694] Rollout worker 2 uses device cpu
+[2024-11-08 07:45:16,930][41694] Rollout worker 3 uses device cpu
+[2024-11-08 07:45:16,933][41694] Rollout worker 4 uses device cpu
+[2024-11-08 07:45:16,938][41694] Rollout worker 5 uses device cpu
+[2024-11-08 07:45:16,940][41694] Rollout worker 6 uses device cpu
+[2024-11-08 07:45:16,942][41694] Rollout worker 7 uses device cpu
+[2024-11-08 07:45:16,944][41694] Rollout worker 8 uses device cpu
+[2024-11-08 07:45:16,947][41694] Rollout worker 9 uses device cpu
+[2024-11-08 07:45:16,949][41694] Rollout worker 10 uses device cpu
+[2024-11-08 07:45:16,952][41694] Rollout worker 11 uses device cpu
+[2024-11-08 07:45:16,954][41694] Rollout worker 12 uses device cpu
+[2024-11-08 07:45:16,956][41694] Rollout worker 13 uses device cpu
+[2024-11-08 07:45:16,958][41694] Rollout worker 14 uses device cpu
+[2024-11-08 07:45:16,960][41694] Rollout worker 15 uses device cpu
+[2024-11-08 07:45:17,210][41694] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2024-11-08 07:45:17,213][41694] InferenceWorker_p0-w0: min num requests: 5
+[2024-11-08 07:45:17,322][41694] Starting all processes...
+[2024-11-08 07:45:17,323][41694] Starting process learner_proc0
+[2024-11-08 07:45:17,406][41694] Starting all processes...
+[2024-11-08 07:45:17,418][41694] Starting process inference_proc0-0
+[2024-11-08 07:45:17,420][41694] Starting process rollout_proc0
+[2024-11-08 07:45:17,421][41694] Starting process rollout_proc1
+[2024-11-08 07:45:17,421][41694] Starting process rollout_proc2
+[2024-11-08 07:45:17,424][41694] Starting process rollout_proc3
+[2024-11-08 07:45:17,426][41694] Starting process rollout_proc4
+[2024-11-08 07:45:17,433][41694] Starting process rollout_proc5
+[2024-11-08 07:45:17,440][41694] Starting process rollout_proc6
+[2024-11-08 07:45:17,452][41694] Starting process rollout_proc7
+[2024-11-08 07:45:17,453][41694] Starting process rollout_proc8
+[2024-11-08 07:45:17,454][41694] Starting process rollout_proc9
+[2024-11-08 07:45:17,463][41694] Starting process rollout_proc10
+[2024-11-08 07:45:17,467][41694] Starting process rollout_proc11
+[2024-11-08 07:45:17,479][41694] Starting process rollout_proc12
+[2024-11-08 07:45:17,487][41694] Starting process rollout_proc13
+[2024-11-08 07:45:17,487][41694] Starting process rollout_proc14
+[2024-11-08 07:45:17,620][41694] Starting process rollout_proc15