location:
  data_root_dir: /group-volume/User-Driven-Content-Generation/datasets/inpainting_data_root_large
  out_root_dir: /group-volume/User-Driven-Content-Generation/${env:USER}/inpainting/experiments
  tb_dir: /group-volume/User-Driven-Content-Generation/${env:USER}/inpainting/tb_logs
  pretrained_models: ${location.data_root_dir}
data:
  batch_size: 25
  val_batch_size: 40
  num_workers: 4
  train:
    indir: ${location.data_root_dir}/train_256
    out_size: 256
    mask_gen_kwargs:
      irregular_proba: 1
      irregular_kwargs:
        max_angle: 4
        max_len: 200
        max_width: 100
        max_times: 5
        min_times: 1
      box_proba: 1
      box_kwargs:
        margin: 10
        bbox_min_size: 30
        bbox_max_size: 150
        max_times: 4
        min_times: 1
      segm_proba: 0
    transform_variant: no_augs
    dataloader_kwargs:
      batch_size: ${data.batch_size}
      shuffle: true
      num_workers: ${data.num_workers}
  val:
    indir: ${location.data_root_dir}/val_256
    img_suffix: .png
    dataloader_kwargs:
      batch_size: ${data.val_batch_size}
      shuffle: false
      num_workers: ${data.num_workers}
  visual_test: null
generator:
  kind: Swin_UNET
discriminator:
  kind: pix2pixhd_nlayer
  input_nc: 3
  ndf: 64
  n_layers: 4
optimizers:
  generator:
    kind: adam
    lr: 0.001
  discriminator:
    kind: adam
    lr: 0.0001
visualizer:
  kind: directory
  outdir: ${location.data_root_dir}/samples
  key_order:
  - image
  - predicted_image
  - discr_output_fake
  - discr_output_real
  - inpainted
  - eye
  - eye_pred
  - hair
  - hair_pred
  - skin
  - skin_pred
  rescale_keys:
  - discr_output_fake
  - discr_output_real
evaluator:
  kind: default
  inpainted_key: inpainted
  integral_kind: ssim_fid100_f1
trainer:
  kwargs:
    gpus: 1
    accelerator: dp
    max_epochs: 50
    gradient_clip_val: 1
    limit_train_batches: 25000
    log_every_n_steps: 300
    precision: 32
    terminate_on_nan: false
    check_val_every_n_epoch: 5
    num_sanity_val_steps: 0
    replace_sampler_ddp: false
  checkpoint_kwargs:
    verbose: true
    save_top_k: 5
    save_last: true
    monitor: val_ssim_fid100_f1_total_mean
    mode: max
run_title: aaa
training_model:
  kind: default
  visualize_each_iters: 100
  concat_mask: true
  store_discr_outputs_for_vis: true
losses:
  l1:
    weight_missing: 0
    weight_known: 10
    weight_known_skin: 3
    weight_known_eye: 3
    weight_known_ear: 3
    weight_known_lip: 3
    weight_known_cloth: 3
    weight_known_hair: 3
  perceptual:
    weight: 0
  adversarial_component:
    weight_skin: 0.1
    weight_eye: 0.15
    weight_ear: 0.15
    weight_lip: 0.15
    weight_cloth: 0.1
    weight_hair: 0.1
  adversarial:
    kind: r1
    weight: 10
    gp_coef: 0.001
    mask_as_fake_target: true
    allow_scale_mask: true
  feature_matching:
    weight: 100
    weight_skin: 10
    weight_eye: 15
    weight_ear: 15
    weight_lip: 15
    weight_cloth: 10
    weight_hair: 10
  resnet_pl:
    weight: 30
    weights_path: ${location.data_root_dir}/lama-main