Spaces:

Rongjiehuang
/

GenerSpeech

Build error

App Files Files Community

GenerSpeech / egs /egs_bases /tts /fs2.yaml

Rongjiehuang

update

222619b about 2 years ago

raw

history blame

2.18 kB

	base_config: ./base.yaml
	task_cls: tasks.tts.fs2.FastSpeech2Task

	# model
	hidden_size: 256
	dropout: 0.1
	encoder_type: fft # rel_fft\|fft\|tacotron\|tacotron2\|conformer
	decoder_type: fft # fft\|rnn\|conv\|conformer\|wn

	# rnn enc/dec
	encoder_K: 8
	decoder_rnn_dim: 0 # for rnn decoder, 0 -> hidden_size * 2

	# fft enc/dec
	use_pos_embed: true
	dec_num_heads: 2
	dec_layers: 4
	ffn_hidden_size: 1024
	enc_ffn_kernel_size: 9
	dec_ffn_kernel_size: 9

	# conv enc/dec
	enc_dec_norm: ln
	conv_use_pos: false
	layers_in_block: 2
	enc_dilations: [ 1, 1, 1, 1 ]
	enc_kernel_size: 5
	dec_dilations: [ 1, 1, 1, 1 ] # for conv decoder
	dec_kernel_size: 5
	dur_loss: mse # huber\|mol

	# duration
	predictor_hidden: -1
	predictor_kernel: 5
	predictor_layers: 2
	dur_predictor_kernel: 3
	dur_predictor_layers: 2
	predictor_dropout: 0.5

	# pitch and energy
	pitch_norm: standard # standard\|log
	use_pitch_embed: true
	pitch_type: frame # frame\|ph\|cwt
	use_uv: true
	cwt_hidden_size: 128
	cwt_layers: 2
	cwt_loss: l1
	cwt_add_f0_loss: false
	cwt_std_scale: 0.8

	pitch_ar: false
	pitch_embed_type: 0
	pitch_loss: 'l1' # l1\|l2\|ssim
	pitch_ssim_win: 11
	use_energy_embed: false

	# reference encoder and speaker embedding
	use_ref_enc: false
	use_var_enc: false
	lambda_commit: 0.25
	var_enc_vq_codes: 64
	ref_norm_layer: bn
	dec_inp_add_noise: false
	sil_add_noise: false
	ref_hidden_stride_kernel:
	- 0,3,5 # conv_hidden_size, conv_stride, conv_kernel_size. conv_hidden_size=0: use hidden_size
	- 0,3,5
	- 0,2,5
	- 0,2,5
	- 0,2,5
	pitch_enc_hidden_stride_kernel:
	- 0,2,5 # conv_hidden_size, conv_stride, conv_kernel_size. conv_hidden_size=0: use hidden_size
	- 0,2,5
	- 0,2,5
	dur_enc_hidden_stride_kernel:
	- 0,2,3 # conv_hidden_size, conv_stride, conv_kernel_size. conv_hidden_size=0: use hidden_size
	- 0,2,3
	- 0,1,3

	# mel
	mel_loss: l1:0.5\|ssim:0.5 # l1\|l2\|gdl\|ssim or l1:0.5\|ssim:0.5

	# loss lambda
	lambda_f0: 1.0
	lambda_uv: 1.0
	lambda_energy: 0.1
	lambda_ph_dur: 0.1
	lambda_sent_dur: 1.0
	lambda_word_dur: 1.0
	predictor_grad: 0.1

	# train and eval
	pretrain_fs_ckpt: ''
	warmup_updates: 2000
	max_tokens: 32000
	max_sentences: 100000
	max_valid_sentences: 1
	max_updates: 120000
	use_gt_dur: false
	use_gt_f0: false
	ds_workers: 2
	lr: 1.0