bedtime-story-batches

Sleeping

Add variable audio lengths

by ylacombe - opened Aug 7, 2024

←

Files changed (1) hide show

app.py CHANGED Viewed

@@ -30,7 +30,7 @@ model = ParlerTTSForConditionalGeneration.from_pretrained(
 client = InferenceClient()
 description_tokenizer = AutoTokenizer.from_pretrained(repo_id)
-prompt_tokenizer = AutoTokenizer.from_pretrained(repo_id)
 feature_extractor = AutoFeatureExtractor.from_pretrained(repo_id)
 SAMPLE_RATE = feature_extractor.sampling_rate
@@ -78,7 +78,7 @@ def generate_story(subject: str, setting: str) -> str:
     return None, None, story
-@spaces.GPU
 def generate_base(story):
@@ -95,8 +95,10 @@ def generate_base(story):
     speech_output = model.generate(input_ids=description_tokens.input_ids,
                                    prompt_input_ids=story_tokens.input_ids,
                                    attention_mask=description_tokens.attention_mask,
-                                   prompt_attention_mask=story_tokens.attention_mask)
-    speech_output = [output.cpu().numpy() for output in speech_output]
     return None, None, speech_output

 client = InferenceClient()
 description_tokenizer = AutoTokenizer.from_pretrained(repo_id)
+prompt_tokenizer = AutoTokenizer.from_pretrained(repo_id, padding_side="left")
 feature_extractor = AutoFeatureExtractor.from_pretrained(repo_id)
 SAMPLE_RATE = feature_extractor.sampling_rate
     return None, None, story
+@spaces.GPU(duration=120)
 def generate_base(story):
     speech_output = model.generate(input_ids=description_tokens.input_ids,
                                    prompt_input_ids=story_tokens.input_ids,
                                    attention_mask=description_tokens.attention_mask,
+                                   prompt_attention_mask=story_tokens.attention_mask,
+                                  return_dict_in_generate=True,
+                                  )
+    speech_output = [output.cpu().numpy()[:output_length] for (output, output_length) in zip(speech_output.sequences, speech_output.audios_length)]
     return None, None, speech_output