Voice-Clone

Running

App Files Files Community

Yhhxhfh commited on Sep 24, 2024

Commit

2906d24

verified ·

1 Parent(s): 58b0a1f

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -135

app.py CHANGED Viewed

@@ -14,14 +14,16 @@ from huggingface_hub import HfApi, hf_hub_download, snapshot_download
 from TTS.tts.configs.xtts_config import XttsConfig
 from TTS.tts.models.xtts import Xtts
 from vinorm import TTSnorm
-# download for mecab
 os.system("python -m unidic download")
 HF_TOKEN = os.environ.get("HF_TOKEN")
 api = HfApi(token=HF_TOKEN)
-# This will trigger downloading model
 print("Downloading if not downloaded viXTTS")
 checkpoint_dir = "model/"
 repo_id = "capleaf/viXTTS"
@@ -75,7 +77,6 @@ def normalize_vietnamese_text(text):
 def calculate_keep_len(text, lang):
-    """Simple hack for short sentences"""
     if lang in ["ja", "zh-cn"]:
         return -1
@@ -90,17 +91,9 @@ def calculate_keep_len(text, lang):
 @spaces.GPU(queue=False)
-def predict(
-    prompt,
-    language,
-    audio_file_pth,
-    normalize_text=True,
-):
     if language not in supported_languages:
-        metrics_text = gr.Warning(
-            f"Language you put {language} in is not in is not in our Supported Languages, please choose from dropdown"
-        )
         return (None, metrics_text)
@@ -111,12 +104,7 @@ def predict(
         return (None, metrics_text)
     if len(prompt) > 250:
-        metrics_text = gr.Warning(
-            str(len(prompt))
-            + " characters.\n"
-            + "Your prompt is too long, please keep it under 250 characters\n"
-            + "Văn bản quá dài, vui lòng giữ dưới 250 ký tự."
-        )
         return (None, metrics_text)
     try:
@@ -124,21 +112,11 @@ def predict(
         t_latent = time.time()
         try:
-            (
-                gpt_cond_latent,
-                speaker_embedding,
-            ) = MODEL.get_conditioning_latents(
-                audio_path=speaker_wav,
-                gpt_cond_len=30,
-                gpt_cond_chunk_len=4,
-                max_ref_length=60,
-            )
         except Exception as e:
             print("Speaker encoding error", str(e))
-            metrics_text = gr.Warning(
-                "It appears something wrong with reference, did you unmute your microphone?"
-            )
             return (None, metrics_text)
         prompt = re.sub("([^\x00-\x7F]|\w)(\.|\。|\?)", r"\1 \2\2", prompt)
@@ -148,25 +126,14 @@ def predict(
         print("I: Generating new audio...")
         t0 = time.time()
-        out = MODEL.inference(
-            prompt,
-            language,
-            gpt_cond_latent,
-            speaker_embedding,
-            repetition_penalty=5.0,
-            temperature=0.75,
-            enable_text_splitting=True,
-        )
         inference_time = time.time() - t0
         print(f"I: Time to generate audio: {round(inference_time*1000)} milliseconds")
-        metrics_text += (
-            f"Time to generate audio: {round(inference_time*1000)} milliseconds\n"
-        )
         real_time_factor = (time.time() - t0) / out["wav"].shape[-1] * 24000
         print(f"Real-time factor (RTF): {real_time_factor}")
         metrics_text += f"Real-time factor (RTF): {real_time_factor:.2f}\n"
-        # Temporary hack for short sentences
         keep_len = calculate_keep_len(prompt, language)
         out["wav"] = out["wav"][:keep_len]
@@ -174,21 +141,12 @@ def predict(
     except RuntimeError as e:
         if "device-side assert" in str(e):
-            # cannot do anything on cuda device side error, need tor estart
-            print(
-                f"Exit due to: Unrecoverable exception caused by language:{language} prompt:{prompt}",
-                flush=True,
-            )
             gr.Warning("Unhandled Exception encounter, please retry in a minute")
             print("Cuda device-assert Runtime encountered need restart")
             error_time = datetime.datetime.now().strftime("%d-%m-%Y-%H:%M:%S")
-            error_data = [
-                error_time,
-                prompt,
-                language,
-                audio_file_pth,
-            ]
             error_data = [str(e) if type(e) != str else e for e in error_data]
             print(error_data)
             print(speaker_wav)
@@ -199,25 +157,13 @@ def predict(
             filename = error_time + "_" + str(uuid.uuid4()) + ".csv"
             print("Writing error csv")
             error_api = HfApi()
-            error_api.upload_file(
-                path_or_fileobj=csv_upload,
-                path_in_repo=filename,
-                repo_id="coqui/xtts-flagged-dataset",
-                repo_type="dataset",
-            )
-            # speaker_wav
             print("Writing error reference audio")
             speaker_filename = error_time + "_reference_" + str(uuid.uuid4()) + ".wav"
             error_api = HfApi()
-            error_api.upload_file(
-                path_or_fileobj=speaker_wav,
-                path_in_repo=speaker_filename,
-                repo_id="coqui/xtts-flagged-dataset",
-                repo_type="dataset",
-            )
-            # HF Space specific.. This error is unrecoverable need to restart space
             space = api.get_space_runtime(repo_id=repo_id)
             if space.stage != "BUILDING":
                 api.restart_space(repo_id=repo_id)
@@ -227,80 +173,41 @@ def predict(
         else:
             if "Failed to decode" in str(e):
                 print("Speaker encoding error", str(e))
-                metrics_text = gr.Warning(
-                    metrics_text="It appears something wrong with reference, did you unmute your microphone?"
-                )
             else:
                 print("RuntimeError: non device-side assert error:", str(e))
-                metrics_text = gr.Warning(
-                    "Something unexpected happened please retry again."
-                )
             return (None, metrics_text)
     return ("output.wav", metrics_text)
 with gr.Blocks(analytics_enabled=False) as demo:
     with gr.Row():
         with gr.Column():
-            gr.Markdown(
-                """
                 # viXTTS Demo ✨
                 - Github: https://github.com/thinhlpg/vixtts-demo/
                 - viVoice: https://github.com/thinhlpg/viVoice
-                """
-            )
         with gr.Column():
-            # placeholder to align the image
             pass
     with gr.Row():
         with gr.Column():
-            input_text_gr = gr.Textbox(
-                label="Text Prompt (Văn bản cần đọc)",
-                info="Mỗi câu nên từ 10 từ trở lên. Tối đa 250 ký tự (khoảng 2 - 3 câu).",
-                value="Xin chào, tôi là một mô hình chuyển đổi văn bản thành giọng nói tiếng Việt.",
-            )
-            language_gr = gr.Dropdown(
-                label="Language (Ngôn ngữ)",
-                choices=[
-                    "vi",
-                    "en",
-                    "es",
-                    "fr",
-                    "de",
-                    "it",
-                    "pt",
-                    "pl",
-                    "tr",
-                    "ru",
-                    "nl",
-                    "cs",
-                    "ar",
-                    "zh-cn",
-                    "ja",
-                    "ko",
-                    "hu",
-                    "hi",
-                ],
-                max_choices=1,
-                value="vi",
-            )
-            normalize_text = gr.Checkbox(
-                label="Chuẩn hóa văn bản tiếng Việt",
-                info="Normalize Vietnamese text",
-                value=True,
-            )
-            ref_gr = gr.Audio(
-                label="Reference Audio (Giọng mẫu)",
-                type="filepath",
-                value="model/samples/nu-luu-loat.wav",
-            )
-            tts_button = gr.Button(
-                "Đọc 🗣️🔥",
-                elem_id="send-btn",
-                visible=True,
-                variant="primary",
-            )
         with gr.Column():
             audio_gr = gr.Audio(label="Synthesised Audio", autoplay=True)
@@ -308,15 +215,10 @@ with gr.Blocks(analytics_enabled=False) as demo:
     tts_button.click(
         predict,
-        [
-            input_text_gr,
-            language_gr,
-            ref_gr,
-            normalize_text,
-        ],
         outputs=[audio_gr, out_text_gr],
         api_name="predict",
     )
 demo.queue()
-demo.launch(debug=True, show_api=True, share=True)

 from TTS.tts.configs.xtts_config import XttsConfig
 from TTS.tts.models.xtts import Xtts
 from vinorm import TTSnorm
+from fastapi import FastAPI, File, UploadFile
+from fastapi.responses import FileResponse
+app = FastAPI()
 os.system("python -m unidic download")
 HF_TOKEN = os.environ.get("HF_TOKEN")
 api = HfApi(token=HF_TOKEN)
 print("Downloading if not downloaded viXTTS")
 checkpoint_dir = "model/"
 repo_id = "capleaf/viXTTS"
 def calculate_keep_len(text, lang):
     if lang in ["ja", "zh-cn"]:
         return -1
 @spaces.GPU(queue=False)
+def predict(prompt, language, audio_file_pth, normalize_text=True):
     if language not in supported_languages:
+        metrics_text = gr.Warning(f"Language you put {language} in is not in is not in our Supported Languages, please choose from dropdown")
         return (None, metrics_text)
         return (None, metrics_text)
     if len(prompt) > 250:
+        metrics_text = gr.Warning(str(len(prompt)) + " characters.\n" + "Your prompt is too long, please keep it under 250 characters\n" + "Văn bản quá dài, vui lòng giữ dưới 250 ký tự.")
         return (None, metrics_text)
     try:
         t_latent = time.time()
         try:
+            (gpt_cond_latent, speaker_embedding) = MODEL.get_conditioning_latents(audio_path=speaker_wav, gpt_cond_len=30, gpt_cond_chunk_len=4, max_ref_length=60)
         except Exception as e:
             print("Speaker encoding error", str(e))
+            metrics_text = gr.Warning("It appears something wrong with reference, did you unmute your microphone?")
             return (None, metrics_text)
         prompt = re.sub("([^\x00-\x7F]|\w)(\.|\。|\?)", r"\1 \2\2", prompt)
         print("I: Generating new audio...")
         t0 = time.time()
+        out = MODEL.inference(prompt, language, gpt_cond_latent, speaker_embedding, repetition_penalty=5.0, temperature=0.75, enable_text_splitting=True)
         inference_time = time.time() - t0
         print(f"I: Time to generate audio: {round(inference_time*1000)} milliseconds")
+        metrics_text += f"Time to generate audio: {round(inference_time*1000)} milliseconds\n"
         real_time_factor = (time.time() - t0) / out["wav"].shape[-1] * 24000
         print(f"Real-time factor (RTF): {real_time_factor}")
         metrics_text += f"Real-time factor (RTF): {real_time_factor:.2f}\n"
         keep_len = calculate_keep_len(prompt, language)
         out["wav"] = out["wav"][:keep_len]
     except RuntimeError as e:
         if "device-side assert" in str(e):
+            print(f"Exit due to: Unrecoverable exception caused by language:{language} prompt:{prompt}", flush=True)
             gr.Warning("Unhandled Exception encounter, please retry in a minute")
             print("Cuda device-assert Runtime encountered need restart")
             error_time = datetime.datetime.now().strftime("%d-%m-%Y-%H:%M:%S")
+            error_data = [error_time, prompt, language, audio_file_pth]
             error_data = [str(e) if type(e) != str else e for e in error_data]
             print(error_data)
             print(speaker_wav)
             filename = error_time + "_" + str(uuid.uuid4()) + ".csv"
             print("Writing error csv")
             error_api = HfApi()
+            error_api.upload_file(path_or_fileobj=csv_upload, path_in_repo=filename, repo_id="coqui/xtts-flagged-dataset", repo_type="dataset")
             print("Writing error reference audio")
             speaker_filename = error_time + "_reference_" + str(uuid.uuid4()) + ".wav"
             error_api = HfApi()
+            error_api.upload_file(path_or_fileobj=speaker_wav, path_in_repo=speaker_filename, repo_id="coqui/xtts-flagged-dataset", repo_type="dataset")
             space = api.get_space_runtime(repo_id=repo_id)
             if space.stage != "BUILDING":
                 api.restart_space(repo_id=repo_id)
         else:
             if "Failed to decode" in str(e):
                 print("Speaker encoding error", str(e))
+                metrics_text = gr.Warning(metrics_text="It appears something wrong with reference, did you unmute your microphone?")
             else:
                 print("RuntimeError: non device-side assert error:", str(e))
+                metrics_text = gr.Warning("Something unexpected happened please retry again.")
             return (None, metrics_text)
     return ("output.wav", metrics_text)
+@app.post("/synthesize")
+async def api_synthesize(prompt: str, language: str = "vi", audio_file: UploadFile = File(...)):
+    audio_file_path = f"temp_{uuid.uuid4()}.wav"
+    with open(audio_file_path, "wb") as f:
+        f.write(await audio_file.read())
+    audio_output_path, metrics_text = predict(prompt, language, audio_file_path)
+    return FileResponse(audio_output_path, media_type="audio/wav")
 with gr.Blocks(analytics_enabled=False) as demo:
     with gr.Row():
         with gr.Column():
+            gr.Markdown("""
                 # viXTTS Demo ✨
                 - Github: https://github.com/thinhlpg/vixtts-demo/
                 - viVoice: https://github.com/thinhlpg/viVoice
+                """)
         with gr.Column():
             pass
     with gr.Row():
         with gr.Column():
+            input_text_gr = gr.Textbox(label="Text Prompt (Văn bản cần đọc)", info="Mỗi câu nên từ 10 từ trở lên. Tối đa 250 ký tự (khoảng 2 - 3 câu).", value="Xin chào, tôi là một mô hình chuyển đổi văn bản thành giọng nói tiếng Việt.")
+            language_gr = gr.Dropdown(label="Language (Ngôn ngữ)", choices=["vi", "en", "es", "fr", "de", "it", "pt", "pl", "tr", "ru", "nl", "cs", "ar", "zh-cn", "ja", "ko", "hu", "hi"], max_choices=1, value="vi")
+            normalize_text = gr.Checkbox(label="Chuẩn hóa văn bản tiếng Việt", info="Normalize Vietnamese text", value=True)
+            ref_gr = gr.Audio(label="Reference Audio (Giọng mẫu)", type="filepath", value="model/samples/nu-luu-loat.wav")
+            tts_button = gr.Button("Đọc 🗣️🔥", elem_id="send-btn", visible=True, variant="primary")
         with gr.Column():
             audio_gr = gr.Audio(label="Synthesised Audio", autoplay=True)
     tts_button.click(
         predict,
+        [input_text_gr, language_gr, ref_gr, normalize_text],
         outputs=[audio_gr, out_text_gr],
         api_name="predict",
     )
 demo.queue()
+demo.launch(debug=True, show_api=True, share=True, server_name="0.0.0.0", server_port=7862)