VoiceClone

Running on Zero

App Files Files Community

fantos commited on 1 day ago

Commit

3a8be35

verified ·

1 Parent(s): 4978cb7

Update app.py

Browse files

Files changed (1) hide show

app.py +94 -74

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import os
 import gradio as gr
 import outetts
-from outetts.version.v2.interface import _DEFAULT_SPEAKERS
 import torch
 import spaces
@@ -10,11 +10,7 @@ def get_available_speakers():
     return speakers
 @spaces.GPU
-def generate_tts(
-        text, temperature, repetition_penalty,
-        speaker_selection, reference_audio
-    ):
     model_config = outetts.HFModelConfig_v2(
         model_path="OuteAI/OuteTTS-0.3-1B",
         tokenizer_path="OuteAI/OuteTTS-0.3-1B",
@@ -22,21 +18,15 @@ def generate_tts(
         device="cuda"
     )
     interface = outetts.InterfaceHF(model_version="0.3", cfg=model_config)
-    """Generate TTS with error handling and new features."""
     try:
-        # Validate inputs for custom speaker
         if reference_audio:
             speaker = interface.create_speaker(reference_audio)
-        # Use selected default speaker
         elif speaker_selection and speaker_selection != "None":
             speaker = interface.load_default_speaker(speaker_selection)
-        # No speaker - random characteristics
         else:
             speaker = None
         gen_cfg = outetts.GenerationConfig(
             text=text,
             temperature=temperature,
@@ -45,79 +35,109 @@ def generate_tts(
             speaker=speaker,
         )
         output = interface.generate(config=gen_cfg)
-        # Verify output
         if output.audio is None:
-            raise ValueError("Model failed to generate audio. This may be due to input length constraints or early EOS token.")
-        # Save and return output
         output_path = "output.wav"
         output.save(output_path)
         return output_path, None
     except Exception as e:
         return None, str(e)
-with gr.Blocks() as demo:
-    gr.Markdown("# OuteTTS-0.3-1B Text-to-Speech Demo")
-    error_box = gr.Textbox(label="Error Messages", visible=False)
-    with gr.Row():
-        with gr.Column():
-            # Speaker selection
-            speaker_dropdown = gr.Dropdown(
-                choices=get_available_speakers(),
-                value="en_male_1",
-                label="Speaker Selection"
-            )
-            text_input = gr.Textbox(
-                label="Text to Synthesize",
-                placeholder="Enter text here..."
-            )
-            temperature = gr.Slider(
-                0.1, 1.0,
-                value=0.1,
-                label="Temperature (lower = more stable tone, higher = more expressive)"
-            )
-            repetition_penalty = gr.Slider(
-                0.5, 2.0,
-                value=1.1,
-                label="Repetition Penalty"
-            )
-            gr.Markdown("""
-### Voice Cloning Guidelines:
-- Use around 7-10 seconds of clear, noise-free audio
-- For transcription interface will use Whisper turbo to transcribe the audio file
-- Longer audio clips will reduce maximum output length
-- Custom speaker overrides speaker selection
-            """)
-            reference_audio = gr.Audio(
-                label="Reference Audio (for voice cloning)",
-                type="filepath"
-            )
-            submit_button = gr.Button("Generate Speech")
-        with gr.Column():
-            audio_output = gr.Audio(
-                label="Generated Audio",
-                type="filepath"
-            )
     submit_button.click(
         fn=generate_tts,
         inputs=[
             text_input,
             temperature,
             repetition_penalty,
-            speaker_dropdown,
             reference_audio,
         ],
         outputs=[audio_output, error_box]

 import os
 import gradio as gr
 import outetts
+from outetts.version.v2.interface import *DEFAULT*SPEAKERS
 import torch
 import spaces
     return speakers
 @spaces.GPU
+def generate_tts(text, temperature, repetition_penalty, speaker_selection, reference_audio):
     model_config = outetts.HFModelConfig_v2(
         model_path="OuteAI/OuteTTS-0.3-1B",
         tokenizer_path="OuteAI/OuteTTS-0.3-1B",
         device="cuda"
     )
     interface = outetts.InterfaceHF(model_version="0.3", cfg=model_config)
     try:
         if reference_audio:
             speaker = interface.create_speaker(reference_audio)
         elif speaker_selection and speaker_selection != "None":
             speaker = interface.load_default_speaker(speaker_selection)
         else:
             speaker = None
         gen_cfg = outetts.GenerationConfig(
             text=text,
             temperature=temperature,
             speaker=speaker,
         )
         output = interface.generate(config=gen_cfg)
         if output.audio is None:
+            raise ValueError("Audio generation failed. Please try again.")
         output_path = "output.wav"
         output.save(output_path)
         return output_path, None
     except Exception as e:
         return None, str(e)
+# Custom CSS for 3D effect and modern UI
+custom_css = """
+.container {
+    background: linear-gradient(145deg, #f0f0f0, #ffffff);
+    border-radius: 20px;
+    box-shadow: 20px 20px 60px #bebebe, -20px -20px 60px #ffffff;
+    padding: 2rem;
+}
+.title {
+    font-size: 2.5rem;
+    text-align: center;
+    background: linear-gradient(45deg, #2196F3, #00BCD4);
+    -webkit-background-clip: text;
+    -webkit-text-fill-color: transparent;
+    margin-bottom: 2rem;
+}
+.radio-group {
+    display: grid;
+    grid-template-columns: repeat(auto-fill, minmax(150px, 1fr));
+    gap: 1rem;
+    margin: 1rem 0;
+}
+.control-panel {
+    background: rgba(255, 255, 255, 0.9);
+    border-radius: 15px;
+    padding: 1.5rem;
+    margin: 1rem 0;
+}
+"""
+with gr.Blocks(css=custom_css) as demo:
+    with gr.Column(elem_classes="container"):
+        gr.Markdown("# Voice Clone Multilingual TTS", elem_classes="title")
+        with gr.Row():
+            with gr.Column(scale=2):
+                # Main input section with 3D effect
+                with gr.Group(elem_classes="control-panel"):
+                    text_input = gr.Textbox(
+                        label="Enter Text",
+                        placeholder="Type your text here...",
+                        lines=3
+                    )
+                    speaker_radio = gr.Radio(
+                        choices=get_available_speakers(),
+                        value="en_male_1",
+                        label="Choose Voice",
+                        elem_classes="radio-group"
+                    )
+                    with gr.Row():
+                        temperature = gr.Slider(
+                            minimum=0.1,
+                            maximum=1.0,
+                            value=0.1,
+                            label="Expression Level"
+                        )
+                        repetition_penalty = gr.Slider(
+                            minimum=0.5,
+                            maximum=2.0,
+                            value=1.1,
+                            label="Clarity"
+                        )
+                    reference_audio = gr.Audio(
+                        label="Upload Voice Reference",
+                        type="filepath"
+                    )
+                    submit_button = gr.Button(
+                        "Generate Speech",
+                        variant="primary"
+                    )
+            with gr.Column(scale=1):
+                # Output section
+                audio_output = gr.Audio(
+                    label="Generated Audio",
+                    type="filepath"
+                )
+                error_box = gr.Textbox(
+                    label="Status",
+                    visible=False
+                )
     submit_button.click(
         fn=generate_tts,
         inputs=[
             text_input,
             temperature,
             repetition_penalty,
+            speaker_radio,
             reference_audio,
         ],
         outputs=[audio_output, error_box]