VoiceClone

Running on Zero

App Files Files Community

fantos commited on about 24 hours ago

Commit

5de3ec5

verified ·

1 Parent(s): 3dbba35

Update app.py

Browse files

Files changed (1) hide show

app.py +113 -92

app.py CHANGED Viewed

@@ -1,19 +1,13 @@
 import os
 import gradio as gr
 import outetts
 import torch
 import spaces
-# Define available speakers
-AVAILABLE_SPEAKERS = [
-    "en_male_1", "en_male_2", "en_female_1", "en_female_2",
-    "zh_male_1", "zh_male_2", "zh_female_1", "zh_female_2",
-    "jp_male_1", "jp_male_2", "jp_female_1", "jp_female_2",
-    "kr_male_1", "kr_male_2", "kr_female_1", "kr_female_2"
-]
 def get_available_speakers():
-    return AVAILABLE_SPEAKERS
 @spaces.GPU
 def generate_tts(text, temperature, repetition_penalty, speaker_selection, reference_audio):
@@ -24,15 +18,18 @@ def generate_tts(text, temperature, repetition_penalty, speaker_selection, refer
         device="cuda"
     )
     interface = outetts.InterfaceHF(model_version="0.3", cfg=model_config)
     try:
         if reference_audio:
             speaker = interface.create_speaker(reference_audio)
         elif speaker_selection and speaker_selection != "None":
             speaker = interface.load_default_speaker(speaker_selection)
         else:
             speaker = None
         gen_cfg = outetts.GenerationConfig(
             text=text,
             temperature=temperature,
@@ -41,124 +38,148 @@ def generate_tts(text, temperature, repetition_penalty, speaker_selection, refer
             speaker=speaker,
         )
         output = interface.generate(config=gen_cfg)
         if output.audio is None:
-            raise ValueError("Audio generation failed. Please try again.")
         output_path = "output.wav"
         output.save(output_path)
         return output_path, None
     except Exception as e:
         return None, str(e)
-# Custom CSS for 3D effect and modern UI
 custom_css = """
 .container {
-    background: linear-gradient(145deg, #f0f0f0, #ffffff);
     border-radius: 20px;
-    box-shadow: 20px 20px 60px #bebebe, -20px -20px 60px #ffffff;
     padding: 2rem;
 }
 .title {
     font-size: 2.5rem;
     text-align: center;
-    background: linear-gradient(45deg, #2196F3, #00BCD4);
-    -webkit-background-clip: text;
-    -webkit-text-fill-color: transparent;
     margin-bottom: 2rem;
 }
-.radio-group {
-    display: grid;
-    grid-template-columns: repeat(auto-fill, minmax(150px, 1fr));
-    gap: 1rem;
-    margin: 1rem 0;
-}
-.control-panel {
-    background: rgba(255, 255, 255, 0.9);
     border-radius: 15px;
     padding: 1.5rem;
     margin: 1rem 0;
-    box-shadow: 0 8px 16px rgba(0,0,0,0.1);
 }
-.generate-button {
-    background: linear-gradient(45deg, #2196F3, #00BCD4);
     color: white;
     border: none;
-    padding: 1rem 2rem;
-    border-radius: 8px;
     cursor: pointer;
-    transition: transform 0.2s;
 }
-.generate-button:hover {
     transform: translateY(-2px);
 }
 """
 with gr.Blocks(css=custom_css) as demo:
-    with gr.Column(elem_classes="container"):
-        gr.Markdown("# Voice Clone Multilingual TTS", elem_classes="title")
-        with gr.Row():
-            with gr.Column(scale=2):
-                # Main input section with 3D effect
-                with gr.Group(elem_classes="control-panel"):
-                    text_input = gr.Textbox(
-                        label="Enter Text",
-                        placeholder="Type your text here...",
-                        lines=3
-                    )
-                    speaker_radio = gr.Radio(
-                        choices=get_available_speakers(),
-                        value="en_male_1",
-                        label="Choose Voice",
-                        elem_classes="radio-group"
-                    )
-                    with gr.Row():
-                        temperature = gr.Slider(
-                            minimum=0.1,
-                            maximum=1.0,
-                            value=0.1,
-                            label="Expression Level"
-                        )
-                        repetition_penalty = gr.Slider(
-                            minimum=0.5,
-                            maximum=2.0,
-                            value=1.1,
-                            label="Clarity"
-                        )
-                    reference_audio = gr.Audio(
-                        label="Upload Voice Reference",
-                        type="filepath"
-                    )
-                    submit_button = gr.Button(
-                        "Generate Speech",
-                        variant="primary",
-                        elem_classes="generate-button"
-                    )
-            with gr.Column(scale=1):
-                # Output section with 3D effect
-                with gr.Group(elem_classes="control-panel"):
-                    audio_output = gr.Audio(
-                        label="Generated Audio",
-                        type="filepath"
-                    )
-                    error_box = gr.Textbox(
-                        label="Status",
-                        visible=False
-                    )
     submit_button.click(
         fn=generate_tts,
         inputs=[
             text_input,
             temperature,
             repetition_penalty,
-            speaker_radio,
             reference_audio,
         ],
         outputs=[audio_output, error_box]

 import os
 import gradio as gr
 import outetts
+from outetts.version.v2.interface import _DEFAULT_SPEAKERS
 import torch
 import spaces
 def get_available_speakers():
+    speakers = list(_DEFAULT_SPEAKERS.keys())
+    return speakers
 @spaces.GPU
 def generate_tts(text, temperature, repetition_penalty, speaker_selection, reference_audio):
         device="cuda"
     )
     interface = outetts.InterfaceHF(model_version="0.3", cfg=model_config)
     try:
+        # Validate inputs for custom speaker
         if reference_audio:
             speaker = interface.create_speaker(reference_audio)
+        # Use selected default speaker
         elif speaker_selection and speaker_selection != "None":
             speaker = interface.load_default_speaker(speaker_selection)
+        # No speaker - random characteristics
         else:
             speaker = None
         gen_cfg = outetts.GenerationConfig(
             text=text,
             temperature=temperature,
             speaker=speaker,
         )
         output = interface.generate(config=gen_cfg)
+        # Verify output
         if output.audio is None:
+            raise ValueError("Model failed to generate audio. This may be due to input length constraints or early EOS token.")
+        # Save and return output
         output_path = "output.wav"
         output.save(output_path)
         return output_path, None
     except Exception as e:
         return None, str(e)
+# Custom CSS for 3D styling
 custom_css = """
 .container {
+    background: linear-gradient(145deg, #f3f4f6, #ffffff);
     border-radius: 20px;
+    box-shadow: 10px 10px 20px #d1d1d1, -10px -10px 20px #ffffff;
     padding: 2rem;
+    margin: 1rem;
+    transition: all 0.3s ease;
 }
 .title {
     font-size: 2.5rem;
+    font-weight: bold;
+    color: #1a1a1a;
     text-align: center;
     margin-bottom: 2rem;
+    text-shadow: 2px 2px 4px rgba(0, 0, 0, 0.1);
 }
+.input-group {
+    background: #ffffff;
     border-radius: 15px;
     padding: 1.5rem;
     margin: 1rem 0;
+    box-shadow: inset 5px 5px 10px #e0e0e0, inset -5px -5px 10px #ffffff;
 }
+.button-3d {
+    background: linear-gradient(145deg, #3b82f6, #2563eb);
     color: white;
     border: none;
+    padding: 0.8rem 1.5rem;
+    border-radius: 10px;
+    font-weight: bold;
     cursor: pointer;
+    transition: all 0.3s ease;
+    box-shadow: 5px 5px 10px #d1d1d1, -5px -5px 10px #ffffff;
 }
+.button-3d:hover {
     transform: translateY(-2px);
+    box-shadow: 7px 7px 15px #d1d1d1, -7px -7px 15px #ffffff;
+}
+.slider-3d {
+    height: 12px;
+    border-radius: 6px;
+    background: linear-gradient(145deg, #e6e7eb, #ffffff);
+    box-shadow: inset 3px 3px 6px #d1d1d1, inset -3px -3px 6px #ffffff;
+}
+.error-box {
+    background: #fee2e2;
+    border-left: 4px solid #ef4444;
+    padding: 1rem;
+    border-radius: 8px;
+    margin: 1rem 0;
 }
 """
+# Create the Gradio interface with 3D styling
 with gr.Blocks(css=custom_css) as demo:
+    gr.Markdown('<div class="title">Voice Clone Multilingual TTS</div>')
+    error_box = gr.Textbox(label="Error Messages", visible=False, elem_classes="error-box")
+    with gr.Row(elem_classes="container"):
+        with gr.Column():
+            # Speaker selection with 3D styling
+            speaker_dropdown = gr.Dropdown(
+                choices=get_available_speakers(),
+                value="en_male_1",
+                label="Speaker Selection",
+                elem_classes="input-group"
+            )
+            text_input = gr.Textbox(
+                label="Text to Synthesize",
+                placeholder="Enter text here...",
+                elem_classes="input-group"
+            )
+            temperature = gr.Slider(
+                0.1, 1.0,
+                value=0.1,
+                label="Temperature (lower = more stable tone, higher = more expressive)",
+                elem_classes="slider-3d"
+            )
+            repetition_penalty = gr.Slider(
+                0.5, 2.0,
+                value=1.1,
+                label="Repetition Penalty",
+                elem_classes="slider-3d"
+            )
+            gr.Markdown("""
+            ### Voice Cloning Guidelines:
+            - Use around 7-10 seconds of clear, noise-free audio
+            - For transcription interface will use Whisper turbo to transcribe the audio file
+            - Longer audio clips will reduce maximum output length
+            - Custom speaker overrides speaker selection
+            """, elem_classes="input-group")
+            reference_audio = gr.Audio(
+                label="Reference Audio (for voice cloning)",
+                type="filepath",
+                elem_classes="input-group"
+            )
+            submit_button = gr.Button(
+                "Generate Speech",
+                elem_classes="button-3d"
+            )
+        with gr.Column():
+            audio_output = gr.Audio(
+                label="Generated Audio",
+                type="filepath",
+                elem_classes="input-group"
+            )
     submit_button.click(
         fn=generate_tts,
         inputs=[
             text_input,
             temperature,
             repetition_penalty,
+            speaker_dropdown,
             reference_audio,
         ],
         outputs=[audio_output, error_box]