VoiceClone

Running on Zero

App Files Files Community

fantos commited on about 24 hours ago

Commit

bb90c13

verified ·

1 Parent(s): 5de3ec5

Update app.py

Browse files

Files changed (1) hide show

app.py +59 -40

app.py CHANGED Viewed

@@ -109,6 +109,20 @@ custom_css = """
     border-radius: 8px;
     margin: 1rem 0;
 }
 """
 # Create the Gradio interface with 3D styling
@@ -118,60 +132,65 @@ with gr.Blocks(css=custom_css) as demo:
     error_box = gr.Textbox(label="Error Messages", visible=False, elem_classes="error-box")
     with gr.Row(elem_classes="container"):
-        with gr.Column():
-            # Speaker selection with 3D styling
-            speaker_dropdown = gr.Dropdown(
-                choices=get_available_speakers(),
-                value="en_male_1",
-                label="Speaker Selection",
-                elem_classes="input-group"
-            )
             text_input = gr.Textbox(
                 label="Text to Synthesize",
                 placeholder="Enter text here...",
-                elem_classes="input-group"
-            )
-            temperature = gr.Slider(
-                0.1, 1.0,
-                value=0.1,
-                label="Temperature (lower = more stable tone, higher = more expressive)",
-                elem_classes="slider-3d"
-            )
-            repetition_penalty = gr.Slider(
-                0.5, 2.0,
-                value=1.1,
-                label="Repetition Penalty",
-                elem_classes="slider-3d"
-            )
-            gr.Markdown("""
-            ### Voice Cloning Guidelines:
-            - Use around 7-10 seconds of clear, noise-free audio
-            - For transcription interface will use Whisper turbo to transcribe the audio file
-            - Longer audio clips will reduce maximum output length
-            - Custom speaker overrides speaker selection
-            """, elem_classes="input-group")
-            reference_audio = gr.Audio(
-                label="Reference Audio (for voice cloning)",
-                type="filepath",
-                elem_classes="input-group"
             )
             submit_button = gr.Button(
                 "Generate Speech",
                 elem_classes="button-3d"
             )
-        with gr.Column():
             audio_output = gr.Audio(
                 label="Generated Audio",
                 type="filepath",
                 elem_classes="input-group"
             )
     submit_button.click(
         fn=generate_tts,

     border-radius: 8px;
     margin: 1rem 0;
 }
+.right-column {
+    display: flex;
+    flex-direction: column;
+    gap: 1rem;
+}
+.options-panel {
+    margin-top: 2rem;
+    background: linear-gradient(145deg, #f3f4f6, #ffffff);
+    border-radius: 15px;
+    padding: 1.5rem;
+    box-shadow: 5px 5px 10px #d1d1d1, -5px -5px 10px #ffffff;
+}
 """
 # Create the Gradio interface with 3D styling
     error_box = gr.Textbox(label="Error Messages", visible=False, elem_classes="error-box")
     with gr.Row(elem_classes="container"):
+        # Left column for text input
+        with gr.Column(scale=1):
             text_input = gr.Textbox(
                 label="Text to Synthesize",
                 placeholder="Enter text here...",
+                elem_classes="input-group",
+                lines=5
             )
             submit_button = gr.Button(
                 "Generate Speech",
                 elem_classes="button-3d"
             )
+        # Right column for output and options
+        with gr.Column(scale=1, elem_classes="right-column"):
+            # Audio output at the top
             audio_output = gr.Audio(
                 label="Generated Audio",
                 type="filepath",
                 elem_classes="input-group"
             )
+            # Options panel below the output
+            with gr.Box(elem_classes="options-panel"):
+                speaker_dropdown = gr.Dropdown(
+                    choices=get_available_speakers(),
+                    value="en_male_1",
+                    label="Speaker Selection",
+                    elem_classes="input-group"
+                )
+                temperature = gr.Slider(
+                    0.1, 1.0,
+                    value=0.1,
+                    label="Temperature (lower = more stable tone, higher = more expressive)",
+                    elem_classes="slider-3d"
+                )
+                repetition_penalty = gr.Slider(
+                    0.5, 2.0,
+                    value=1.1,
+                    label="Repetition Penalty",
+                    elem_classes="slider-3d"
+                )
+                reference_audio = gr.Audio(
+                    label="Reference Audio (for voice cloning)",
+                    type="filepath",
+                    elem_classes="input-group"
+                )
+                gr.Markdown("""
+                ### Voice Cloning Guidelines:
+                - Use around 7-10 seconds of clear, noise-free audio
+                - For transcription interface will use Whisper turbo to transcribe the audio file
+                - Longer audio clips will reduce maximum output length
+                - Custom speaker overrides speaker selection
+                """, elem_classes="input-group")
     submit_button.click(
         fn=generate_tts,