Spaces:

DHEIVER
/

SeamlessTranslator

Running

App Files Files Community

DHEIVER commited on 15 days ago

Commit

aa1a596

verified ·

1 Parent(s): a9824c3

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -185

app.py CHANGED Viewed

@@ -5,17 +5,12 @@ import numpy as np
 from transformers import AutoProcessor, SeamlessM4Tv2Model
 from datetime import datetime
 import time
-import threading
-import queue
-import sounddevice as sd
 class ARISTranslator:
     def __init__(self, model_name: str = "facebook/seamless-m4t-v2-large"):
         self.processor = AutoProcessor.from_pretrained(model_name)
         self.model = SeamlessM4Tv2Model.from_pretrained(model_name)
         self.sample_rate = self.model.config.sampling_rate
-        self.audio_queue = queue.Queue()
-        self.is_recording = False
         self.language_codes = {
             "English (US)": "eng",
@@ -32,31 +27,27 @@ class ARISTranslator:
             "Arabic (AR)": "ara"
         }
-    def start_recording(self):
-        self.is_recording = True
-        threading.Thread(target=self._record_audio).start()
-    def stop_recording(self):
-        self.is_recording = False
-    def _record_audio(self):
-        with sd.InputStream(channels=1, samplerate=16000, callback=self._audio_callback):
-            while self.is_recording:
-                time.sleep(0.1)
-    def _audio_callback(self, indata, frames, time, status):
-        self.audio_queue.put(indata.copy())
-    def translate_realtime(self, audio_chunk, src_lang: str, tgt_lang: str) -> tuple[int, np.ndarray]:
         try:
-            inputs = self.processor(audios=audio_chunk, return_tensors="pt")
             audio_array = self.model.generate(**inputs, tgt_lang=self.language_codes[tgt_lang])[0].cpu().numpy().squeeze()
             return self.sample_rate, audio_array
         except Exception as e:
-            raise gr.Error(f"Translation failed: {str(e)}")
     def translate_text(self, text: str, src_lang: str, tgt_lang: str) -> tuple[int, np.ndarray]:
         try:
             inputs = self.processor(text=text, src_lang=self.language_codes[src_lang], return_tensors="pt")
             audio_array = self.model.generate(**inputs, tgt_lang=self.language_codes[tgt_lang])[0].cpu().numpy().squeeze()
             return self.sample_rate, audio_array
@@ -64,7 +55,6 @@ class ARISTranslator:
             raise gr.Error(f"Translation failed: {str(e)}")
 css = """
-/* Cores e temas da interface */
 :root {
     --primary: #00ffff;
     --secondary: #0066cc;
@@ -104,7 +94,6 @@ css = """
     margin: 5px 0;
 }
-/* Sistema de anéis central */
 #status-ring {
     width: 400px;
     height: 400px;
@@ -130,56 +119,17 @@ css = """
     animation: rotate 20s linear infinite;
 }
-#inner-ring {
-    width: 300px;
-    height: 300px;
-    border: 2px solid var(--primary);
-    border-radius: 50%;
-    display: flex;
-    align-items: center;
-    justify-content: center;
-    position: relative;
-}
-#core {
-    width: 200px;
-    height: 200px;
-    border: 3px solid var(--primary);
-    border-radius: 50%;
-    background-color: rgba(0, 0, 0, 0.8);
-    display: flex;
-    flex-direction: column;
-    align-items: center;
-    justify-content: center;
-    color: var(--primary);
-    text-align: center;
-    padding: 15px;
-    position: relative;
-    box-shadow: 0 0 20px rgba(0, 255, 255, 0.2);
 }
-/* Animações */
 @keyframes pulse {
     0% { box-shadow: 0 0 0 0 rgba(0, 255, 255, 0.4); }
     70% { box-shadow: 0 0 0 20px rgba(0, 255, 255, 0); }
     100% { box-shadow: 0 0 0 0 rgba(0, 255, 255, 0); }
 }
-@keyframes rotate {
-    from { transform: rotate(0deg); }
-    to { transform: rotate(360deg); }
-}
-/* Elementos da interface */
-.aris-controls {
-    background: rgba(0, 0, 0, 0.7);
-    border: 2px solid var(--primary);
-    border-radius: 10px;
-    padding: 20px;
-    margin: 20px 0;
-    box-shadow: 0 0 15px rgba(0, 255, 255, 0.1);
-}
 .aris-textbox {
     background-color: rgba(0, 0, 0, 0.8) !important;
     border: 2px solid var(--primary) !important;
@@ -237,50 +187,6 @@ css = """
     0% { left: -100%; }
     100% { left: 100%; }
 }
-.mode-indicator {
-    position: absolute;
-    top: 10px;
-    right: 10px;
-    padding: 5px 10px;
-    background-color: var(--accent);
-    color: var(--text);
-    border-radius: 3px;
-    font-size: 0.8em;
-    letter-spacing: 1px;
-}
-.stats-container {
-    display: grid;
-    grid-template-columns: repeat(auto-fit, minmax(200px, 1fr));
-    gap: 15px;
-    margin-top: 20px;
-}
-.stat-item {
-    background: rgba(0, 0, 0, 0.7);
-    border: 1px solid var(--primary);
-    padding: 10px;
-    border-radius: 5px;
-    text-align: center;
-    color: var(--primary);
-}
-.language-pair-display {
-    display: flex;
-    align-items: center;
-    justify-content: center;
-    gap: 10px;
-    margin: 10px 0;
-    color: var(--primary);
-    font-size: 1.2em;
-}
-.language-pair-display::before,
-.language-pair-display::after {
-    content: '⟨';
-    color: var(--secondary);
-}
 """
 def create_interface():
@@ -293,14 +199,6 @@ def create_interface():
             f"Neural Engine: ACTIVE\n"
             f"Translation Matrix: OPERATIONAL"
         )
-    def start_realtime_translation(src_lang, tgt_lang):
-        translator.start_recording()
-        return "Real-time translation active..."
-    def stop_realtime_translation():
-        translator.stop_recording()
-        return "Translation stopped."
     with gr.Blocks(css=css, title="A.R.I.S. - Advanced Real-time Interpretation System") as demo:
         gr.HTML('''
@@ -328,23 +226,6 @@ def create_interface():
             with gr.Row():
                 with gr.Column():
-                    with gr.Tab("Real-time Translation"):
-                        src_lang_realtime = gr.Dropdown(
-                            choices=list(translator.language_codes.keys()),
-                            value="English (US)",
-                            label="SOURCE LANGUAGE",
-                            elem_classes=["aris-textbox"]
-                        )
-                        tgt_lang_realtime = gr.Dropdown(
-                            choices=list(translator.language_codes.keys()),
-                            value="Spanish (ES)",
-                            label="TARGET LANGUAGE",
-                            elem_classes=["aris-textbox"]
-                        )
-                        start_btn = gr.Button("▶ START REAL-TIME TRANSLATION", elem_classes=["aris-button"])
-                        stop_btn = gr.Button("⬛ STOP TRANSLATION", elem_classes=["aris-button"])
-                        status_realtime = gr.Textbox(label="REAL-TIME STATUS", elem_classes=["aris-textbox"])
                     with gr.Tab("Text Translation"):
                         text_input = gr.Textbox(
                             label="INPUT TEXT",
@@ -366,6 +247,19 @@ def create_interface():
                                 elem_classes=["aris-textbox"]
                             )
                         translate_btn = gr.Button("▶ TRANSLATE TEXT", elem_classes=["aris-button"])
                 with gr.Column():
                     audio_output = gr.Audio(
@@ -412,66 +306,23 @@ def create_interface():
                                 </div>
                                 """
                             )
-                    # Sistema de estatísticas
-                    with gr.Row():
-                        gr.HTML("""
-                            <div class="stats-container">
-                                <div class="stat-item">
-                                    <div>Processing Speed</div>
-                                    <div style="font-size: 1.2em; margin: 5px 0;">0.8ms</div>
-                                </div>
-                                <div class="stat-item">
-                                    <div>Neural Load</div>
-                                    <div style="font-size: 1.2em; margin: 5px 0;">78%</div>
-                                </div>
-                                <div class="stat-item">
-                                    <div>Memory Usage</div>
-                                    <div style="font-size: 1.2em; margin: 5px 0;">4.2GB</div>
-                                </div>
-                            </div>
-                        """)
             # Event handlers
-            def update_stats():
-                return {
-                    status_realtime: f"System Status: Active\nMemory Usage: {np.random.randint(70, 90)}%\nProcessing Speed: {np.random.randint(1, 5)}ms"
-                }
-            start_btn.click(
-                fn=start_realtime_translation,
-                inputs=[src_lang_realtime, tgt_lang_realtime],
-                outputs=status_realtime
-            )
-            stop_btn.click(
-                fn=stop_realtime_translation,
-                outputs=status_realtime
-            )
             translate_btn.click(
                 fn=translator.translate_text,
                 inputs=[text_input, src_lang_text, tgt_lang_text],
                 outputs=audio_output
             )
-            # Atualizações automáticas
-            demo.load(fn=update_status, outputs=status_realtime)
     return demo
 if __name__ == "__main__":
     demo = create_interface()
     demo.queue()
-    demo.launch()
-# Arquivo requirements.txt atualizado
-"""
-gradio>=4.0.0
-torch>=2.0.0
-torchaudio>=2.0.0
-transformers
-sentencepiece>=0.1.99
-numpy>=1.21.0
-sounddevice>=0.4.5
-"""

 from transformers import AutoProcessor, SeamlessM4Tv2Model
 from datetime import datetime
 import time
 class ARISTranslator:
     def __init__(self, model_name: str = "facebook/seamless-m4t-v2-large"):
         self.processor = AutoProcessor.from_pretrained(model_name)
         self.model = SeamlessM4Tv2Model.from_pretrained(model_name)
         self.sample_rate = self.model.config.sampling_rate
         self.language_codes = {
             "English (US)": "eng",
             "Arabic (AR)": "ara"
         }
+    def process_audio(self, audio_path: str, tgt_lang: str) -> tuple[int, np.ndarray]:
         try:
+            if audio_path is None:
+                raise gr.Error("No audio input provided")
+            # Carregar e resample do áudio
+            audio, orig_freq = torchaudio.load(audio_path)
+            audio = torchaudio.functional.resample(audio, orig_freq=orig_freq, new_freq=16000)
+            # Processar através do modelo
+            inputs = self.processor(audios=audio, return_tensors="pt")
             audio_array = self.model.generate(**inputs, tgt_lang=self.language_codes[tgt_lang])[0].cpu().numpy().squeeze()
             return self.sample_rate, audio_array
         except Exception as e:
+            raise gr.Error(f"Audio processing failed: {str(e)}")
     def translate_text(self, text: str, src_lang: str, tgt_lang: str) -> tuple[int, np.ndarray]:
         try:
+            if not text.strip():
+                raise gr.Error("No text input provided")
             inputs = self.processor(text=text, src_lang=self.language_codes[src_lang], return_tensors="pt")
             audio_array = self.model.generate(**inputs, tgt_lang=self.language_codes[tgt_lang])[0].cpu().numpy().squeeze()
             return self.sample_rate, audio_array
             raise gr.Error(f"Translation failed: {str(e)}")
 css = """
 :root {
     --primary: #00ffff;
     --secondary: #0066cc;
     margin: 5px 0;
 }
 #status-ring {
     width: 400px;
     height: 400px;
     animation: rotate 20s linear infinite;
 }
+@keyframes rotate {
+    from { transform: rotate(0deg); }
+    to { transform: rotate(360deg); }
 }
 @keyframes pulse {
     0% { box-shadow: 0 0 0 0 rgba(0, 255, 255, 0.4); }
     70% { box-shadow: 0 0 0 20px rgba(0, 255, 255, 0); }
     100% { box-shadow: 0 0 0 0 rgba(0, 255, 255, 0); }
 }
 .aris-textbox {
     background-color: rgba(0, 0, 0, 0.8) !important;
     border: 2px solid var(--primary) !important;
     0% { left: -100%; }
     100% { left: 100%; }
 }
 """
 def create_interface():
             f"Neural Engine: ACTIVE\n"
             f"Translation Matrix: OPERATIONAL"
         )
     with gr.Blocks(css=css, title="A.R.I.S. - Advanced Real-time Interpretation System") as demo:
         gr.HTML('''
             with gr.Row():
                 with gr.Column():
                     with gr.Tab("Text Translation"):
                         text_input = gr.Textbox(
                             label="INPUT TEXT",
                                 elem_classes=["aris-textbox"]
                             )
                         translate_btn = gr.Button("▶ TRANSLATE TEXT", elem_classes=["aris-button"])
+                    with gr.Tab("Audio Translation"):
+                        audio_input = gr.Audio(
+                            label="AUDIO INPUT",
+                            type="filepath"
+                        )
+                        tgt_lang_audio = gr.Dropdown(
+                            choices=list(translator.language_codes.keys()),
+                            value="English (US)",
+                            label="TARGET LANGUAGE",
+                            elem_classes=["aris-textbox"]
+                        )
+                        translate_audio_btn = gr.Button("▶ TRANSLATE AUDIO", elem_classes=["aris-button"])
                 with gr.Column():
                     audio_output = gr.Audio(
                                 </div>
                                 """
                             )
             # Event handlers
             translate_btn.click(
                 fn=translator.translate_text,
                 inputs=[text_input, src_lang_text, tgt_lang_text],
                 outputs=audio_output
             )
+            translate_audio_btn.click(
+                fn=translator.process_audio,
+                inputs=[audio_input, tgt_lang_audio],
+                outputs=audio_output
+            )
     return demo
 if __name__ == "__main__":
     demo = create_interface()
     demo.queue()
+    demo.launch()