Spaces:

camanalo1
/

MyAlexa

Sleeping

App Files Files Community

camanalo1 commited on Apr 30, 2024

Commit

35f8a26

verified ·

1 Parent(s): ec92ed3

Create app.py

Browse files

Files changed (1) hide show

app.py +43 -0

app.py ADDED Viewed

	@@ -0,0 +1,43 @@

+import gradio as gr
+import torch
+from transformers import pipeline
+from nemo.collections.asr.models import EncDecMultiTaskModel
+from transformers import VitsTokenizer, VitsModel
+# Load Canary ASR model
+canary_model = EncDecMultiTaskModel.from_pretrained('nvidia/canary-1b')
+decode_cfg = canary_model.cfg.decoding
+decode_cfg.beam.beam_size = 1
+canary_model.change_decoding_strategy(decode_cfg)
+# Load Phi-3 Mini-128K-Instruct LLM model
+phi_3_model_id = "microsoft/Phi-3-mini-128k-instruct"
+phi_3_pipeline = pipeline("text-generation", model=phi_3_model_id, trust_remote_code=True)
+# Load VITS TTS model
+vits_tokenizer = VitsTokenizer.from_pretrained("facebook/mms-tts-eng")
+vits_model = VitsModel.from_pretrained("facebook/mms-tts-eng")
+def transcribe_audio(audio):
+    transcribed_text = canary_model.transcribe(audio, batch_size=16)
+    return transcribed_text
+def generate_response(prompt):
+    response = phi_3_pipeline(prompt)[0]['generated_text']
+    return response
+def synthesize_speech(text):
+    inputs = vits_tokenizer(text=text, return_tensors="pt")
+    with torch.no_grad():
+        outputs = vits_model(**inputs)
+    waveform = outputs.waveform[0]
+    return waveform
+# Define Gradio interface
+gr.Interface(
+    fn=[transcribe_audio, generate_response, synthesize_speech],
+    inputs=["audio", "text", "text"],
+    outputs=[gr.outputs.Textbox(label="Transcribed Text"),
+             gr.outputs.Textbox(label="Generated Response"),
+             gr.outputs.Audio(label="Synthesized Speech")]
+).launch()