Spaces:

techysanoj
/

avishkaar-check

Sleeping

techysanoj commited on Jul 3, 2023

Commit

6ab3f9b

1 Parent(s): 9412793

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,31 +1,37 @@
-import gradio as gr
-import soundfile as sf
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Tokenizer
-# Load the pre-trained model and tokenizer
-model_name = "facebook/wav2vec2-large-960h-lv60-self"
-tokenizer = Wav2Vec2Tokenizer.from_pretrained(model_name)
-model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-english")
-# Define the speech recognition function
-def transcribe_audio(audio):
-    audio_path = "audio.wav"
-    sf.write(audio_path, audio, samplerate=16000)
-    transcriptions = model.transcribe(audio_path)
-    return transcriptions["transcription"]
-# Set up the Gradio interface
-audio_input = gr.inputs.Audio(source="microphone", type="numpy")
-text_output = gr.outputs.Textbox()
-interface = gr.Interface(
-    fn=transcribe_audio,
-    inputs=audio_input,
-    outputs=text_output,
-    title="Speech Recognition",
-    description="Transcribe speech in real-time.",
-    server_port=8000,
-)
-if __name__ == "__main__":
-    interface.launch()

+import torch
+import torchaudio
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Tokenizer
+import gradio as gr
+# Load pre-trained model and tokenizer
+model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-960h")
+tokenizer = Wav2Vec2Tokenizer.from_pretrained("facebook/wav2vec2-large-960h")
+def transcribe_speech(audio_file):
+    # Load and convert audio file to waveform
+    waveform, _ = torchaudio.load(audio_file)
+    # Preprocess waveform
+    input_values = tokenizer(waveform, return_tensors="pt").input_values
+    # Perform inference
+    with torch.no_grad():
+        logits = model(input_values).logits
+    # Get predicted transcription
+    predicted_ids = torch.argmax(logits, dim=-1)
+    transcription = tokenizer.batch_decode(predicted_ids)[0]
+    return transcription
+# Define Gradio interface
+def speech_recognition(audio_file):
+    transcription = transcribe_speech(audio_file)
+    return transcription
+inputs = gr.inputs.Audio(type="file", label="Upload Audio File")
+outputs = gr.outputs.Textbox(label="Transcription")
+interface = gr.Interface(fn=speech_recognition, inputs=inputs, outputs=outputs)
+# Run the Gradio interface
+interface.launch()