Spaces:

Antoniskaraolis
/

AI_Application

Sleeping

Antoniskaraolis commited on Nov 27, 2023

Commit

d7aa11b

1 Parent(s): 6c1a3af

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,22 +1,23 @@
-import torch
-from transformers import Wav2Vec2ForCTC, Wav2Vec2Tokenizer
-import torchaudio
-def speech_recognition(audio_file_path):
-    tokenizer = Wav2Vec2Tokenizer.from_pretrained("facebook/wav2vec2-base-960h")
-    model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")
-    waveform, sample_rate = torchaudio.load(audio_file_path)
-    if sample_rate != 16000:
-        resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
-        waveform = resampler(waveform)
-    input_values = tokenizer(waveform.squeeze().numpy(), return_tensors="pt", padding="longest").input_values
-    with torch.no_grad():
-        logits = model(input_values).logits
-    predicted_ids = torch.argmax(logits, dim=-1)
-    transcription = tokenizer.batch_decode(predicted_ids)
-    return transcription[0]

+import whisper
+import gradio as gr
+def transcribe_audio(file_info):
+    model = whisper.load_model("base")  # Choose the appropriate model size
+    audio = whisper.load_audio(file_info.name)
+    audio = whisper.pad_or_trim(audio)
+    mel = whisper.log_mel_spectrogram(audio).to(model.device)
+    _, probs = model.detect_language(mel)
+    language = max(probs, key=probs.get)
+    print(f"Detected language: {language}")
+    result = model.transcribe(mel)
+    return result["text"]
+iface = gr.Interface(
+    fn=transcribe_audio,
+    inputs=gr.inputs.Audio(source="microphone", type="file"),
+    outputs="text"
+)
+iface.launch()