Spaces:

Antoniskaraolis
/

AI_Application

Sleeping

Antoniskaraolis commited on Nov 27, 2023

Commit

ee82ddd

1 Parent(s): c541d91

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,19 +1,22 @@
-import whisper
 import gradio as gr
-def transcribe_audio(file_info):
-    model = whisper.load_model("base")  # Choose the appropriate model size
-    audio = whisper.load_audio(file_info.name)
-    audio = whisper.pad_or_trim(audio)
-    mel = whisper.log_mel_spectrogram(audio).to(model.device)
-    _, probs = model.detect_language(mel)
-    language = max(probs, key=probs.get)
-    print(f"Detected language: {language}")
-    result = model.transcribe(mel)
-    return result["text"]
 iface = gr.Interface(
     fn=transcribe_audio,
     inputs="audio",

+from transformers import WhisperProcessor, WhisperForConditionalGeneration
 import gradio as gr
+# Load model and processor
+processor = WhisperProcessor.from_pretrained("openai/whisper-small")
+model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-small")
+def transcribe_audio(audio_file):
+    # Load and process the audio file
+    audio_input, sampling_rate = processor.load_audio(audio_file.name)
+    input_features = processor(audio_input, sampling_rate=sampling_rate, return_tensors="pt").input_features
+    # Generate token ids and decode them to text
+    predicted_ids = model.generate(input_features)
+    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
+    return transcription[0]
+# Set up Gradio interface
 iface = gr.Interface(
     fn=transcribe_audio,
     inputs="audio",