Spaces:

Kr08
/

ASR

Sleeping

App Files Files Community

Kr08 commited on Nov 14, 2024

Commit

0427f41

verified ·

1 Parent(s): 7a158c9

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -28

app.py CHANGED Viewed

@@ -7,6 +7,8 @@ import traceback
 import sys
 from audio_processing import AudioProcessor
 import spaces
 logging.basicConfig(
@@ -19,9 +21,10 @@ logger = logging.getLogger(__name__)
 def load_qa_model():
     """Load question-answering model"""
     try:
         qa_pipeline = pipeline(
             "text-generation",
-            model="meta-llama/Meta-Llama-3-8B-Instruct",
             model_kwargs={"torch_dtype": torch.bfloat16},
             device_map="auto",
             use_auth_token=os.getenv("HF_TOKEN")
@@ -48,32 +51,35 @@ def load_summarization_model():
 @spaces.GPU(duration=60)
 def process_audio(audio_file, translate=False):
     """Process audio file"""
-    try:
-        processor = AudioProcessor()
-        language_segments, final_segments = processor.process_audio(audio_file, translate)
-        # Format output
-        transcription = ""
-        full_text = ""
-        # Add language detection information
-        for segment in language_segments:
-            transcription += f"Language: {segment['language']}\n"
-            transcription += f"Time: {segment['start']:.2f}s - {segment['end']:.2f}s\n\n"
-        # Add transcription/translation information
-        transcription += "Transcription with language detection:\n\n"
-        for segment in final_segments:
-            transcription += f"[{segment['start']:.2f}s - {segment['end']:.2f}s] ({segment['language']}):\n"
-            transcription += f"Original: {segment['text']}\n"
-            if translate and 'translated' in segment:
-                transcription += f"Translated: {segment['translated']}\n"
-                full_text += segment['translated'] + " "
-            else:
-                full_text += segment['text'] + " "
-            transcription += "\n"
-        return transcription, full_text
     except Exception as e:
         logger.error(f"Audio processing failed: {str(e)}")
@@ -81,14 +87,14 @@ def process_audio(audio_file, translate=False):
 @spaces.GPU(duration=60)
-def summarize_text(text):
     """Summarize text"""
     try:
         summarizer = load_summarization_model()
         if summarizer is None:
             return "Summarization model could not be loaded."
-        summary = summarizer(text, max_length=150, min_length=50, do_sample=False)[0]['summary_text']
         return summary
     except Exception as e:
         logger.error(f"Summarization failed: {str(e)}")
@@ -102,7 +108,8 @@ def answer_question(context, question):
         qa_pipeline = load_qa_model()
         if qa_pipeline is None:
             return "Q&A model could not be loaded."
         messages = [
             {"role": "system", "content": "You are a helpful assistant who can answer questions based on the given context."},
             {"role": "user", "content": f"Context: {context}\n\nQuestion: {question}"}
@@ -143,12 +150,14 @@ with gr.Blocks() as iface:
     process_button.click(
         process_audio,
         inputs=[audio_input, translate_checkbox],
-        outputs=[transcription_output, full_text_output]
     )
     summarize_button.click(
         summarize_text,
-        inputs=[full_text_output],
         outputs=[summary_output]
     )

 import sys
 from audio_processing import AudioProcessor
 import spaces
+from chunkedTranscriber import ChunkedTranscriber
+from IPython.display import display
 logging.basicConfig(
 def load_qa_model():
     """Load question-answering model"""
     try:
+        model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
         qa_pipeline = pipeline(
             "text-generation",
+            model="hugging-quants/Meta-Llama-3.1-8B-Instruct-AWQ-INT4",
             model_kwargs={"torch_dtype": torch.bfloat16},
             device_map="auto",
             use_auth_token=os.getenv("HF_TOKEN")
 @spaces.GPU(duration=60)
 def process_audio(audio_file, translate=False):
     """Process audio file"""
+    transcriber = ChunkedTranscriber(chunk_size=5, overlap=1)
+    results = transcriber.transcribe_audio("/content/test_case_1.wav", translate=True)
+    return json.dumps(results, indent=4 )
+    # try:
+    #     processor = AudioProcessor()
+    #     language_segments, final_segments = processor.process_audio(audio_file, translate)
+    #     # Format output
+    #     transcription = ""
+    #     full_text = ""
+    #     # Add language detection information
+    #     for segment in language_segments:
+    #         transcription += f"Language: {segment['language']}\n"
+    #         transcription += f"Time: {segment['start']:.2f}s - {segment['end']:.2f}s\n\n"
+    #     # Add transcription/translation information
+    #     transcription += "Transcription with language detection:\n\n"
+    #     for segment in final_segments:
+    #         transcription += f"[{segment['start']:.2f}s - {segment['end']:.2f}s] ({segment['language']}):\n"
+    #         transcription += f"Original: {segment['text']}\n"
+    #         if translate and 'translated' in segment:
+    #             transcription += f"Translated: {segment['translated']}\n"
+    #             full_text += segment['translated'] + " "
+    #         else:
+    #             full_text += segment['text'] + " "
+    #         transcription += "\n"
+    #     return transcription, full_text
     except Exception as e:
         logger.error(f"Audio processing failed: {str(e)}")
 @spaces.GPU(duration=60)
+def summarize_text(results):
     """Summarize text"""
     try:
         summarizer = load_summarization_model()
         if summarizer is None:
             return "Summarization model could not be loaded."
+        summary = summarizer('\n'.join(d['translated'] for d in results if 'translated' in d), max_length=150, min_length=50, do_sample=False)[0]['summary_text']
         return summary
     except Exception as e:
         logger.error(f"Summarization failed: {str(e)}")
         qa_pipeline = load_qa_model()
         if qa_pipeline is None:
             return "Q&A model could not be loaded."
+        if not question :
+            return "Please enter your Question"
         messages = [
             {"role": "system", "content": "You are a helpful assistant who can answer questions based on the given context."},
             {"role": "user", "content": f"Context: {context}\n\nQuestion: {question}"}
     process_button.click(
         process_audio,
         inputs=[audio_input, translate_checkbox],
+        # outputs=[transcription_output, full_text_output]
+        outputs=[results]
     )
     summarize_button.click(
         summarize_text,
+        inputs=[results],
+        # inputs=[full_text_output],
         outputs=[summary_output]
     )