Spaces:

VGG11
/

armenian_chatbot_bert_multilingual

Runtime error

Mary12 commited on Aug 15, 2023

Commit

cd60fbf

1 Parent(s): 24cbb94

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -13,13 +13,23 @@ def remove_references(text):
     return text
 def extract_text_from_pdf(file_path):
     text = ""
-    pdf_reader = PdfReader(file_path)
-    for page in pdf_reader.pages:
-        text += page.extract_text() + "\n"
     return text
 def model(model_name):
@@ -32,10 +42,11 @@ def model(model_name):
     )
   return model_pipeline
-def qa_result(context, question, file):
-    model_name = "timpal0l/mdeberta-v3-base-squad2"
-    pipe = model(model_name)
     if file is not None:
         allowed_types = [".pdf", ".csv", ".doc"]
         extension = "." + file.name.split(".")[-1].lower()

     return text
+# def extract_text_from_pdf(file_path):
+#     text = ""
+#     pdf_reader = PdfReader(file_path)
+#     for page in pdf_reader.pages:
+#         text += page.extract_text() + "\n"
+#     return text
+import fitz  # PyMuPDF
 def extract_text_from_pdf(file_path):
     text = ""
+    pdf_document = fitz.open(file_path)
+    for page_num in range(pdf_document.page_count):
+        page = pdf_document[page_num]
+        text += page.get_text("text") + "\n"
+    pdf_document.close()
     return text
 def model(model_name):
     )
   return model_pipeline
+model_name = "timpal0l/mdeberta-v3-base-squad2"
+pipe = model(model_name)
+def qa_result(pipe = pipe, context, question, file):
     if file is not None:
         allowed_types = [".pdf", ".csv", ".doc"]
         extension = "." + file.name.split(".")[-1].lower()