Spaces:

IsakNordgren
/

Summarize

Running

IsakNordgren commited on Jun 18, 2024

Commit

0e6c3f4

1 Parent(s): aaaf3f2

display uploaded pdf

Files changed (6) hide show

Examples/test.txt DELETED Viewed

File without changes

__pycache__/page.cpython-310.pyc CHANGED Viewed

Binary files a/__pycache__/page.cpython-310.pyc and b/__pycache__/page.cpython-310.pyc differ

__pycache__/summarize.cpython-310.pyc CHANGED Viewed

Binary files a/__pycache__/summarize.cpython-310.pyc and b/__pycache__/summarize.cpython-310.pyc differ

page.py CHANGED Viewed

@@ -1,8 +1,14 @@
 import streamlit as st
 from summarize import Summarizer
 import pdfplumber
 def createDemoPage(path):
     with st.spinner("Summarizing text..."):
         summarizer = Summarizer(model = "groq")
         text = readpdf("Examples/Kris.pdf")
@@ -11,8 +17,15 @@ def createDemoPage(path):
     st.subheader("Summary")
     st.write(summary)
-    st.subheader("Extracted Text")
-    st.write(text)
 def readpdf(path):
     text = ""

 import streamlit as st
+from streamlit import session_state as ss
+from streamlit_pdf_viewer import pdf_viewer
 from summarize import Summarizer
 import pdfplumber
 def createDemoPage(path):
+    # For displaying pdf
+    if 'pdf_ref' not in ss:
+        ss.pdf_ref = None
     with st.spinner("Summarizing text..."):
         summarizer = Summarizer(model = "groq")
         text = readpdf("Examples/Kris.pdf")
     st.subheader("Summary")
     st.write(summary)
+    #st.subheader("Extracted Text")
+    with st.expander("Extracted Text", expanded = False):
+        st.write(text)
+    st.subheader("Original pdf")
+    with open(path, 'rb') as pdf_ref:
+        bytes_data = pdf_ref.read()
+    pdf_viewer(input=bytes_data, width=700)
 def readpdf(path):
     text = ""

requirements.txt CHANGED Viewed

@@ -6,3 +6,4 @@ transformers
 torch
 groq
 python-dotenv

 torch
 groq
 python-dotenv
+streamlit_pdf_viewer

summarize.py CHANGED Viewed

@@ -15,18 +15,31 @@ from transformers import AutoTokenizer
 import transformers
 import torch
 class Summarizer:
     def __init__(self, model = "groq"):
         self.model = model
     def run_app(self):
-        uploaded_file = st.file_uploader("Upload an Image or PDF", type=["jpg", "jpeg", "png", "pdf"])
         if uploaded_file is not None:
             if uploaded_file.type == "application/pdf":
                 with st.spinner("Extracting text from PDF..."):
                     text = self.extract_text_from_pdf(uploaded_file)
             else:
                 image = Image.open(uploaded_file)
                 with st.spinner("Extracting text from image..."):
@@ -37,9 +50,14 @@ class Summarizer:
                     summary = self.summarize_using_groq(text)
                 st.subheader("Summary")
                 st.write(summary)
-            st.subheader("Extracted Text")
-            st.write(text)
     # Function to extract text from an image

 import transformers
 import torch
+from streamlit import session_state as ss
+from streamlit_pdf_viewer import pdf_viewer
 class Summarizer:
     def __init__(self, model = "groq"):
         self.model = model
     def run_app(self):
+        # For displaying pdf
+        if 'pdf_ref' not in ss:
+            ss.pdf_ref = None
+        uploaded_file = st.file_uploader("Upload an Image or PDF", type=["jpg", "jpeg", "png", "pdf"], key="file")
         if uploaded_file is not None:
             if uploaded_file.type == "application/pdf":
                 with st.spinner("Extracting text from PDF..."):
                     text = self.extract_text_from_pdf(uploaded_file)
+                if ss.file:
+                    ss.pdf_ref = ss.file
             else:
                 image = Image.open(uploaded_file)
                 with st.spinner("Extracting text from image..."):
                     summary = self.summarize_using_groq(text)
                 st.subheader("Summary")
                 st.write(summary)
+            with st.expander("Extracted Text", expanded = False):
+                st.write(text)
+            if ss.pdf_ref:
+                    st.subheader("Original pdf")
+                    binary_data = ss.pdf_ref.getvalue()
+                    pdf_viewer(input=binary_data, width=700)
     # Function to extract text from an image