Spaces:

dammy
/

chatPDF

Runtime error

dammy commited on Nov 17, 2023

Commit

b0a8958

1 Parent(s): 93544b0

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -21,6 +21,9 @@ ST_name = 'sentence-transformers/sentence-t5-base'
 st_model = SentenceTransformer(ST_name)
 print('sentence read')
 def get_context(query_text, collection):
     query_emb = st_model.encode(query_text)
@@ -42,8 +45,7 @@ def local_query(query, context):
     return tokenizer.batch_decode(outputs, skip_special_tokens=True)
-def run_query(btn, history, query):
     file_name = btn.name
@@ -69,8 +71,9 @@ def run_query(btn, history, query):
         ids=ids
     )
     # context = get_context(query, collection)
     context  = 'My name is damla'
@@ -94,6 +97,31 @@ def run_query(btn, history, query):
 def upload_pdf(file):
     try:
         if file is not None:
             return 'Successfully uploaded!'
         else:

 st_model = SentenceTransformer(ST_name)
 print('sentence read')
+client = chromadb.Client()
+collection = client.create_collection("test_db")
 def get_context(query_text, collection):
     query_emb = st_model.encode(query_text)
     return tokenizer.batch_decode(outputs, skip_special_tokens=True)
+def generate_langchain(btn):
     file_name = btn.name
         ids=ids
     )
+    return collection
+def run_query(btn, history, query):
     # context = get_context(query, collection)
     context  = 'My name is damla'
 def upload_pdf(file):
     try:
         if file is not None:
+            global collection
+            file_name = btn.name
+            loader = PDFMinerLoader(file_name)
+            doc = loader.load()
+            text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
+            texts = text_splitter.split_documents(doc)
+            texts = [i.page_content for i in texts]
+            doc_emb = st_model.encode(texts)
+            doc_emb = doc_emb.tolist()
+            ids = [str(uuid.uuid1()) for _ in doc_emb]
+            collection.add(
+                embeddings=doc_emb,
+                documents=texts,
+                ids=ids
+            )
             return 'Successfully uploaded!'
         else: