MefhigosetH's picture
Implementamos modulo LLM y VectorStore.
7ffe358
raw
history blame
898 Bytes
"""
Modulo para procesar el PDF de la resolucion e indexar su contenido en la DB, para su posterior utilización por parte del chatbot.
Por simplicidad, se indexo un documento por cada página completa del documento. TODO: Implementar estrategia ParentDocumentRetriever.
"""
#from langchain_community.document_loaders import PyPDFLoader
from chatbot.embeddings import init_embeddings
from chatbot.vectorstore import ChromaDB
if __name__ == "__main__":
#loader = PyPDFLoader("2024_DP_134.pdf")
embedding_model = init_embeddings()
vector_store = ChromaDB(embedding_model)
#for page in loader.lazy_load():
#print(f"Procesando pagina {page.metadata['page']} - len: {len(page.page_content)}")
#vector_store.add_documents([page])
results = vector_store.db.similarity_search(
"Cuantos anexos contiene la resolucion?",
k=2,
)
print(results)