Spaces:

SoumyaJ
/

DatabaseToolkitWithRAG

Sleeping

App Files Files Community

DatabaseToolkitWithRAG / app.py

SoumyaJ

Update app.py

e259e19 verified 5 months ago

raw

history blame contribute delete

14.3 kB

	import streamlit as st
	from langchain.agents import create_sql_agent,create_react_agent
	from langchain.agents.agent_toolkits import SQLDatabaseToolkit
	from langchain.agents.agent_types import AgentType
	from langchain_groq import ChatGroq
	from langchain_core.prompts import ChatPromptTemplate
	from langchain.sql_database import SQLDatabase
	from sqlalchemy import create_engine
	from langchain.text_splitter import RecursiveCharacterTextSplitter
	from langchain_huggingface import HuggingFaceEmbeddings
	from langchain_community.vectorstores import FAISS
	from langchain.chains.combine_documents import create_stuff_documents_chain
	from langchain.chains.retrieval import create_retrieval_chain
	from langchain_core.output_parsers import StrOutputParser
	from sqlalchemy.orm import sessionmaker
	from sqlalchemy import text
	import sqlite3
	from dotenv import load_dotenv
	from pathlib import Path
	from PyPDF2 import PdfReader
	import os
	import re

	load_dotenv()
	os.environ['GROQ_API_KEY'] = os.getenv("GROQ_API_KEY")
	os.environ['HF_TOKEN'] = os.getenv("HF_TOKEN")

	st.set_page_config("Langchain interaction with DB")
	st.title("Document QnA with DB interaction")

	llm = ChatGroq(model="llama3-8b-8192", api_key= os.environ['GROQ_API_KEY'])

	embeddings = HuggingFaceEmbeddings(model_name = "all-MiniLM-L6-v2")

	duration_pattern = re.compile(r"(\d+)\s*(min[s]?\|minute[s]?)")

	st.session_state.user_prompt = ""
	st.session_state.summary = ""

	pdf_prompt_template = ChatPromptTemplate.from_template("""
	Answer the following question from the provided context only.
	Please provide the most accurate response based on the question
	<context>
	{context}
	</context>
	Question : {input}
	""")

	def get_pdf_text(pdf_docs):
	text=""
	for pdf in pdf_docs:
	pdf_reader= PdfReader(pdf)
	for page in pdf_reader.pages:
	text+= page.extract_text()
	return text

	def create_vector_embeddings(pdfText):
	if "vectors" not in st.session_state:
	st.session_state.docs = get_pdf_text(pdfText)
	st.session_state.splitter = RecursiveCharacterTextSplitter(chunk_size=1200,chunk_overlap=400)
	st.session_state.final_docs = st.session_state.splitter.split_text(st.session_state.docs)
	st.session_state.vectors = FAISS.from_texts(st.session_state.final_docs, embeddings)

	def configure():
	dbfilepath = (Path(__file__).parent /"programme.db").absolute()
	creator = lambda: sqlite3.connect(f"file:{dbfilepath}",uri= True, check_same_thread=False)
	return create_engine("sqlite:///", creator= creator)

	engine = configure()
	db = SQLDatabase(engine)
	#ChatGroq(model="gemma2-9b-it"
	sql_toolkit = SQLDatabaseToolkit(db = db, llm = llm , api_key= os.environ['GROQ_API_KEY'])
	sql_toolkit.get_tools()

	prefilled_prompt = ""

	# if "uploaded_text" in st.session_state:
	# for m in st.session_state.uploaded_text:
	# st.error(m)
	# if 'PACKAGE' in st.session_state.uploaded_text:
	# prefilled_prompt = "get the entire programme details linked to the package"
	# else:
	# prefilled_prompt = "get the entire programme details linked to the document"

	# query=st.text_input("ask question here", value = prefilled_prompt)

	def clear_database():

	connection = engine.raw_connection()
	try:
	# Create a cursor from the raw connection
	cursor = connection.cursor()

	# List of tables to clear
	tables = ["programme", "episode"]

	# Execute DELETE commands for each table
	for table in tables:
	cursor.execute(f"DELETE FROM {table}")

	# Commit the changes to the database
	connection.commit()
	finally:
	# Ensure the connection is closed properly
	connection.close()


	def process_sql_script(sql_script):
	# Define the keyword to check
	keyword = 'PACKAGE'

	# Split the script into lines
	lines = sql_script.strip().split(';')

	programme_line = lines[0]
	if keyword not in programme_line:
	filtered_script = "\n".join([lines[0]])
	else:
	filtered_script = "\n".join(lines)

	return filtered_script

	import re

	def convert_to_hms(duration):
	hour_minute_match = re.match(r'(?:(\d+)\shour[s]?)?\s(\d+)\s*min[s]?', duration.lower())

	if hour_minute_match:
	hours = int(hour_minute_match.group(1) or 0)
	minutes = int(hour_minute_match.group(2) or 0)
	else:
	return duration

	total_seconds = (hours * 60 * 60) + (minutes * 60)
	hh = total_seconds // 3600
	mm = (total_seconds % 3600) // 60
	ss = total_seconds % 60

	return f"{hh:02}:{mm:02}:{ss:02}"

	def handleDurationForEachScript(scripts):
	filtered_data = ""
	# for script in scripts.split(";"):
	# # Find all matches for durations like '60 minutes' or '60 mins'
	# matches = duration_pattern.findall(script)

	# for match in matches:
	# duration = f"{match[0]} {match[1]}" # e.g., '60 mins' or '60 minutes'
	# converted_duration = convert_to_hms(duration) # Convert to hh:mm:ss
	# script = script.replace(duration, converted_duration).replace('utes','') # Replace in script
	# if ('episode' not in filtered_data) & ('programme' not in filtered_data):
	# filtered_data = filtered_data + script
	pattern = r"'(\d+\s*(?:mins\|minutes))'"
	for script in scripts.split(";"):
	match = re.search(pattern, script)
	if match:
	duration = match.group(1)
	converted_duration = convert_to_hms(duration) # Convert to hh:mm:ss
	script = script.replace(duration, converted_duration).replace('utes','') # Replace in script
	if ('episode' not in filtered_data) & ('programme' not in filtered_data):
	filtered_data = filtered_data + script

	return filtered_data

	def parse_insert_statement(insert_statement):
	# Extract the table name
	table_match = re.search(r'INSERT INTO (\w+)', insert_statement)
	if not table_match:
	return None, None, None

	table = table_match.group(1)

	# Extract columns and values
	columns_match = re.search(r'\((.*?)\)', insert_statement, re.DOTALL)
	values_match = re.search(r'VALUES\s\((.?)\)', insert_statement, re.DOTALL)

	if not columns_match or not values_match:
	return None, None, None

	columns = columns_match.group(1).replace('"', '').replace('\n', ' ').strip()
	values = values_match.group(1).replace("'", "").replace('\n', ' ').strip()

	return table, columns, values

	def build_data_from_sql(programme_sql, episode_sql=None):
	data = {
	'Table': [],
	'Columns': [],
	'Values': []
	}

	# Parse the programme insert statement
	programme_table, programme_columns, programme_values = parse_insert_statement(programme_sql)

	if programme_table and programme_columns and programme_values:
	data['Table'].append(programme_table.capitalize())
	data['Columns'].append(programme_columns)
	data['Values'].append(programme_values)

	# Parse the episode insert statement, if it exists
	if episode_sql:
	episode_table, episode_columns, episode_values = parse_insert_statement(episode_sql)

	if episode_table and episode_columns and episode_values:
	data['Table'].append(episode_table.capitalize())
	data['Columns'].append(episode_columns)
	data['Values'].append(episode_values)

	return data

	with st.sidebar:
	st.title("Menu:")
	#if "uploaded_text" not in st.session_state:
	st.session_state.uploaded_text = st.file_uploader("Upload your Files and Click on the Submit & Process Button", accept_multiple_files=True)
	if st.button("Click To Process File"):
	with st.spinner("Processing..."):
	create_vector_embeddings(st.session_state.uploaded_text)
	st.write("Vector Database is ready")

	# if "uploaded_text" in st.session_state and st.session_state.uploaded_text is not None:
	# uploaded_file_names = [file.name for file in st.session_state.uploaded_text]
	# if any('PACKAGE' in file_name.upper() for file_name in uploaded_file_names):
	# prefilled_prompt = "get the entire programme details linked to the package"
	# else:
	# prefilled_prompt = "get the entire programme details linked to the document"

	query=st.text_input("ask question here")

	if query and "vectors" in st.session_state:
	st.session_state.user_prompt = query
	document_chain = create_stuff_documents_chain(llm=llm, prompt= pdf_prompt_template)
	retriever = st.session_state.vectors.as_retriever()
	retrieval_chain=create_retrieval_chain(retriever,document_chain)
	response = retrieval_chain.invoke({"input": st.session_state.user_prompt})
	#st.write(response)
	if response:
	st.session_state.summary = response['answer']
	st.write(response['answer'])

	prompt=ChatPromptTemplate.from_messages(
	[
	("system",
	"""
	You are a SQL expert. Your task is to generate SQL INSERT scripts based on the provided context.

	1. Generate an `INSERT` statement for the `programme` table using the following values:
	- `ProgrammeTitle`
	- `ProgrammeType`
	- `Genre`
	- `SubGenre`
	- `Language`
	- `Duration`
	Example:


	2. After generating the `programme` statement, check the `ProgrammeTitle`:
	- If the `ProgrammeTitle` contains the keyword `PACKAGE`, generate an additional `INSERT` statement for the `episode` table.
	- If the `ProgrammeTitle` does not contain the keyword `PACKAGE`, do not generate an `INSERT` statement for the `episode` table.

	3. The `episode` INSERT statement should look like this if the condition is met. EpisodeNumber is always 1 and `EpisodeTitle` should take same data from `ProgrammeTitle`.


	4. Include only the SQL insert script(s) as final answer, donot include any additional details and notes.Return only the necessary SQL INSERT script(s) based on the current input. Ensure that no `episode` INSERT statement is included if the `ProgrammeTitle` does not contain `'PACKAGE'`.

	Your output should strictly follow these conditions. Output only the final answer without producing any intermediate actions.

	"""
	),
	("user","{question}\ ai: ")
	])

	agent=create_sql_agent(llm=llm,toolkit=sql_toolkit,agent_type=AgentType.ZERO_SHOT_REACT_DESCRIPTION,verbose=True,max_execution_time=100,max_iterations=1000, handle_parsing_errors=True)

	if st.button("Generate Scripts",type="primary"):
	try:
	if st.session_state.summary is not None:
	response=agent.run(prompt.format_prompt(question=st.session_state.summary))
	#with st.expander("Expand here to view scripts"):
	if "INSERT" in response:
	final_response = process_sql_script(response)
	final_response_new = handleDurationForEachScript(final_response)
	episode_sql = ""
	splitted_data = []

	if "uploaded_text" in st.session_state and st.session_state.uploaded_text is not None:
	uploaded_file_names = [file.name for file in st.session_state.uploaded_text]
	if any('PACKAGE' in file_name.upper() for file_name in uploaded_file_names):
	if ";" in final_response_new:
	splitted_data = [stmt.strip() for stmt in final_response_new.strip().split(';') if stmt.strip()]
	elif "\n" in final_response_new:
	splitted_data = [stmt.strip() for stmt in final_response_new.strip().split('\n') if stmt.strip()]
	elif "," in final_response_new:
	splitted_data = [stmt.strip() for stmt in final_response_new.strip().split(',') if stmt.strip()]
	else:
	if final_response_new is list:
	splitted_data = final_response_new
	else:
	splitted_data.append(final_response_new)

	print(splitted_data)
	if len(splitted_data) > 0:
	programme_sql = splitted_data[0] + ';' # Re-add semicolon to the programme SQL statement
	print(f"prog{programme_sql}")
	if len(splitted_data) > 1:
	episode_sql = splitted_data[1]
	#print(f"eps{episode_sql}")


	data = build_data_from_sql(programme_sql, episode_sql)
	st.write("### Script Summary")
	st.table(data)

	st.write("### Full SQL Scripts")

	with st.expander("Insert Scripts"):
	st.code(programme_sql, language='sql')
	st.code(episode_sql, language='sql')

	#if episode_sql:
	#with st.expander("Episode Insert Script"):
	#st.code(episode_sql, language='sql')
	#st.code(final_response_new, language = 'sql')
	clear_database()

	#st.write(response)
	except Exception as e:
	st.error(f"Parsing error from LLM.Retry again !!! \n : {str(e)}")



	# data = {
	# 'Table': ['Programme', 'Episode'],
	# 'Columns': ['ProgrammeTitle, ProgrammeType, ...', 'EpisodeTitle, EpisodeNumber, ...'],
	# 'Values': ['CHAMSARANG PACKAGE, Series, ...', 'CHAMSARANG PACKAGE, 1, ...']
	# }

	# # Display summary table
	# st.write("### Script Summary")
	# st.table(data)

	# # Display expandable sections for each script
	# st.write("### Full SQL Scripts")
	# with st.expander("Programme Insert Script"):
	# st.code("INSERT INTO programme ...")

	# with st.expander("Episode Insert Script"):
	# st.code("INSERT INTO episode ...")