StreamlitChat_NEW

Sleeping

App Files Files Community

MatteoScript commited on Apr 8, 2024

Commit

7376a17

verified ·

1 Parent(s): f7d650c

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -17

app.py CHANGED Viewed

@@ -15,8 +15,7 @@ from bs4 import BeautifulSoup
 import PyPDF2
 import pytesseract
 from PIL import Image
 load_dotenv()
 URL_APP_SCRIPT = os.getenv('URL_APP_SCRIPT')
@@ -159,13 +158,13 @@ def sidebar():
         st.markdown("---")
         st.markdown("# Ricerca Online")
         st.session_state.cerca_online = st.toggle("Attivata", value=False)
-        #with st.popover("Siti Specifici", disabled=not st.session_state.cerca_online,use_container_width=True):
-        #    st.markdown("#### Inserisci Siti Web ")
-        #    for i in range(5):
-        #        st.session_state.urls[i] = st.text_input("", placeholder=f"URL Sito {i+1}")
-        st.session_state.selected_tbs = st.selectbox("Periodo:", list(st.session_state.tbs_options.keys()), disabled=not st.session_state.cerca_online)
         st.session_state.tbs_value = st.session_state.tbs_options[st.session_state.selected_tbs]
-        st.session_state.numero_siti = st.slider(label="Risultati", min_value = 1, max_value=20, value=3, disabled=not st.session_state.cerca_online)
         #st.session_state.suddividi_ricerca = st.toggle("Attivata", value=False)
         st.markdown("---")
@@ -264,21 +263,41 @@ def gen_augmented_prompt(prompt, top_k) :
         links.append((reference, testo))
     return context, links
-def get_search_results(query, top_k):
-    results = []
-    for url in search(query, num=top_k, stop=top_k, tbs=st.session_state.tbs_value):
-        try:
             response = requests.get(url)
             soup = BeautifulSoup(response.text, 'html.parser')
             title = soup.title.string if soup.title else "N/A"
             description = soup.find('meta', attrs={'name': 'description'})['content'] if soup.find('meta', attrs={'name': 'description'}) else "N/A"
             body_content = soup.find('body').get_text() if soup.find('body') else "N/A"
-            results.append({'title': title, 'description': description, 'url': url, 'body': body_content})
-        except Exception as e:
-            print(f"Error fetching data from {url}: {e}")
-            continue
-    return results
 def gen_online_prompt(prompt, top_k) :
     links = []
     context = ''

 import PyPDF2
 import pytesseract
 from PIL import Image
+from youtube_transcript_api import YouTubeTranscriptApi
 load_dotenv()
 URL_APP_SCRIPT = os.getenv('URL_APP_SCRIPT')
         st.markdown("---")
         st.markdown("# Ricerca Online")
         st.session_state.cerca_online = st.toggle("Attivata", value=False)
+        with st.popover("Siti Specifici", disabled=not st.session_state.cerca_online,use_container_width=True):
+            st.markdown("#### Inserisci Siti Web ")
+            for i in range(5):
+                st.session_state.urls[i] = st.text_input(f"URL Sito {i+1}", placeholder='Sito Web...', help='è possibile specificare anche il link di un video Youtube, in tal caso verrà restituita la trascrizione del video')
+        st.session_state.selected_tbs = st.selectbox("Periodo:", list(st.session_state.tbs_options.keys()), disabled=(not st.session_state.cerca_online) or (st.session_state.urls[0]!=""))
         st.session_state.tbs_value = st.session_state.tbs_options[st.session_state.selected_tbs]
+        st.session_state.numero_siti = st.slider(label="Risultati", min_value = 1, max_value=20, value=3, disabled=(not st.session_state.cerca_online) or (st.session_state.urls[0]!=""))
         #st.session_state.suddividi_ricerca = st.toggle("Attivata", value=False)
         st.markdown("---")
         links.append((reference, testo))
     return context, links
+def get_search_results_int(url):
+    result = {'title': '', 'description': '', 'url': '', 'body': ''}
+    try:
+        if "www.youtube.com" in url:
+            video_id = url.split("=")[1]
+            title = 'Video Youtube'
+            description = ''
+            transcript = YouTubeTranscriptApi.get_transcript(video_id)
+            body_content = " ".join([segment["text"] for segment in transcript])
+            print(video_id)
+            print(body_content)
+            result = {'title': title, 'description': body_content, 'url': url, 'body': body_content}
+        else:
             response = requests.get(url)
             soup = BeautifulSoup(response.text, 'html.parser')
             title = soup.title.string if soup.title else "N/A"
             description = soup.find('meta', attrs={'name': 'description'})['content'] if soup.find('meta', attrs={'name': 'description'}) else "N/A"
             body_content = soup.find('body').get_text() if soup.find('body') else "N/A"
+            result = {'title': title, 'description': description, 'url': url, 'body': body_content}
+    except Exception as e:
+        print(f"Error fetching data from {url}: {e}")
+    return result
+def get_search_results(query, top_k):
+    results = []
+    if st.session_state.urls[0] != "":
+        for i in range(5):
+            url = st.session_state.urls[i]
+            if url != "":
+                results.append(get_search_results_int(url))
+    else:
+        for url in search(query, num=top_k, stop=top_k, tbs=st.session_state.tbs_value):
+            results.append(get_search_results_int(url))
+    return results
 def gen_online_prompt(prompt, top_k) :
     links = []
     context = ''