Spaces:

tiennlu
/

tl

Sleeping

tiennlu commited on Jun 27, 2024

Commit

762fc9f

verified ·

1 Parent(s): d744d35

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -268,17 +268,24 @@ def get_video_id(youtube_url):
     video_id = parse_qs(parsed_url.query).get("v")
     return video_id[0] if video_id else None
 def get_transcript(video_id):
     tran = []
     transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)
-    transcript = transcript_list.find_generated_transcript(['vi','en'])
     translated_transcript = transcript.translate('en')
     transcript_data = translated_transcript.fetch()
-    tran += [t['text'] for t in transcript_data if t['text'] != '[music]']
     return ' '.join(tran)
 def chunk_text(text, chunk_size=1000, overlap_size=24):
     encoder = RecursiveCharacterTextSplitter().from_tiktoken_encoder(model_name="gpt-3.5-turbo", chunk_size=chunk_size,
                                                                      chunk_overlap=overlap_size)

     video_id = parse_qs(parsed_url.query).get("v")
     return video_id[0] if video_id else None
 def get_transcript(video_id):
     tran = []
     transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)
+    transcript = transcript_list.find_generated_transcript(['vi', 'en'])
     translated_transcript = transcript.translate('en')
     transcript_data = translated_transcript.fetch()
+    words_to_remove = ['[music]', '[clause]', '[smile]', '[laugh]', '[cry]', '[sigh]', '[uh]', '[um]', '[uh-huh]', '[sob]', '[giggle]', '[hmm]']
+    for t in transcript_data:
+        if t['text'].lower() not in words_to_remove:
+            tran.append(t['text'])
     return ' '.join(tran)
 def chunk_text(text, chunk_size=1000, overlap_size=24):
     encoder = RecursiveCharacterTextSplitter().from_tiktoken_encoder(model_name="gpt-3.5-turbo", chunk_size=chunk_size,
                                                                      chunk_overlap=overlap_size)