Spaces:

shach1995
/

news_summarizer

Sleeping

App Files Files Community

Kota Takahashi commited on Jun 22, 2024

Commit

230209e

1 Parent(s): c83d422

例外処理とspinnerを追加

Browse files

Files changed (2) hide show

app.py +43 -28
cosine_similarity_calculator.py +3 -2

app.py CHANGED Viewed

@@ -39,35 +39,50 @@ if st.button('最新ニュース取得'):
 if st.session_state['news_fetched']:
     search_word = st.text_input('名詞', placeholder='名詞を入力してください', max_chars=10, help='10文字以内の名詞')
     if st.button('要約作成'):
-        article_text_list = st.session_state['article_text_list']
-        article_url_list = st.session_state['article_url_list']
-        for temp_article_text, temp_article_url in zip(article_text_list, article_url_list):
-            # TD-IDF値を計算
-            vectorizer = JapaneseTextVectorizer()
-            tfidf_dict = vectorizer.fit_transform(temp_article_text)
-            # cos類似度を計算
-            word_similarity = CosineSimilarityCalculator()
-            article_keyword_list = list(tfidf_dict.keys())
-            result_word_similarity = word_similarity.calculate_similarity(search_word, article_keyword_list)
-            # None でない値のみを抽出
-            filtered_data = {k: v for k, v in result_word_similarity.items() if v is not None}
-            # 最大値を持つキーとその値を取得
-            if filtered_data:  # filtered_dataが空でないことを確認
-                max_word = max(filtered_data, key=filtered_data.get)
-                max_value = filtered_data[max_word]
-                # 最大値がこれまでの最大値より大きければ更新
-                if max_value > best_max_value:
-                    best_max_value = max_value
-                    best_max_word = max_word
-                    best_article_text = temp_article_text
-                    best_article_url = temp_article_url
-        # テキストを要約
-        summarizer = TextSummarizer()
-        summary_text = summarizer.summarize(best_article_text, max_length=40, min_length=20)
-        st.write(f'最も類似度が高いワードは「{best_max_word}」でした')
-        st.write(f'url：{best_article_url}')
-        st.text_area("要約:", summary_text, height=20)

 if st.session_state['news_fetched']:
     search_word = st.text_input('名詞', placeholder='名詞を入力してください', max_chars=10, help='10文字以内の名詞')
     if st.button('要約作成'):
+        if search_word.strip() == '':
+            st.error('名詞を入力してください。')
+        elif len(search_word) > 10:
+            st.error('名詞は10文字以内で入力してください。')
+        else:
+            with st.spinner('ニュースの要約を作成中...'):
+                article_text_list = st.session_state['article_text_list']
+                article_url_list = st.session_state['article_url_list']
+                try:
+                    for temp_article_text, temp_article_url in zip(article_text_list, article_url_list):
+                        # TF-IDF値を計算
+                        vectorizer = JapaneseTextVectorizer()
+                        tfidf_dict = vectorizer.fit_transform(temp_article_text)
+                        # cos類似度を計算
+                        word_similarity = CosineSimilarityCalculator()
+                        article_keyword_list = list(tfidf_dict.keys())
+                        result_word_similarity = word_similarity.calculate_similarity(search_word, article_keyword_list)
+                        if result_word_similarity is None:
+                            raise ValueError("類似度計算結果がNoneです。名詞を変更して再度試してください。")
+                        # None でない値のみを抽出
+                        filtered_data = {k: v for k, v in result_word_similarity.items() if v is not None}
+                        # 最大値を持つキーとその値を取得
+                        if filtered_data:  # filtered_dataが空でないことを確認
+                            max_word = max(filtered_data, key=filtered_data.get)
+                            max_value = filtered_data[max_word]
+                            # 最大値がこれまでの最大値より大きければ更新
+                            if max_value > best_max_value:
+                                best_max_value = max_value
+                                best_max_word = max_word
+                                best_article_text = temp_article_text
+                                best_article_url = temp_article_url
+                        is_similarity_computed = True  # 類似度が計算されていれば、フラグをTrueにする
+                    # テキストを要約
+                    summarizer = TextSummarizer()
+                    summary_text = summarizer.summarize(best_article_text, max_length=40, min_length=20)
+                    st.write(f'最も類似度が高いワードは「{best_max_word}」でした')
+                    st.write(f'url：{best_article_url}')
+                    st.text_area("要約:", summary_text, height=20)
+                except ValueError as ve:
+                    st.error(f"エラー: {ve.args[0]}")

cosine_similarity_calculator.py CHANGED Viewed

@@ -46,18 +46,19 @@ class CosineSimilarityCalculator:
     def calculate_similarity(self, search_word, article_keyword_list):
         """
         指定された検索ワードと記事のキーワードリストの間のコサイン類似度を計算
         Parameters:
         - search_word (str): 検索ワード
         - article_keyword_list (list): 記事のキーワードリスト
         Returns:
-        - similarities (dict): 記事キーワードとそれぞれの検索ワードのコサイン類似度を含む辞書を作成し、モデルにない単語の場合はNoneを返す
         """
         # 検索ワードの埋め込みベクトルを取得
         if search_word in self.model.wv:
             search_embedding = self.model.wv[search_word]
         else:
-            print(f"{search_word} は本モデルの語彙にありません。")
             return None
         similarities = {}

     def calculate_similarity(self, search_word, article_keyword_list):
         """
         指定された検索ワードと記事のキーワードリストの間のコサイン類似度を計算
+        モデルにない単語の場合はエラーメッセージを出力しブレイクする
         Parameters:
         - search_word (str): 検索ワード
         - article_keyword_list (list): 記事のキーワードリスト
         Returns:
+        - similarities (dict): 記事キーワードとそれぞれの検索ワードのコサイン類似度を含む辞書を作成。
+                               モデルにない単語の場合はNoneを返す
         """
         # 検索ワードの埋め込みベクトルを取得
         if search_word in self.model.wv:
             search_embedding = self.model.wv[search_word]
         else:
             return None
         similarities = {}