Spaces:

jskim
/

paper-matching

Runtime error

jskim commited on Feb 24, 2023

Commit

b1499f3

1 Parent(s): e16ae7e

adding nltk postagger

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,7 +4,8 @@ from transformers import AutoTokenizer, AutoModel
 from sentence_transformers import SentenceTransformer
 import pickle
 import nltk
-nltk.download('punkt')
 from input_format import *
 from score import *
@@ -27,6 +28,7 @@ def get_similar_paper(
     author_id_input,
     num_papers_show=10
 ):
     input_sentences = sent_tokenize(abstract_text_input)
     # TODO handle pdf file input
@@ -39,6 +41,7 @@ def get_similar_paper(
         name, papers = get_text_from_author_id(author_id_input)
     # Compute Doc-level affinity scores for the Papers
     titles, abstracts, doc_scores = compute_overall_score(
         doc_model,
         tokenizer,
@@ -60,6 +63,7 @@ def get_similar_paper(
     doc_scores = doc_scores[:num_papers_show]
     display_title = ['[ %0.3f ] %s'%(s, t) for t, s in zip(titles, doc_scores)]
     return gr.update(choices=display_title, interactive=True, visible=True), gr.update(choices=input_sentences, interactive=True), gr.update(visible=True), gr.update(visible=True), gr.update(visible=True)
@@ -69,6 +73,7 @@ def get_highlights(
     abstract,
     K=2
 ):
     # Compute sent-level and phrase-level affinity scores for each papers
     sent_ids, sent_scores, info = get_highlight_info(
         sent_model,

 from sentence_transformers import SentenceTransformer
 import pickle
 import nltk
+nltk.download('punkt') # tokenizer
+nltk.download('averaged_perceptron_tagger') # postagger
 from input_format import *
 from score import *
     author_id_input,
     num_papers_show=10
 ):
+    print('-- retrieving similar papers')
     input_sentences = sent_tokenize(abstract_text_input)
     # TODO handle pdf file input
         name, papers = get_text_from_author_id(author_id_input)
     # Compute Doc-level affinity scores for the Papers
+    print('---- computing scores')
     titles, abstracts, doc_scores = compute_overall_score(
         doc_model,
         tokenizer,
     doc_scores = doc_scores[:num_papers_show]
     display_title = ['[ %0.3f ] %s'%(s, t) for t, s in zip(titles, doc_scores)]
+    print('----- done')
     return gr.update(choices=display_title, interactive=True, visible=True), gr.update(choices=input_sentences, interactive=True), gr.update(visible=True), gr.update(visible=True), gr.update(visible=True)
     abstract,
     K=2
 ):
+    print('-- obtaining highlights')
     # Compute sent-level and phrase-level affinity scores for each papers
     sent_ids, sent_scores, info = get_highlight_info(
         sent_model,