MrLight
/

dse-qwen2-2b-mrl-v1

@@ -140,7 +140,7 @@ doc_inputs = processor(text=doc_texts, images=doc_image_inputs, videos=doc_video
 doc_inputs = model.prepare_inputs_for_generation(**doc_inputs, use_cache=False)
 output = model(**doc_inputs, return_dict=True, output_hidden_states=True)
 with torch.no_grad():
-    output = model(**passage_inputs, return_dict=True, output_hidden_states=True)
 doc_embeddings = get_embedding(output.hidden_states[-1], 1536) # adjust dimensionality for efficiency trade-off e.g. 512
 ```
@@ -161,12 +161,12 @@ for i in range(num_queries):
 ### Encode Document Text
 This DSE checkpoint is warm-up with `Tevatron/msmarco-passage-aug`, thus the model can also effectively encode document as text input.
 ```python
-passage_prompts = [
   "The llama (/ˈlɑːmə/; Spanish pronunciation: [ˈʎama] or [ˈʝama]) (Lama glama) is a domesticated South American camelid, widely used as a meat and pack animal by Andean cultures since the pre-Columbian era.",
   "Llama (acronym for Large Language Model Meta AI, and formerly stylized as LLaMA) is a family of autoregressive large language models (LLMs) released by Meta AI starting in February 2023.[2][3] The latest version is Llama 3.1, released in July 2024.[4]"
 ]
 doc_messages = []
-for doc in doc_images:
     message = [
         {
             'role': 'user',
@@ -186,7 +186,7 @@ doc_inputs = processor(text=doc_texts, images=doc_image_inputs, videos=doc_video
 doc_inputs = model.prepare_inputs_for_generation(**doc_inputs, use_cache=False)
 output = model(**doc_inputs, return_dict=True, output_hidden_states=True)
 with torch.no_grad():
-    output = model(**passage_inputs, return_dict=True, output_hidden_states=True)
 doc_embeddings = get_embedding(output.hidden_states[-1], 1536) # adjust dimensionality for efficiency trade-off e.g. 512
 for i in range(num_queries):

 doc_inputs = model.prepare_inputs_for_generation(**doc_inputs, use_cache=False)
 output = model(**doc_inputs, return_dict=True, output_hidden_states=True)
 with torch.no_grad():
+    output = model(**doc_inputs, return_dict=True, output_hidden_states=True)
 doc_embeddings = get_embedding(output.hidden_states[-1], 1536) # adjust dimensionality for efficiency trade-off e.g. 512
 ```
 ### Encode Document Text
 This DSE checkpoint is warm-up with `Tevatron/msmarco-passage-aug`, thus the model can also effectively encode document as text input.
 ```python
+doc_texts = [
   "The llama (/ˈlɑːmə/; Spanish pronunciation: [ˈʎama] or [ˈʝama]) (Lama glama) is a domesticated South American camelid, widely used as a meat and pack animal by Andean cultures since the pre-Columbian era.",
   "Llama (acronym for Large Language Model Meta AI, and formerly stylized as LLaMA) is a family of autoregressive large language models (LLMs) released by Meta AI starting in February 2023.[2][3] The latest version is Llama 3.1, released in July 2024.[4]"
 ]
 doc_messages = []
+for doc in doc_texts:
     message = [
         {
             'role': 'user',
 doc_inputs = model.prepare_inputs_for_generation(**doc_inputs, use_cache=False)
 output = model(**doc_inputs, return_dict=True, output_hidden_states=True)
 with torch.no_grad():
+    output = model(**doc_inputs, return_dict=True, output_hidden_states=True)
 doc_embeddings = get_embedding(output.hidden_states[-1], 1536) # adjust dimensionality for efficiency trade-off e.g. 512
 for i in range(num_queries):