lmms-lab
/

llava-onevision-qwen2-7b-ov

@@ -1,319 +1,318 @@
 ---
-license: apache-2.0
 datasets:
 - lmms-lab/LLaVA-OneVision-Data
 language:
 - en
 - zh
 metrics:
 - accuracy
-library_name: transformers
 tags:
 - multimodal
 model-index:
 - name: llava-onevision-qwen-7b-ov
   results:
   - task:
       type: multimodal
     dataset:
-      type: ai2d
       name: AI2D
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 81.4
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: chartqa
       name: ChartQA
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 80.0
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: docvqa
       name: DocVQA
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 90.2
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: infovqa
       name: InfoVQA
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 70.7
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: mathverse
       name: MathVerse
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 26.2
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: mathvista
       name: MathVista
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 63.2
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: mmbench
       name: MMBench
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 80.8
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: mme-perception
       name: MME-Perception
     metrics:
-    - name: score
-      type: score
       value: 1580
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: mme-cognition
       name: MME-Cognition
     metrics:
-    - name: score
-      type: score
       value: 418
-      verified: true
   - task:
       type: multimodal
     dataset:
-      type: mmmu
       name: MMMU
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 48.8
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: mmvet
       name: MMVet
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 57.5
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: mmstar
       name: MMStar
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 61.7
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: seed-bench
       name: Seed-Bench
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 75.4
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: science-qa
       name: Science-QA
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 96.0
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: imagedc
       name: ImageDC
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 88.9
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: mmlbench
       name: MMLBench
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 77.1
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: realworldqa
       name: RealWorldQA
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 66.3
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: vibe-eval
       name: Vibe-Eval
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 51.7
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: llava-w
       name: LLaVA-W
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 90.7
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: l-wilder
       name: LLaVA-Wilder
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 67.8
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: actnet-qa
       name: ActNet-QA
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 56.6
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: egoschema
       name: EgoSchema
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 60.1
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: mlvu
       name: MLVU
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 64.7
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: mvbench
       name: MVBench
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 56.7
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: nextqa
       name: NextQA
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 79.4
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: percepTest
       name: PercepTest
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 49.7
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: seedbench
       name: SeedBench
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 56.9
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: videochatgpt
       name: VideoChatGPT
     metrics:
-    - name: score
-      type: score
       value: 3.49
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: videodc
       name: VideoDC
     metrics:
-    - name: score
-      type: score
       value: 3.75
       verified: true
   - task:
       type: multimodal
     dataset:
-      type: videomme
       name: VideoMME
     metrics:
-    - name: accuracy
-      type: accuracy
       value: 58.2
-      verified: true
 ---

 ---
 datasets:
 - lmms-lab/LLaVA-OneVision-Data
 language:
 - en
 - zh
+library_name: transformers
+license: apache-2.0
 metrics:
 - accuracy
 tags:
 - multimodal
 model-index:
 - name: llava-onevision-qwen-7b-ov
   results:
   - task:
       type: multimodal
     dataset:
       name: AI2D
+      type: ai2d
     metrics:
+    - type: accuracy
       value: 81.4
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: ChartQA
+      type: chartqa
     metrics:
+    - type: accuracy
       value: 80.0
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: DocVQA
+      type: docvqa
     metrics:
+    - type: accuracy
       value: 90.2
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: InfoVQA
+      type: infovqa
     metrics:
+    - type: accuracy
       value: 70.7
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: MathVerse
+      type: mathverse
     metrics:
+    - type: accuracy
       value: 26.2
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: MathVista
+      type: mathvista
     metrics:
+    - type: accuracy
       value: 63.2
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: MMBench
+      type: mmbench
     metrics:
+    - type: accuracy
       value: 80.8
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: MME-Perception
+      type: mme-perception
     metrics:
+    - type: score
       value: 1580
+      name: score
       verified: true
   - task:
       type: multimodal
     dataset:
       name: MME-Cognition
+      type: mme-cognition
     metrics:
+    - type: score
       value: 418
+      name: score
+      verified: true
   - task:
       type: multimodal
     dataset:
       name: MMMU
+      type: mmmu
     metrics:
+    - type: accuracy
       value: 48.8
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: MMVet
+      type: mmvet
     metrics:
+    - type: accuracy
       value: 57.5
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: MMStar
+      type: mmstar
     metrics:
+    - type: accuracy
       value: 61.7
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: Seed-Bench
+      type: seed-bench
     metrics:
+    - type: accuracy
       value: 75.4
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: Science-QA
+      type: science-qa
     metrics:
+    - type: accuracy
       value: 96.0
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: ImageDC
+      type: imagedc
     metrics:
+    - type: accuracy
       value: 88.9
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: MMLBench
+      type: mmlbench
     metrics:
+    - type: accuracy
       value: 77.1
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: RealWorldQA
+      type: realworldqa
     metrics:
+    - type: accuracy
       value: 66.3
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: Vibe-Eval
+      type: vibe-eval
     metrics:
+    - type: accuracy
       value: 51.7
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: LLaVA-W
+      type: llava-w
     metrics:
+    - type: accuracy
       value: 90.7
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: LLaVA-Wilder
+      type: l-wilder
     metrics:
+    - type: accuracy
       value: 67.8
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: ActNet-QA
+      type: actnet-qa
     metrics:
+    - type: accuracy
       value: 56.6
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: EgoSchema
+      type: egoschema
     metrics:
+    - type: accuracy
       value: 60.1
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: MLVU
+      type: mlvu
     metrics:
+    - type: accuracy
       value: 64.7
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: MVBench
+      type: mvbench
     metrics:
+    - type: accuracy
       value: 56.7
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: NextQA
+      type: nextqa
     metrics:
+    - type: accuracy
       value: 79.4
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: PercepTest
+      type: percepTest
     metrics:
+    - type: accuracy
       value: 49.7
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: SeedBench
+      type: seedbench
     metrics:
+    - type: accuracy
       value: 56.9
+      name: accuracy
       verified: true
   - task:
       type: multimodal
     dataset:
       name: VideoChatGPT
+      type: videochatgpt
     metrics:
+    - type: score
       value: 3.49
+      name: score
       verified: true
   - task:
       type: multimodal
     dataset:
       name: VideoDC
+      type: videodc
     metrics:
+    - type: score
       value: 3.75
+      name: score
       verified: true
   - task:
       type: multimodal
     dataset:
       name: VideoMME
+      type: videomme
     metrics:
+    - type: accuracy
       value: 58.2
+      name: accuracy
+      verified: true
 ---

added_tokens.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "<|endoftext|>": 151643,
   "<|im_end|>": 151645,
   "<|im_start|>": 151644

 {
+  "<image>": 151646,
   "<|endoftext|>": 151643,
   "<|im_end|>": 151645,
   "<|im_start|>": 151644

tokenizer.json CHANGED Viewed

@@ -29,6 +29,15 @@
       "rstrip": false,
       "normalized": false,
       "special": true
     }
   ],
   "normalizer": {
@@ -73,6 +82,7 @@
     "end_of_word_suffix": "",
     "fuse_unk": false,
     "byte_fallback": false,
     "vocab": {
       "!": 0,
       "\"": 1,

       "rstrip": false,
       "normalized": false,
       "special": true
+    },
+    {
+      "id": 151646,
+      "content": "<image>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
     }
   ],
   "normalizer": {
     "end_of_word_suffix": "",
     "fuse_unk": false,
     "byte_fallback": false,
+    "ignore_merges": false,
     "vocab": {
       "!": 0,
       "\"": 1,

tokenizer_config.json CHANGED Viewed

@@ -24,6 +24,14 @@
       "rstrip": false,
       "single_word": false,
       "special": true
     }
   },
   "additional_special_tokens": [

       "rstrip": false,
       "single_word": false,
       "special": true
+    },
+    "151646": {
+      "content": "<image>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
     }
   },
   "additional_special_tokens": [