erax commited on
Commit
7f78c01
·
verified ·
1 Parent(s): a6f3d48

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +744 -187
README.md CHANGED
@@ -1,199 +1,756 @@
1
  ---
 
 
 
 
 
 
 
2
  library_name: transformers
3
- tags: []
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5
 
6
- # Model Card for Model ID
 
7
 
8
- <!-- Provide a quick summary of what the model is/does. -->
 
 
 
 
 
 
9
 
 
10
 
 
 
 
 
11
 
12
- ## Model Details
 
 
 
 
 
 
 
 
 
 
 
 
 
 
13
 
14
- ### Model Description
 
 
 
15
 
16
- <!-- Provide a longer summary of what this model is. -->
17
 
18
- This is the model card of a 🤗 transformers model that has been pushed on the Hub. This model card has been automatically generated.
 
 
 
 
 
 
 
19
 
20
- - **Developed by:** [More Information Needed]
21
- - **Funded by [optional]:** [More Information Needed]
22
- - **Shared by [optional]:** [More Information Needed]
23
- - **Model type:** [More Information Needed]
24
- - **Language(s) (NLP):** [More Information Needed]
25
- - **License:** [More Information Needed]
26
- - **Finetuned from model [optional]:** [More Information Needed]
27
-
28
- ### Model Sources [optional]
29
-
30
- <!-- Provide the basic links for the model. -->
31
-
32
- - **Repository:** [More Information Needed]
33
- - **Paper [optional]:** [More Information Needed]
34
- - **Demo [optional]:** [More Information Needed]
35
-
36
- ## Uses
37
-
38
- <!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
39
-
40
- ### Direct Use
41
-
42
- <!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
43
-
44
- [More Information Needed]
45
-
46
- ### Downstream Use [optional]
47
-
48
- <!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
49
-
50
- [More Information Needed]
51
-
52
- ### Out-of-Scope Use
53
-
54
- <!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
55
-
56
- [More Information Needed]
57
-
58
- ## Bias, Risks, and Limitations
59
-
60
- <!-- This section is meant to convey both technical and sociotechnical limitations. -->
61
-
62
- [More Information Needed]
63
-
64
- ### Recommendations
65
-
66
- <!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
67
-
68
- Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
69
-
70
- ## How to Get Started with the Model
71
-
72
- Use the code below to get started with the model.
73
-
74
- [More Information Needed]
75
-
76
- ## Training Details
77
-
78
- ### Training Data
79
-
80
- <!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
81
-
82
- [More Information Needed]
83
-
84
- ### Training Procedure
85
-
86
- <!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
87
-
88
- #### Preprocessing [optional]
89
-
90
- [More Information Needed]
91
-
92
-
93
- #### Training Hyperparameters
94
-
95
- - **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
96
-
97
- #### Speeds, Sizes, Times [optional]
98
-
99
- <!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
100
-
101
- [More Information Needed]
102
-
103
- ## Evaluation
104
-
105
- <!-- This section describes the evaluation protocols and provides the results. -->
106
-
107
- ### Testing Data, Factors & Metrics
108
-
109
- #### Testing Data
110
-
111
- <!-- This should link to a Dataset Card if possible. -->
112
-
113
- [More Information Needed]
114
-
115
- #### Factors
116
-
117
- <!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
118
-
119
- [More Information Needed]
120
-
121
- #### Metrics
122
-
123
- <!-- These are the evaluation metrics being used, ideally with a description of why. -->
124
-
125
- [More Information Needed]
126
-
127
- ### Results
128
-
129
- [More Information Needed]
130
-
131
- #### Summary
132
-
133
-
134
-
135
- ## Model Examination [optional]
136
-
137
- <!-- Relevant interpretability work for the model goes here -->
138
-
139
- [More Information Needed]
140
-
141
- ## Environmental Impact
142
-
143
- <!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
144
-
145
- Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
146
-
147
- - **Hardware Type:** [More Information Needed]
148
- - **Hours used:** [More Information Needed]
149
- - **Cloud Provider:** [More Information Needed]
150
- - **Compute Region:** [More Information Needed]
151
- - **Carbon Emitted:** [More Information Needed]
152
-
153
- ## Technical Specifications [optional]
154
-
155
- ### Model Architecture and Objective
156
-
157
- [More Information Needed]
158
-
159
- ### Compute Infrastructure
160
-
161
- [More Information Needed]
162
-
163
- #### Hardware
164
-
165
- [More Information Needed]
166
-
167
- #### Software
168
-
169
- [More Information Needed]
170
-
171
- ## Citation [optional]
172
-
173
- <!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
174
-
175
- **BibTeX:**
176
-
177
- [More Information Needed]
178
-
179
- **APA:**
180
-
181
- [More Information Needed]
182
-
183
- ## Glossary [optional]
184
-
185
- <!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
186
-
187
- [More Information Needed]
188
-
189
- ## More Information [optional]
190
-
191
- [More Information Needed]
192
-
193
- ## Model Card Authors [optional]
194
-
195
- [More Information Needed]
196
-
197
- ## Model Card Contact
198
-
199
- [More Information Needed]
 
1
  ---
2
+ license: apache-2.0
3
+ language:
4
+ - vi
5
+ - en
6
+ - zh
7
+ base_model:
8
+ - erax-ai/EraX-VL-7B-V1.5
9
  library_name: transformers
10
+ tags:
11
+ - erax
12
+ - multimodal
13
+ - erax-vl-7B
14
+ - insurance
15
+ - ocr
16
+ - vietnamese
17
+ - bcg
18
+ - radiology
19
+ - car accidence
20
+ - hand-writing
21
+ - ancient
22
+ pipeline_tag: visual-question-answering
23
+
24
+ widget:
25
+ - src: images/photo-1-16505057982762025719470.webp
26
+ example_title: Test 1
27
+ - src: images/vt-don-thuoc-f0-7417.jpeg
28
+ example_title: Test 2
29
  ---
30
+ <p align="left">
31
+ <img src="https://cdn-uploads.huggingface.co/production/uploads/63d8d8879dfcfa941d4d7cd9/GsQKdaTyn2FFx_cZvVHk3.png" alt="Logo">
32
+ </p>
33
+
34
+
35
+ # EraX-VL-7B-V1.5
36
+ ## Introduction 🎉
37
+
38
+ Hot on the heels of the popular **<a href="https://huggingface.co/erax-ai/EraX-VL-7B-V1.5" target="_blank">EraX-VL-7B-V1.0 model</a>**, we proudly present **EraX-VL-7B-V2.0-Preview**, another robust multimodal model for **OCR (optical character recognition)** and **VQA (visual question-answering)** that excels in various languages 🌍, with a particular focus on Vietnamese 🇻🇳.
39
+ This model stands out for its precise recognition capabilities across a range of documents 📝, including medical forms 🩺, invoices 🧾, bills of sale 💳, quotes 📄, and medical records 💊. This functionality is expected to be highly beneficial for hospitals 🏥, clinics 💉, insurance companies 🛡️, and other similar applications 📋. Built on the solid foundation of the [erax-ai/EraX-VL-7B-V1.5](https://huggingface.co/erax-ai/EraX-VL-7B-V1.5)[1], which we found to be of high quality and fluent in Vietnamese, `EraX-VL-7B-V2.0-Preview` has been fine-tuned to enhance its performance.
40
+ This model is a "preview-only" version of the final V2.0 which is planned to release after Lunar New Year (Ất Tỵ 2025).
41
+
42
+ There are 2 standing-out feature of **EraX-VL-7B-V2.0-Preview** which are:
43
+ - Strong capability to do good analytical reasoning with **Radiology images (X-Ray, CT or MRI) across parts of body (chest, brain, other part of body)**.
44
+ - Very strong and deep analytical reasoning capability with **car image involved in an accidence** (see examples below), including recomendation on damages and way of fixing it!
45
+ -
46
+ **NOTA BENE**:
47
+ - EraX-VL-7B-V1.5 is NOT a typical OCR-only tool likes Tesseract but is a Multimodal LLM-based model. To use it effectively, you may have to **twist your prompt carefully** depending on your tasks.
48
+
49
+ **EraX-VL-7B-V2.0-Preview** is a young member of our **EraX's LànhGPT** collection of LLM models.
50
+
51
+ - **Developed by:**
52
+ - Nguyễn Anh Nguyên ([email protected])
53
+ - Nguyễn Hồ Nam (BCG)
54
+ - Phạm Huỳnh Nhật ([email protected])
55
+ - Phạm Đình Thục ([email protected])
56
+ - **Funded by:** [Bamboo Capital Group](https://bamboocap.com.vn) and EraX
57
+ - **Model type:** Multimodal Transformer with over 7B parameters
58
+ - **Languages (NLP):** Primarily Vietnamese with multilingual capabilities
59
+ - **License:** Apache 2.0
60
+ - **Fine-tuned from:** [Qwen/Qwen2-VL-7B-Instruct](https://huggingface.co/Qwen/Qwen2-VL-7B-Instruct)
61
+ - **Prompt examples:** <a href="https://github.com/EraX-JS-Company/erax-vl-7b-v1/blob/main/prompts/Vietnam_popular_prompts.txt" target="_blank">Some popular prompt examples on Github.</a>
62
+
63
+ ## Benchmarks 📊
64
+
65
+ ## 🏆 LeaderBoard
66
+
67
+ The EraX-VL-7B-V1.5 achieved exceptionally high performance compared to other models of equal size or even **10 times larger, and we open-source**! You can re-run the benchmark at any time.
68
+
69
+ <table style="width:75%;">
70
+ <tr>
71
+ <th align="middle" width="300">Models</th>
72
+ <td align="middle" width="150"><b>Open-Source</b></td>
73
+ <td align="middle" width="300"><b>VI-MTVQA</b></td>
74
+ </tr>
75
+ <tr>
76
+ <th align="middle"><font color=darkred>EraX-VL-7B-V1.5 🥇 </font></th>
77
+ <td align="middle">✅</td>
78
+ <td align="middle">47.2 </td>
79
+ </tr>
80
+ <tr>
81
+ <th align="middle">Qwen2-VL 72B 🥈 </th>
82
+ <td align="middle">✘</td>
83
+ <td align="middle">41.6 </td>
84
+ </tr>
85
+ <tr>
86
+ <th align="middle">ViGPT-VL 🥉 </th>
87
+ <td align="middle">✘</td>
88
+ <td align="middle">39.1 </td>
89
+ </tr>
90
+ <tr>
91
+ <th align="middle"><font color=darkred>EraX-VL-2B-V1.5</font></th>
92
+ <td align="middle"> ✅ </td>
93
+ <td align="middle">38.2 </td>
94
+ </tr>
95
+ <tr>
96
+ <th align="middle"><font color=darkred>EraX-VL-7B-V1 </font></th>
97
+ <td align="middle"> ✅ </td>
98
+ <td align="middle">37.6 </td>
99
+ </tr>
100
+ <tr>
101
+ <th align="middle"><font color=darkred>Vintern-1B-V2</font></th>
102
+ <td align="middle"> ✅ </td>
103
+ <td align="middle">37.4 </td>
104
+ </tr>
105
+ <tr>
106
+ <th align="middle"><font color=darkred>Qwen2-VL 7B </font></th>
107
+ <td align="middle"> ✅ </td>
108
+ <td align="middle">30.0 </td>
109
+ </tr>
110
+ <tr>
111
+ <th align="middle">Claude3 Opus</th>
112
+ <td align="middle">✘</td>
113
+ <td align="middle">29.1 </td>
114
+ </tr>
115
+ <tr>
116
+ <th align="middle">GPT-4o mini </th>
117
+ <td align="middle"> ✘ </td>
118
+ <td align="middle">29.1 </td>
119
+ </tr>
120
+ <tr>
121
+ <th align="middle">GPT-4V</th>
122
+ <td align="middle">✘</td>
123
+ <td align="middle">28.9 </td>
124
+ </tr>
125
+ <tr>
126
+ <th align="middle">Gemini Ultra</th>
127
+ <td align="middle">✘</td>
128
+ <td align="middle">28.6 </td>
129
+ </tr>
130
+ <tr>
131
+ <th align="middle"><font color=darkred>InternVL2 76B</font></th>
132
+ <td align="middle"> ✅ </td>
133
+ <td align="middle">26.9 </td>
134
+ </tr>
135
+ <tr>
136
+ <th align="middle">QwenVL Max</th>
137
+ <td align="middle">✘</td>
138
+ <td align="middle">23.5 </td>
139
+ </tr>
140
+ <tr>
141
+ <th align="middle">Claude3 Sonnet</th>
142
+ <td align="middle">✘</td>
143
+ <td align="middle">20.8 </td>
144
+ </tr>
145
+ <tr>
146
+ <th align="middle">QwenVL Plus</th>
147
+ <td align="middle">✘</td>
148
+ <td align="middle">18.1 </td>
149
+ </tr>
150
+ <tr>
151
+ <th align="middle"><font color=darkred>MiniCPM-V2.5</font></th>
152
+ <td align="middle">✅</td>
153
+ <td align="middle">15.3 </td>
154
+ </tr>
155
+ </table>
156
+
157
+ **The test code for evaluating models in the paper can be found in**: <b><a href="https://github.com/EraX-JS-Company/EraX-MTVQA-Benchmark" target="_blank">EraX-JS-Company/EraX-MTVQA-Benchmark</a></b>
158
+
159
+ ## API trial 🎉
160
+ Please contact **[email protected]** for API access inquiry.
161
+
162
+ ## Examples 🧩
163
+
164
+ ### 1. OCR - Optical Character Recognition for Multi-Images
165
+
166
+ **Example 01: Radiology - Heart Failure CT scan**
167
+
168
+ <div style="display: flex; flex-direction: row; align-items: center; justify-content: center;">
169
+ <div style="text-align: center; margin: 0 10px;">
170
+ <img src="https://huggingface.co/erax-ai/EraX-VL-7B-V2.0-Preview/blob/main/MAP-3.jpg" width="500" alt="Heart Failure CT scan" />
171
+ <p>Back View</p>
172
+ </div>
173
+ </div>
174
+
175
+ Hình ảnh cung cấp là một hình ảnh chụp **cắt lớp vi tính (CT) của tim**, cụ thể là hình ảnh mặt cắt ngang của tâm thất trái.
176
+ Các số đo được ghi nhận cho thấy diện tích của tâm thất trái ở cuối tâm trương (End-Diastolic Area - EDA) và cuối tâm thu (End-Systolic Area - ESA) là 0.22 cm² và 0.21 cm² tương ứng.
177
+ Tỷ lệ giữa EDA và ESA (EDV/ESV) là 171.0 ± 7.8 và 106.0 ± 3.6. Những thông số này cho thấy một sự bất thường đáng kể về kích thước và chức năng của tâm thất trái.
178
+
179
+ **Suy luận:**
180
+
181
+ Giảm kích thước tâm thất trái: Giá trị EDA và ESA nhỏ hơn bình thường cho thấy sự teo nhỏ của tâm thất trái. Điều này có thể là dấu hiệu của nhiều bệnh lý tim mạch, bao gồm **suy tim, bệnh cơ tim, hoặc bệnh van tim**.
182
+
183
+ Tăng EDV/ESV: Tỷ lệ EDV/ESV cao hơn bình thường cho thấy sự tăng thể tích tâm thu (ESV) so với thể tích tâm trương (EDV). Điều này cho thấy sự giảm khả năng co bóp của tâm thất trái, dẫn đến việc bơm máu kém hiệu quả.
184
+
185
+ Tiền sử hút thuốc và uống rượu: Tiền sử hút thuốc và uống rượu nhiều làm tăng nguy cơ mắc các bệnh lý tim mạch, bao gồm suy tim, bệnh động mạch vành, và bệnh cơ tim.
186
+
187
+ Chẩn đoán ban đầu:
188
+
189
+ Dựa trên hình ảnh CT và các thông số đo được, bệnh nhân có thể đang gặp phải tình trạng suy tim, có thể là do nhiều nguyên nhân. Cần phải xem xét thêm các yếu tố khác để chẩn đoán chính xác.
190
+
191
+ **Đề xuất:**
192
+
193
+ Để xác định nguyên nhân chính xác của tình trạng này, cần thực hiện thêm các xét nghiệm sau:
194
+
195
+ Điện tâm đồ (ECG): Để đánh giá nhịp tim, sự dẫn truyền xung điện trong tim và phát hiện bất thường về nhịp điệu.
196
+ Siêu âm tim (Echocardiogram): Để đánh giá chức năng của các van tim, độ dày thành tâm thất, và khả năng co bóp của tâm thất trái chi tiết hơn.
197
+ Xét nghiệm máu: Để đánh giá chức năng thận, gan, và các chỉ số viêm nhiễm. Cũng cần xét nghiệm các chỉ số đánh giá chức năng tim như BNP (Brain Natriuretic Peptide) và NT-proBNP.
198
+ Đánh giá lâm sàng toàn diện: Bao gồm hỏi bệnh sử chi tiết, khám thực thể để đánh giá các triệu chứng khác như khó thở, đau ngực, mệt mỏi.
199
+
200
+ **Mức độ nghiêm trọng:**
201
+
202
+ Tình trạng này cần được theo dõi và điều trị kịp thời. Sự bất thường về kích thước và chức năng tâm thất trái có thể dẫn đến suy tim tiến triển và các biến chứng nguy hiểm khác. Cần phải có sự đánh giá và điều trị của bác sĩ chuyên khoa tim mạch.
203
+
204
+ **Example 01: Radiology - Brain cancer MRI scan**
205
+
206
+ <div style="display: flex; flex-direction: row; align-items: center; justify-content: center;">
207
+ <div style="text-align: center; margin: 0 10px;">
208
+ <img src="https://huggingface.co/erax-ai/EraX-VL-7B-V2.0-Preview/blob/main/cancers-16-00576-g001%20(1).png" width="500" alt="Brain cancer MRI scan" />
209
+ <p>Back View</p>
210
+ </div>
211
+ </div>
212
+
213
+ **Hình ảnh MRI** cho thấy một khối u lớn ở vùng thái dương phải, có dấu hiệu tăng cường sau khi tiêm thuốc cản quang. Khối u này gây ra **sự dịch chuyển đường giữa và chèn ép các cấu trúc não** xung quanh.
214
+ Đặc điểm hình ảnh gợi ý đây là một khối u ác tính, có khả năng là **glioblastoma (GBM)**. Sự hiện diện của các tổn thương nhỏ khác ở vùng thái dương trái và vùng chẩm trái cho thấy sự di căn hoặc sự phát triển của bệnh lý ác tính.
215
+
216
+ **Nhận định ban đầu:**
217
+ Hình ảnh MRI phù hợp với chẩn đoán ban đầu về một **khối u não ác tính**, có khả năng là glioblastoma (GBM), với sự **di căn** hoặc sự phát triển của bệnh lý ác tính ở các vùng khác của não. Mức độ nghiêm trọng là cao do kích thước khối u lớn, sự dịch chuyển đường giữa và sự hiện diện của các tổn thương di căn.
218
+
219
+ **Các đề xuất và câu hỏi:**
220
+ - **Sinh thiết**: Cần tiến hành sinh thiết khối u để xác định chẩn đoán mô bệnh học chính xác và phân loại khối u. Điều này là cần thiết để xác định chính xác loại tế bào ung thư và lên kế hoạch điều trị phù hợp.
221
+ - **Xét nghiệm hình ảnh bổ sung**: Cần thực hiện các xét nghiệm hình ảnh bổ sung như MRI khuếch tán (DWI) để đánh giá mức độ tế bào ung thư và xác định sự hiện diện của phù não. PET-CT có thể được chỉ định để đánh giá sự di căn xa.
222
+ - **Đánh giá chức năng thần kinh**: Cần đánh giá chức năng thần kinh toàn diện để xác định mức độ ảnh hưởng của khối u đến các chức năng thần kinh của bệnh nhân.
223
+ - **Đánh giá chức năng hô hấp và tim mạch**: Do kích thước khối u lớn và sự dịch chuyển đường giữa, cần đánh giá chức năng hô hấp và tim mạch để đảm bảo an toàn cho bệnh nhân trong quá trình phẫu thuật hoặc điều trị.
224
+
225
+ **Kết luận:**
226
+ Bệnh nhân cần được điều trị ngay lập tức. Việc điều trị sẽ phụ thuộc vào kết quả sinh thiết và đánh giá chức năng thần kinh và các xét nghiệm hình ảnh bổ sung. Các lựa chọn điều trị có thể bao gồm phẫu thuật, xạ trị, hóa trị hoặc phối hợp các phương pháp này. Đây là một trường hợp khẩn cấp đòi hỏi sự can thiệp y tế kịp thời.
227
+
228
+ **Example 02: Car accidence analytics**
229
+
230
+ <div style="display: flex; flex-direction: row; align-items: center; justify-content: center;">
231
+ <div style="text-align: center; margin: 0 10px;">
232
+ <img src="https://huggingface.co/erax-ai/EraX-VL-7B-V2.0-Preview/blob/main/st-louis-auto-accident-lawyer%20(1).jpg" width="500" alt="Car accidence" />
233
+ <p>Back View</p>
234
+ </div>
235
+ </div>
236
+
237
+ ```
238
+ {
239
+ "Manufacturer": "Không xác định",
240
+ "Model": "Không xác định",
241
+ "Color": "Xám đậm",
242
+ "seating capacity": "Không xác định",
243
+ "Plate number": "Không xác định",
244
+ "prob": "0.9",
245
+ "conclusion": "YES",
246
+ "bộ phận của xe AI nhìn thấy rất rõ ràng": "Cửa trước bên phải của xe, chắn bùn trước bên phải của xe, gương chiếu hậu bên phải của xe, khung cửa trước bên phải của xe, bánh xe trước bên phải của xe.",
247
+ "góc nhìn xe từ camera": "Ảnh chụp từ phía bên phải của xe, hơi nghiêng về phía trước. Đầu xe nằm ở phía bên phải của ảnh, đuôi xe nằm ngoài phạm vi ảnh.",
248
+ "description": "Hình ảnh cho thấy một chiếc xe màu xám đậm đã bị hư hại nặng ở phía bên phải. Dựa trên vị trí của các bộ phận bị hư hại, ta có thể suy luận rằng chiếc xe đã bị va chạm mạnh ở phía bên phải. Không thể xác định được hãng xe, hiệu xe, số chỗ ngồi và biển kiểm soát từ hình ảnh.",
249
+ "Right front door": {
250
+ "material": "Kim loại",
251
+ "damage": "Hư hại nghiêm trọng, móp méo nặng, biến dạng đáng kể.",
252
+ "severity_level": "8",
253
+ "propose": "Thay thế"
254
+ },
255
+ "Right front fender": {
256
+ "material": "Kim loại",
257
+ "damage": "Bị nghiền nát và hư hại nặng.",
258
+ "severity_level": "9",
259
+ "propose": "Thay thế"
260
+ },
261
+ "Right front wheel": {
262
+ "material": "Hợp kim",
263
+ "damage": "Nhìn thấy qua cửa trước bị hư hại; dường như không bị hư hại.",
264
+ "severity_level": "0",
265
+ "propose": "Kiểm tra kỹ hơn"
266
+ },
267
+ "Right side mirror": {
268
+ "material": "Nhựa/Kim loại",
269
+ "damage": "Phần nhìn thấy bị hư hại.",
270
+ "severity_level": "7",
271
+ "propose": "Thay thế"
272
+ },
273
+ "Right front door frame": {
274
+ "material": "Kim loại",
275
+ "damage": "Nhìn thấy, bị hư hại đáng kể.",
276
+ "severity_level": "8",
277
+ "propose": "Gò, hàn, sơn lại"
278
+ }
279
+ }
280
+ ```
281
+
282
+ **Example 03: Car accidence analytics**
283
+
284
+ <div style="display: flex; flex-direction: row; align-items: center; justify-content: center;">
285
+ <div style="text-align: center; margin: 0 10px;">
286
+ <img src="https://huggingface.co/erax-ai/EraX-VL-7B-V2.0-Preview/blob/main/front-left%20(1).jpeg" width="500" alt="Car accidence" />
287
+ <p>Back View</p>
288
+ </div>
289
+ </div>
290
+
291
+ ```
292
+ {
293
+ "Manufacturer": "Mazda",
294
+ "Model": "3",
295
+ "Color": "Đỏ",
296
+ "seating capacity": "5",
297
+ "Plate number": "37A-131...",
298
+ "prob": "0.9",
299
+ "conclusion": "YES",
300
+ "bộ phận của xe AI nhìn thấy rất rõ ràng": "Phần đầu xe bên trái, đèn pha trước bên trái của xe, cản trước bên trái của xe, chắn bùn trước bên trái của xe, lốp trước bên trái của xe, vành xe trước bên trái của xe, kính chắn gió của xe.",
301
+ "góc nhìn xe từ camera": "Góc nhìn nghiêng phía trước bên trái của xe. Đầu xe nằm ở phía bên trái của ảnh.",
302
+ "description": "Chiếc xe Mazda 3 màu đỏ, biển số 37A-131..., có 5 chỗ ngồi, đã gặp tai nạn ở phía trước bên trái. Thiệt hại tập trung chủ yếu ở phía trước bên trái của xe.",
303
+ "Left headlamp": {
304
+ "material": "Nhựa polycarbonate chịu lực, chịu nhiệt",
305
+ "damage": "Bị hư hại một phần, có thể bị nứt hoặc vỡ. Cần kiểm tra kỹ hơn để xác định mức độ hư hại.",
306
+ "severity_level": "3",
307
+ "propose": "Thay thế"
308
+ },
309
+ "Left front bumper": {
310
+ "material": "Nhựa",
311
+ "damage": "Hư hại nghiêm trọng, biến dạng hoàn toàn.",
312
+ "severity_level": "8",
313
+ "propose": "Thay thế"
314
+ },
315
+ "Left front fender": {
316
+ "material": "Kim loại",
317
+ "damage": "Bị móp méo, biến dạng.",
318
+ "severity_level": "7",
319
+ "propose": "Gò, hàn, sơn lại"
320
+ },
321
+ "Left front tire": {
322
+ "material": "Cao su",
323
+ "damage": "Hình ảnh cho thấy lốp không bị hư hại.",
324
+ "severity_level": "0",
325
+ "propose": ""
326
+ },
327
+ "Left front wheel": {
328
+ "material": "Hợp kim thép",
329
+ "damage": "Hình ảnh cho thấy vành xe không bị hư hại.",
330
+ "severity_level": "0",
331
+ "propose": ""
332
+ },
333
+ "Windshield": {
334
+ "material": "Kính",
335
+ "damage": "Hình ảnh cho thấy kính chắn gió không bị hư hại.",
336
+ "severity_level": "0",
337
+ "propose": ""
338
+ }
339
+ }
340
+ ```
341
+
342
+ **Example 04: Car accidence analytics**
343
+
344
+ <div style="display: flex; flex-direction: row; align-items: center; justify-content: center;">
345
+ <div style="text-align: center; margin: 0 10px;">
346
+ <img src="https://huggingface.co/erax-ai/EraX-VL-7B-V2.0-Preview/blob/main/dich-vu-lam-dong-son-xe-1.jpg" width="500" alt="Car accidence" />
347
+ <p>Back View</p>
348
+ </div>
349
+ </div>
350
+
351
+ ```
352
+ {
353
+ "Manufacturer": "",
354
+ "Model": "",
355
+ "Color": "Bạc",
356
+ "seating capacity": "",
357
+ "Plate number": "",
358
+ "prob": "0.9",
359
+ "conclusion": "YES",
360
+ "bộ phận của xe AI nhìn thấy rất rõ ràng": "Cửa sau bên phải của xe, tay nắm cửa sau bên phải của xe, phần thân bên dưới cửa sau bên phải của xe (phần ốp gầm), bánh xe sau bên phải của xe.",
361
+ "góc nhìn xe từ camera": "Ảnh chụp từ phía bên phải của xe, nhìn về phía đuôi xe. Đầu xe nằm ở phía bên phải của ảnh, đuôi xe nằm ở phía bên trái của ảnh.",
362
+ "description": "Hình ảnh cho thấy phần thân bên phải của một chiếc xe ô tô màu bạc. Phần nổi bật nhất là cửa sau bên phải, cho thấy một số vết xước và hư hỏng. Một phần của phần thân bên dưới cửa sau bên phải (ốp gầm) và bánh xe sau bên phải cũng nhìn thấy được. Không có thông tin về hãng xe, hiệu xe, số chỗ ngồi và biển kiểm soát.",
363
+ "Right rear door": {
364
+ "material": "Kim loại",
365
+ "damage": "Vết xước dài, nông, dọc theo chiều dài của cửa. Có vẻ như là do va chạm nhẹ hoặc cọ xát.",
366
+ "severity_level": "2",
367
+ "propose": "Sơn lại và đánh bóng"
368
+ },
369
+ "Right rear door handle": {
370
+ "material": "Nhựa cứng có lớp mạ trang trí crôm",
371
+ "damage": "Không thấy hư hại rõ ràng trên tay nắm cửa.",
372
+ "severity_level": "0",
373
+ "propose": "Không cần sửa chữa"
374
+ },
375
+ "Right rocker panel": {
376
+ "material": "Kim loại",
377
+ "damage": "Vết xước tương tự như trên cửa sau, kéo dài xuống phần ốp gầm. Có vẻ như là do va chạm nhẹ hoặc cọ xát.",
378
+ "severity_level": "2",
379
+ "propose": "Sơn lại và đánh bóng"
380
+ },
381
+ "Right rear wheel": {
382
+ "material": "Hợp kim thép",
383
+ "damage": "Một phần nhỏ của bánh xe nhìn thấy được, không có dấu hiệu hư hại rõ ràng.",
384
+ "severity_level": "0",
385
+ "propose": "Không cần sửa chữa"
386
+ }
387
+ }
388
+ ```
389
+
390
+ **Example 05: Citizen identification card**
391
+
392
+ <div style="display: flex; flex-direction: row; align-items: center; justify-content: center;">
393
+ <div style="text-align: center; margin: 0 10px;">
394
+ <img src="images/trinhquangduy_front.jpg" width="500" alt="Front View" />
395
+ <p>Front View</p>
396
+ </div>
397
+ <div style="text-align: center; margin: 0 10px;">
398
+ <img src="images/trinhquangduy_back.jpg" width="500" alt="Back View" />
399
+ <p>Back View</p>
400
+ </div>
401
+ </div>
402
+ <p style="text-align: center; font-size: 12px; color: gray; margin-top: 10px;">
403
+ Source: <a href="https://support.google.com/google-ads/thread/270967947/t%C3%B4i-%C4%91%C3%A3-g%E1%BB%ADi-h%C3%ACnh-%E1%BA%A3nh-c%C4%83n-c%C6%B0%E1%BB%9Bc-c%C3%B4ng-d%C3%A2n-c%E1%BB%A7a-ch%C3%ADnh-t%C3%B4i-%C4%91%E1%BB%83-x%C3%A1c-minh-danh-t%C3%ADnh?hl=vi" target="_blank">Google Support</a>
404
+ </p>
405
+
406
+ ```
407
+ {
408
+ "Số thẻ": "037094012351",
409
+ "Họ và tên": "TRỊNH QUANG DUY",
410
+ "Ngày sinh": "04/09/1994",
411
+ "Giới tính": "Nam",
412
+ "Quốc tịch": "Việt Nam",
413
+ "Quê quán": "Tân Thành, Kim Sơn, Ninh Bình",
414
+ "Nơi thường trú": "Xóm 6\nTân Thành, Kim Sơn, Ninh Bình",
415
+ "Có giá trị đến": "04/09/2034",
416
+ "Đặc điểm nhân dạng": "sẹo chấm c. 1cm trên đuôi mắt trái",
417
+ "Nơi cấp": "CỤC TRƯỞNG CỤC CẢNH SÁT\nQUẢN LÝ HÀNH CHÍNH VỀ TRẬT TỰ XÃ HỘI",
418
+ "Ngày cấp": "10/12/2022",
419
+ "Cán bộ ký tên": "Nguyễn Quốc Hùng",
420
+ "Mã định danh": "IDVNM0940123513037094012351"
421
+ }
422
+ ```
423
+
424
+ **Example 06: Driver's License**
425
+
426
+ <div style="display: flex; flex-direction: row; align-items: center; justify-content: center;">
427
+ <div style="text-align: center; margin: 0 10px;">
428
+ <img src="images/nguyenvandung_front.png" width="500" alt="Front View" />
429
+ <p>Front View</p>
430
+ </div>
431
+ <div style="text-align: center; margin: 0 10px;">
432
+ <img src="images/nguyenvandung_back.png" width="500" alt="Back View" />
433
+ <p>Back View</p>
434
+ </div>
435
+ </div>
436
+ <p style="text-align: center; font-size: 12px; color: gray; margin-top: 10px;">
437
+ Source: <a href="https://baophapluat.vn/khoi-to-tai-xe-len-mang-mua-giay-phep-lai-xe-gia-de-chay-xe-post481047.html" target="_blank">Báo Pháp luật</a>
438
+ </p>
439
+
440
+ ```
441
+ {
442
+ "No.":"400116012313"
443
+ "Fullname":"NGUYỄN VĂN DŨNG"
444
+ "Date_of_birth":"08/06/1979"
445
+ "Nationality":"VIỆT NAM"
446
+ "Address":"X. Quỳnh Hầu, H. Quỳnh Lưu, T. Nghệ An
447
+ Nghệ An, ngày/date 23 tháng/month 04 năm/year 2022"
448
+ "Hang_Class":"FC"
449
+ "Expires":"23/04/2027"
450
+ "Place_of_issue":"Nghệ An"
451
+ "Date_of_issue":"ngày/date 23 tháng/month 04 năm/year 2022"
452
+ "Signer":"Trần Anh Tuấn"
453
+ "Các loại xe được phép":"Ô tô hạng C kéo rơmoóc, đầu kéo kéo sơmi rơmoóc và xe hạng B1, B2, C, FB2 (Motor vehicle of class C with a trailer, semi-trailer truck and vehicles of classes B1, B2, C, FB2)"
454
+ "Mã số":""
455
+ }
456
+ ```
457
+
458
+ **Example 07: Vehicle Registration Certificate**
459
+
460
+ <div style="display: flex; flex-direction: row; align-items: center; justify-content: center;">
461
+ <div style="text-align: center; margin: 0 10px;">
462
+ <img src="images/nguyentonnhuan.jpg" width="700"/>
463
+ </div>
464
+ </div>
465
+ <p style="text-align: center; font-size: 12px; color: gray; margin-top: 10px;">
466
+ Source: <a href="https://vietnamnet.vn/phan-biet-cac-loai-giay-dang-ky-xe-khi-mua-moto-da-qua-su-dung-541341.html" target="_blank">Báo Vietnamnet</a>
467
+ </p>
468
+
469
+ ```
470
+ {
471
+ "Tên chủ xe": "NGUYỄN TÔN NHUẬN",
472
+ "Địa chỉ": "KE27 Kp3 P.TTTây Q7",
473
+ "Nhãn hiệu": "HONDA",
474
+ "Số loại": "DYLAN",
475
+ "Màu sơn": "Trắng",
476
+ "Năm sản xuất": "2012",
477
+ "Số máy": "F03E-0057735",
478
+ "Số khung": "SA04F-070410",
479
+ "Dung tích": "152",
480
+ "Số chỗ ngồi": "02",
481
+ "Biển số đăng ký": "59V1-498.89",
482
+ "Đăng ký lần đầu ngày": "08/06/2004",
483
+ "Chức vụ": "Thượng tá",
484
+ "Người ký": "Trần Văn Hiểu"
485
+ }
486
+ ```
487
+
488
+ **Example 08: Vehicle Registration**
489
+
490
+ <div style="display: flex; flex-direction: row; align-items: center; justify-content: center;">
491
+ <div style="text-align: center; margin: 10 20px;">
492
+ <img src="https://cdn-uploads.huggingface.co/production/uploads/63d8d8879dfcfa941d4d7cd9/w5WCaQ-k9nupRIQYddcpr.jpeg" width="700"/>
493
+ </div>
494
+ </div>
495
+ <p style="text-align: center; font-size: 12px; color: gray; margin-top: 10px;">
496
+ Source: <a href="https://llumar.com.vn/dang-kiem-xe-o-to/" target="_blank">https://llumar.com.vn</a>
497
+ </p>
498
+
499
+ ```
500
+ {
501
+ "vehicle": {
502
+ "registration_number": "30A-072.36",
503
+ "vehicle_inspection_number": "2903V-093515",
504
+ "type": "ô tô con",
505
+ "mark": "MERCEDES-BENZ",
506
+ "model_code": "C300 W204",
507
+ "engine_number": "27294732096079",
508
+ "chassis_number": "RLMGF5EX3DV005333",
509
+ "manufactured_year_and_country": "2013, Việt Nam",
510
+ "life_time_limit_to": "",
511
+ "commercial_use": "",
512
+ "modification": ""
513
+ },
514
+ "specifications": {
515
+ "wheel_formula": "4x2",
516
+ "wheel_tread": "1521/1512 (mm)",
517
+ "overall_dimension": "4650 x 1770 x 1429 (mm)",
518
+ "largest_luggage_container_dimension": "",
519
+ "wheelbase": "2760 (mm)",
520
+ "kerb_mass": "1575 (kg)",
521
+ "design_authorized_pay_load": "",
522
+ "design_authorized_total_mass": "2090/2090 (kg)",
523
+ "design_authorized_towed_mass": "",
524
+ "permissible_number_of_pers_carried": "5 chỗ ngồi, 0 chỗ đứng, 0 chỗ nằm",
525
+ "type_of_fuel_used": "Xăng",
526
+ "engine_displacement": "2996 (cm3)",
527
+ "max_output_per_rpm": "170(kW)/6000vph",
528
+ "number": "KC-1292285"
529
+ },
530
+ "inspection_report_number": "2905V-20953/16",
531
+ "valid_until": "31/01/2018",
532
+ "place_date_of_issue": "Hà Nội, ngày 1 tháng 8 năm 2016",
533
+ "inspection_center": "ĐƠN VỊ KIỂM ĐỊNH XE CƠ GIỚI",
534
+ "signature": "Ngọc Tuấn",
535
+ "equipped_with_tachograph": "",
536
+ "inspection_stamp_was_not_issued": "",
537
+ "notes": "Biển đăng ký nền trắng"
538
+ }
539
+ ```
540
+
541
+ **Example 09: Hand-writing Receipt**
542
+
543
+ <div style="display: flex; flex-direction: row; align-items: center; justify-content: center;">
544
+ <div style="text-align: center; margin: 10 20px;">
545
+ <img src="https://cdn-uploads.huggingface.co/production/uploads/63d8d8879dfcfa941d4d7cd9/40vIbNdM1cFXwQYNHx7Ag.jpeg" width="500"/>
546
+ </div>
547
+ </div>
548
+ <p style="text-align: center; font-size: 12px; color: gray; margin-top: 10px;">
549
+ Source: <a href="https://tintucketoan.com/cach-viet-hoa-don-hang-hoa-dich-vu-khong-chiu-thue-gtgt/" target="_blank">https://tintucketoan.com/</a>
550
+ </p>
551
+
552
+ ```
553
+ {
554
+ 'Mẫu số': '01GKTKT3/001',
555
+ 'Ký hiệu': 'TC/18P',
556
+ 'Số': '0000030',
557
+ 'Họ tên người mua hàng': None,
558
+ 'Tên đơn vị': 'Công Ty TNHH Kế Toán Hà Nội',
559
+ 'Mã số thuế': '0106235869',
560
+ 'Địa chỉ': 'Số 49 Ngõ 322 Lê Trọng Tấn, phường Khương Mai, quận Thanh Xuân, Hà Nội',
561
+ 'Hình thức thanh toán': 'TM',
562
+ 'STT': None,
563
+ 'Tên hàng hóa, dịch vụ': 'Tra cứu phần mềm thư viện pháp luật trực tuyến',
564
+ 'Đơn vị tính': None,
565
+ 'Số lượng': None,
566
+ 'Đơn giá': '168.000',
567
+ 'Thành tiền': '2.016.000',
568
+ 'Thuế suất GTGT': None,
569
+ 'Tiền thuế GTGT': None,
570
+ 'Tổng cộng tiền thanh toán': '2.016.000',
571
+ 'Số tiền viết bằng chữ': 'Hai triệu, không trăm mười sáu nghìn đồng',
572
+ 'Người bán hàng': 'Bùi Văn Hùng',
573
+ 'Chức vụ người bán hàng': 'TRƯỞNG CHI NHÁNH'
574
+ }
575
+ ```
576
+
577
+ ### 2.1 Image Captioning
578
+
579
+ <div align="center">
580
+ <img src="https://cdn-uploads.huggingface.co/production/uploads/63d8d8879dfcfa941d4d7cd9/g5V60A7rI94TH0z3zdSAA.jpeg" width="700"/>
581
+ </div>
582
+
583
+ Hình ảnh là biểu đồ BMI theo tuổi, thể hiện mối quan hệ giữa chỉ số khối cơ thể (BMI) và độ tuổi của trẻ em. Biểu đồ được chia thành các vùng màu khác nhau tương ứng với các mức BMI khác nhau:
584
+
585
+ * **Vùng màu đỏ:** Chỉ số BMI cao hơn 25, cho thấy tình trạng béo phì.
586
+ * **Vùng màu vàng:** Chỉ số BMI nằm trong khoảng từ 18 đến 25, cho thấy nguy cơ béo phì.
587
+ * **Vùng màu xanh lá cây nhạt:** Chỉ số BMI nằm trong khoảng từ 16 đến 18, cho thấy sức khỏe dinh dưỡng tốt.
588
+ * **Vùng màu xanh lá cây đậm:** Chỉ số BMI thấp hơn 16, cho thấy tình trạng thiếu cân.
589
+
590
+ Trục tung biểu diễn chỉ số BMI, trục hoành biểu diễn tuổi (tính bằng năm). Đường cong màu xám đậm thể hiện đường chuẩn BMI theo tuổi. Các đường cong này cho thấy sự thay đổi BMI theo thời gian, giúp đánh giá sự phát triển cân nặng của trẻ em. Ví dụ, ở trẻ em dưới 3 tuổi, BMI thường dao động trong vùng thiếu cân hoặc sức khỏe dinh dưỡng tốt. Khi trẻ lớn lên, BMI có xu hướng tăng dần, nhưng tốc độ tăng trưởng có thể khác nhau tùy thuộc vào từng cá nhân. Biểu đồ cũng hiển thị các phần trăm phân vị (Percentile), cho biết tỷ lệ phần trăm trẻ em có BMI thấp hơn hoặc cao hơn so với một nhóm trẻ em cùng độ tuổi. Điều này giúp so sánh BMI của trẻ em với tiêu chuẩn quốc tế.
591
+
592
+ ### 2.2 Image Captioning
593
+
594
+ <div align="center">
595
+ <img src="https://huggingface.co/erax-ai/EraX-VL-7B-V1.5/resolve/main/images/27vid-Gaza-City-Cover-gqmt-videoSixteenByNine1050%20(1).jpg" width="700"/>
596
+ </div>
597
+
598
+ Hình ảnh chụp một cảnh tượng đầy xúc động và bi thảm, dường như diễn ra ở một khu vực nghèo khó, có thể là một khu định cư hoặc khu ổ chuột. Trung tâm của bức ảnh là một chiếc xe đẩy được kéo bởi một con lừa. Trên xe đẩy có một nhóm người, bao gồm một người đàn ông lớn tuổi có vẻ như là người hướng dẫn, một phụ nữ mặc áo choàng đen, một phụ nữ trẻ mặc áo xám, một bé gái nhỏ được che mặt bằng khăn trùm đầu, và một cậu bé mặc áo xanh lá cây. Họ có vẻ như đang di chuyển từ một khu vực bị tàn phá sang một nơi khác. Xung quanh họ là những mảnh vụn, rác thải và những tòa nhà đổ nát, cho thấy một môi trường sống khó khăn và thiếu thốn. Phía sau họ, có một số người khác đang đi bộ hoặc đi xe đạp, một số người đang mang theo hành lý. Bầu trời trong xanh, nhưng không khí chung của bức ảnh là nặng nề và buồn bã. Có thể đây là một cảnh tượng di cư, tị nạn, hoặc một sự kiện thảm khốc nào đó.
599
+
600
+ ### 3. Multi-turns Visual Question Answering and Reasoning
601
+
602
+ <div style="display: flex; flex-direction: row; align-items: center; justify-content: center;">
603
+ <div style="text-align: center; margin: 10 20px;">
604
+ <img src="https://cdn-uploads.huggingface.co/production/uploads/63d8d8879dfcfa941d4d7cd9/S2UosY_TOOV5XNn3d4_zL.jpeg" width="700"/>
605
+ </div>
606
+ </div>
607
+ <p style="text-align: center; font-size: 12px; color: gray; margin-top: 10px;">
608
+ Source: <a href="https://kenh14.vn/bien-cang-thai-trinh-nhap-vien-vi-ngo-doc-dang-dan-to-1-resort-5-sao-thieu-trach-nhiem-voi-khach-hang-20200924214133912.chn" target="_blank">https://kenh14.vn</a>
609
+ </p>
610
+
611
+ - **User**: Hãy cho biết thông tin bệnh nhân
612
+
613
+ - **Assistant**: Tên: NGUYỄN THỊ THÁI TRINH, Ngày sinh: 09/09/1993, Giới tính: Nữ, Địa chỉ: TÂN ĐỊNH - Q1 - TPHCM, Mã thẻ BHYT: 19169080, Số khám bệnh: 2569501, Mã khu vực (K1/K2/K3): 2
614
+
615
+ - **User**: Họ được chuẩn đoán bị bệnh gì?
616
+
617
+ - **Assistant**: Nhiễm trùng đường ruột do vi khuẩn, không xác định loài
618
+
619
+ - **User**: Người bệnh có tiền sử bệnh không? Nếu có thì là gì?
620
+
621
+ - **Assistant**: Thiếu Calci do chế độ ăn
622
+
623
+ - **User**: Bệnh nhân đã thực hiện những xét nghiệm gì?
624
+
625
+ - **Assistant**: [NQ286] Tổng phân tích tế bào máu ngoại vi (bằng máy đếm laser), [NQ286] Điện giải đồ (Na, K, Cl) [Máu], [NQ286] Đo hoạt độ ALT (GPT) [Máu], [NQ286] Đo hoạt độ AST (GOT) [Máu], [NQ286] Định lượng Calci toàn phần [Máu], [NQ286] Định lượng Creatinin [Máu], [NQ286] Định lượng Glucose [Máu], [NQ286] Định lượng Urê máu [Máu], [NQ286] Siêu âm ổ bụng (gan mật, tụy, lách, thận, bàng quang)
626
+
627
+ - **User**: Số tiền Vật tư y tế mà người bệnh phải trả là bao nhiêu?
628
+
629
+ - **Assistant**: 19,708
630
+
631
+ - **User**: Các loại thuốc dịch truyền người bệnh phải trả là gì, tổng số tiền là bao nhiêu?
632
+
633
+ - **Assistant**: Atropin Sulfat (Syv2019), Bicefzidim 1g (Syv2019), GONCAL (Syv2019), Lactated Ringer's-500ml (Syv2019), Nước cất pha tiêm 5ml (Syv2019), Sodium Chloride 0.9% -500ml (Syv2019), Vincomid (Syv2019), Vinopa (Syv2019), tổng cộng 45,234 đồng
634
+
635
+ ## Quickstart 🎮
636
+
637
+ Install the necessary packages:
638
+ ```curl
639
+ python -m pip install git+https://github.com/huggingface/transformers accelerate
640
+ python -m pip install qwen-vl-utils
641
+ pip install flash-attn --no-build-isolation
642
+ ```
643
+
644
+ Then you can use `EraX-VL-7B-V1.5` like this:
645
+ ```python
646
+ import os
647
+ import base64
648
+ import json
649
+
650
+ import cv2
651
+ import numpy as np
652
+ import matplotlib.pyplot as plt
653
+
654
+ import torch
655
+ from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
656
+ from qwen_vl_utils import process_vision_info
657
+
658
+ model_path = "erax/EraX-VL-7B-V1.5"
659
+
660
+ model = Qwen2VLForConditionalGeneration.from_pretrained(
661
+ model_path,
662
+ torch_dtype=torch.bfloat16,
663
+ attn_implementation="eager", # replace with "flash_attention_2" if your GPU is Ampere architecture
664
+ device_map="auto"
665
+ )
666
 
667
+ tokenizer = AutoTokenizer.from_pretrained(model_path)
668
+ # processor = AutoProcessor.from_pretrained(model_path)
669
 
670
+ min_pixels = 256 * 28 * 28
671
+ max_pixels = 1280 * 28 * 28
672
+ processor = AutoProcessor.from_pretrained(
673
+ model_path,
674
+ min_pixels=min_pixels,
675
+ max_pixels=max_pixels,
676
+ )
677
 
678
+ image_path ="image.jpg"
679
 
680
+ with open(image_path, "rb") as f:
681
+ encoded_image = base64.b64encode(f.read())
682
+ decoded_image_text = encoded_image.decode('utf-8')
683
+ base64_data = f"data:image;base64,{decoded_image_text}"
684
 
685
+ messages = [
686
+ {
687
+ "role": "user",
688
+ "content": [
689
+ {
690
+ "type": "image",
691
+ "image": base64_data,
692
+ },
693
+ {
694
+ "type": "text",
695
+ "text": "Trích xuất thông tin nội dung t�� hình ảnh được cung cấp."
696
+ },
697
+ ],
698
+ }
699
+ ]
700
 
701
+ # Prepare prompt
702
+ tokenized_text = processor.apply_chat_template(
703
+ messages, tokenize=False, add_generation_prompt=True
704
+ )
705
 
706
+ image_inputs, video_inputs = process_vision_info(messages)
707
 
708
+ inputs = processor(
709
+ text=[ tokenized_text],
710
+ images=image_inputs,
711
+ videos=video_inputs,
712
+ padding=True,
713
+ return_tensors="pt",
714
+ )
715
+ inputs = inputs.to("cuda")
716
 
717
+ # Generation configs
718
+ generation_config = model.generation_config
719
+ generation_config.do_sample = True
720
+ generation_config.temperature = 1.0
721
+ generation_config.top_k = 1
722
+ generation_config.top_p = 0.9
723
+ generation_config.min_p = 0.1
724
+ generation_config.best_of = 5
725
+ generation_config.max_new_tokens = 2048
726
+ generation_config.repetition_penalty = 1.06
727
+
728
+ # Inference
729
+ generated_ids = model.generate(**inputs, generation_config=generation_config)
730
+ generated_ids_trimmed = [
731
+ out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
732
+ ]
733
+ output_text = processor.batch_decode(
734
+ generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
735
+ )
736
+
737
+ print(output_text[0])
738
+ ```
739
+
740
+ ## References 📑
741
+ [1] Qwen team. Qwen2-VL. 2024.
742
+
743
+ [2] Bai, Jinze, et al. "Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond." arXiv preprint arXiv:2308.12966 (2023).
744
+
745
+ [4] Yang, An, et al. "Qwen2 technical report." arXiv preprint arXiv:2407.10671 (2024).
746
+
747
+ [5] Chen, Zhe, et al. "Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.
748
+
749
+ [6] Chen, Zhe, et al. "How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites." arXiv preprint arXiv:2404.16821 (2024).
750
+
751
+ [7] Tran, Chi, and Huong Le Thanh. "LaVy: Vietnamese Multimodal Large Language Model." arXiv preprint arXiv:2404.07922 (2024).
752
+
753
+
754
+ ## Contact 🤝
755
+ - For correspondence regarding this work or inquiry for API trial, please contact Nguyễn Anh Nguyên at [[email protected]]([email protected]).
756
+ - Follow us on <b><a href="https://github.com/EraX-JS-Company" target="_blank">EraX Github</a></b>