Spaces:
Running
on
Zero
Running
on
Zero
khang119966
commited on
Update app.py
Browse files
app.py
CHANGED
@@ -101,7 +101,7 @@ def load_image(image_file, input_size=448, max_num=12):
|
|
101 |
|
102 |
model = AutoModel.from_pretrained(
|
103 |
"5CD-AI/Vintern-1B-v3_5",
|
104 |
-
torch_dtype=torch.
|
105 |
low_cpu_mem_usage=True,
|
106 |
trust_remote_code=True,
|
107 |
).eval().cuda()
|
@@ -122,12 +122,12 @@ We currently only support one image at the start of the context! Please start a
|
|
122 |
test_image = message["files"][0]["path"]
|
123 |
else:
|
124 |
test_image = message["files"][0]
|
125 |
-
pixel_values = load_image(test_image, max_num=6).
|
126 |
elif len(history) == 0 and len(message["files"]) == 0:
|
127 |
pixel_values = None
|
128 |
elif history[0][0][0] is not None and os.path.isfile(history[0][0][0]):
|
129 |
test_image = history[0][0][0]
|
130 |
-
pixel_values = load_image(test_image, max_num=6).
|
131 |
else:
|
132 |
pixel_values = None
|
133 |
|
@@ -245,7 +245,7 @@ demo = gr.ChatInterface(
|
|
245 |
description="""**Vintern-1B-v3.5** is the latest in the Vintern series, bringing major improvements over v2 across all benchmarks. 🚀 Fine-tuned from **InternVL-2.5-1B**, already strong in Vietnamese 🇻🇳 tasks thanks to Viet-ShareGPT-4o-Text-VQA data. This **continuous fine-tuning Version** enhances Vietnamese capabilities while retaining strong English performance. It excels in OCR, text recognition, and Vietnam-specific document understanding. 📄 However, users should be mindful of **potential biases** due to the training data. ⚠️""",
|
246 |
examples=[{"text": "Mô tả hình ảnh.", "files":["./demo_3.jpg"]},
|
247 |
{"text": "Trích xuất các thông tin từ ảnh trả về markdown.", "files":["./demo_1.jpg"]},
|
248 |
-
{"text": "Bạn là nhân viên marketing chuyên nghiệp. Hãy viết một bài quảng cáo dài trên mạng xã hội giới thiệu về cửa hàng
|
249 |
{"text": "Trích xuất thông tin kiện hàng trong ảnh và trả về dạng JSON.", "files":["./demo_4.jpg"]}],
|
250 |
title="❄️ Vintern-1B-v3.5 Demo ❄️",
|
251 |
multimodal=True,
|
|
|
101 |
|
102 |
model = AutoModel.from_pretrained(
|
103 |
"5CD-AI/Vintern-1B-v3_5",
|
104 |
+
torch_dtype=torch.float32,
|
105 |
low_cpu_mem_usage=True,
|
106 |
trust_remote_code=True,
|
107 |
).eval().cuda()
|
|
|
122 |
test_image = message["files"][0]["path"]
|
123 |
else:
|
124 |
test_image = message["files"][0]
|
125 |
+
pixel_values = load_image(test_image, max_num=6).cuda()
|
126 |
elif len(history) == 0 and len(message["files"]) == 0:
|
127 |
pixel_values = None
|
128 |
elif history[0][0][0] is not None and os.path.isfile(history[0][0][0]):
|
129 |
test_image = history[0][0][0]
|
130 |
+
pixel_values = load_image(test_image, max_num=6).cuda()
|
131 |
else:
|
132 |
pixel_values = None
|
133 |
|
|
|
245 |
description="""**Vintern-1B-v3.5** is the latest in the Vintern series, bringing major improvements over v2 across all benchmarks. 🚀 Fine-tuned from **InternVL-2.5-1B**, already strong in Vietnamese 🇻🇳 tasks thanks to Viet-ShareGPT-4o-Text-VQA data. This **continuous fine-tuning Version** enhances Vietnamese capabilities while retaining strong English performance. It excels in OCR, text recognition, and Vietnam-specific document understanding. 📄 However, users should be mindful of **potential biases** due to the training data. ⚠️""",
|
246 |
examples=[{"text": "Mô tả hình ảnh.", "files":["./demo_3.jpg"]},
|
247 |
{"text": "Trích xuất các thông tin từ ảnh trả về markdown.", "files":["./demo_1.jpg"]},
|
248 |
+
{"text": "Bạn là nhân viên marketing chuyên nghiệp. Hãy viết một bài quảng cáo dài trên mạng xã hội giới thiệu về cửa hàng.", "files":["./demo_2.jpg"]},
|
249 |
{"text": "Trích xuất thông tin kiện hàng trong ảnh và trả về dạng JSON.", "files":["./demo_4.jpg"]}],
|
250 |
title="❄️ Vintern-1B-v3.5 Demo ❄️",
|
251 |
multimodal=True,
|