Maverick17
/

idefics3-llama-gui-dense-descriptions

Generated from Trainer

Model card Files Files and versions Community

Maverick17 commited on Oct 2, 2024

Commit

e0f40b2

·

verified ·

1 Parent(s): f0332cb

Update README.md

Added sample description for inference

Files changed (1) hide show

README.md +62 -15

README.md CHANGED Viewed

@@ -16,17 +16,68 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [HuggingFaceM4/Idefics3-8B-Llama3](https://huggingface.co/HuggingFaceM4/Idefics3-8B-Llama3) on https://huggingface.co/datasets/Agent-Eval-Refine/GUI-Dense-Descriptions dataset
-## Model description
-More information needed
-## Intended uses & limitations
-More information needed
-## Training and evaluation data
-More information needed
 ## Training procedure
@@ -44,10 +95,6 @@ The following hyperparameters were used during training:
 - lr_scheduler_warmup_steps: 50
 - num_epochs: 1
-### Training results
 ### Framework versions
 - PEFT 0.13.0

 This model is a fine-tuned version of [HuggingFaceM4/Idefics3-8B-Llama3](https://huggingface.co/HuggingFaceM4/Idefics3-8B-Llama3) on https://huggingface.co/datasets/Agent-Eval-Refine/GUI-Dense-Descriptions dataset
+## Intended usage
+```python
+from peft import PeftModel
+from transformers import AutoProcessor, Idefics3ForConditionalGeneration
+from transformers.image_utils import load_image
+import torch
+adapter_path = "Maverick17/idefics3-llama-gui-dense-descriptions"
+base_model_id = "HuggingFaceM4/Idefics3-8B-Llama3"
+# Load Model base model
+model = Idefics3ForConditionalGeneration.from_pretrained(
+    base_model_id,
+    _attn_implementation="flash_attention_2",
+    device_map="auto",
+    torch_dtype=torch.bfloat16,
+)
+# Merge LoRA and base model
+peft_model = PeftModel.from_pretrained(model, adapter_path)
+merged_model = peft_model.merge_and_unload()
+processor = AutoProcessor.from_pretrained(base_model_id)
+image = load_image("path/to/ui/image.png")
+# Create inputs
+messages = [
+    {
+        "role": "user",
+        "content": [
+            {"type": "image"},
+            {
+                "type": "text",
+                "text": "Provide a detailed description of the image.",
+            },
+        ],
+    },
+]
+prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
+inputs = processor(text=prompt, images=[image], return_tensors="pt")
+inputs = {k: v.to("cuda") for k, v in inputs.items()}
+generation_args = {
+    "max_new_tokens": 1024,
+    "repetition_penalty": 1,
+}
+generation_args["do_sample"] = False
+generation_args.update(inputs)
+# Generate
+generated_ids = model.generate(**generation_args)
+generated_texts = processor.batch_decode(
+    generated_ids[:, generation_args["input_ids"].size(1) :], skip_special_tokens=True
+)
+print(generated_texts[0].strip())
+```
 ## Training procedure
 - lr_scheduler_warmup_steps: 50
 - num_epochs: 1
 ### Framework versions
 - PEFT 0.13.0