xpo-lla-3-8b-instruct / README.md

Update README.md

8246343 verified about 1 month ago

186 Bytes

metadata

base_model:
  - meta-llama/Meta-Llama-3-8B-Instruct
datasets:
  - princeton-nlp/llama3-ultrafeedback
license: mit

a simpo-like DPO method, trained on simpo data AlpacaEval:44.8(+2)