RLHF-And-Friends
/

Llama-3.2-3B-Instruct-Reward-Ultrafeedback

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

Llama-3.2-3B-Instruct-Reward-Ultrafeedback / tokenizer.json

Commit History

End of training

dfba183
verified

arqa39 commited on 11 days ago