Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

NeoByBy's picture

7 3

NeoByBy

NeoByBy

21world's profile picture

·

AI & ML interests

None yet

Organizations

Collections 1

DPO STAR for math

Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning

Paper • 2407.18248 • Published Jul 25, 2024 • 32

models

None public yet

datasets

None public yet

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs