Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2402.18041

A Survey on Data Selection for LLM Instruction Tuning

Paper • 2402.05123 • Published Feb 4, 2024 • 3
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development

Paper • 2407.11784 • Published Jul 16, 2024 • 4
Data Management For Large Language Models: A Survey

Paper • 2312.01700 • Published Dec 4, 2023
Datasets for Large Language Models: A Comprehensive Survey

Paper • 2402.18041 • Published Feb 28, 2024 • 2

Datasets for Large Language Models: A Comprehensive Survey

Paper • 2402.18041 • Published Feb 28, 2024 • 2

Gorilla: Large Language Model Connected with Massive APIs

Paper • 2305.15334 • Published May 24, 2023 • 5
AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls

Paper • 2402.04253 • Published Feb 6, 2024
Datasets for Large Language Models: A Comprehensive Survey

Paper • 2402.18041 • Published Feb 28, 2024 • 2

Multimodal Dataset

M^3IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning

Paper • 2306.04387 • Published Jun 7, 2023 • 8
Datasets for Large Language Models: A Comprehensive Survey

Paper • 2402.18041 • Published Feb 28, 2024 • 2
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark

Paper • 2306.06687 • Published Jun 11, 2023 • 1
Incidents1M: a large-scale dataset of images with natural disasters, damage, and incidents

Paper • 2201.04236 • Published Jan 11, 2022

Data-efficient LLMs

dataset pruning for advancing the capabilities of LLMs

Effective pruning of web-scale datasets based on complexity of concept clusters

Paper • 2401.04578 • Published Jan 9, 2024
How to Train Data-Efficient LLMs

Paper • 2402.09668 • Published Feb 15, 2024 • 40
A Survey on Data Selection for LLM Instruction Tuning

Paper • 2402.05123 • Published Feb 4, 2024 • 3
LESS: Selecting Influential Data for Targeted Instruction Tuning

Paper • 2402.04333 • Published Feb 6, 2024 • 3

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs