Efficient Serving/Inference - a floom Collection

floom 's Collections

ShowAndTell-2024-12-03

Coding

ICL

RL

Agents

NLU

RAG

Data Efficient Approaches

Personalization

sentence-transformer-models

Tool Use & more

Feedback Analysis

Memory

SSM

Efficient Serving/Inference

Synthetic Data Generation

Frontier research ideas

Efficient Serving/Inference

updated Jul 13, 2024

MemServe: Context Caching for Disaggregated LLM Serving with Elastic Memory Pool

Paper • 2406.17565 • Published Jun 25, 2024 • 4
Inference Performance Optimization for Large Language Models on CPUs

Paper • 2407.07304 • Published Jul 10, 2024 • 52