Inference Acceleration - a kevin1020 Collection

kevin1020 's Collections

RAG

Inference Acceleration

Code Generation

Efficient Tuning

Token Compression

Efficient VLM via Image Token Compression

VLM

PEFT

ViT

Modular

Inference Acceleration

updated Oct 3, 2024

BiTA: Bi-Directional Tuning for Lossless Acceleration in Large Language Models

Paper • 2401.12522 • Published Jan 23, 2024 • 11
Hydragen: High-Throughput LLM Inference with Shared Prefixes

Paper • 2402.05099 • Published Feb 7, 2024 • 19
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs

Paper • 2402.04291 • Published Feb 6, 2024 • 48
Shortened LLaMA: A Simple Depth Pruning for Large Language Models

Paper • 2402.02834 • Published Feb 5, 2024 • 14
Batch Prompting: Efficient Inference with Large Language Model APIs

Paper • 2301.08721 • Published Jan 19, 2023 • 1
Recurrent Drafter for Fast Speculative Decoding in Large Language Models

Paper • 2403.09919 • Published Mar 14, 2024 • 20
LLM Agent Operating System

Paper • 2403.16971 • Published Mar 25, 2024 • 65
The Unreasonable Ineffectiveness of the Deeper Layers

Paper • 2403.17887 • Published Mar 26, 2024 • 78
Better & Faster Large Language Models via Multi-token Prediction

Paper • 2404.19737 • Published Apr 30, 2024 • 73
Clover: Regressive Lightweight Speculative Decoding with Sequential Knowledge

Paper • 2405.00263 • Published May 1, 2024 • 14
LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models

Paper • 2405.18377 • Published May 28, 2024 • 18
TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices

Paper • 2410.00531 • Published Oct 1, 2024 • 30