2025 LLM Papers on Hugging Face with Japanese Memos

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

Paper • 2501.00958 • Published 16 days ago • 95

Note VLM訓練用に2.5年間にわたる教育ビデオから構築された高品質なマルチモーダル教科書コーパスを作成。上記を学習することで知識を必要とするタスクや推論を必要とするタスクで顕著な改善。特にfew-shot learningで精度向上。

ProgCo: Program Helps Self-Correction of Large Language Models

Paper • 2501.01264 • Published 15 days ago • 25

Note Program-driven Self-Correction (プログラム駆動型自己修正手法)（ProgCo）を提案。 ProgCoは以下二つの方法で自己修正 - ProgVe: 入力に対して、LLMで検証用の擬似プログラムを生成しテスト - ProgRe: ProgVeから得られたフィードバックをもとに、LLMが自分の出力と検証プログラムの両方を見直し、修正

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

Paper • 2501.01957 • Published 14 days ago • 40

Note Vision, Languageに加え、Speechを統合したマルチモーダル大規模言語モデル従来のASRやTTSモジュールに依存せず、E2Eの音声出力を実現 https://github.com/VITA-MLLM/VITA

BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

Paper • 2501.03226 • Published 11 days ago • 35

Note ステップレベルのインコンテキスト学習を提案従来のICLは問題全体に対する例を事前に提示していたが、BoostStepは推論過程で関連性の高い例をリアルタイムで与えて、推論に役立てる。図はFigure 2, https://arxiv.org/pdf/2501.03226

MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

Paper • 2501.02955 • Published 11 days ago • 40

Note VLMのための動画ベンチマークセット、既存のVLMは細かい動作について理解度60%未満だった

LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token

Paper • 2501.03895 • Published 10 days ago • 48

Note Vision Tokenを大幅に圧縮し、計算効率を向上させた大規模マルチモーダルモデル

Cosmos World Foundation Model Platform for Physical AI

Paper • 2501.03575 • Published 11 days ago • 63

Note 世界モデルを構築できるプラットフォーム（物理的な現象を模倣する高品質な動画生成可能）

Agent Laboratory: Using LLM Agents as Research Assistants

Paper • 2501.04227 • Published 10 days ago • 77

Note 文献レビュー、実験、報告書作成等、包括的な研究成果を支援。AI Scientistなどとは異なり、研究者が自身のアイデアを実現するための支援を行うことが目的。研究コストを84%削減。

Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

Paper • 2501.04682 • Published 9 days ago • 83

Note Meta Chain-of-Thought（Meta-CoT）推論過程を明示的にモデル化し、プロセス監視や合成データ生成を行うことでCoTの精度を向上

An Empirical Study of Autoregressive Pre-training from Videos

Paper • 2501.05453 • Published 8 days ago • 36

Note 動画から自己回帰型の事前学習(Meta) 動画の各フレームをトークン化し、次のトークンを予測するタスクを通じてモデルを訓練トークン化にはdVAEやVQGANなどの手法が用いられている

Search-o1: Agentic Search-Enhanced Large Reasoning Models

Paper • 2501.05366 • Published 8 days ago • 75

Note 大規模推論モデル（LRM）の知識の不足を補うための検索手法。エージェント型の情報検索と、取得した情報を精練するための「Reason-in-Documents」で情報を補う

Enhancing Human-Like Responses in Large Language Models

Paper • 2501.05032 • Published 9 days ago • 46

Note 機械的で無機質な応答を減少させ、より人間らしい応答を達成するために、カジュアルな会話と構造化されたトピックベースの対話をバランスよく組み込んだデータセットでFT

Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model

Paper • 2501.05122 • Published 8 days ago • 18

Note Centurio 多言語能力を持つ大規模視覚言語モデル（LVLM）の訓練戦略を体系的に調査実験の結果、100言語を同時に訓練し、25〜50%の非英語データを使用することで、英語のパフォーマンスを維持しつつ多言語性能を大幅に向上させることが可能

VideoRAG: Retrieval-Augmented Generation over Video Corpus

Paper • 2501.05874 • Published 7 days ago • 60

Note VideoRAG: 動画に適用したRAG。 Large Video Language Models(LVLMs)を活用し、動画のフレームや字幕などの情報を組み合わせて、回答を生成。字幕がない場合はWhisperで文字起こし。動画には時間的な変化や空間的な詳細が含まれているため、多様な情報を取得可能。

OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

Paper • 2501.03841 • Published 10 days ago • 49

Note 高レベルな推論能力を持つVLMとロボット操作を結びつける手法

LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

Paper • 2501.06186 • Published 7 days ago • 54

Note Vision系の推論における段階的な問題解決能力向上

Enabling Scalable Oversight via Self-Evolving Critic

Paper • 2501.05727 • Published 8 days ago • 64

Note 自己進化的にLLMの自己批評能力を向上させる手法。

Transformer^2: Self-adaptive LLMs

Paper • 2501.06252 • Published 9 days ago • 45

Note モデルの重み行列の特定の成分だけを選択的にチューニングでき、未知のタスクにリアルタイムで適応できるアーキテクチャ

MiniMax-01: Scaling Foundation Models with Lightning Attention

Paper • 2501.08313 • Published 3 days ago • 254