Starstrek's picture

26 38

Starstrek

Stars321123

·

Stars321

AI & ML interests

AI

Recent Activity

liked a model about 9 hours ago

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

liked a model about 9 hours ago

google/flan-t5-large

liked a model about 9 hours ago

google/flan-t5-xxl

View all activity

Organizations

None yet

Stars321123's activity

upvoted a collection about 13 hours ago

DeepSeek-R1

8 items • Updated 12 days ago • 339

upvoted an article 1 day ago

Article

How to deploy and fine-tune DeepSeek models on AWS

3 days ago

• 24

upvoted 2 collections 2 days ago

SmolLM2

State-of-the-art compact LLMs for on-device applications: 1.7B, 360M, 135M • 15 items • Updated Dec 22, 2024 • 210

DeepSeek-V3

3 items • Updated 27 days ago • 164

upvoted 2 articles 2 days ago

Article

SmolVLM Grows Smaller – Introducing the 250M & 500M Models!

10 days ago

• 102

Article

We now support VLMs in smolagents!

9 days ago

• 68

upvoted a collection 9 days ago

LLMs

384 items • Updated 1 day ago • 27

upvoted 2 papers 9 days ago

Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models

Paper • 2501.11873 • Published 12 days ago • 63

Hunyuan3D 2.0: Scaling Diffusion Models for High Resolution Textured 3D Assets Generation

Paper • 2501.12202 • Published 11 days ago • 32

upvoted a paper 11 days ago

Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks

Paper • 2501.11733 • Published 12 days ago • 27

upvoted an article 15 days ago

Article

The Large Language Model Course

By

•

16 days ago

• 83

upvoted 2 articles 16 days ago

Article

Introducing smolagents: simple agents that write actions in code.

Dec 31, 2024

• 544

Article

Train 400x faster Static Embedding Models with Sentence Transformers

18 days ago

• 130

upvoted a paper 17 days ago

MiniMax-01: Scaling Foundation Models with Lightning Attention

Paper • 2501.08313 • Published 18 days ago • 271

upvoted a paper 18 days ago

An Empirical Study of Autoregressive Pre-training from Videos

Paper • 2501.05453 • Published 23 days ago • 37

upvoted a paper 22 days ago

Search-o1: Agentic Search-Enhanced Large Reasoning Models

Paper • 2501.05366 • Published 23 days ago • 86

upvoted a paper 23 days ago

Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control

Paper • 2501.03847 • Published 25 days ago • 23

upvoted 2 papers 24 days ago

BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

Paper • 2501.03226 • Published 26 days ago • 37

REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Paper • 2501.03262 • Published 29 days ago • 90

upvoted a paper 25 days ago

Personalized Graph-Based Retrieval for Large Language Models

Paper • 2501.02157 • Published 29 days ago • 28