Blogs

CAD: Disaggregating Core Attention for Efficient Long-context Language Model Training

December 17, 2025

Yonghao Zhuang*, Junda Chen*, Bo Pang, Yi Gu, Yibo Zhu, Yimin Jiang, Ion Stoica, Eric Xing, Hao Zhang

Fast and Accurate Causal Parallel Decoding using Jacobi Forcing

December 16, 2025

Lanxiang Hu*, Siqi Kou*, Yichao Fu, Samyam Rajbhandari, Tajana Rosing, Yuxiong He, Zhijie Deng, Hao Zhang

AUP: when Accuracy Meets Parallelism in Diffusion Language Models

December 10, 2025

Yu-Yang Qian, Junda Su, Lanxiang Hu, Peiyuan Zhang, Zhijie Deng, Peng Zhao, Hao Zhang

CausalWan-MoE Preview: Applying Self-Forcing Distillation To Wan2.2

November 18, 2025

FastVideo Team

Disaggregated Inference: 18 Months Later

November 3, 2025

Junda Chen, Yonghao Zhuang, Hao Zhang

Scaling Speculative Decoding with Lookahead Reasoning

September 22, 2025

Yichao Fu, Yiming Zhao, Rui Ge, Hao Zhang

Can RL-based LLM post-training on games generalize to other tasks? (GRL)

August 27, 2025

Game Arena Team

A Practical Guideline to Using Lmgame-Bench

August 21, 2025

Game Arena Team

FastWan: Generating a 5-Second Video in 5 Seconds via Sparse Distillation

August 4, 2025

FastVideo Team

From Pokémon Red to Standardized Game-as-an-Eval

June 20, 2025

Game Arena Team

FastVideo V1: A Unified Framework for Accelerated Video Generation

April 24, 2025

FastVideo Team

ReFoRCE: A Text-to-SQL Agent with Self-Refinement, Format Restriction, and Column Exploration

April 10, 2025

Minghang Deng, Ashwin Ramachandran, Canwen Xu, Lanxiang Hu, Zhewei Yao, Anupam Datta, Hao Zhang

Fast Video Generation with Sliding Tile Attention

February 18, 2025

Peiyuan Zhang, Yongqi Chen*, Runlong Su*, Hangliang Ding, Ion Stoica, Zhengzhong Liu, Hao Zhang

Dynasor: More Efficient Chain-of-Thought Through Certainty Probing

February 16, 2025

Yichao Fu*, Junda Chen*, Yonghao Zhuang, Zheyu Fu, Ion Stoica, Hao Zhang

GameArena: Evaluating LLM Reasoning through Live Computer Games

February 10, 2025

Game Arena Team

Efficient LLM Scheduling by Learning to Rank

January 13, 2025

Yichao Fu, Siqi Zhu, Runlong Su, Aurick Qiao, Ion Stoica, Hao Zhang

MuxServe: Flexible Spatial-Temporal Multiplexing for Multiple LLM Serving

May 20, 2024

Jiangfei Duan, Runyu Lu, Haojie Duanmu, Xiuhong Li, Xingcheng Zhang, Dahua Lin, Ion Stoica, Hao Zhang

Consistency Large Language Models: A Family of Efficient Parallel Decoders

May 6, 2024

Siqi Kou*, Lanxiang Hu*, Zhezhi He, Zhijie Deng, Hao Zhang

Throughput is Not All You Need: Maximizing Goodput in LLM Serving using Prefill-Decode Disaggregation

March 17, 2024

Junda Chen, Yinmin Zhong, Shengyu Liu, Yibo Zhu, Xin Jin, Hao Zhang