Blogs | Hao AI Lab @ UCSD

Consistency Large Language Models: A Family of Efficient Parallel Decoders

May 6, 2024

Siqi Kou*, Lanxiang Hu*, Zhezhi He, Zhijie Deng, Hao Zhang

Throughput is Not All You Need: Maximizing Goodput in LLM Serving using Prefill-Decode Disaggregation

March 17, 2024

Yinmin Zhong, Junda Chen, Shengyu Liu, Yibo Zhu, Xin Jin, Hao Zhang