标签:吞吐量

LLM Serving有效吞吐量的最大化实现

LLM Serving有效吞吐量的最大化实现

如今的LLM应用具有多样化的时延要求。例如,聊天机器人可能需要快速的初始响应(例如,少于0.2秒),但在解码速度上只需要匹配人类阅读速度,而代码补全则需要快速的端到端生成时间,以实现实时代码建议。

剑圣无痕 剑圣无痕 2024-05-31
0 0 0