标签:细粒度

专为手机设计的最强高速推理引擎 PowerInfer-2,每秒 11.68 token,比其它最强快 22 倍,来自上海交通大学 IPADS

专为手机设计的最强高速推理引擎 PowerInfer-2,每秒 11.68 token,比其它最强快 22 倍,来自上海交通大学 IPADS

PowerInfer-2 是专为智能手机设计的高度优化的推理框架。PowerInfer-2 最多支持 Mixtral 47B MoE 模型,实现每秒 11.68 个令牌的惊人速度,比其它最先进的框架快 22 倍。即使对于 7B 型号,仅将 FFN 权重的 50% 放置在手机上,PowerInfer-

爱可生开源社区 爱可生开源社区 2024-06-13
0 0 0