推理-每日运维网

路由 + 5G + WIFI + LoRa + VPN + AI 一体机来了

近期，华辰连科基于行业主流 uCPE 硬件平台，并结合企业在边缘设备上的核心应用，发布了 AI 智能网关整体解决方案。该解决方案将以网络处理见长的边缘侧传统智能接入网关，融合 AI 推理能力，将 AI 算力推向网络终端，可提供从驱动、操作系统一直到应用层的整套开发框架，帮助用户更好的完成产业的数字化转型升级。此外，华辰连科还创新性的将基于英特尔凌动 C3000 处理器的专门用于网络处理的智能网关

linux中国 2024-07-17 泡泡

腾讯混元发布开源加速库，生图时间缩短 75%

腾讯混元DiT模型是业内首个中文原生的DiT架构文生图开源模型，为了提升开发者使用体验，腾讯混元官方上线了专属的加速库。开发者可通过 Hugging Face 下载该推理加速工具。项目组通过知识蒸馏和TensorRT高性能推理框架，实现了DiT模型的采样步数压缩与高效推理部署。蒸馏主要指降低扩散模型迭代的步数实现加速。模型整体结构和参数量不变，用户在无需任何额外的操作和设备要求下使用蒸馏权重，即

运维资讯 2024-06-12 共饮一杯

KubeAI大模型推理加速实践｜得物技术

一、背景最近我们在生产环境批量部署了大模型专用推理集群，并成功让包括70B在内的大模型推理速度提升50%，大幅缩减部署成本，稳定应用于生产环境。本文基于我们在部署大模型推理集群时的一些经验，分享一些有效提升大模型的推理速度方法。最后，我们在结尾处推荐了几个经过我们评测且表现优异的大模型推理框架。希望这些建议能帮助读者在项目中选择适合自己的推理框架。 OpenAI的科学家Hyung Won Chu

运维资讯 2024-05-21 大树

模型量化与量化在LLM中的应用｜得物技术

一、模型推理优化随着模型在各种场景中的落地实践，模型的推理加速早已成为AI工程化的重要内容。而近年基于Transformer架构的大模型继而成为主流，在各项任务中取得SoTA成绩，它们在训练和推理中的昂贵成本使得其在合理的成本下的部署实践显得愈加重要。大模型推理所面临的挑战主要有以下两点：巨大的内存（显存）需求，主要来自于模型本身参数和推理的即时需求。对于一个LLaMA2-30B的模型，载

运维资讯 2024-04-30 爱可生开源社区

大模型首选AI框架——昇思MindSpore2.3.RC1版本上线开源社区

经过社区开发者们几个月的开发与贡献，现正式发布昇思MindSpore2.3.RC1版本，通过多维混合并行以及确定性CKPT来实现超大集群的高性能训练，支持大模型训推一体架构，大模型开发训练推理更简、更稳、更高效，并在训推一体框架的基础上通过多样的大模型推理优化技术，进一步降低大模型推理成本；通过使能kernel by kernel调度执行，进一步提升静态图调试调优能力；持续升级MindSpore

开发运维 2024-04-25 大猫

路由 + 5G + WIFI + LoRa + VPN + AI 一体机来了

腾讯混元发布开源加速库，生图时间缩短 75%

KubeAI大模型推理加速实践｜得物技术

模型量化与量化在LLM中的应用 ｜ 得物技术

大模型首选AI框架——昇思MindSpore2.3.RC1版本上线开源社区

模型量化与量化在LLM中的应用｜得物技术