标签：训练 - 每日运维网

万亿参数时代：大模型与小模型的竞合之路

大模型的发展已经进入了万亿级参数时代。DeepMind联合创始人穆斯塔法·苏莱曼（Mustafa Suleyman）预测，仅在未来三年内，大模型规模以惊人的速度继续扩张，将增长1000倍。一方面，模型的参数量与其能够处理和学习的复杂性直接相关。模型容量越大，往往意味着性能越好。随着模型容量增加

大白菜程序猿 2024-06-24

0 0 0

模型训练

上一篇提示工程Prompt Engineering中介绍了提示，提示只是更改了LLM的输入，提示对于词汇的分布非常敏感，一个小的提示变化可能会对词汇的分布产生很大的变化。由于模型的参数是固定的，通过单独使用提示，我们可以更改模型在词汇上的分布程度，但当我们希望在一个全新领域使用一个在其他领域上训练的

爱可生开源社区 2024-06-12

0 0 0

苹果开源 CoreNet：一个用于训练深度神经网络的库

苹果公司开源了一个用于训练深度神经网络的库 CoreNet。允许研究人员和工程师训练标准和新型的小型和大型模型，以完成各种任务，包括基础模型（如 CLIP 和 LLM）、对象分类、对象检测和语义分割。目前，苹果公司已经利用 CoreNet 开展了以下研究工作： OpenELM：具有开

大白菜程序猿 2024-04-24

0 0 0

任意 PDE 的秒级求解？昇思 MindSpore 最新成果 PDEformer1 迎来开源！

近日，华为AI4SCI Lab联合北京大学北京国际数学研究中心教授、北京大学国际机器学习研究中心副主任董彬教授团队，在昇腾AI处理器的强大算力支持下，基于全场景AI框架昇思MindSpore推出了一维含时偏微分方程通用模型PDEformer-1。该成果在昇思人工智能框架峰会2024上首次发布亮相。

泡泡 2024-04-18

0 0 0