标签:训练

万亿参数时代:大模型与小模型的竞合之路

万亿参数时代:大模型与小模型的竞合之路

大模型的发展已经进入了万亿级参数时代。DeepMind联合创始人穆斯塔法·苏莱曼(Mustafa Suleyman)预测, 仅在未来三年内,大模型规模以惊人的速度继续扩张,将增长1000倍。 一方面,模型的参数量与其能够处理和学习的复杂性直接相关。模型容量越大,往往意味着性能越好。随着模型容量增加

大白菜程序猿 大白菜程序猿 2024-06-24
0 0 0
模型训练

模型训练

上一篇提示工程Prompt Engineering中介绍了提示,提示只是更改了LLM的输入,提示对于词汇的分布非常敏感,一个小的提示变化可能会对词汇的分布产生很大的变化。由于模型的参数是固定的,通过单独使用提示,我们可以更改模型在词汇上的分布程度,但当我们希望在一个全新领域使用一个在其他领域上训练的

爱可生开源社区 爱可生开源社区 2024-06-12
0 0 0
苹果开源 CoreNet:一个用于训练深度神经网络的库

苹果开源 CoreNet:一个用于训练深度神经网络的库

苹果公司开源了一个用于训练深度神经网络的库 CoreNet。允许研究人员和工程师训练标准和新型的小型和大型模型,以完成各种任务,包括基础模型(如 CLIP 和 LLM)、对象分类、对象检测和语义分割。 目前,苹果公司已经利用 CoreNet 开展了以下研究工作: OpenELM:具有开

大白菜程序猿 大白菜程序猿 2024-04-24
0 0 0
任意 PDE 的秒级求解?昇思 MindSpore 最新成果 PDEformer1 迎来开源!

任意 PDE 的秒级求解?昇思 MindSpore 最新成果 PDEformer1 迎来开源!

近日,华为AI4SCI Lab联合北京大学北京国际数学研究中心教授、北京大学国际机器学习研究中心副主任董彬教授团队,在昇腾AI处理器的强大算力支持下,基于全场景AI框架昇思MindSpore推出了一维含时偏微分方程通用模型PDEformer-1。该成果在昇思人工智能框架峰会2024上首次发布亮相。

泡泡 泡泡 2024-04-18
0 0 0