盘点 2023 年开源大语言模型
自从去年 OpenAI 的聊天机器人 ChatGPT 推出以来,各行业的人们对大型语言模型或 LLM 的兴趣显著增长。
越来越明显的是,这种基于人工智能的生成工具有着巨大的利润潜力,但更广泛的人工智能社区中的许多小型企业和独立研究人员仍然对采用闭源的大模型持谨慎态度,因为它们的运营成本和高昂的计算要求,以及数据所有权、隐私等问题以及他们有时“产生幻觉”虚假信息等令人不安的倾向。
因此,开源大模型的替代品在过去一年中也受到了关注。正如一些调查所指出的,虽然开源模型通常仍然不如其闭源同类强大,但可以对开源选项进行微调,以在特定任务上会超越专有模型。
随着越来越多的开源替代方案的出现,人工智能领域变得更加多样化,以下是为大家总结在 2023 年产生较大影响的竞争者。
1. LLaMA/LLaMA 2
2023 年 2 月,Meta 发布了 LLaMA 的第一个版本,其大型语言模型拥有 130 亿个参数,经测试在大多数基准数据中其性能优于1750 亿个参数的模型——GPT-3。它的第一个版本作为开源包发布,开发者可以在非商业许可下请求访问;然而,该模型及其权重很快就在网上泄露,使其实际上可供任何人使用。
7 月,Meta 随后发布了LLaMA 2。该公司表示,该版本的训练数据量比原始版本多 40%,此外还有其它的微调版本,例如 LLaMA 2-Chat,该版本针对类人对话进行了优化,以及专为生成代码而定制的 LLaMA Code。
虽然,对于LLaMA 2 是否真正开源还存在一些争议,但 Meta 此后在一定程度上开放了对这些模型的使用限制,将商业用途也包括在内,从而产生了基于 LLaMA 的开源衍生品,如 Alpaca、Alpaca-LoRA、Koala、 QLoRA、llama.cpp、Vicuna、Giraffe 和 StableBeluga 正在开发中。
12 月初,Meta 和 IBM 宣布成立AI 联盟,该联盟由 50 多个组织组成,横跨行业、初创企业、学术界、研究机构和政府,共同支持 AI 领域的开放创新与开放科学。
LLaMA 2 地址:https://ai.meta.com/llama/