中文大模型测评基准SuperCLUE发布2024上半年报告,披露针对国内外33个大模型的综合测评结果。 从代表通用能力的一级总分来看,OpenAI的GPT-4o以81分高居榜首,Claude-3.5-Sonnet与通义千问开源模型Qwen2-72B-Instruct并列第二,得分均为77。
欢迎阅读 OSCHINA 编辑部出品的开源日报,每天更新一期。 # 2024.7.10 今日要闻 中文大模型基准测评上半年报告:GPT-4o 排名第一、通义千问“国服最强” 中文大模型测评基准 SuperCLUE 发布 2024 上半年报告,披露针对国内外 33 个大模型的综合测评结果。
5月21日,阿里云宣布,通义千问GPT-4级主力模型Qwen-Long,API输入价格从0.02元/千tokens降至0.0005元/千tokens,直降97%,1块钱可以买200万tokens。 据介绍,这款模型最高支持1千万tokens长文本输入,降价后约为GPT-4价格的1/400。
5月9日,在北京阿里云AI智领者峰会上,阿里云正式发布通义千问2.5,号称多项能力赶超 GPT-4。 此外,与通义千问2.1相比,通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%。 会上,原通义千问APP宣布更名为“通义APP”,将集成通义大模型全栈