高考覆盖各类学科及题型,同时因其开考前的“绝密性”,被视作中国最具权威的考试之一,成为评估考生综合能力的“试金石”。这一面向人类设计的高难度综合性测试,目前普遍被研究者用于考察大模型的智能水平。 2024年全国高考甫一结束,司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“
本文系华东师范大学俞融&王清帅两位同学所著。「俞融,华东师范大学数据科学与工程学院在读硕士生。研究生期间在数据学院DBHammer组从事面向HTAP数据库系统的评测相关技术研究,致力于定义新型benchmark并开发开源工具服务于HTAP数据库公平、公正、高效评测工作。」「王清帅,华东师范大