国内AI大模型高考数学成绩超GPT-4o,你如何看待这一结果?

据复旦大学自然语言处理实验室微信公众号“FudanNLP”消息,近日,复旦NLP实验室的LLMEVAL团队推出对2024高考数学真题的评测。测评选取了网络上流出的2024高考新I卷和新II卷数学试卷客观题。大模型“考生”有13个。该团队认为,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的绝好评测集合。

根据两次评测的结果,大部分测试模型在简单题(如选择题前三道)上有比较好的准确率,而在中档题中表现一般。

GPT-4o与阿里云开源模型Qwen2-72b在两次测试中排名都比较靠前,相对比较稳定,而且两次排名Qwen2-72b均超过GPT-4o。

500

百川智能基座大模型Baichuan 4在新I卷测试中获得第一,字节豆包在新II卷测试中位列第一。

500

观网小伙伴,你如何看待这一结果?

全部专栏