国内AI大模型高考数学成绩超GPT-4o，你如何看待这一结果？

观察者网时政
观察者网时政编辑部

06-12 18:15

据复旦大学自然语言处理实验室微信公众号“FudanNLP”消息，近日，复旦NLP实验室的LLMEVAL团队推出对2024高考数学真题的评测。测评选取了网络上流出的2024高考新I卷和新II卷数学试卷客观题。大模型“考生”有13个。该团队认为，全新出炉的高考试题具备高度的独创性和保密性，是用来评测大模型的绝好评测集合。

根据两次评测的结果，大部分测试模型在简单题（如选择题前三道）上有比较好的准确率，而在中档题中表现一般。

GPT-4o与阿里云开源模型Qwen2-72b在两次测试中排名都比较靠前，相对比较稳定，而且两次排名Qwen2-72b均超过GPT-4o。

500

百川智能基座大模型Baichuan 4在新I卷测试中获得第一，字节豆包在新II卷测试中位列第一。

500

观网小伙伴，你如何看待这一结果？

风闻好问举报

观察者网时政

526篇文章 | 451人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

国内AI大模型高考数学成绩超GPT-4o，你如何看待这一结果？

观察者网时政
观察者网时政编辑部

观察者网时政

热点

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

国内AI大模型高考数学成绩超GPT-4o，你如何看待这一结果？

观察者网时政 观察者网时政编辑部

热点

最近更新的专栏

风闻最热

全部专栏

观察者网时政
观察者网时政编辑部