+1

收藏
35

评论
+1

点赞

分享

如何看待AI高考数学全不及格一事？

国服最坑赵信

06-19 17:40

上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。

OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分，此次高考测试结果显示，阿里通义千问2-72B排名第一，为303分，OpenAl的GPT-4o排名第二，得分296分，上海人工智能实验室的书生浦语2.0排名第三，三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。

从结果来看，大模型的语文、英语考试水平普遍不错，但数学都不及格，最高分也只有75分。

500

风闻好问举报

国服最坑赵信

572篇文章 | 316人关注

+关注

观察者网用户社区

作者文章查看全部>>

4000多元，将汽车从上海或南京托运至新疆自驾游，你愿意吗？

最新提问

等26人已参与问答

拜登和特朗普，谁能在2024年美国总统大选中笑到最后？

最新提问

已参与问答

社会主义市场经济与资本主义市场经济有区别吗？

最新提问

等9人已参与问答

热点

最近更新的专栏

晨枫

古今多少事，都付笑谈中
- 民主党为什么不换拜登
猛犸资本局

市值，值不值？
- 调查|环卫龙头侨银股份遭“清退”迷局
富强的方向

老兵一枚，专注时评与政策
- 美国竟然心虚了，主动邀请俄罗斯防长通话，这是为何？
AI蓝媒汇

欢迎关注公众号：jizhezhan
- 零食卷健康价值，为什么只是良品铺子？
中科院之声
- 嫦娥“发朋友圈”背后的“硬核”科技
陈经
- 全军聚焦备战打仗，只有军事能力才能真正解决问题
我从新疆来

从人物到文化、不断探索异域风光，诉说不一样的故事。
- 谁懂啊！去了趟新疆发了八百条朋友圈
三言财经
- 只要定语加得好，车企排名随便搞（附最全定语！）
IT时报
- 腾讯“掀桌”拒交“安卓税” 手机厂商还能“躺赚”多久？
娱乐硬糖
- 00花又洗牌了

风闻最热

全部专栏