国产大模型 2025 考研数学排行榜:仅前两名成绩破百
2024-12-26 17:44
巴比特
2024-12-26 17:44
巴比特
2024-12-26 17:44
订阅此专栏
收藏此文章

图片来源:由无界 AI 生成


作者|参商

编辑|星奈


2024 年就要结束了,在这一年里,大模型的智力水平究竟长进了多少?


上周日,2025 考研初试刚刚结束,我们趁热拿考研数学卷子,去测测主流的几家国产大模型,看看他们的真实智商水平如何。

5 位国产大模型考生名单:


  • 大厂巨头代表队:字节豆包、阿里通义

  • 创业公司代表队:智谱、Kimi

  • 私募巨头代表队:DeepSeek


记得 6 月份高考的时候,很多媒体做了大模型高考成绩评测,结果发现大家的语文成绩都能考 100 分以上,但数学成绩基本都惨不忍睹,低的只有 37 分,高的也不过 60 多分,没有一家能及格。要知道高考数学的满分是 150,只有考到 90 分以上才算及格。


这也侧面说明,起码在自然语言理解这一块,大模型基本已经“及格”,但在人类与其他物种拉开差距的“逻辑思维”能力上,哪怕还需要继续进化。


不过,2024 年下半年,尤其是 9 月份 Open AI 的 o1 推理模型出来之后,在新的强化学习技术范式下,大模型似乎找到了破解数理化等领域难题和复杂任务的钥匙。Kimi、DeepSeek、通义等公司,也相继推出了自己的支持思维链(Chain of Thought)的推理模型,数理化水平上了一个新台阶。


废话少说,直接开测!


我们选取了难度适中的 2025 考研数学三作为参考试卷,每个题目各家模型有两次作答机会,得分取两次的平均值。


为了确保测试的公平,我们都采用各家产品的最新版本(豆包和通义不能选择模型,采用了默认模式;Kimi 采用新推出的视觉思考版;DeepSeek 打开“深度思考”开关,智谱清言采用 GLM-4-Plus 模型),上传完全一样的 22 道题目截图,输入给大模型的文字提示(Prompt)也基本一样,模拟真实场景,“解答这道题”、“这道题选什么”、“解一下这道题”“这个题答案是什么”。


2025 考研数学:两家成绩破百


真实水平如何?让我们直接看成绩:


从最终的测试结果来看,本次考研数学初试数学成绩,有两家模型破百,其中 Kimi 视觉思考版的得分为 133 分,DeepSeek 103.5 分。通义 90 分,及格了。豆包和智谱都获得 88.5 分,接近及格。相比 6 月份的高考数学成绩,大家都进步了不少。Kimi 和 DeepSeek 进步尤其快。



以往做小学数学题都能磕磕绊绊的国产大模型,如今做研究生级别的数学题,居然有几家已经游刃有余,这挺让我们感到意外的。不过,从最后一道题的成功率,还有一些进步空间。


解题过程两种风格:给答案 vs 给思路 + 答案


仅仅按分数来算,谁更有可能最后上岸,其实一目了然。


不过做这套考研数学真题的成绩,也并不能完整展现这些模型的全部能力,但对于一些备考的学生党来说,在面对同样的题目时,谁的解题思路更完整,推导步骤更丰富,谁的参考性和实用性自然就越大。


先来看一道代数方面的三角函数选择题。



这道题的正确答案是 C,但不同模型得到 C 的过程很有意思。


先来看豆包的解题过程:



豆包同样给出了正确答案,但解题过程相对简略,更像考研参考书上的一些标准答案,如果要知道更详细的解题过程,尚需购买对应的考研名师课程作为辅助。


智谱清言的解答过程相对尴尬一些。因为这道题它没做对,第一遍测试选 B,第二遍测试选了 A。


第一遍测试 B:



第二遍测试 A:



不过,即便做错,也给出了相对完整的思考过程,“错”有可原。


再来看 Kimi 视觉思考版。



可以看到,Kimi 视觉思考版在给出正确答案之余,也会给出完整的推导过程和解题思路。对于一些考研党来说,具有较高的参考价值,有助于检查错题和举一反三。


阿里通义和 Deepseek 的回答与豆包类似,相对而言,这两家模型展现的步骤会简略一些。


通义千问:



Deepseek:



再来看一道填空题。



这是它的标准答案:渐进线方程为 y=3 和 y=-3


可以看到,跟前述选择题一样,Kimi 思考版的解题过程较为翔实,推导细节很多,并最终给出了正确答案。



豆包的推导过程相对简略一些,但也可以看到明显的推导过程,也具备不错的可参考性。阿里通义和 deepseek 类似过程略简单,但给出了正确答案。



遗憾的是智谱在这道题上,两次结果都是错误的。



但在下面这道定积分的题上,各家模型差距就较为明显了。



首先放正确答案:a=2


Kimi 思考版的表现较为稳定,在给出足够多的推导步骤之后,还有一次验算,最后输出了 a=2 的正确结果。



豆包表现也较为稳定。不过推导步骤一如既往地简洁。



智谱清言在解决这个问题的时候,第一遍回答正确,但问题在于没有使用自然语言,使用的是代码,对普通学习者参考价值有限,第二遍测试则直接没有给答案,并且认为题目设置有问题。



通义的表现尚算正常,第一次的回答错误,第二次给出正确答案。但 Deepseek 就比较尴尬,第一次它无法回答。



第二次则陷入死循环,回答超过 3 分钟还在写答案。


如果是一些更难的题目,有些模型就难以 cover 住了。


譬如下面这道。



照例先来正确答案。



kimi 的回答如下 ,虽然最终结果跟标准答案长得不太一样,只是不同的写法,结果依然正确。



豆包在两次测试中,给出了两次回答,但都是错的,这是第一次。



第二次:



智谱清言的两次回答过程,均出现了无法回答的情况。



通义算是能写完过程的,给出的两次回答也不一样,但很遗憾,还是错的。



Deepseek 表现出乎意料,跟 kimi 一样虽然写法不一样,但结果正确。



结语


但在仅仅几个月前,大模型厂商还在满足于写高考满分作文,相比以往,它的逻辑思维和综合能力,早已不可同日而语。


须知,无分文理,一旦拔高到科研的高度,以数理化为代表的逻辑能力是大模型可用,堪用、好用的基石,而数理化解题能力的高低,则是大模型智力的直接体现。


随着大模型能力的不断增强,在人类探索更前沿的科技领域时,以往尚且“鸡肋”的大模型,如今已经能成为不少研究者的助手。或许未来,当 AI 的能力真的达到人类的 TOP 1% 各领域专家水平,甚至超过人类水平,在 AI 的帮助下,我们对宇宙的认识真的有机会达到人类此前不曾达到的新高度。希望那时候,AI 还是人类的好朋友。




中国 AIGC 产业应用峰会回顾

2024 年 1 月 5 日,【智求共赢・中国 AIGC 产业应用峰会暨无界 AI 生态合作伙伴大会】在杭州未来科技城会议中心举行。


大会汇集行业资深专家及领军企业,共同聚焦 AIGC 领域,围绕当下热点话题进行深度延展,探讨行业激烈竞争下的运营新思路、发展新模式!点击文章,回顾精彩内容~










AI 新智界园区开放合作啦!


【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

巴比特
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开