DeepSeeko1 pro挑战美国本科生最难数学竞赛30分钟交卷却被「大佬」现场打脸!

  DeepSeek     |      2025-04-19 12:42

  DeepSeek是一款基于AI技术的智能搜索引擎,结合深度学习与自然语言处理,提供精准、高效的搜索体验。探索DeepSeek,感受未来智能搜索的无限可能!一年一次的北美最难本科数学竞赛,刚在MIT沃克纪念堂(Walker Memorial)落幕。

  这场普特南数学竞赛(Putnam Exam),每年汇聚了来自北美数百所高校的3500多名学生前来参赛。

  在这场比赛还未开始之前,来自IBM研究员曾暗示,在公开题目发布后,会有人对大模型(AlphaProof、o1、Gemini)进行题目测试。

  恰好,OpenAI最近发布了满血版o1,以及最强o1 pro,不知它们在这场考试表现如何?

  令人吃惊的是,有网友把此次普特南考试的考题给了OpenAI o1 pro。

  详细看了答案的网友们表示松了一口气:o1 pro还远未达到普特南考试的水平。

  比如对于A1这道题,虽然它只用了1分钟58秒就做了出来,总体思路也是正确的,但仍有很多错误。

  网友直接给出了正确的解题思路:可以利用鸽巢原理(抽屉原理)来证明在给定约束条件下,只存在唯一一个有效双射函数,并由此可以推导出不存在满足题目要求的a、b、c、d值。

  这个结果属实有点惊人,因为其中一些问题难度没有那么高,比一些AIME竞赛题容易。

  目前来说,o1 pro做出的题目都是错误且不完整的。如果我们不以数学家的角度评判,可以认为它们很聪明。

  而在IMO测试中,o1 pro完美解决了2006年测试集中最难的Q3题,仅仅用了6分48秒。

  相较之下,在2006年全球大约500名19岁以下顶尖数学天才中,只有28人能在4个半小时内完全解出这道题。而美国对的6名成员,却无一人做到。

  Sloyan特别要求让其展示第4、5步的具体证明过程,o1 pro随后扩展出的思维过程同样令人印象深刻。

  他表示,o1 pro的答案完全是胡说八道。如果在IMO竞赛中提交这样的解答,最多也只能给1分(满分7分)。如果遇到宽松的评判员,最多给2分,不会再多了。

  他接着称,训练数据问题是一部分,这个答案 \frac{9}{16 \sqrt{2}}很可疑。IMO的题目和解答就像是数学CoT的黄金训练数据集,所以这些模型一会被反复训练无数遍。

  另一位研究员Jason Li测试后惊叹道,o1似乎已经解决掉了一半的问题(60分/满分120),这在普特南竞赛的历史排名中大约能冲进前2%的参赛者之列。

  今年9月,o1发布不久后,AI评估平台HoneyHive曾让新模型去挑战了23年普特南数学竞赛的题目。

  当时,OpenAI公开的测试结果显示,o1的数学性能大幅超越了GPT-4o,飙升43.3%实现了质的飞升。

  HoneyHive的评估方法是,每个模型重复运行2次,并让GPT-4o作为标准的判断者,以评估模型的答案,最终再由人类专家进行验证。

  o1-preview完全解决了问题A1、A3、B4,部分解决了问题B2,但证明不足。

  有趣的是,这些模型的结果虽然是正确的,但解决方案缺乏详细的分步解释,特别是对于证明类的问题。

  比如,o1-preview和o1-mini在问题B2上都因证据不足、不够严谨失掉了一些分数,尽管最终结果是正确的。

  他们认为,这可能是因为AI模型在表达或访问其内部「思维链」时,存在一定的局限性。

  不过,IBM研究员表示,能够拿下一定的高分,当然也存在了数据泄露的可能性。

  这场比赛可以追溯到1938年,最初只是各个高校数学系之间的友好较量。如今,它已经发展成为世界上最具权威的大学数学竞赛。

  普特南数学竞赛不仅仅是一场知识的较量,更是一个荣誉的殿堂。排名最高的团队的数学系可以获得现金奖励,学生成员还将被授予「普特南研究员」的称号。

  去年第84届比赛中,个体获奖者5名全部来自MIT,团体获奖者前五名也分别来自世界高校:MIT、哈佛、杜克、斯坦福、多伦多大学。