11月27日晚,DeepSeek悄悄地在Hugging Face上开源了一个新模型:DeepSeek-Math-V2。这是一个专注于数学领域的模型,也是目前行业首个达到IMO(国际奥林匹克数学竞赛)金牌水平且开源的模型。
在同步发布的技术论文中,DeepSeek表示,Math-V2的部分性能优于谷歌旗下的Gemini DeepThink,并展示了该模型在IMO-ProofBench基准以及近期数学竞赛中的表现。

具体来看,在Basic基准测试中,DeepSeek-Math-V2以近99%的高分远超其他模型,而排在第二的谷歌旗下Gemini DeepThink(IMO Gold)得分为89%。但在更具挑战性的Advanced子集上,Math-V2的得分为61.9%,略逊于Gemini DeepThink的65.7%。
在题为《DeepSeek Math-V2:迈向可自验证的数学推理》的论文中,DeepSeek指出,大语言模型在数学推理方面已取得重大进展,这不仅是人工智能的重要试验台,未来还可能对科学研究产生深远影响。

当前AI在数学推理方面仍存在研究局限:以正确的最终答案作为奖励,然而正确答案并不保证推理过程正确。许多数学任务,如定理证明,要求严格的分步演绎而非仅给出数字答案,这使得传统的最终答案奖励方法不适用。
为突破深度推理的瓶颈,DeepSeek认为必须验证数学推理的全面性与严谨性。团队提出,自我验证对于延长测试时间特别关键,尤其针对那些尚无已知解决方案的开放性问题。
DeepSeek此次推出的Math-V2从结果导向转向过程导向,展现了强大的定理证明能力。该模型不依赖大量数学题答案数据,而是通过“教会”AI像数学家一样审慎地检查证明过程,实现了在无人工干预下不断提升解决高难度数学证明题能力的目标。
论文中提到,Math-V2在IMO 2025和CMO 2024中均获得金牌成绩,在Putnam 2024中通过扩展测试计算取得了接近满分的成绩(118/120)。
DeepSeek认为,虽然仍有许多工作需要完成,这些成果表明可自我验证的数学推理是一个切实可行的研究方向,未来有望助力开发更强大的数学AI系统。
对于DeepSeek此次的动作,海外反应热烈,不少网友感慨“鲸鱼终于回来了”。有人提到,DeepSeek以10个百分点优势击败谷歌的IMO Gold获奖模型DeepThink,这超出了众多人的预期。“想象一下,当他们公布编程模型时会发生什么,我敢打赌他们绝对有编程模型。”
目前,行业头部厂商的模型已陆续更新。11月,OpenAI发布了GPT-5.1,几天后xAI推出Grok 4.1,上周谷歌发布了Gemini 3系列引爆AI圈。“也该轮到DeepSeek出牌了”,但外界更加关注的是,DeepSeek旗舰模型的下一次更新何时到来,业界期待“鲸鱼”的下一步动作。
https://finance.sina.com.cn/stock/marketresearch/2025-11-28/doc-infyxfiq7592187.shtml