DeepSeek上新，“奥数金牌水平”

11月27日晚，DeepSeek悄悄地在Hugging Face上开源了一个新模型：DeepSeek-Math-V2。这是一个专注于数学领域的模型，也是目前行业首个达到IMO（国际奥林匹克数学竞赛）金牌水平且开源的模型。

在同步发布的技术论文中，DeepSeek表示，Math-V2的部分性能优于谷歌旗下的Gemini DeepThink，并展示了该模型在IMO-ProofBench基准以及近期数学竞赛中的表现。

具体来看，在Basic基准测试中，DeepSeek-Math-V2以近99%的高分远超其他模型，而排在第二的谷歌旗下Gemini DeepThink（IMO Gold）得分为89%。但在更具挑战性的Advanced子集上，Math-V2的得分为61.9%，略逊于Gemini DeepThink的65.7%。

在题为《DeepSeek Math-V2：迈向可自验证的数学推理》的论文中，DeepSeek指出，大语言模型在数学推理方面已取得重大进展，这不仅是人工智能的重要试验台，未来还可能对科学研究产生深远影响。

当前AI在数学推理方面仍存在研究局限：以正确的最终答案作为奖励，然而正确答案并不保证推理过程正确。许多数学任务，如定理证明，要求严格的分步演绎而非仅给出数字答案，这使得传统的最终答案奖励方法不适用。

为突破深度推理的瓶颈，DeepSeek认为必须验证数学推理的全面性与严谨性。团队提出，自我验证对于延长测试时间特别关键，尤其针对那些尚无已知解决方案的开放性问题。

DeepSeek此次推出的Math-V2从结果导向转向过程导向，展现了强大的定理证明能力。该模型不依赖大量数学题答案数据，而是通过“教会”AI像数学家一样审慎地检查证明过程，实现了在无人工干预下不断提升解决高难度数学证明题能力的目标。

论文中提到，Math-V2在IMO 2025和CMO 2024中均获得金牌成绩，在Putnam 2024中通过扩展测试计算取得了接近满分的成绩（118/120）。

DeepSeek认为，虽然仍有许多工作需要完成，这些成果表明可自我验证的数学推理是一个切实可行的研究方向，未来有望助力开发更强大的数学AI系统。

对于DeepSeek此次的动作，海外反应热烈，不少网友感慨“鲸鱼终于回来了”。有人提到，DeepSeek以10个百分点优势击败谷歌的IMO Gold获奖模型DeepThink，这超出了众多人的预期。“想象一下，当他们公布编程模型时会发生什么，我敢打赌他们绝对有编程模型。”

目前，行业头部厂商的模型已陆续更新。11月，OpenAI发布了GPT-5.1，几天后xAI推出Grok 4.1，上周谷歌发布了Gemini 3系列引爆AI圈。“也该轮到DeepSeek出牌了”，但外界更加关注的是，DeepSeek旗舰模型的下一次更新何时到来，业界期待“鲸鱼”的下一步动作。

https://finance.sina.com.cn/stock/marketresearch/2025-11-28/doc-infyxfiq7592187.shtml

参考资料

Telegram中文版官网

Denizli综合新闻

全球资讯服务平台

DeepSeek上新，“奥数金牌水平”

参考资料

发表回复取消回复

参考资料

发表回复 取消回复

发表回复取消回复