11月27日晚,DeepSeek悄悄地在Hugging Face 上开源了一个新模型:DeepSeek-Math-V2 。这是一个数学方面的模型 ,也是目前行业首个达到IMO(国际奥林匹克数学竞赛)金牌水平且开源的模型。
在同步发布的技术论文中,DeepSeek表示,Math-V2的部分性能优于谷歌旗下的Gemini DeepThink ,并展示了模型在IMO-ProofBench基准以及近期数学竞赛上的表现。
具体来看,在其中的Basic基准上,DeepSeek-Math-V2 远胜其他模型 ,达到了近99%的高分,而排在第二的谷歌旗下Gemini Deep Think (IMO Gold)分数为89% 。但在更难的 Advanced 子集上,Math-V2分数为61.9% ,略逊于 Gemini Deep Think (IMO Gold)的65.7%。
在这篇名为《DeepSeek Math-V2:迈向可自验证的数学推理》的论文中,DeepSeek指出,大语言模型已经在数学推理方面取得了重大进展,这是人工智能的重要试验台 ,如果进一步推进,可能会对科学研究产生影响。
但当前的AI在数学推理方面有着研究局限:以正确的最终答案作为奖励,正确的答案却不能保证正确的推理 。许多数学任务 ,如定理证明,需要严格的分步推导,而不是数字答案 ,这使得最终答案奖励不适用。
为了突破深度推理的极限,DeepSeek认为有必要验证数学推理的全面性和严谨性。团队提出,自我验证对于扩展测试时间计算尤为重要 ,特别是对于那些没有已知解决方案的开放问题 。
此次DeepSeek推出的Math-V2就从结果导向转向了过程导向,展示了强大的定理证明能力。这一模型不依赖大量的数学题答案数据,而是通过教会AI如何像数学家一样严谨地审查证明过程 ,从而在没有人类干预的情况下,也能不断提升解决高难度数学证明题的能力 。
论文提到,Math-V2在IMO 2025和CMO 2024上取得了金牌级成绩,在Putnam 2024上通过扩展测试计算实现了接近满分的成绩(118/120)。
DeepSeek认为 ,虽然仍有许多工作要做,但这些结果表明,可自我验证的数学推理是一个可行的研究方向 ,可能有助于开发更强大的数学AI系统 。
对于DeepSeek此次的动作,海外的反应是“鲸鱼终于回来了”。有网友感慨,DeepSeek以10个百分点的优势击败了谷歌的IMO Gold 获奖模型DeepThink ,这不在预测范围内。“想象一下,当他们公布编程模型时会发生什么,我打赌他们绝对有编程模型 。 ”
目前 ,行业头部厂商的模型已经又迭代了一轮,11月,先是OpenAI发布了GPT-5.1 ,几天后xAI发布Grok 4.1,就在上周谷歌发布了Gemini 3系列引爆AI圈,“也该轮到DeepSeek出牌了”。不过,更受外界关注的仍然是 ,DeepSeek的旗舰模型到底什么时候更新,行业期待“鲸鱼”的下一个动作。
(文章来源:第一财经)
股票用什么app推荐:网上配资平台开户炒股-9月2日港股收盘:恒指跌0.47% 中芯国际领跌成分股
买卖股票用什么app:炒股配资平台官网-美联储重磅来袭!鲍威尔大消息!
股票用什么app推荐:炒股怎么杠杆-特朗普与美联储斗争升级!华尔街警告:美国陷入滞胀可能性升高
国内十大杠杆炒股平台:买股票app-全球首个AI投资大赛落幕:中国模型全部盈利 美国模型全部亏损
配资平台推荐:买股票下载什么app开户-中美大利好 市场上涨!算力硬件股再度大涨 创新药概念股强势
什么平台买股票收费低:股票交易软件app哪个好-31省份电力版图 谁是“多边形战士”?
在线配资炒股_股票配资专业平台_股票无息配资提示:文章来自网络,不代表本站观点。
尊界S800正式发布,多家上市公司透露合作关系。 尊界S800正式发布 5月30日晚,华为与江淮汽车合作推出的尊...
泰国、印度尼西亚和新加坡采购四代半或五代机,东南亚多国掀起新一轮空中竞争。 据新华社报道,土耳其总统埃尔多安6月1...
记者王珍中国国际经济交流中心副理事长、国务院发展研究中心原副主任王一鸣周一在“中国发展高层论坛2025...
3月24日,海洋王照明科技股份有限公司(以下简称“海洋王”,002724.SZ)早盘一字跌停,此后股价拉涨,尾盘封涨停板...
文丨财联社时隔半年,钰泰半导体股份有限公司(下称“钰泰股份”)冲刺科创板失利后,重新启动IPO上市工作。...
3月12日,汇丰发布对于中国投资市场的最新观点。汇丰环球私人银行及财富管理中国首席投资总监匡正表示,DeepSe...
3月24日,易方达国证自由现金流ETF公开发售。该产品跟踪国证自由现金流指数,这个指数是什么?有哪些优势?投资价值如何?...
记者|赵阳戈年初,证监会就修改《证券发行与承销管理办法》部分条款向社会公开征求意见,市场也将注意力投向了...
记者辛圆3月25日,博鳌亚洲论坛旗舰报告《亚洲经济前景及一体化进程2025年度报告》(以下简称《报告》...
2025年3月11日,万丰奥威(002085.SZ)公告称,公司下属子公司heptus 591. GmbH与Voloco...
记者辛圆国务院新闻办公室周三就解读政府工作报告举行吹风会,政府工作报告起草组成员、国务院研究室副主任陈...
近期,前沿生物艾可宁®长效抗病毒方案迎来新突破。国际权威期刊《AIDS》官网刊登了一篇艾可宁®每4周给药的长效ART方案...
3月24日,业内权威专家表示,MLF(中期借贷便利)不再有统一的中标利率,标志着MLF利率的政策属性完全退出。3月24日...
文丨财联社据中汽协8月10日发布的数据显示,今年1至7月,我国汽车产销量达1565万辆和1562.6万辆...
近日,开源证券大连分公司遭大连证监局处罚,暂停其办理需要合格投资者认定相关业务六个月。该惩处力度在近年来券商分支机构中并...