OpenAI 神秘新模型斬獲 IMO 2025 金牌,攻克奧數(shù)巔峰

抖音秀 熱點(diǎn)資訊 25

OpenAI 的神秘通用推理模型,竟然攻克 IMO 2025 的 5 道難題,成功摘金了?這個(gè)消息,讓 Greg Brockman 等一眾大佬激動(dòng)轉(zhuǎn)發(fā)。也就是說,OpenAI 很可能已經(jīng)研發(fā)出顛覆性的推理技術(shù),徹底告別 CoT。還有一個(gè)炸裂消息:GPT-5 也要來了。

就在昨天,全世界的頂尖大模型還在 2025 年的 IMO 賽場上全軍覆沒,連銅牌的邊都沒摸到。

然而,就在剛剛,OpenAI 投下了一枚重磅炸彈 —— 他們用一款全新的「通用推理模型」,成功奪下了 IMO 2025 的金牌!

6 道題,解出 5 道,狂攬 35 分!

要知道,此前表現(xiàn)最好的 Gemini 2.5 Pro,也只得了 13 分。

聯(lián)創(chuàng) Greg Brockman、負(fù)責(zé)人 Alexander Wei,以及 OpenAI 的各路研究員,紛紛在推上激動(dòng)宣布了這一里程碑式的成就!

對此,德?lián)渲?Noam Brown 表示,這個(gè)成績的意義甚至超越了「AI 攻克 IMO」本身。

消息一出,整個(gè)硅谷為之沸騰!

人們紛紛猜測,OpenAI 這次很可能祭出了一種顛覆性的推理技術(shù),徹底告別了傳統(tǒng)的 CoT 思維鏈。

這,不僅僅是一個(gè)模型的勝利,更是一個(gè)全新時(shí)代的開端!

更令人震驚的是,OpenAI 宣布,這個(gè)創(chuàng)造了歷史的模型,并非傳聞中的 GPT-5,而是一個(gè)全新的、實(shí)驗(yàn)性的模型!

而這個(gè)模型完全不會被發(fā)布,簡直太神秘了!

神秘模型,拿下 IMO 金牌

Alexander Wei 和他的團(tuán)隊(duì),讓模型在與人類完全相同的條件下進(jìn)行比賽:

兩個(gè) 4.5 小時(shí)的考試時(shí)段,沒有工具,沒有網(wǎng)絡(luò),僅憑對題目的理解,用自然語言寫下完整的證明過程。

然后,由三位前 IMO 獎(jiǎng)牌得主嚴(yán)格評分。

最終,模型以 35/42 的驚人高分,達(dá)到了金牌的水平。

相比之下,無論是在圍棋、Dota 還是其他復(fù)雜任務(wù),過去的 AI 想要獲得勝利,往往都要在特定領(lǐng)域進(jìn)行專門的訓(xùn)練。

但這一次,OpenAI 打破了這條鐵律 —— 新模型不僅不是 IMO「特供」,而且還能進(jìn)行長達(dá)數(shù)小時(shí)的思考。

相比之下,我們熟知的 o1 模型是以秒計(jì)算,Deep Research 也不過是以分鐘計(jì)算。

這種深度的、持久的創(chuàng)造性思維能力,正是以往 AI 難以逾越的天塹!

這意味著什么?是否達(dá)到了 AGI 水平?拿下 IMO 有何特殊?

首先,與以往的基準(zhǔn)相比,IMO 問題需要更高水平的持續(xù)創(chuàng)造性思維。

在推理時(shí)間范圍方面,現(xiàn)在已經(jīng)一路攀升:GSM8K(頂級人類約需 0.1 分鐘)→ MATH 基準(zhǔn)(約 1 分鐘)→ AIME(約 10 分鐘)→ IMO(約 100 分鐘)。

其次,IMO 的提交內(nèi)容是難以驗(yàn)證的多頁證明。

在此領(lǐng)域取得進(jìn)展需要超越具有明確、可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)范式。

通過這樣做,OpenAI 研究團(tuán)隊(duì)獲得了一個(gè)能夠在人類數(shù)學(xué)家層面構(gòu)建復(fù)雜且無懈可擊論點(diǎn)的模型。

此外該模型并非通過在「特定任務(wù)(IMO)」訓(xùn)練達(dá)到這一能力水平,而是在通用強(qiáng)化學(xué)習(xí)和測試時(shí)計(jì)算擴(kuò)展方面實(shí)現(xiàn)了新的突破。

所以,昨晚被曝光的 o3-alpha,難道只是前戲?

原來,這才是 OpenAI 真正憋著的大招!

完整解題過程

如果你有興趣,可以看看 OpenAI 新鮮放出的 2025 年 IMO 賽題解答。

模型解出了第一題到第五題(P1-P5),但沒能解出第六題(P6)。果然如傳聞所說,這次的第六題難度極高,全球僅有 6 人破解。

倉庫地址:https://github.com/aw31/openai-imo-2025-proofs/blob/main/README.md

下面我們來看看,這個(gè)新模型對于前五道題的具體解題過程。

第一題,是一道解析幾何題。

可以看出,解答這道題的關(guān)鍵點(diǎn),就是要找出覆蓋點(diǎn)的 n 條線,以及陽光線的可能數(shù)量。

模型采用了獨(dú)特的方法,確定了所有滿足條件的非負(fù)整數(shù) k。

引理:當(dāng) n≥4 時(shí),任何覆蓋 P_n 的 n 條直線必須使用三角形的一條邊。

對 n=3 的情況進(jìn)行精確分析。

對于一般的 n≥3,證明對于每個(gè) n 存在 k=0、1、3 的配置。

利用歸約引理完成主要結(jié)論的證明。

第二道題,是一道平面幾何題。

示意圖如下。

大神網(wǎng)友放出的解答中,想要直接證明過點(diǎn) H 且平行于 AP 的直線與三角形 BER 的外接圓相切,是很困難的。

不過,這個(gè)問題可以換成另一種表述:定義 X 為不包含 B 的一側(cè)的 EF 的中點(diǎn),如果能夠證明 HX 與 EF 平行,基本上就可以證明這個(gè)結(jié)論了。

另一方面,如果這條線的切線,那么它必須在中點(diǎn)處接觸圓。

因此,只要證明這兩點(diǎn)就足夠了。

而模型在證明過程中,主要完成了以下四步:

解析設(shè)定和參數(shù)。設(shè) P 為三角形 ACD 的外心。連接 AP 與兩個(gè)圓 Ω、Γ 的交點(diǎn)分別為點(diǎn) E、F。求過點(diǎn) B、E、F 的外接圓方程。

第三道題,是一道函數(shù)題。

在人類選手的解法中,這道題的關(guān)鍵是證明下圖中黃色的不等式。

模型對于這道題的解法,分為以下四步。

考慮 bonza 類型的函數(shù),即滿足性質(zhì) P_f 的函數(shù)。

當(dāng)函數(shù)在某個(gè)素?cái)?shù)處取值大于 1 時(shí),考慮模素?cái)?shù)意義下的同余關(guān)系。

推論:如果某個(gè)奇素?cái)?shù) p 滿足 f>1,那么整個(gè)函數(shù) f 必須是恒等函數(shù)。

進(jìn)入主要的結(jié)構(gòu)性引理:分析在非恒等函數(shù)的情況下,函數(shù)的結(jié)構(gòu)。

第四道題,是一道數(shù)論問題。

它的解題關(guān)鍵步驟可以化為如下形式。

模型在解答過程中,也采用了類似思路。

第五道題,考察的是博弈論。

這道題的解法,包含以下三部分。

模型在解題過程中,則是討論了以下三種情況。

當(dāng) λ ≥ c(無防御)時(shí),Alice 總是獲勝。

當(dāng) λ > c 時(shí),Alice 獲勝。

當(dāng) λ < c(c = 1/√2)時(shí),Bazza 獲勝。

第六道題,涉及到了圖形的組合數(shù)學(xué)。

這道公認(rèn)的難題,人類參賽者也只有 6 人可以做出,o3、o4-mini、Gemini 2.5 Pro、Grok-4、DeepSeek-R1 六個(gè)大模型也全員零分,即使是 OpenAI 的這個(gè)超強(qiáng)模型,也同樣折戟了。

目前看來,世界上還不存在能解出第六題的大模型。

一個(gè)彩蛋

Alexander Wei 宣布這個(gè)消息時(shí),使用了「草莓」的形象。

「Strawberry」是 OpenAI 當(dāng)初在內(nèi)部研發(fā)時(shí)使用的代號,用于推動(dòng)一項(xiàng)全新的推理模型項(xiàng)目,就是我們現(xiàn)在熟悉的「o」系列模型。

作者介紹

Alex Wei 是 OpenAI 的研究科學(xué)家,主要研究方向?yàn)榇笳Z言模型和推理。之前也曾研究過機(jī)器學(xué)習(xí)、博弈論和算法的交叉領(lǐng)域。

他在加州大學(xué)伯克利分校獲得計(jì)算機(jī)科學(xué)博士學(xué)位,師從 Nika Haghtalab、Michael I. Jordan 和 Jacob Steinhardt;在哈佛大學(xué)獲得學(xué)士學(xué)位和碩士學(xué)位,師從 Jelani Nelson 和 Scott Kominers。

他曾是 FAIR 團(tuán)隊(duì)的一員,參與構(gòu)建了首個(gè)在《外交》(Diplomacy)游戲中達(dá)到人類水平的人工智能 ——CICERO。該成果在 2022 年發(fā)表于《科學(xué)》雜志。

參考資料:

  • https://x.com/alexwei_/status/1946477742855532918

本文來自微信公眾號:新智元(ID:AI_era)


標(biāo)簽: OpenAI ChatGPT AI

小sao货水好多真紧h视频| 打麻将脱内衣的小说阿蕊| 99r在线播放| 特黄特色大片免费| 岛国大片免费在线观看| 蜜桃丶麻豆91制片厂| 日韩人妻无码一区二区三区久久 | 国产精品日韩欧美一区二区三区| 蜜桃导航一精品导航站| 最近中文字幕在线中文视频 | 国产精品人成在线观看| 亚洲精品免费在线观看| 又大又硬又爽又粗又快的视频免费| 日本亚洲欧美在线视观看| 国产熟女一区二区三区五月婷| 人与动人物欧美网站| 日批日韩在线观看| 国产国语高清在线视频二区| 亚洲中文字幕久久无码| 67194线路1(点击进入)| 国产又爽又粗又猛的视频| 久久精品福利视频| 国产高清自产拍av在线| 欧美日韩亚洲国产一区二区三区| 好吊妞在线新免费视频| 伊人精品视频一区二区三区| 免费在线公开视频| 亚洲综合色丁香婷婷六月图片 | xxxxx国产| 激情啪啪精品一区二区| 久久99精品久久只有精品| 国产强被迫伦姧在线观看无码| 乱码卡一卡二卡新区在线| 好爽好紧好多水| 伊人久久大香线蕉久久婷婷| silk131中字在线观看| 亚洲国产成人超福利久久精品| 1300部真实小u女视频在线| 日韩av无码一区二区三区| 日本a∨在线观看| 国产成人精品一区二区秒拍|