當(dāng)前位置: 首頁(yè) > 出行資訊 > 全國(guó) > 正文

wpk德州官網(wǎng):全球30名頂尖數(shù)學(xué)家秘密集會(huì)圍剿AI，當(dāng)場(chǎng)破防！驚呼已接近數(shù)學(xué)天才

發(fā)布時(shí)間：2025-06-22 來(lái)源：

WEpoker官網(wǎng)提供WPK(微撲克)APP正版最新安卓IOS蘋果下載地址鏈接。WPK通過(guò)先進(jìn)的加密技術(shù)和嚴(yán)格的監(jiān)管措施,WEpoker確保每一次對(duì)局都公平公正,讓您的每一分投入都安心無(wú)憂

o4-mini-medium碾壓人類平均水平（19%），解決了約22%題目。

wpk德州官網(wǎng)

因?yàn)樗麚?dān)心，如果用電子郵件這類傳統(tǒng)的聯(lián)絡(luò)方式，有可能就會(huì)被LLM掃描到，無(wú)意中成為訓(xùn)練數(shù)據(jù)，從而污染整個(gè)測(cè)試數(shù)據(jù)集。

wpk德州官網(wǎng)

陶哲軒認(rèn)為，這展示了未來(lái)的數(shù)學(xué)研究中，高度計(jì)算機(jī)輔助、中度計(jì)算機(jī)輔助與傳統(tǒng)「紙筆」方法之間將如何相互作用。

o4-mini每解不出一道題，該題的出題人便能獲得7500美元的獎(jiǎng)勵(lì)。

即使表現(xiàn)最好的模型，解出率也不到2%。

隨后，他開(kāi)始著手進(jìn)行第四等級(jí)的測(cè)試——這次，要找出100道即使對(duì)專業(yè)數(shù)學(xué)家也極具挑戰(zhàn)性的難題。

Ono出了一道題，是他專業(yè)領(lǐng)域內(nèi)的專家都公認(rèn)的數(shù)論開(kāi)放性問(wèn)題，可以說(shuō)是一道非常不錯(cuò)的考題，已經(jīng)達(dá)到了博士生的水平。

在五月中旬的一個(gè)周末，一場(chǎng)秘密數(shù)學(xué)峰會(huì)悄然召開(kāi)。

論文地址：https://arxiv.org/abs/2506.01896

其中一位數(shù)學(xué)家當(dāng)場(chǎng)折服，直言這些模型已經(jīng)接近了數(shù)學(xué)天才的水平。

在為期兩天的會(huì)議中，這些頂尖學(xué)者需要相互比拼，看誰(shuí)能設(shè)計(jì)出自己能解、卻又能難倒 AI推理機(jī)器人的題目。

結(jié)果顯示，o4-mini一共擊敗六組團(tuán)隊(duì)，在數(shù)學(xué)領(lǐng)域展現(xiàn)了驚人的潛力。

6月2日，F(xiàn)an Zheng在arXiv亮出的最新論文——又又又一次把和差集指數(shù)θ紀(jì)錄往上推了0.000027，從1.173050提升到了1.173077。

因此，Ono預(yù)測(cè)，在高等教育中培養(yǎng)創(chuàng)造力，將是讓數(shù)學(xué)這門學(xué)科薪火相傳的關(guān)鍵。

絞盡腦汁，誓要難倒AI

https://www.scientificamerican.com/article/inside-the-secret-meeting-where-mathematicians-struggled-to-outsmart-ai/

放眼全球，能提出這種問(wèn)題的人寥寥無(wú)幾，更不用說(shuō)給出解答了。

在2026年，AI將與搜索和符號(hào)數(shù)學(xué)工具相結(jié)合，成為數(shù)學(xué)研究中值得信賴的合著者。

結(jié)果如開(kāi)頭所見(jiàn)，數(shù)學(xué)家們徹底服了。

他充滿信心地把這道題給了o4-mini，結(jié)果在接下來(lái)的十分鐘里，他直接遭受了暴擊！

在周六深夜，全場(chǎng)數(shù)學(xué)家，都感覺(jué)十分挫敗——o4-mini出人意料的數(shù)學(xué)天賦，直接讓整個(gè)小組的努力付諸東流。

在比較簡(jiǎn)單的證明，比如函數(shù)極限的和定理中，Copilot還能準(zhǔn)確預(yù)測(cè)證明結(jié)構(gòu)和關(guān)鍵步驟，表現(xiàn)得就像個(gè)得力助手一樣。

0.000027——一個(gè)在顯微鏡下才分辨得出的跨度，卻把加法組合學(xué)的天花板又往上頂了一寸。

「我不想渲染恐慌，但在許多方面，這些LLM已經(jīng)超越了我們世界上絕大多數(shù)最優(yōu)秀的研究生。

到2025年2月，Glazer發(fā)現(xiàn)，o4-mini竟然能解出約20%的題目！

大受打擊的Ono在周日一大早就趕緊登上Signal，向所有與會(huì)者通報(bào)了情況。

它能幫助用戶快速上手Lean語(yǔ)言，提供語(yǔ)法提示，并智能補(bǔ)全基本定義和聲明。

在連續(xù)兩天用教授級(jí)難題轟炸這個(gè)AI后，研究者們驚愕地發(fā)現(xiàn)，它居然能解除一部分這世界上最難的可解問(wèn)題！

這種突破讓陶哲軒都驚嘆：「對(duì)我而言，這是一個(gè)引人入勝的例證?！?/p>

如果最終，AI達(dá)到了那個(gè)層次，那么顯然，數(shù)學(xué)家的角色將經(jīng)歷劇變。

就在最近，30位世界著名數(shù)學(xué)家齊聚UC伯克利，希望在一次秘密數(shù)學(xué)會(huì)議上超越AI。

最近，他一直在社交平臺(tái)上做出密集分享，給我們匯報(bào)AI解數(shù)學(xué)題的驚人進(jìn)展。

這時(shí)，陶哲軒不得不親自出馬，修正錯(cuò)誤，甚至完全接管證明。

他們要與AI一同在陶哲軒等人提出的FrontierMath基準(zhǔn)上，展開(kāi)終極對(duì)決。

而訓(xùn)出o4-mini后，OpenAI也一直十分關(guān)注它的解題能力。

這是因?yàn)椋腔趯ｉT的數(shù)據(jù)集訓(xùn)練，并獲得了更強(qiáng)的RLHF。這種方法，就能讓它比傳統(tǒng)的LLM更深入地鉆研復(fù)雜數(shù)學(xué)問(wèn)題。

例如，當(dāng)前的AlphaEvolve還極難用上后續(xù)論文中使用的漸近構(gòu)造；但另一方面，若沒(méi)有AlphaEvolve的暴力搜索，人類方法也很難發(fā)現(xiàn)這些改進(jìn)的切入點(diǎn)。

弗吉尼亞大學(xué)數(shù)學(xué)家、會(huì)議領(lǐng)導(dǎo)者兼評(píng)委Ken Ono將30名與會(huì)者分為六人一組。

Epoch AI，尋根問(wèn)底

這個(gè)項(xiàng)目的獎(jiǎng)勵(lì)，也是十分誘人。

GitHub Copilot在幫助新手入門和處理基礎(chǔ)任務(wù)時(shí)表現(xiàn)得相當(dāng)不錯(cuò)。

當(dāng)然，它并不是世界上唯一有此能力的模型，谷歌的Gemini 2.5 Flash也具備相似的能力。

為此，他要求了全球頂尖的數(shù)學(xué)家，要求他們必須簽署保密協(xié)議，甚至只能通過(guò)加密通訊應(yīng)用Signal交流。

為了加快進(jìn)度，Glazer推動(dòng)Epoch AI 在5月17日（周六）和18日（周日）這兩天，舉辦了這場(chǎng)線下會(huì)議。

LLM做數(shù)學(xué)，真的不行么？Epoch AI沒(méi)有放棄探索。

2024年9月，Epoch AI 聘請(qǐng)了剛獲得數(shù)學(xué)博士學(xué)位的Elliot Glazer，參與到一個(gè)代號(hào)為FrontierMath的全新新基準(zhǔn)測(cè)試項(xiàng)目中。

它先花了兩分鐘，檢索并吃透了相關(guān)領(lǐng)域的文獻(xiàn)，然后在屏幕上寫道，為了學(xué)習(xí)，它想先嘗試一個(gè)簡(jiǎn)化的「玩具」版本。

「當(dāng)某人用足夠權(quán)威的口吻說(shuō)話時(shí)，人們會(huì)感到敬畏。我認(rèn)為o4-mini已經(jīng)掌握了恐嚇式證明的精髓，因?yàn)樗f(shuō)每句話時(shí)都帶著不容置疑的自信?！?/p>

【新智元導(dǎo)讀】最近，30位世界頂尖數(shù)學(xué)家親自出馬，在UC伯克利對(duì)OpenAI o4-mini展開(kāi)「圍剿」，兩天連出教授級(jí)難題，結(jié)果卻當(dāng)場(chǎng)集體「破防」！有人直言：這個(gè)AI，的確已接近數(shù)學(xué)天才的水平。曾經(jīng)以為AGI遙遙無(wú)期，如今仿佛只剩臨門一腳了……

比如就在幾天前，他剛剛分享了這個(gè)消息。

AI做數(shù)學(xué)，到底有多強(qiáng)？

會(huì)議臨近結(jié)束時(shí)，整個(gè)團(tuán)隊(duì)也開(kāi)始思考，數(shù)學(xué)家的未來(lái)將何去何從。

不過(guò)，o4-mini能夠解決的問(wèn)題，至少被一組數(shù)學(xué)家團(tuán)隊(duì)破解。由此，人類團(tuán)隊(duì)總體上解決了約35%的題目。

討論轉(zhuǎn)向了那個(gè)無(wú)法回避的T5——那些連最頂尖的數(shù)學(xué)家也無(wú)法解決的問(wèn)題。

為了追蹤o4-mini的進(jìn)展，OpenAI此前曾委托非營(yíng)利組織Epoch AI設(shè)計(jì)300道解法尚未公開(kāi)的數(shù)學(xué)題，專門來(lái)考驗(yàn)大模型。

果然，當(dāng)Epoch AI用這些與訓(xùn)練數(shù)據(jù)截然不同的問(wèn)題去測(cè)試幾款推理模型時(shí)，它們幾乎全部翻車了。

最終，團(tuán)隊(duì)還是成功找到了10道難倒機(jī)器人的題，但AI的驚人能力，仍然讓所有研究人員驚嘆不已。

這個(gè)項(xiàng)目的目的，就是收集不同難度登機(jī)的全新數(shù)學(xué)題。其中，T1-T3分別覆蓋本科、研究生及研究級(jí)別的挑戰(zhàn)。

到那時(shí)，數(shù)學(xué)家或許將轉(zhuǎn)向只負(fù)責(zé)提出問(wèn)題，并與推理機(jī)器人互動(dòng)，引導(dǎo)它們發(fā)現(xiàn)新的數(shù)學(xué)真理，就像教授指導(dǎo)研究生一樣。

但總之，現(xiàn)在LLM的發(fā)展，已經(jīng)讓我們愈發(fā)接近曾經(jīng)陶哲軒的那個(gè)預(yù)言了——

「證明方法有歸納法、反證法，現(xiàn)在又多了個(gè)恐嚇?lè)ā！筜ang Hui He說(shuō)。

倫敦?cái)?shù)學(xué)科學(xué)研究所的數(shù)學(xué)家、AI數(shù)學(xué)應(yīng)用先驅(qū)之一的Yang Hui He說(shuō)：「這是一個(gè)頂尖優(yōu)秀的研究生才能做到的事——不，實(shí)際上它做得更多?！?/p>

在會(huì)上，數(shù)學(xué)家們將敲定最后一批最高階的數(shù)學(xué)難題。

結(jié)果誰(shuí)都沒(méi)想到，o4-mini給了數(shù)學(xué)家們致命一擊！

如此迅速、連續(xù)的取得進(jìn)展，都離不開(kāi)數(shù)學(xué)家與AI（AlphaEvolve）的相互配合。

幾分鐘后，它寫道，自己已準(zhǔn)備好解決那個(gè)更難的原題。

Copilot有時(shí)還會(huì)出現(xiàn)「幻覺(jué)」，生成壓根不存在的策略，或者犯一些低級(jí)錯(cuò)誤，導(dǎo)致證明過(guò)程亂成一團(tuán)。

其實(shí)AI做數(shù)學(xué)研究的這種超絕能力，陶哲軒早就心知肚明了。

Ono感覺(jué)，與它共事就好像與一位「強(qiáng)大的合作者」協(xié)作。

比如在處理函數(shù)極限的差和積定理時(shí)，它在復(fù)雜的代數(shù)推導(dǎo)、尋找合適的數(shù)學(xué)引理（比如與絕對(duì)值相關(guān)的引理）等方面顯得力不從心。

本次參賽的這個(gè)機(jī)器人，背后就是OpenAI的o4-mini，它已經(jīng)能進(jìn)行極其復(fù)雜的推理。

不僅如此，這次o4-mini的進(jìn)步，也給人類敲響了警鐘。

編輯：Aeneas 好困

我完全沒(méi)料到，要跟這樣的LLM交手，也從未在模型中見(jiàn)過(guò)如此強(qiáng)大的推理能力。這分明是科學(xué)家的工作方式。這太可怕了。

但當(dāng)證明變得復(fù)雜時(shí)，Copilot的短板就暴露出來(lái)了。

只見(jiàn)o4-mini如行云流水一般，實(shí)時(shí)演算出了完整的解法，還同步展示出了自己的推理過(guò)程。

又過(guò)了五分鐘，o4-mini 給出了一個(gè)正確卻又俏皮得意的解答。

而且，o4-mini的速度也令人驚異。它遠(yuǎn)遠(yuǎn)超越了專業(yè)的數(shù)學(xué)家，人類專家需要數(shù)周甚至數(shù)月才能完成的工作，它只需要幾分鐘。

為什么o4-mini做起數(shù)學(xué)題來(lái)，能這么強(qiáng)？

「我一直告訴我的同事們，那種認(rèn)為AGI永遠(yuǎn)不會(huì)到來(lái)，認(rèn)為它不過(guò)是臺(tái)計(jì)算機(jī)的想法，是大錯(cuò)特錯(cuò)的?！筄no說(shuō)。

Ono描述道：它開(kāi)始變得得意洋洋，甚至還加上一句，「無(wú)需引用，因?yàn)檫@個(gè)神秘?cái)?shù)字由我算出！」

Ono和He都擔(dān)心，o4-mini給出的結(jié)果可能會(huì)被人們過(guò)度信賴。

這些題的亮點(diǎn)就在于，因?yàn)榻夥ú⑽磫?wèn)世，就絕不可能存在于訓(xùn)練數(shù)據(jù)中。

比賽一共23題，限時(shí)4.5小時(shí)，實(shí)驗(yàn)最終得出：

結(jié)果，o4-mini讓人刮目相看。

數(shù)學(xué)家大受打擊：我以為AGI永遠(yuǎn)不會(huì)到來(lái)

三十位全球頂尖數(shù)學(xué)家與一個(gè)推理聊天機(jī)器人展開(kāi)對(duì)決，后者需要解答專家們專門設(shè)計(jì)的難題。

由于采用的方式格外嚴(yán)謹(jǐn)，起初項(xiàng)目的進(jìn)展十分緩慢。

下一篇：ATP挑戰(zhàn)賽決賽上演中國(guó)德比！吳易昺3盤險(xiǎn)勝，奪個(gè)人第6冠
上一篇：A股老板被留置84天歸來(lái)，身家暴增50億！

相關(guān)閱讀

推薦圖文

日本私營(yíng)航空公司“韌性”號(hào)月球著陸器失去聯(lián)系

陳學(xué)冬消失2年首曬照！頭發(fā)花白面容憔悴，車禍后遺癥如此嚴(yán)重？

最新信息

推薦信息

京公網(wǎng)安備 11010702001433號(hào) 京ICP備11022796號(hào)
電腦版 | 手機(jī)版

婷婷开心六月久久综合丁香,免费大片黄在线观看,黄片中文字幕免费大全110,国产69久久精品成人看,美女免费黄色av网站在线观看,91精品国产91久久久久久,在线观看黄片欧洲

wpk德州官網(wǎng):全球30名頂尖數(shù)學(xué)家秘密集會(huì)圍剿AI，當(dāng)場(chǎng)破防！驚呼已接近數(shù)學(xué)天才

wpk德州官網(wǎng):全球30名頂尖數(shù)學(xué)家秘密集會(huì)圍剿AI，當(dāng)場(chǎng)破防！驚呼已接近數(shù)學(xué)天才