HHpoker是一款線上德?lián)涓偧糀PP,擁有數(shù)據(jù)分析、互動交流、牌譜回顧分享、模擬真實保險等多種創(chuàng)新功能,幫助您控制浮動風險。在HHpoker您可以與更多的德州愛好者練習&切磋,并且平臺、聯(lián)盟、俱樂部三方在反伙牌和作弊方面進行24小時嚴格監(jiān)管巡查及嚴厲執(zhí)行,致力于為德?lián)渫婕掖蛟煲粋€公平公正綠色娛樂競技的生態(tài)圈子。
在2026年,AI將與搜索和符號數(shù)學工具相結(jié)合,成為數(shù)學研究中值得信賴的合著者。
LLM做數(shù)學,真的不行么?Epoch AI沒有放棄探索。
「證明方法有歸納法、反證法,現(xiàn)在又多了個恐嚇法?!筜ang Hui He說。
這個項目的目的,就是收集不同難度登機的全新數(shù)學題。其中,T1-T3分別覆蓋本科、研究生及研究級別的挑戰(zhàn)。
而且,o4-mini的速度也令人驚異。它遠遠超越了專業(yè)的數(shù)學家,人類專家需要數(shù)周甚至數(shù)月才能完成的工作,它只需要幾分鐘。
AI做數(shù)學,到底有多強?
6月2日,F(xiàn)an Zheng在arXiv亮出的最新論文——又又又一次把和差集指數(shù)θ紀錄往上推了0.000027,從1.173050提升到了1.173077。
為此,他要求了全球頂尖的數(shù)學家,要求他們必須簽署保密協(xié)議,甚至只能通過加密通訊應(yīng)用Signal交流。
論文地址:https://arxiv.org/abs/2506.01896
Ono和He都擔心,o4-mini給出的結(jié)果可能會被人們過度信賴。
弗吉尼亞大學數(shù)學家、會議領(lǐng)導者兼評委Ken Ono將30名與會者分為六人一組。
為了加快進度,Glazer推動Epoch AI 在5月17日(周六)和18日(周日)這兩天,舉辦了這場線下會議。
到2025年2月,Glazer發(fā)現(xiàn),o4-mini竟然能解出約20%的題目!
Ono出了一道題,是他專業(yè)領(lǐng)域內(nèi)的專家都公認的數(shù)論開放性問題,可以說是一道非常不錯的考題,已經(jīng)達到了博士生的水平。
這時,陶哲軒不得不親自出馬,修正錯誤,甚至完全接管證明。
GitHub Copilot在幫助新手入門和處理基礎(chǔ)任務(wù)時表現(xiàn)得相當不錯。
幾分鐘后,它寫道,自己已準備好解決那個更難的原題。
本次參賽的這個機器人,背后就是OpenAI的o4-mini,它已經(jīng)能進行極其復(fù)雜的推理。
到那時,數(shù)學家或許將轉(zhuǎn)向只負責提出問題,并與推理機器人互動,引導它們發(fā)現(xiàn)新的數(shù)學真理,就像教授指導研究生一樣。
陶哲軒認為,這展示了未來的數(shù)學研究中,高度計算機輔助、中度計算機輔助與傳統(tǒng)「紙筆」方法之間將如何相互作用。
它先花了兩分鐘,檢索并吃透了相關(guān)領(lǐng)域的文獻,然后在屏幕上寫道,為了學習,它想先嘗試一個簡化的「玩具」版本。
https://www.scientificamerican.com/article/inside-the-secret-meeting-where-mathematicians-struggled-to-outsmart-ai/
例如,當前的AlphaEvolve還極難用上后續(xù)論文中使用的漸近構(gòu)造;但另一方面,若沒有AlphaEvolve的暴力搜索,人類方法也很難發(fā)現(xiàn)這些改進的切入點。
三十位全球頂尖數(shù)學家與一個推理聊天機器人展開對決,后者需要解答專家們專門設(shè)計的難題。
為什么o4-mini做起數(shù)學題來,能這么強?
在為期兩天的會議中,這些頂尖學者需要相互比拼,看誰能設(shè)計出自己能解、卻又能難倒 AI推理機器人的題目。
「我一直告訴我的同事們,那種認為AGI永遠不會到來,認為它不過是臺計算機的想法,是大錯特錯的?!筄no說。
由于采用的方式格外嚴謹,起初項目的進展十分緩慢。
結(jié)果誰都沒想到,o4-mini給了數(shù)學家們致命一擊!
他們要與AI一同在陶哲軒 等人提出的FrontierMath基準上,展開終極對決。
在周六深夜,全場數(shù)學家,都感覺十分挫敗——o4-mini出人意料的數(shù)學天賦,直接讓整個小組的努力付諸東流。
o4-mini每解不出一道題,該題的出題人便能獲得7500美元的獎勵。
但當證明變得復(fù)雜時,Copilot的短板就暴露出來了。
在會上,數(shù)學家們將敲定最后一批最高階的數(shù)學難題。
「當某人用足夠權(quán)威的口吻說話時,人們會感到敬畏。我認為o4-mini已經(jīng)掌握了恐嚇式證明的精髓,因為它說每句話時都帶著不容置疑的自信。」
它能幫助用戶快速上手Lean語言,提供語法提示,并智能補全基本定義和聲明。
放眼全球,能提出這種問題的人寥寥無幾,更不用說給出解答了。
Copilot有時還會出現(xiàn)「幻覺」,生成壓根不存在的策略,或者犯一些低級錯誤,導致證明過程亂成一團。
比賽一共23題,限時4.5小時,實驗最終得出:
數(shù)學家大受打擊:我以為AGI永遠不會到來
因此,Ono預(yù)測,在高等教育中培養(yǎng)創(chuàng)造力,將是讓數(shù)學這門學科薪火相傳的關(guān)鍵。
Ono感覺,與它共事就好像與一位「強大的合作者」協(xié)作。
最終,團隊還是成功找到了10道難倒機器人的題,但AI的驚人能力,仍然讓所有研究人員驚嘆不已。
果然,當Epoch AI用這些與訓練數(shù)據(jù)截然不同的問題去測試幾款推理模型時,它們幾乎全部翻車了。
即使表現(xiàn)最好的模型,解出率也不到2%。
而訓出o4-mini后,OpenAI也一直十分關(guān)注它的解題能力。
這個項目的獎勵,也是十分誘人。
如果最終,AI達到了那個層次,那么顯然,數(shù)學家的角色將經(jīng)歷劇變。
就在最近,30位世界著名數(shù)學家齊聚UC伯克利,希望在一次秘密數(shù)學會議上超越AI。
結(jié)果,o4-mini讓人刮目相看。
不僅如此,這次o4-mini的進步,也給人類敲響了警鐘。
這些題的亮點就在于,因為解法并未問世,就絕不可能存在于訓練數(shù)據(jù)中。
不過,o4-mini能夠解決的問題,至少被一組數(shù)學家團隊破解。由此,人類團隊總體上解決了約35%的題目。
這種突破讓陶哲軒都驚嘆:「對我而言,這是一個引人入勝的例證。」
【新智元導讀】最近,30位世界頂尖數(shù)學家親自出馬,在UC伯克利對OpenAI o4-mini展開「圍剿」,兩天連出教授級難題,結(jié)果卻當場集體「破防」!有人直言:這個AI,的確已接近數(shù)學天才的水平。曾經(jīng)以為AGI遙遙無期,如今仿佛只剩臨門一腳了……
結(jié)果顯示,o4-mini一共擊敗六組團隊,在數(shù)學領(lǐng)域展現(xiàn)了驚人的潛力。
隨后,他開始著手進行第四等級的測試——這次,要找出100道即使對專業(yè)數(shù)學家也極具挑戰(zhàn)性的難題。
會議臨近結(jié)束時,整個團隊也開始思考,數(shù)學家的未來將何去何從。
在連續(xù)兩天用教授級難題轟炸這個AI后,研究者們驚愕地發(fā)現(xiàn),它居然能解除一部分這世界上最難的可解問題!
o4-mini-medium碾壓人類平均水平(19%),解決了約22%題目。
最近,他一直在社交平臺上做出密集分享,給我們匯報AI解數(shù)學題的驚人進展。
比如在處理函數(shù)極限的差和積定理時,它在復(fù)雜的代數(shù)推導、尋找合適的數(shù)學引理(比如與絕對值相關(guān)的引理)等方面顯得力不從心。
其中一位數(shù)學家當場折服,直言這些模型已經(jīng)接近了數(shù)學天才的水平。
2024年9月,Epoch AI 聘請了剛獲得數(shù)學博士學位的Elliot Glazer,參與到一個代號為FrontierMath的全新新基準測試項目中。
當然,它并不是世界上唯一有此能力的模型,谷歌的Gemini 2.5 Flash也具備相似的能力。
大受打擊的Ono在周日一大早就趕緊登上Signal,向所有與會者通報了情況。
又過了五分鐘,o4-mini 給出了一個正確卻又俏皮得意的解答。
結(jié)果如開頭所見,數(shù)學家們徹底服了。
Ono描述道:它開始變得得意洋洋,甚至還加上一句,「無需引用,因為這個神秘數(shù)字由我算出!」
如此迅速、連續(xù)的取得進展,都離不開數(shù)學家與AI(AlphaEvolve)的相互配合。
但總之,現(xiàn)在LLM的發(fā)展,已經(jīng)讓我們愈發(fā)接近曾經(jīng)陶哲軒的那個預(yù)言了——
比如就在幾天前,他剛剛分享了這個消息。
編輯:Aeneas 好困
為了追蹤o4-mini的進展,OpenAI此前曾委托非營利組織Epoch AI設(shè)計300道解法尚未公開的數(shù)學題,專門來考驗大模型。
在五月中旬的一個周末,一場秘密數(shù)學峰會悄然召開。
他充滿信心地把這道題給了o4-mini,結(jié)果在接下來的十分鐘里,他直接遭受了暴擊!
0.000027——一個在顯微鏡下才分辨得出的跨度,卻把加法組合學的天花板又往上頂了一寸。
只見o4-mini如行云流水一般,實時演算出了完整的解法,還同步展示出了自己的推理過程。
絞盡腦汁,誓要難倒AI
討論轉(zhuǎn)向了那個無法回避的T5——那些連最頂尖的數(shù)學家也無法解決的問題。
「我不想渲染恐慌,但在許多方面,這些LLM已經(jīng)超越了我們世界上絕大多數(shù)最優(yōu)秀的研究生。
因為他擔心,如果用電子郵件這類傳統(tǒng)的聯(lián)絡(luò)方式,有可能就會被LLM掃描到,無意中成為訓練數(shù)據(jù),從而污染整個測試數(shù)據(jù)集。
我完全沒料到,要跟這樣的LLM交手,也從未在模型中見過如此強大的推理能力。這分明是科學家的工作方式。這太可怕了。
Epoch AI,尋根問底
其實AI做數(shù)學研究的這種超絕能力,陶哲軒早就心知肚明了。
在比較簡單的證明,比如函數(shù)極限的和定理中,Copilot還能準確預(yù)測證明結(jié)構(gòu)和關(guān)鍵步驟,表現(xiàn)得就像個得力助手一樣。
這是因為,它是基于專門的數(shù)據(jù)集訓練,并獲得了更強的RLHF。這種方法,就能讓它比傳統(tǒng)的LLM更深入地鉆研復(fù)雜數(shù)學問題。
倫敦數(shù)學科學研究所的數(shù)學家、AI數(shù)學應(yīng)用先驅(qū)之一的Yang Hui He說:「這是一個頂尖優(yōu)秀的研究生才能做到的事——不,實際上它做得更多。」