HHpoker是一款線上德?lián)涓?jìng)技APP,擁有數(shù)據(jù)分析、互動(dòng)交流、牌譜回顧分享、模擬真實(shí)保險(xiǎn)等多種創(chuàng)新功能,幫助您控制浮動(dòng)風(fēng)險(xiǎn)。在HHpoker您可以與更多的德州愛好者練習(xí)&切磋,并且平臺(tái)、聯(lián)盟、俱樂部三方在反伙牌和作弊方面進(jìn)行24小時(shí)嚴(yán)格監(jiān)管巡查及嚴(yán)厲執(zhí)行,致力于為德?lián)渫婕掖蛟煲粋€(gè)公平公正綠色娛樂競(jìng)技的生態(tài)圈子。
以前夠不著的事,現(xiàn)在突然「能做」了。
很多人甚至連完整提示都沒寫過、沒舉過幾個(gè)例子、沒把AI接入工作流程,就放棄了。
也就是說,關(guān)鍵不是模型不行,而是你會(huì)不會(huì)用。
可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)
模型會(huì)嘗試一條解法,然后「啊這不行」,重新走另一條路徑。這種「反思式推理」正是RL訓(xùn)練難題過程中逐步顯現(xiàn)出來的。
還有一個(gè)有意思的地方:他們引入了Meta提出的「multi-token prediction」方法。
1. 過去一年中人工智能研究的變化;
現(xiàn)在做的哪些事,AI其實(shí)可以做得更好? 然后去試一試,動(dòng)手探索。
有研究估算,一張H100的浮點(diǎn)運(yùn)算能力,大致相當(dāng)于一顆人腦。
所以整體進(jìn)展的速度,可能會(huì)因此變慢。
但隨著時(shí)間推移,算力差距會(huì)被逐漸放大,帶來明顯的結(jié)果分化。
這些大模型的開發(fā)流程,實(shí)則是在巨大的時(shí)間壓力下倉促構(gòu)建的。
但當(dāng)我們把RL的規(guī)模拉大,總算力足夠大,就會(huì)看到從「專才」向「通才」過渡
而且,大家低估了現(xiàn)在AI實(shí)驗(yàn)室到底有多「糙」。
這就是「訓(xùn)練好」≠「實(shí)用性好」的現(xiàn)實(shí)挑戰(zhàn)。
網(wǎng)站能不能正常運(yùn)行?
只要你愿意開始、愿意嘗試、愿意申請(qǐng),你就可以參與,也能為AI做貢獻(xiàn)。
當(dāng)模型處理的任務(wù)越來越長、越來越復(fù)雜,它拿到 第一個(gè)獎(jiǎng)勵(lì)信號(hào) 的時(shí)間也會(huì)越來越久。
還有個(gè)被低估的因素:研究員們喜歡研究他們認(rèn)同的「智能標(biāo)準(zhǔn)」。
為什么LLMs比AlphaZero更接近AGI?
如果你手邊有10個(gè)工程師聽你調(diào)度,你會(huì)做什么? 如果有一家AI公司聽命于你,你能解決哪些問題? 以前夠不著的事,現(xiàn)在突然「能做」了。
相比之下,一部「值得獲獎(jiǎng)」的小說需要的是審美判斷與文學(xué)品味,
建廠周期很長,一旦觸頂,算力增長就會(huì)放緩。
能從真實(shí)任務(wù)中提取獎(jiǎng)勵(lì)信號(hào),而這些任務(wù)往往不像游戲那樣容易定義
在RL階段用,DeepSeek-R1和o1的是差不多的算力,所以年初它們之間差距不大。
但這只是難度更高,不代表做不到。
網(wǎng)站能不能正常運(yùn)行? 頁面有沒有崩? 用戶喜歡嗎?
只要你能為模型提供一個(gè)良好的「反饋閉環(huán)」(feedback loop),它通常就能做得不錯(cuò);但如果這個(gè)閉環(huán)不清晰,它就容易「迷路」。
模型現(xiàn)在能「看圖」,能畫圖,能理解復(fù)雜的概念,這些基本已經(jīng)實(shí)現(xiàn)。
但至少兩位創(chuàng)作者,已經(jīng)用LLM寫出了完整的長篇書稿。
因?yàn)樾枰P筒粌H能「學(xué)」,還能在稀疏獎(jiǎng)勵(lì)下自己「發(fā)現(xiàn)要學(xué)什么」:
具體而言,就是「可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)」(RL from verifiable rewards)。
這背后有兩個(gè)關(guān)鍵認(rèn)知差異:
所以大家總說:「AI只擅長被RL訓(xùn)練過的任務(wù)」。
對(duì)于Sholto Douglas的「AI取代人類白領(lǐng)工作」觀點(diǎn),網(wǎng)友紛紛表現(xiàn)出了極大的興趣。
意思是:我們能不能搞定AGI,基本就看這十年了。
而人類最有價(jià)值的能力,可能就是——
最早語言模型的調(diào)優(yōu)方法是RLHF(Reinforcement Learningfrom Human Feedback,從人類反饋中強(qiáng)化學(xué)習(xí)),典型的形式是「成對(duì)反饋」(pairwise feedback),即:
這并不是說AI一定會(huì)做某件事,或一定會(huì)朝某個(gè)方向發(fā)展。
更重要的是:認(rèn)真想清楚,你最想改變世界的是什么?
最后回到那個(gè)核心問題:AI智能體將開始實(shí)際使用電腦,完成白領(lǐng)工作,為什么是未來幾年內(nèi)的事?為什么不是幾十年?
為什么是數(shù)學(xué)、競(jìng)賽編程先突破?因?yàn)槟鞘撬麄冋J(rèn)可的「聰明」。
但模型其實(shí)呈現(xiàn)出「鋸齒狀」特征:
難以處理復(fù)雜的、跨多個(gè)文件的變更(multi-file changes),
只要能拿到最終獎(jiǎng)勵(lì),長任務(wù)反而更容易評(píng)估效果。
外界以為這些實(shí)驗(yàn)室運(yùn)轉(zhuǎn)得像完美機(jī)器,其實(shí)完全不是。
關(guān)鍵是:這種未來是不是即將到來?
長文中對(duì)有效算力的預(yù)測(cè)
Sholto Douglas等人給學(xué)生的建議是:掌握技術(shù),打好基礎(chǔ):學(xué)生物、學(xué)計(jì)算機(jī)、學(xué)物理。
第二,芯片問題,還包括電力、GDP等限制等可能讓算力增長停滯,而如果到2028或2030年還沒實(shí)現(xiàn)AGI,那之后每年的實(shí)現(xiàn)概率,也許就會(huì)開始大幅下滑。
沒有捷徑,大力出奇跡
這些信號(hào)都可以用來訓(xùn)練模型。
回顧過去十年的AI討論,有一種傳統(tǒng)看法是:
沒有什么通向AGI的神奇捷徑。
Leopold Aschenbrenner:專注于AGI的投資人,OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)前成員
哪種模型大小最優(yōu)? 哪個(gè)點(diǎn)的學(xué)習(xí)效率和算力開銷最平衡?
所以模型很可能會(huì)更早地在科學(xué)研究領(lǐng)域?qū)崿F(xiàn)「諾獎(jiǎng)級(jí)突破」,而不是先寫出一部能贏得普利策獎(jiǎng)的小說。
如果用這種「容易判斷的獎(jiǎng)勵(lì)信號(hào)」進(jìn)行預(yù)訓(xùn)練,會(huì)非常有幫助。
一開始模型的能力很「鋸齒」
【新智元導(dǎo)讀】AI頂流Claude升級(jí)了,程序員看了都沉默:不僅能寫代碼能力更強(qiáng)了,還能連續(xù)干活7小時(shí)不出大差錯(cuò)!AGI真要來了?這背后到底發(fā)生了什么?現(xiàn)在,還有機(jī)會(huì)加入AI行業(yè)嗎?如今做哪些準(zhǔn)備,才能在未來立足?
Sholto Douglas等人建議:
當(dāng)然,也不是說無腦堆大。
第一,業(yè)內(nèi)很多專家認(rèn)為——要在長上下文推理、多模態(tài)理解等方面實(shí)現(xiàn)突破,沒那么快。
在不斷試錯(cuò)中,DeepSeek一步步迭代出更優(yōu)的「約束兼容解」。
但奇怪的是,Meta后來并沒有把這個(gè)方法應(yīng)用到Llama系列模型里,而DeepSeek卻在他們的新模型論文中實(shí)現(xiàn)了。
這個(gè)數(shù)字到2028年預(yù)計(jì)將達(dá)到1億張。但即便如此,可能仍不夠。
每一步都是在「邊干邊補(bǔ)」的狀態(tài)下推進(jìn)的
對(duì)現(xiàn)實(shí)世界的「通用概念理解」 對(duì)語言的掌握 能從真實(shí)任務(wù)中提取獎(jiǎng)勵(lì)信號(hào),而這些任務(wù)往往不像游戲那樣容易定義
有一個(gè)很好的例子是:「回溯能力」的出現(xiàn)(backtracking)。
也許某一天,AI會(huì)在所有領(lǐng)域全面超越人類。但在那之前,還有一個(gè)很長的「合作階段」。
這個(gè)說法直覺上沒錯(cuò)。
因?yàn)槿祟愓悦磕?.25到2.5倍的速度擴(kuò)張算力,但在2028年左右,將迎來上限:晶圓產(chǎn)能的物理瓶頸。
但要做到這一點(diǎn),需要一整套復(fù)雜行為組合。
一旦模型把基礎(chǔ)能力打牢,AI也可以像人一樣:跳過簡(jiǎn)單部分,專練最難的環(huán)節(jié)。
但別忘了,這些任務(wù)本身就是語言、科學(xué)、編碼、心理狀態(tài)等多種領(lǐng)域的融合。
智能體的未來:操作電腦
為什么只加一點(diǎn)點(diǎn)訓(xùn)練、注意力或結(jié)構(gòu)調(diào)整,就可能達(dá)到「類人智能」?
如果模型太大——學(xué)得快,但推理太慢,算力消耗太大,不劃算。
當(dāng)時(shí)大家發(fā)現(xiàn):小模型只要在某個(gè)任務(wù)上做微調(diào)(fine-tune),效果就很強(qiáng)。
現(xiàn)在我們已經(jīng)看到了一些早期跡象,比如模型在推理類任務(wù)上的泛化能力,開始顯現(xiàn)。
RLVR沒學(xué)會(huì)新技能,是因?yàn)橥度氲乃懔Σ粔虼蟆?/p>
在未來很多年里,人類仍然非常重要。 只要那一天還沒到,你就還有機(jī)會(huì)和價(jià)值。
他們覺得:「要是模型能在AIME(美國數(shù)學(xué)競(jìng)賽)上贏我,那才是真的強(qiáng)?!?/p>
所以,請(qǐng)做好準(zhǔn)備,迎接多個(gè)版本的未來。
因?yàn)槟惚仨毣ǜ嘤?jì)算資源,才能判斷一次任務(wù)是否成功。
如果有一家AI公司聽命于你,你能解決哪些問題?
相比之下,「編碼」是更有價(jià)值、也更容易落地的方向。所以更值得優(yōu)先集中資源突破。
圖靈獎(jiǎng)得主Richard S. Sutton提出了強(qiáng)化學(xué)習(xí)的「苦澀的教訓(xùn)」
這就是「苦澀的教訓(xùn)」,必須接受。
假設(shè)能用美國全部電腦的屏幕行為數(shù)據(jù),只要預(yù)訓(xùn)練一次,就可以設(shè)計(jì)出完全不同的強(qiáng)化學(xué)習(xí)任務(wù)。
只要能電腦操作把表示成token輸入,LLM就能處理。
2025年,RL非常值得關(guān)注,因?yàn)橥锩嫱度氲乃懔?huì)遠(yuǎn)超以往。
不僅評(píng)估軟件工程,還要擴(kuò)展到所有白領(lǐng)工作。
現(xiàn)在的AI正在學(xué)會(huì)寫代碼。
而它確實(shí)已經(jīng)在從訓(xùn)練中泛化出這種混合能力了。
電腦操作唯一的區(qū)別是:比數(shù)學(xué)和編碼更難嵌入反饋回路中。
你要為這樣的未來做好準(zhǔn)備。
接觸到的數(shù)據(jù)越多,設(shè)計(jì)的訓(xùn)練任務(wù)就越豐富。
其實(shí),這已經(jīng)開始了。
隨著訓(xùn)練迭代,模型生成的輸出越來越接近人類「想要的答案」。
哪個(gè)點(diǎn)的學(xué)習(xí)效率和算力開銷最平衡?
這就是現(xiàn)在大家都在做的「平衡的科學(xué)」。
比如說,完成諾獎(jiǎng)級(jí)研究所涉及的任務(wù),往往具備更多層次的「可驗(yàn)證性」。
團(tuán)隊(duì)人手嚴(yán)重不足 優(yōu)先級(jí)很難排 每一步都是在「邊干邊補(bǔ)」的狀態(tài)下推進(jìn)的
現(xiàn)在做的哪些事,AI其實(shí)可以做得更好?
不需要什么「權(quán)威機(jī)構(gòu)」的許可,才能進(jìn)入AI領(lǐng)域。
LLM可以處理智力高度復(fù)雜的問題,但前提是問題上下文要明確、邊界要清晰。
「每生成5個(gè)token就要給一次獎(jiǎng)勵(lì)」的模式, 訓(xùn)練過程會(huì)變得非常慢,效率也很低。
黃仁勛曾說過:「我身邊有十萬個(gè)通用智能, 但我依然有價(jià)值。 因?yàn)槭俏以诟嬖V它們目標(biāo)是什么?!?/p>
Epoch AI估算的GPU算力變化和趨勢(shì)
現(xiàn)在已經(jīng)證明,模型確實(shí)可以在多個(gè)維度上達(dá)到人類智能的頂峰。
Meta當(dāng)時(shí)發(fā)過論文,講的是一次性預(yù)測(cè)多個(gè)token,而不是傳統(tǒng)的逐token預(yù)測(cè)。
這意味著:每完成一次任務(wù),所需的算力也會(huì)顯著增加。
這類都是典型的、非常干凈的獎(jiǎng)勵(lì)信號(hào)(clean reward signal)。
它的核心是:獎(jiǎng)勵(lì)信號(hào)必須是「干凈」的,也就是說——它必須準(zhǔn)確、明確、客觀。
這和GPT-2時(shí)代的討論很像。
你要想搞出真正通用的智能系統(tǒng),
但DeepSeek不斷碰到非常底層的硬件限制,然后思考:
如果未來一兩年內(nèi),智能體開始上崗,軟件工程實(shí)現(xiàn)自動(dòng),模型的使用價(jià)值將呈指數(shù)級(jí)增長。而這一切的前提,是海量算力的支持。
對(duì)現(xiàn)實(shí)世界的「通用概念理解」
它在某些環(huán)境里表現(xiàn)特別好(因?yàn)橛?xùn)練數(shù)據(jù)豐富),在另一些就不行。
https://www.dwarkesh.com/p/sholto-trenton-2 https://x.com/natolambert/status/1926293613312442810
論文鏈接:https://arxiv.org/abs/2404.19737
人類級(jí)別的推理能力,通常需要算力提升幾個(gè)數(shù)量級(jí)才能支撐。
我們還能把它們稱為「通用智能」嗎? 還是說,它們只是「訓(xùn)練在哪就聰明在哪」?
本質(zhì)上,「電腦操作智能體」(Computer Use Agent)和「軟件工程」智能體沒有多大區(qū)別。
在Dwarkesh Patel主持的節(jié)目中,Anthropic的Sholto Douglas、Trenton Bricken等人,一起討論了Claude 4是如何思考的。
如果你手邊有10個(gè)工程師聽你調(diào)度,你會(huì)做什么?
2. 新的強(qiáng)化學(xué)習(xí)(RL)體系以及其可擴(kuò)展性;
我們需要構(gòu)建連續(xù)分布的行為數(shù)據(jù)庫。
在當(dāng)前這套模型能力+訓(xùn)練環(huán)境下:
AI是線性尺度:先是「愚蠢的AI」,然后是AGI,最后是ASI(超級(jí)智能)。
Anthropic的很多員工也不是「AI出身」。
你看看AlphaGo,它已經(jīng)能主動(dòng)探索,AlphaZero還能泛化到新的視頻游戲,看起來擁有了一整套與世界互動(dòng)的先驗(yàn)?zāi)芰Α?/p>
如果任務(wù)比較模糊,或者需要在環(huán)境中反復(fù)探索、試錯(cuò)、迭代,它們就會(huì)吃力。
缺乏上下文信息(lack of context), 難以處理復(fù)雜的、跨多個(gè)文件的變更(multi-file changes), 以及任務(wù)本身的模糊性或規(guī)模不清晰的問題(scope of change/task)。
想象整個(gè)「可能世界的光譜」,提前為它們做準(zhǔn)備。
當(dāng)然,這一切仍然需要技術(shù)深度。
Ai2的科學(xué)家Nathan Lambert,也認(rèn)同這種觀點(diǎn):
程序設(shè)計(jì)競(jìng)賽(competitive programming)和數(shù)學(xué)推理。
比起只用互聯(lián)網(wǎng)上現(xiàn)有的公開數(shù)據(jù),這種訓(xùn)練方式會(huì)強(qiáng)得多,泛化能力也更好。
在軟件工程基準(zhǔn)測(cè)試SWE-bench中,Claude4與其他模型的比較
當(dāng)然,長期自主表現(xiàn)(long-running agentic performance)還欠佳,但它正在「蹣跚起步」。
你可以學(xué),而且比任何時(shí)候都容易。
語言模型能完成實(shí)際工作,就像真正的軟件工程師那樣。
一旦資源傾斜過來,這塊進(jìn)展也不會(huì)慢。
這些就非常主觀,難以量化。
缺乏上下文信息(lack of context),
以及任務(wù)本身的模糊性或規(guī)模不清晰的問題(scope of change/task)。
如果真的全被AI取代,那你做什么都無所謂;但在所有其他可能性中,你的選擇非常重要。
任務(wù)的難度可以分為兩個(gè)維度來理解:
什么時(shí)候用RL最合適?
4. 各國、勞動(dòng)者和學(xué)生應(yīng)如何為通用人工智能(AGI)做準(zhǔn)備。
只要模型能完成這條「長路徑」,它就能學(xué)到真正有用的能力。
另一個(gè)是任務(wù)所涉及的時(shí)間跨度(time horizon)。
現(xiàn)在還有太多「唾手可得」的效率提升空間。
尤其在強(qiáng)化學(xué)習(xí)中,模型要生成大量token,才能從中學(xué)習(xí)并獲取反饋。
人類本身就是生物意義上的通用智能。很多有價(jià)值的能力是通用的。
再者,有些人認(rèn)為人類離真正擁有長上下文、一致意圖、強(qiáng)多模態(tài)能力的AGI還很遠(yuǎn)。
要做好這件事,AI模型不僅要是個(gè)優(yōu)秀程序員,還得能用語言清晰思考,甚至有點(diǎn)哲學(xué)家氣質(zhì)。
這一點(diǎn)現(xiàn)在有了明確的證據(jù):如果提供合適的反饋機(jī)制,確實(shí)找到了某種算法,能讓模型表現(xiàn)出接近專家級(jí)人類的可靠性與性能。
他們都非常擅長為設(shè)計(jì)文章結(jié)構(gòu)和提示(scaffolding&prompting)。
關(guān)鍵在于推理的算力問題,但這被嚴(yán)重低估了。
但別忘了,人類面對(duì)困難任務(wù)時(shí),非常擅長拆解步驟、重點(diǎn)練習(xí)難點(diǎn)。
很多YC初創(chuàng)公司,已經(jīng)靠Claude寫出大部分代碼。
但他們天賦強(qiáng)、動(dòng)機(jī)足、腦子快,來自各個(gè)領(lǐng)域,卻都能做得很好。
這正是在「AGI實(shí)現(xiàn)速度」上,業(yè)內(nèi)意見分歧的關(guān)鍵所在。
但這也帶來一個(gè)問題:
所以現(xiàn)在的局面是: 模型在他們心目中已經(jīng)夠聰明了,但大家還沒把精力花在「電腦操作」這塊上。
最可能發(fā)生的情況是:你將擁有遠(yuǎn)超以往的杠桿能力。
3. 如何追蹤模型的思考過程;
就必須擴(kuò)規(guī)模、上大模型,愿意為此付出更多計(jì)算成本。
一開始模型的能力很「鋸齒」 但當(dāng)我們把RL的規(guī)模拉大,總算力足夠大,就會(huì)看到從「專才」向「通才」過渡
預(yù)計(jì)到今年年底,我們將看到更明確的進(jìn)展——
你以前學(xué)的專業(yè)、積累的經(jīng)驗(yàn),可能沒你以為的那么限制你。
但到了GPT-4這種規(guī)模,用足夠多樣的數(shù)據(jù)、足夠大的計(jì)算量去訓(xùn)練,它就能天然泛化到很多子任務(wù)上,而且比那些「專門訓(xùn)練的小模型」泛化得更好。
比如:你能不能靠互聯(lián)網(wǎng)賺錢?這是一個(gè)非常清晰的獎(jiǎng)勵(lì)信號(hào)。
比如,數(shù)學(xué)題的正確答案;代碼是否通過了單元測(cè)試。
所以,更理想的是提供一種能客觀判斷模型輸出是否正確的信號(hào)。
目前,全球大約有1000萬張H100級(jí)別的算力芯片。
未來幾年,還可以顯著增加訓(xùn)練算力,特別是在強(qiáng)化學(xué)習(xí)(RL)上。
但你讓它做Excel報(bào)表?無人在乎。
就AGI實(shí)現(xiàn)問題,Leopold Aschenbrenner寫了Situational Awareness。
強(qiáng)化學(xué)習(xí)現(xiàn)在也在走同樣的路徑:
現(xiàn)在看到的真正限制,其實(shí)是:
實(shí)驗(yàn)室在瘋狂招人、培訓(xùn)人,根本還沒輪到把「AI操作電腦」當(dāng)作重點(diǎn)。
所以這其實(shí)是一個(gè)「帕累托前沿」(Pareto Frontier)問題:
那如果你是大學(xué)生,或者剛開始職業(yè)生涯的人,現(xiàn)在該怎么辦?
每個(gè)人都擁有了「無限完美的私人導(dǎo)師」。
但顯然,現(xiàn)在回頭看,雖然現(xiàn)在深度學(xué)習(xí)還在使用其中很多方法,但AlphaZero本質(zhì)上并不是「AGI雛形」。
我們?cè)撟龅模菢?gòu)建一個(gè)類似SWE-bench的評(píng)估系統(tǒng)。
過去一年最大的變化是:強(qiáng)化學(xué)習(xí)(RL)終于在語言模型上真正奏效了。
理想條件下,我們想表達(dá)的算法是什么?
部分人覺得AI發(fā)展會(huì)很慢,比如說AlphaGo雖然厲害,但它離真正的通用人工智能(AGI)還很遠(yuǎn):
如果模型太小——推理很快,但學(xué)不到什么有用的東西;
這是理解強(qiáng)化學(xué)習(xí)的關(guān)鍵思維方式:
這部分對(duì)推理能力和執(zhí)行效率的要求非常高。
新方案通常非常簡(jiǎn)潔優(yōu)雅,再加上超強(qiáng)的工程能力,效果就出來了。
三人私交甚好,聊了2小時(shí)20多分鐘,主要集中在4個(gè)話題:
訓(xùn)練再好,如果推理慢或太貴,也難以落地。
如果以AGI達(dá)到人類推理效率為假設(shè),這意味著今天的地球上,理論上已經(jīng)能同時(shí)運(yùn)行1000萬個(gè)AGI。
——對(duì)強(qiáng)化學(xué)習(xí)算法太「友好」了。
短期內(nèi),需要認(rèn)真思考:
人類對(duì)兩段輸出打分,告訴模型哪一段更好。
把它們拆解成可衡量的任務(wù),進(jìn)行跟蹤和測(cè)量。
具體原因無人知曉,但這個(gè)差異很值得玩味。
目前,這種成果最明確地體現(xiàn)在兩個(gè)領(lǐng)域——
但如果你問:「什么才是真正有經(jīng)濟(jì)價(jià)值的?」
然后去試一試,動(dòng)手探索。
AlphaZero所處的任務(wù)環(huán)境——雙人對(duì)戰(zhàn)、完全信息游戲
一旦模型能搞定代碼,價(jià)值會(huì)呈超級(jí)指數(shù)級(jí)釋放。 而電腦操作雖然也重要,但優(yōu)先級(jí)自然就排后面了。
在現(xiàn)實(shí)限制下,我們又能表達(dá)什么?
如果投入算力總量的10%-25%,我猜模型會(huì)讓人刮目相看。
這才是我們真正接近「通用智能」的原因。
但問題在于,這種方法并不能真正提升模型在「高難度問題」上的表現(xiàn),因?yàn)槿祟惼鋵?shí)不是很擅長判斷「哪個(gè)答案更好」。
別讓你以前的工作方式或?qū)I(yè)背景變成束縛。
一個(gè)是任務(wù)的智力復(fù)雜度(intellectual complexity),
另外值得一提的是,Sholto Douglas在清華大學(xué)交流學(xué)習(xí)過。
其中,有個(gè)小標(biāo)題就叫做「This Decade or Bust」,大意為「這十年,不成則廢」。
相比之下,要構(gòu)建真正類似AGI的系統(tǒng),你必須搞定的是: