當(dāng)前位置: 首頁(yè) > 出行資訊 > 全國(guó) > 正文

HHPOKER官網(wǎng):RLHF已死，RLVR引爆AGI革命！Claude 4核心成員萬(wàn)字對(duì)談

發(fā)布時(shí)間：2025-06-22 來(lái)源：

HHpoker是一款線上德?lián)涓?jìng)技APP，擁有數(shù)據(jù)分析、互動(dòng)交流、牌譜回顧分享、模擬真實(shí)保險(xiǎn)等多種創(chuàng)新功能，幫助您控制浮動(dòng)風(fēng)險(xiǎn)。在HHpoker您可以與更多的德州愛(ài)好者練習(xí)&切磋，并且平臺(tái)、聯(lián)盟、俱樂(lè)部三方在反伙牌和作弊方面進(jìn)行24小時(shí)嚴(yán)格監(jiān)管巡查及嚴(yán)厲執(zhí)行，致力于為德?lián)渫婕掖蛟煲粋€(gè)公平公正綠色娛樂(lè)競(jìng)技的生態(tài)圈子。

只要能電腦操作把表示成token輸入，LLM就能處理。

HHPOKER官網(wǎng)

他們覺(jué)得：「要是模型能在AIME（美國(guó)數(shù)學(xué)競(jìng)賽）上贏我，那才是真的強(qiáng)?！?/p>

HHPOKER官網(wǎng)

隨著訓(xùn)練迭代，模型生成的輸出越來(lái)越接近人類「想要的答案」。

當(dāng)時(shí)大家發(fā)現(xiàn)：小模型只要在某個(gè)任務(wù)上做微調(diào)（fine-tune），效果就很強(qiáng)。

其實(shí)，這已經(jīng)開(kāi)始了。

在RL階段用，DeepSeek-R1和o1的是差不多的算力，所以年初它們之間差距不大。

但隨著時(shí)間推移，算力差距會(huì)被逐漸放大，帶來(lái)明顯的結(jié)果分化。

在當(dāng)前這套模型能力+訓(xùn)練環(huán)境下：

而它確實(shí)已經(jīng)在從訓(xùn)練中泛化出這種混合能力了。

AI是線性尺度：先是「愚蠢的AI」，然后是AGI，最后是ASI（超級(jí)智能）。

所以現(xiàn)在的局面是：模型在他們心目中已經(jīng)夠聰明了，但大家還沒(méi)把精力花在「電腦操作」這塊上。

這些就非常主觀，難以量化。

如果真的全被AI取代，那你做什么都無(wú)所謂；但在所有其他可能性中，你的選擇非常重要。

第一，業(yè)內(nèi)很多專家認(rèn)為——要在長(zhǎng)上下文推理、多模態(tài)理解等方面實(shí)現(xiàn)突破，沒(méi)那么快。

最早語(yǔ)言模型的調(diào)優(yōu)方法是RLHF（Reinforcement Learningfrom Human Feedback，從人類反饋中強(qiáng)化學(xué)習(xí)），典型的形式是「成對(duì)反饋」（pairwise feedback），即：

而人類最有價(jià)值的能力，可能就是——

對(duì)現(xiàn)實(shí)世界的「通用概念理解」對(duì)語(yǔ)言的掌握能從真實(shí)任務(wù)中提取獎(jiǎng)勵(lì)信號(hào)，而這些任務(wù)往往不像游戲那樣容易定義

沒(méi)有什么通向AGI的神奇捷徑。

但至少兩位創(chuàng)作者，已經(jīng)用LLM寫(xiě)出了完整的長(zhǎng)篇書(shū)稿。

所以這其實(shí)是一個(gè)「帕累托前沿」（Pareto Frontier）問(wèn)題：

我們還能把它們稱為「通用智能」嗎？還是說(shuō)，它們只是「訓(xùn)練在哪就聰明在哪」？

這一點(diǎn)現(xiàn)在有了明確的證據(jù)：如果提供合適的反饋機(jī)制，確實(shí)找到了某種算法，能讓模型表現(xiàn)出接近專家級(jí)人類的可靠性與性能。

理想條件下，我們想表達(dá)的算法是什么？

你以前學(xué)的專業(yè)、積累的經(jīng)驗(yàn)，可能沒(méi)你以為的那么限制你。

我們需要構(gòu)建連續(xù)分布的行為數(shù)據(jù)庫(kù)。

如果用這種「容易判斷的獎(jiǎng)勵(lì)信號(hào)」進(jìn)行預(yù)訓(xùn)練，會(huì)非常有幫助。

現(xiàn)在做的哪些事，AI其實(shí)可以做得更好？

智能體的未來(lái)：操作電腦

這正是在「AGI實(shí)現(xiàn)速度」上，業(yè)內(nèi)意見(jiàn)分歧的關(guān)鍵所在。

如果你手邊有10個(gè)工程師聽(tīng)你調(diào)度，你會(huì)做什么？如果有一家AI公司聽(tīng)命于你，你能解決哪些問(wèn)題？以前夠不著的事，現(xiàn)在突然「能做」了。

電腦操作唯一的區(qū)別是：比數(shù)學(xué)和編碼更難嵌入反饋回路中。

三人私交甚好，聊了2小時(shí)20多分鐘，主要集中在4個(gè)話題：

因?yàn)槟惚仨毣ǜ嘤?jì)算資源，才能判斷一次任務(wù)是否成功。

當(dāng)然，也不是說(shuō)無(wú)腦堆大。

在未來(lái)很多年里，人類仍然非常重要。只要那一天還沒(méi)到，你就還有機(jī)會(huì)和價(jià)值。

論文鏈接:https://arxiv.org/abs/2404.19737

就AGI實(shí)現(xiàn)問(wèn)題，Leopold Aschenbrenner寫(xiě)了Situational Awareness。

現(xiàn)在的AI正在學(xué)會(huì)寫(xiě)代碼。

不僅評(píng)估軟件工程，還要擴(kuò)展到所有白領(lǐng)工作。

尤其在強(qiáng)化學(xué)習(xí)中，模型要生成大量token，才能從中學(xué)習(xí)并獲取反饋。

他們都非常擅長(zhǎng)為設(shè)計(jì)文章結(jié)構(gòu)和提示（scaffolding&prompting）。

這些大模型的開(kāi)發(fā)流程，實(shí)則是在巨大的時(shí)間壓力下倉(cāng)促構(gòu)建的。

再者，有些人認(rèn)為人類離真正擁有長(zhǎng)上下文、一致意圖、強(qiáng)多模態(tài)能力的AGI還很遠(yuǎn)。

也許某一天，AI會(huì)在所有領(lǐng)域全面超越人類。但在那之前，還有一個(gè)很長(zhǎng)的「合作階段」。

【新智元導(dǎo)讀】AI頂流Claude升級(jí)了，程序員看了都沉默：不僅能寫(xiě)代碼能力更強(qiáng)了，還能連續(xù)干活7小時(shí)不出大差錯(cuò)！AGI真要來(lái)了？這背后到底發(fā)生了什么？現(xiàn)在，還有機(jī)會(huì)加入AI行業(yè)嗎？如今做哪些準(zhǔn)備，才能在未來(lái)立足？

但DeepSeek不斷碰到非常底層的硬件限制，然后思考：

Meta當(dāng)時(shí)發(fā)過(guò)論文，講的是一次性預(yù)測(cè)多個(gè)token，而不是傳統(tǒng)的逐token預(yù)測(cè)。

如果任務(wù)比較模糊，或者需要在環(huán)境中反復(fù)探索、試錯(cuò)、迭代，它們就會(huì)吃力。

意思是：我們能不能搞定AGI，基本就看這十年了。

那如果你是大學(xué)生，或者剛開(kāi)始職業(yè)生涯的人，現(xiàn)在該怎么辦？

一個(gè)是任務(wù)的智力復(fù)雜度（intellectual complexity），

別讓你以前的工作方式或?qū)I(yè)背景變成束縛。

比如，數(shù)學(xué)題的正確答案；代碼是否通過(guò)了單元測(cè)試。

每個(gè)人都擁有了「無(wú)限完美的私人導(dǎo)師」。

假設(shè)能用美國(guó)全部電腦的屏幕行為數(shù)據(jù)，只要預(yù)訓(xùn)練一次，就可以設(shè)計(jì)出完全不同的強(qiáng)化學(xué)習(xí)任務(wù)。

4. 各國(guó)、勞動(dòng)者和學(xué)生應(yīng)如何為通用人工智能（AGI）做準(zhǔn)備。

這背后有兩個(gè)關(guān)鍵認(rèn)知差異：

缺乏上下文信息（lack of context），難以處理復(fù)雜的、跨多個(gè)文件的變更（multi-file changes），以及任務(wù)本身的模糊性或規(guī)模不清晰的問(wèn)題（scope of change/task）。

可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)

最可能發(fā)生的情況是：你將擁有遠(yuǎn)超以往的杠桿能力。

長(zhǎng)文中對(duì)有效算力的預(yù)測(cè)

回顧過(guò)去十年的AI討論，有一種傳統(tǒng)看法是：

Sholto Douglas等人給學(xué)生的建議是：掌握技術(shù)，打好基礎(chǔ)：學(xué)生物、學(xué)計(jì)算機(jī)、學(xué)物理。

缺乏上下文信息（lack of context），

為什么是數(shù)學(xué)、競(jìng)賽編程先突破？因?yàn)槟鞘撬麄冋J(rèn)可的「聰明」。

但這也帶來(lái)一個(gè)問(wèn)題：

這意味著：每完成一次任務(wù)，所需的算力也會(huì)顯著增加。

還有一個(gè)有意思的地方：他們引入了Meta提出的「multi-token prediction」方法。

Epoch AI估算的GPU算力變化和趨勢(shì)

你可以學(xué)，而且比任何時(shí)候都容易。

這部分對(duì)推理能力和執(zhí)行效率的要求非常高。

在不斷試錯(cuò)中，DeepSeek一步步迭代出更優(yōu)的「約束兼容解」。

但奇怪的是，Meta后來(lái)并沒(méi)有把這個(gè)方法應(yīng)用到Llama系列模型里，而DeepSeek卻在他們的新模型論文中實(shí)現(xiàn)了。

它的核心是：獎(jiǎng)勵(lì)信號(hào)必須是「干凈」的，也就是說(shuō)——它必須準(zhǔn)確、明確、客觀。

這才是我們真正接近「通用智能」的原因。

關(guān)鍵在于推理的算力問(wèn)題，但這被嚴(yán)重低估了。

相比之下，一部「值得獲獎(jiǎng)」的小說(shuō)需要的是審美判斷與文學(xué)品味，

如果你手邊有10個(gè)工程師聽(tīng)你調(diào)度，你會(huì)做什么？

2. 新的強(qiáng)化學(xué)習(xí)（RL）體系以及其可擴(kuò)展性；

目前，全球大約有1000萬(wàn)張H100級(jí)別的算力芯片。

當(dāng)模型處理的任務(wù)越來(lái)越長(zhǎng)、越來(lái)越復(fù)雜，它拿到第一個(gè)獎(jiǎng)勵(lì)信號(hào) 的時(shí)間也會(huì)越來(lái)越久。

Sholto Douglas等人建議：

現(xiàn)在做的哪些事，AI其實(shí)可以做得更好？然后去試一試，動(dòng)手探索。

只要能拿到最終獎(jiǎng)勵(lì)，長(zhǎng)任務(wù)反而更容易評(píng)估效果。

現(xiàn)在已經(jīng)證明，模型確實(shí)可以在多個(gè)維度上達(dá)到人類智能的頂峰。

不需要什么「權(quán)威機(jī)構(gòu)」的許可，才能進(jìn)入AI領(lǐng)域。

如果投入算力總量的10%-25%，我猜模型會(huì)讓人刮目相看。

RLVR沒(méi)學(xué)會(huì)新技能，是因?yàn)橥度氲乃懔Σ粔虼蟆?/p>

人類本身就是生物意義上的通用智能。很多有價(jià)值的能力是通用的。

一開(kāi)始模型的能力很「鋸齒」

為什么只加一點(diǎn)點(diǎn)訓(xùn)練、注意力或結(jié)構(gòu)調(diào)整，就可能達(dá)到「類人智能」？

但模型其實(shí)呈現(xiàn)出「鋸齒狀」特征：

新方案通常非常簡(jiǎn)潔優(yōu)雅，再加上超強(qiáng)的工程能力，效果就出來(lái)了。

語(yǔ)言模型能完成實(shí)際工作，就像真正的軟件工程師那樣。

具體原因無(wú)人知曉，但這個(gè)差異很值得玩味。

具體而言，就是「可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)」（RL from verifiable rewards）。

一旦模型把基礎(chǔ)能力打牢，AI也可以像人一樣：跳過(guò)簡(jiǎn)單部分，專練最難的環(huán)節(jié)。

本質(zhì)上，「電腦操作智能體」（Computer Use Agent）和「軟件工程」智能體沒(méi)有多大區(qū)別。

——對(duì)強(qiáng)化學(xué)習(xí)算法太「友好」了。

Leopold Aschenbrenner：專注于AGI的投資人，OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)前成員

一旦資源傾斜過(guò)來(lái)，這塊進(jìn)展也不會(huì)慢。

在Dwarkesh Patel主持的節(jié)目中，Anthropic的Sholto Douglas、Trenton Bricken等人，一起討論了Claude 4是如何思考的。

為什么LLMs比AlphaZero更接近AGI？

你要為這樣的未來(lái)做好準(zhǔn)備。

如果模型太大——學(xué)得快，但推理太慢，算力消耗太大，不劃算。

但你讓它做Excel報(bào)表？無(wú)人在乎。

比起只用互聯(lián)網(wǎng)上現(xiàn)有的公開(kāi)數(shù)據(jù)，這種訓(xùn)練方式會(huì)強(qiáng)得多，泛化能力也更好。

預(yù)計(jì)到今年年底，我們將看到更明確的進(jìn)展——

Anthropic的很多員工也不是「AI出身」。

哪種模型大小最優(yōu)？哪個(gè)點(diǎn)的學(xué)習(xí)效率和算力開(kāi)銷最平衡？

有一個(gè)很好的例子是：「回溯能力」的出現(xiàn)（backtracking）。

很多YC初創(chuàng)公司，已經(jīng)靠Claude寫(xiě)出大部分代碼。

模型會(huì)嘗試一條解法，然后「啊這不行」，重新走另一條路徑。這種「反思式推理」正是RL訓(xùn)練難題過(guò)程中逐步顯現(xiàn)出來(lái)的。

如果未來(lái)一兩年內(nèi)，智能體開(kāi)始上崗，軟件工程實(shí)現(xiàn)自動(dòng)，模型的使用價(jià)值將呈指數(shù)級(jí)增長(zhǎng)。而這一切的前提，是海量算力的支持。

2025年，RL非常值得關(guān)注，因?yàn)橥锩嫱度氲乃懔?huì)遠(yuǎn)超以往。

關(guān)鍵是：這種未來(lái)是不是即將到來(lái)？

在軟件工程基準(zhǔn)測(cè)試SWE-bench中，Claude4與其他模型的比較

把它們拆解成可衡量的任務(wù)，進(jìn)行跟蹤和測(cè)量。

所以模型很可能會(huì)更早地在科學(xué)研究領(lǐng)域?qū)崿F(xiàn)「諾獎(jiǎng)級(jí)突破」，而不是先寫(xiě)出一部能贏得普利策獎(jiǎng)的小說(shuō)。

對(duì)現(xiàn)實(shí)世界的「通用概念理解」

現(xiàn)在還有太多「唾手可得」的效率提升空間。

只要你能為模型提供一個(gè)良好的「反饋閉環(huán)」（feedback loop），它通常就能做得不錯(cuò)；但如果這個(gè)閉環(huán)不清晰，它就容易「迷路」。

但如果你問(wèn)：「什么才是真正有經(jīng)濟(jì)價(jià)值的？」

如果以AGI達(dá)到人類推理效率為假設(shè)，這意味著今天的地球上，理論上已經(jīng)能同時(shí)運(yùn)行1000萬(wàn)個(gè)AGI。

部分人覺(jué)得AI發(fā)展會(huì)很慢，比如說(shuō)AlphaGo雖然厲害，但它離真正的通用人工智能(AGI)還很遠(yuǎn)：

比如：你能不能靠互聯(lián)網(wǎng)賺錢(qián)？這是一個(gè)非常清晰的獎(jiǎng)勵(lì)信號(hào)。

但別忘了，人類面對(duì)困難任務(wù)時(shí)，非常擅長(zhǎng)拆解步驟、重點(diǎn)練習(xí)難點(diǎn)。

也就是說(shuō)，關(guān)鍵不是模型不行，而是你會(huì)不會(huì)用。

Ai2的科學(xué)家Nathan Lambert，也認(rèn)同這種觀點(diǎn)：

然后去試一試，動(dòng)手探索。

當(dāng)然，這一切仍然需要技術(shù)深度。

但當(dāng)我們把RL的規(guī)模拉大，總算力足夠大，就會(huì)看到從「專才」向「通才」過(guò)渡

相比之下，「編碼」是更有價(jià)值、也更容易落地的方向。所以更值得優(yōu)先集中資源突破。

難以處理復(fù)雜的、跨多個(gè)文件的變更（multi-file changes），

什么時(shí)候用RL最合適？

目前，這種成果最明確地體現(xiàn)在兩個(gè)領(lǐng)域——

短期內(nèi)，需要認(rèn)真思考：

在現(xiàn)實(shí)限制下，我們又能表達(dá)什么？

而且，大家低估了現(xiàn)在AI實(shí)驗(yàn)室到底有多「糙」。

但他們天賦強(qiáng)、動(dòng)機(jī)足、腦子快，來(lái)自各個(gè)領(lǐng)域，卻都能做得很好。

要做好這件事，AI模型不僅要是個(gè)優(yōu)秀程序員，還得能用語(yǔ)言清晰思考，甚至有點(diǎn)哲學(xué)家氣質(zhì)。

過(guò)去一年最大的變化是：強(qiáng)化學(xué)習(xí)（RL）終于在語(yǔ)言模型上真正奏效了。

相比之下，要構(gòu)建真正類似AGI的系統(tǒng)，你必須搞定的是：

所以，更理想的是提供一種能客觀判斷模型輸出是否正確的信號(hào)。

接觸到的數(shù)據(jù)越多，設(shè)計(jì)的訓(xùn)練任務(wù)就越豐富。

所以整體進(jìn)展的速度，可能會(huì)因此變慢。

未來(lái)幾年，還可以顯著增加訓(xùn)練算力，特別是在強(qiáng)化學(xué)習(xí)（RL）上。

這就是「苦澀的教訓(xùn)」，必須接受。

但到了GPT-4這種規(guī)模，用足夠多樣的數(shù)據(jù)、足夠大的計(jì)算量去訓(xùn)練，它就能天然泛化到很多子任務(wù)上，而且比那些「專門(mén)訓(xùn)練的小模型」泛化得更好。

這和GPT-2時(shí)代的討論很像。

訓(xùn)練再好，如果推理慢或太貴，也難以落地。

它在某些環(huán)境里表現(xiàn)特別好（因?yàn)橛?xùn)練數(shù)據(jù)豐富），在另一些就不行。

因?yàn)槿祟愓悦磕?.25到2.5倍的速度擴(kuò)張算力，但在2028年左右，將迎來(lái)上限：晶圓產(chǎn)能的物理瓶頸。

我們?cè)撟龅模菢?gòu)建一個(gè)類似SWE-bench的評(píng)估系統(tǒng)。

人類級(jí)別的推理能力，通常需要算力提升幾個(gè)數(shù)量級(jí)才能支撐。

如果有一家AI公司聽(tīng)命于你，你能解決哪些問(wèn)題？

沒(méi)有捷徑，大力出奇跡

這就是「訓(xùn)練好」≠「實(shí)用性好」的現(xiàn)實(shí)挑戰(zhàn)。

3. 如何追蹤模型的思考過(guò)程；

很多人甚至連完整提示都沒(méi)寫(xiě)過(guò)、沒(méi)舉過(guò)幾個(gè)例子、沒(méi)把AI接入工作流程，就放棄了。

這并不是說(shuō)AI一定會(huì)做某件事，或一定會(huì)朝某個(gè)方向發(fā)展。

人類對(duì)兩段輸出打分，告訴模型哪一段更好。

LLM可以處理智力高度復(fù)雜的問(wèn)題，但前提是問(wèn)題上下文要明確、邊界要清晰。

網(wǎng)站能不能正常運(yùn)行？

但顯然，現(xiàn)在回頭看，雖然現(xiàn)在深度學(xué)習(xí)還在使用其中很多方法，但AlphaZero本質(zhì)上并不是「AGI雛形」。

有研究估算，一張H100的浮點(diǎn)運(yùn)算能力，大致相當(dāng)于一顆人腦。

更重要的是：認(rèn)真想清楚，你最想改變世界的是什么？

強(qiáng)化學(xué)習(xí)現(xiàn)在也在走同樣的路徑：

比如說(shuō)，完成諾獎(jiǎng)級(jí)研究所涉及的任務(wù)，往往具備更多層次的「可驗(yàn)證性」。

現(xiàn)在看到的真正限制，其實(shí)是：

如果模型太小——推理很快，但學(xué)不到什么有用的東西；

這個(gè)說(shuō)法直覺(jué)上沒(méi)錯(cuò)。

程序設(shè)計(jì)競(jìng)賽（competitive programming）和數(shù)學(xué)推理。

想象整個(gè)「可能世界的光譜」，提前為它們做準(zhǔn)備。

團(tuán)隊(duì)人手嚴(yán)重不足優(yōu)先級(jí)很難排每一步都是在「邊干邊補(bǔ)」的狀態(tài)下推進(jìn)的

黃仁勛曾說(shuō)過(guò)：「我身邊有十萬(wàn)個(gè)通用智能，但我依然有價(jià)值。因?yàn)槭俏以诟嬖V它們目標(biāo)是什么?！?/p>

但問(wèn)題在于，這種方法并不能真正提升模型在「高難度問(wèn)題」上的表現(xiàn)，因?yàn)槿祟惼鋵?shí)不是很擅長(zhǎng)判斷「哪個(gè)答案更好」。

模型現(xiàn)在能「看圖」，能畫(huà)圖，能理解復(fù)雜的概念，這些基本已經(jīng)實(shí)現(xiàn)。

當(dāng)然，長(zhǎng)期自主表現(xiàn)（long-running agentic performance）還欠佳，但它正在「蹣跚起步」。

只要你愿意開(kāi)始、愿意嘗試、愿意申請(qǐng)，你就可以參與，也能為AI做貢獻(xiàn)。

能從真實(shí)任務(wù)中提取獎(jiǎng)勵(lì)信號(hào)，而這些任務(wù)往往不像游戲那樣容易定義

還有個(gè)被低估的因素：研究員們喜歡研究他們認(rèn)同的「智能標(biāo)準(zhǔn)」。

這就是現(xiàn)在大家都在做的「平衡的科學(xué)」。

https://www.dwarkesh.com/p/sholto-trenton-2 https://x.com/natolambert/status/1926293613312442810

就必須擴(kuò)規(guī)模、上大模型，愿意為此付出更多計(jì)算成本。

另一個(gè)是任務(wù)所涉及的時(shí)間跨度（time horizon）。

第二，芯片問(wèn)題，還包括電力、GDP等限制等可能讓算力增長(zhǎng)停滯，而如果到2028或2030年還沒(méi)實(shí)現(xiàn)AGI，那之后每年的實(shí)現(xiàn)概率，也許就會(huì)開(kāi)始大幅下滑。

AlphaZero所處的任務(wù)環(huán)境——雙人對(duì)戰(zhàn)、完全信息游戲

建廠周期很長(zhǎng)，一旦觸頂，算力增長(zhǎng)就會(huì)放緩。

最后回到那個(gè)核心問(wèn)題：AI智能體將開(kāi)始實(shí)際使用電腦，完成白領(lǐng)工作，為什么是未來(lái)幾年內(nèi)的事？為什么不是幾十年？

實(shí)驗(yàn)室在瘋狂招人、培訓(xùn)人，根本還沒(méi)輪到把「AI操作電腦」當(dāng)作重點(diǎn)。

這個(gè)數(shù)字到2028年預(yù)計(jì)將達(dá)到1億張。但即便如此，可能仍不夠。

這些信號(hào)都可以用來(lái)訓(xùn)練模型。

一開(kāi)始模型的能力很「鋸齒」但當(dāng)我們把RL的規(guī)模拉大，總算力足夠大，就會(huì)看到從「專才」向「通才」過(guò)渡

你看看AlphaGo，它已經(jīng)能主動(dòng)探索，AlphaZero還能泛化到新的視頻游戲，看起來(lái)?yè)碛辛艘徽着c世界互動(dòng)的先驗(yàn)?zāi)芰Α?/p>

所以，請(qǐng)做好準(zhǔn)備，迎接多個(gè)版本的未來(lái)。

對(duì)于Sholto Douglas的「AI取代人類白領(lǐng)工作」觀點(diǎn)，網(wǎng)友紛紛表現(xiàn)出了極大的興趣。

其中，有個(gè)小標(biāo)題就叫做「This Decade or Bust」，大意為「這十年，不成則廢」。

每一步都是在「邊干邊補(bǔ)」的狀態(tài)下推進(jìn)的

以及任務(wù)本身的模糊性或規(guī)模不清晰的問(wèn)題（scope of change/task）。

網(wǎng)站能不能正常運(yùn)行？頁(yè)面有沒(méi)有崩？用戶喜歡嗎？

這是理解強(qiáng)化學(xué)習(xí)的關(guān)鍵思維方式：

這類都是典型的、非常干凈的獎(jiǎng)勵(lì)信號(hào)（clean reward signal）。

但這只是難度更高，不代表做不到。

「每生成5個(gè)token就要給一次獎(jiǎng)勵(lì)」的模式，訓(xùn)練過(guò)程會(huì)變得非常慢，效率也很低。

只要模型能完成這條「長(zhǎng)路徑」，它就能學(xué)到真正有用的能力。

哪個(gè)點(diǎn)的學(xué)習(xí)效率和算力開(kāi)銷最平衡？

因?yàn)樾枰Ｐ筒粌H能「學(xué)」，還能在稀疏獎(jiǎng)勵(lì)下自己「發(fā)現(xiàn)要學(xué)什么」：

你要想搞出真正通用的智能系統(tǒng)，

任務(wù)的難度可以分為兩個(gè)維度來(lái)理解：

但別忘了，這些任務(wù)本身就是語(yǔ)言、科學(xué)、編碼、心理狀態(tài)等多種領(lǐng)域的融合。

但要做到這一點(diǎn)，需要一整套復(fù)雜行為組合。

現(xiàn)在我們已經(jīng)看到了一些早期跡象，比如模型在推理類任務(wù)上的泛化能力，開(kāi)始顯現(xiàn)。

另外值得一提的是，Sholto Douglas在清華大學(xué)交流學(xué)習(xí)過(guò)。

外界以為這些實(shí)驗(yàn)室運(yùn)轉(zhuǎn)得像完美機(jī)器，其實(shí)完全不是。

一旦模型能搞定代碼，價(jià)值會(huì)呈超級(jí)指數(shù)級(jí)釋放。而電腦操作雖然也重要，但優(yōu)先級(jí)自然就排后面了。

以前夠不著的事，現(xiàn)在突然「能做」了。

1. 過(guò)去一年中人工智能研究的變化；

所以大家總說(shuō)：「AI只擅長(zhǎng)被RL訓(xùn)練過(guò)的任務(wù)」。

圖靈獎(jiǎng)得主Richard S. Sutton提出了強(qiáng)化學(xué)習(xí)的「苦澀的教訓(xùn)」

下一篇：波蘭2-0摩爾多瓦，卡什破門(mén)，斯利什錦上添花
上一篇：“呼吸感”穿搭今年夏天太火了，時(shí)髦松弛又減齡！

相關(guān)閱讀

推薦圖文

千萬(wàn)達(dá)人十萬(wàn)村播，助“荔”大行動(dòng)火力全開(kāi)

斯特拉馬喬尼：小因離任讓國(guó)米措手不及，選擇齊沃能延續(xù)352體系

最新信息

推薦信息

京公網(wǎng)安備 11010702001433號(hào) 京ICP備11022796號(hào)
電腦版 | 手機(jī)版

婷婷开心六月久久综合丁香,免费大片黄在线观看,黄片中文字幕免费大全110,国产69久久精品成人看,美女免费黄色av网站在线观看,91精品国产91久久久久久,在线观看黄片欧洲

HHPOKER官網(wǎng):RLHF已死，RLVR引爆AGI革命！Claude 4核心成員萬(wàn)字對(duì)談