當前位置: 首頁 > 出行資訊 > 全國 > 正文

WPKAPP:RLHF已死，RLVR引爆AGI革命！Claude 4核心成員萬字對談

發(fā)布時間：2025-06-22 來源：

wpk德州官網(wǎng)最新版是一款人氣火爆的德州游戲,全新升級的競技場次,絕對沒有任何的卡頓情況,可以放心大膽的加入對局,每次都是隨機進行匹配,海量話費可以拿到手軟,不需要擔心作弊的情況,保證游戲的公平公正性

當然，長期自主表現(xiàn)（long-running agentic performance）還欠佳，但它正在「蹣跚起步」。

WPKAPP

第一，業(yè)內(nèi)很多專家認為——要在長上下文推理、多模態(tài)理解等方面實現(xiàn)突破，沒那么快。

WPKAPP

這些就非常主觀，難以量化。

再者，有些人認為人類離真正擁有長上下文、一致意圖、強多模態(tài)能力的AGI還很遠。

所以，請做好準備，迎接多個版本的未來。

假設能用美國全部電腦的屏幕行為數(shù)據(jù)，只要預訓練一次，就可以設計出完全不同的強化學習任務。

Anthropic的很多員工也不是「AI出身」。

網(wǎng)站能不能正常運行？頁面有沒有崩？用戶喜歡嗎？

但到了GPT-4這種規(guī)模，用足夠多樣的數(shù)據(jù)、足夠大的計算量去訓練，它就能天然泛化到很多子任務上，而且比那些「專門訓練的小模型」泛化得更好。

這就是「苦澀的教訓」，必須接受。

但顯然，現(xiàn)在回頭看，雖然現(xiàn)在深度學習還在使用其中很多方法，但AlphaZero本質(zhì)上并不是「AGI雛形」。

另一個是任務所涉及的時間跨度（time horizon）。

沒有捷徑，大力出奇跡

如果你手邊有10個工程師聽你調(diào)度，你會做什么？如果有一家AI公司聽命于你，你能解決哪些問題？以前夠不著的事，現(xiàn)在突然「能做」了。

這個數(shù)字到2028年預計將達到1億張。但即便如此，可能仍不夠。

對于Sholto Douglas的「AI取代人類白領工作」觀點，網(wǎng)友紛紛表現(xiàn)出了極大的興趣。

4. 各國、勞動者和學生應如何為通用人工智能（AGI）做準備。

如果投入算力總量的10%-25%，我猜模型會讓人刮目相看。

目前，這種成果最明確地體現(xiàn)在兩個領域——

缺乏上下文信息（lack of context），

只要能電腦操作把表示成token輸入，LLM就能處理。

其實，這已經(jīng)開始了。

比如，數(shù)學題的正確答案；代碼是否通過了單元測試。

我們需要構(gòu)建連續(xù)分布的行為數(shù)據(jù)庫。

在軟件工程基準測試SWE-bench中，Claude4與其他模型的比較

相比之下，要構(gòu)建真正類似AGI的系統(tǒng)，你必須搞定的是：

在不斷試錯中，DeepSeek一步步迭代出更優(yōu)的「約束兼容解」。

目前，全球大約有1000萬張H100級別的算力芯片。

在現(xiàn)實限制下，我們又能表達什么？

現(xiàn)在看到的真正限制，其實是：

如果真的全被AI取代，那你做什么都無所謂；但在所有其他可能性中，你的選擇非常重要。

過去一年最大的變化是：強化學習（RL）終于在語言模型上真正奏效了。

但如果你問：「什么才是真正有經(jīng)濟價值的？」

網(wǎng)站能不能正常運行？

但這也帶來一個問題：

相比之下，「編碼」是更有價值、也更容易落地的方向。所以更值得優(yōu)先集中資源突破。

另外值得一提的是，Sholto Douglas在清華大學交流學習過。

你看看AlphaGo，它已經(jīng)能主動探索，AlphaZero還能泛化到新的視頻游戲，看起來擁有了一整套與世界互動的先驗能力。

每個人都擁有了「無限完美的私人導師」。

理想條件下，我們想表達的算法是什么？

只要你能為模型提供一個良好的「反饋閉環(huán)」（feedback loop），它通常就能做得不錯；但如果這個閉環(huán)不清晰，它就容易「迷路」。

當模型處理的任務越來越長、越來越復雜，它拿到第一個獎勵信號的時間也會越來越久。

如果你手邊有10個工程師聽你調(diào)度，你會做什么？

但要做到這一點，需要一整套復雜行為組合。

具體原因無人知曉，但這個差異很值得玩味。

——對強化學習算法太「友好」了。

因為人類正以每年2.25到2.5倍的速度擴張算力，但在2028年左右，將迎來上限：晶圓產(chǎn)能的物理瓶頸。

為什么LLMs比AlphaZero更接近AGI？

如果有一家AI公司聽命于你，你能解決哪些問題？

但至少兩位創(chuàng)作者，已經(jīng)用LLM寫出了完整的長篇書稿。

就必須擴規(guī)模、上大模型，愿意為此付出更多計算成本。

哪種模型大小最優(yōu)？哪個點的學習效率和算力開銷最平衡？

這意味著：每完成一次任務，所需的算力也會顯著增加。

這并不是說AI一定會做某件事，或一定會朝某個方向發(fā)展。

不僅評估軟件工程，還要擴展到所有白領工作。

但他們天賦強、動機足、腦子快，來自各個領域，卻都能做得很好。

一開始模型的能力很「鋸齒」

你可以學，而且比任何時候都容易。

AlphaZero所處的任務環(huán)境——雙人對戰(zhàn)、完全信息游戲

當時大家發(fā)現(xiàn)：小模型只要在某個任務上做微調(diào)（fine-tune），效果就很強。

最后回到那個核心問題：AI智能體將開始實際使用電腦，完成白領工作，為什么是未來幾年內(nèi)的事？為什么不是幾十年？

這和GPT-2時代的討論很像。

如果未來一兩年內(nèi)，智能體開始上崗，軟件工程實現(xiàn)自動，模型的使用價值將呈指數(shù)級增長。而這一切的前提，是海量算力的支持。

而人類最有價值的能力，可能就是——

但別忘了，人類面對困難任務時，非常擅長拆解步驟、重點練習難點。

還有個被低估的因素：研究員們喜歡研究他們認同的「智能標準」。

不需要什么「權(quán)威機構(gòu)」的許可，才能進入AI領域。

一開始模型的能力很「鋸齒」但當我們把RL的規(guī)模拉大，總算力足夠大，就會看到從「專才」向「通才」過渡

2025年，RL非常值得關注，因為往里面投入的算力會遠超以往。

有研究估算，一張H100的浮點運算能力，大致相當于一顆人腦。

現(xiàn)在做的哪些事，AI其實可以做得更好？

在RL階段用，DeepSeek-R1和o1的是差不多的算力，所以年初它們之間差距不大。

一旦資源傾斜過來，這塊進展也不會慢。

但問題在于，這種方法并不能真正提升模型在「高難度問題」上的表現(xiàn)，因為人類其實不是很擅長判斷「哪個答案更好」。

部分人覺得AI發(fā)展會很慢，比如說AlphaGo雖然厲害，但它離真正的通用人工智能(AGI)還很遠：

所以現(xiàn)在的局面是：模型在他們心目中已經(jīng)夠聰明了，但大家還沒把精力花在「電腦操作」這塊上。

而它確實已經(jīng)在從訓練中泛化出這種混合能力了。

想象整個「可能世界的光譜」，提前為它們做準備。

現(xiàn)在還有太多「唾手可得」的效率提升空間。

其中，有個小標題就叫做「This Decade or Bust」，大意為「這十年，不成則廢」。

當然，這一切仍然需要技術(shù)深度。

本質(zhì)上，「電腦操作智能體」（Computer Use Agent）和「軟件工程」智能體沒有多大區(qū)別。

第二，芯片問題，還包括電力、GDP等限制等可能讓算力增長停滯，而如果到2028或2030年還沒實現(xiàn)AGI，那之后每年的實現(xiàn)概率，也許就會開始大幅下滑。

Meta當時發(fā)過論文，講的是一次性預測多個token，而不是傳統(tǒng)的逐token預測。

因為需要模型不僅能「學」，還能在稀疏獎勵下自己「發(fā)現(xiàn)要學什么」：

如果任務比較模糊，或者需要在環(huán)境中反復探索、試錯、迭代，它們就會吃力。

未來幾年，還可以顯著增加訓練算力，特別是在強化學習（RL）上。

對現(xiàn)實世界的「通用概念理解」

語言模型能完成實際工作，就像真正的軟件工程師那樣。

任務的難度可以分為兩個維度來理解：

現(xiàn)在做的哪些事，AI其實可以做得更好？然后去試一試，動手探索。

模型現(xiàn)在能「看圖」，能畫圖，能理解復雜的概念，這些基本已經(jīng)實現(xiàn)。

但模型其實呈現(xiàn)出「鋸齒狀」特征：

但隨著時間推移，算力差距會被逐漸放大，帶來明顯的結(jié)果分化。

長文中對有效算力的預測

【新智元導讀】AI頂流Claude升級了，程序員看了都沉默：不僅能寫代碼能力更強了，還能連續(xù)干活7小時不出大差錯！AGI真要來了？這背后到底發(fā)生了什么？現(xiàn)在，還有機會加入AI行業(yè)嗎？如今做哪些準備，才能在未來立足？

哪個點的學習效率和算力開銷最平衡？

為什么是數(shù)學、競賽編程先突破？因為那是他們認可的「聰明」。

圖靈獎得主Richard S. Sutton提出了強化學習的「苦澀的教訓」

你以前學的專業(yè)、積累的經(jīng)驗，可能沒你以為的那么限制你。

所以大家總說：「AI只擅長被RL訓練過的任務」。

他們覺得：「要是模型能在AIME（美國數(shù)學競賽）上贏我，那才是真的強?！?/p>

可驗證獎勵的強化學習

團隊人手嚴重不足優(yōu)先級很難排每一步都是在「邊干邊補」的狀態(tài)下推進的

建廠周期很長，一旦觸頂，算力增長就會放緩。

能從真實任務中提取獎勵信號，而這些任務往往不像游戲那樣容易定義

但當我們把RL的規(guī)模拉大，總算力足夠大，就會看到從「專才」向「通才」過渡

Epoch AI估算的GPU算力變化和趨勢

那如果你是大學生，或者剛開始職業(yè)生涯的人，現(xiàn)在該怎么辦？

一旦模型能搞定代碼，價值會呈超級指數(shù)級釋放。而電腦操作雖然也重要，但優(yōu)先級自然就排后面了。

「每生成5個token就要給一次獎勵」的模式，訓練過程會變得非常慢，效率也很低。

論文鏈接:https://arxiv.org/abs/2404.19737

這是理解強化學習的關鍵思維方式：

難以處理復雜的、跨多個文件的變更（multi-file changes），

2. 新的強化學習（RL）體系以及其可擴展性；

要做好這件事，AI模型不僅要是個優(yōu)秀程序員，還得能用語言清晰思考，甚至有點哲學家氣質(zhì)。

對現(xiàn)實世界的「通用概念理解」對語言的掌握能從真實任務中提取獎勵信號，而這些任務往往不像游戲那樣容易定義

這一點現(xiàn)在有了明確的證據(jù)：如果提供合適的反饋機制，確實找到了某種算法，能讓模型表現(xiàn)出接近專家級人類的可靠性與性能。

關鍵是：這種未來是不是即將到來？

尤其在強化學習中，模型要生成大量token，才能從中學習并獲取反饋。

人類對兩段輸出打分，告訴模型哪一段更好。

相比之下，一部「值得獲獎」的小說需要的是審美判斷與文學品味，

所以，更理想的是提供一種能客觀判斷模型輸出是否正確的信號。

別讓你以前的工作方式或?qū)I(yè)背景變成束縛。

比如說，完成諾獎級研究所涉及的任務，往往具備更多層次的「可驗證性」。

實驗室在瘋狂招人、培訓人，根本還沒輪到把「AI操作電腦」當作重點。

一個是任務的智力復雜度（intellectual complexity），

最可能發(fā)生的情況是：你將擁有遠超以往的杠桿能力。

這正是在「AGI實現(xiàn)速度」上，業(yè)內(nèi)意見分歧的關鍵所在。

短期內(nèi)，需要認真思考：

所以整體進展的速度，可能會因此變慢。

只要你愿意開始、愿意嘗試、愿意申請，你就可以參與，也能為AI做貢獻。

很多YC初創(chuàng)公司，已經(jīng)靠Claude寫出大部分代碼。

你要為這樣的未來做好準備。

比如：你能不能靠互聯(lián)網(wǎng)賺錢？這是一個非常清晰的獎勵信號。

但別忘了，這些任務本身就是語言、科學、編碼、心理狀態(tài)等多種領域的融合。

還有一個有意思的地方：他們引入了Meta提出的「multi-token prediction」方法。

1. 過去一年中人工智能研究的變化；

這才是我們真正接近「通用智能」的原因。

具體而言，就是「可驗證獎勵的強化學習」（RL from verifiable rewards）。

他們都非常擅長為設計文章結(jié)構(gòu)和提示（scaffolding&prompting）。

黃仁勛曾說過：「我身邊有十萬個通用智能，但我依然有價值。因為是我在告訴它們目標是什么。」

Leopold Aschenbrenner：專注于AGI的投資人，OpenAI超級對齊團隊前成員

最早語言模型的調(diào)優(yōu)方法是RLHF（Reinforcement Learningfrom Human Feedback，從人類反饋中強化學習），典型的形式是「成對反饋」（pairwise feedback），即：

但奇怪的是，Meta后來并沒有把這個方法應用到Llama系列模型里，而DeepSeek卻在他們的新模型論文中實現(xiàn)了。

而且，大家低估了現(xiàn)在AI實驗室到底有多「糙」。

新方案通常非常簡潔優(yōu)雅，再加上超強的工程能力，效果就出來了。

LLM可以處理智力高度復雜的問題，但前提是問題上下文要明確、邊界要清晰。

當然，也不是說無腦堆大。

為什么只加一點點訓練、注意力或結(jié)構(gòu)調(diào)整，就可能達到「類人智能」？

https://www.dwarkesh.com/p/sholto-trenton-2 https://x.com/natolambert/status/1926293613312442810

所以模型很可能會更早地在科學研究領域?qū)崿F(xiàn)「諾獎級突破」，而不是先寫出一部能贏得普利策獎的小說。

它在某些環(huán)境里表現(xiàn)特別好（因為訓練數(shù)據(jù)豐富），在另一些就不行。

意思是：我們能不能搞定AGI，基本就看這十年了。

只要模型能完成這條「長路徑」，它就能學到真正有用的能力。

這部分對推理能力和執(zhí)行效率的要求非常高。

智能體的未來：操作電腦

什么時候用RL最合適？

現(xiàn)在已經(jīng)證明，模型確實可以在多個維度上達到人類智能的頂峰。

沒有什么通向AGI的神奇捷徑。

以前夠不著的事，現(xiàn)在突然「能做」了。

有一個很好的例子是：「回溯能力」的出現(xiàn)（backtracking）。

但你讓它做Excel報表？無人在乎。

但這只是難度更高，不代表做不到。

因為你必須花更多計算資源，才能判斷一次任務是否成功。

接觸到的數(shù)據(jù)越多，設計的訓練任務就越豐富。

在Dwarkesh Patel主持的節(jié)目中，Anthropic的Sholto Douglas、Trenton Bricken等人，一起討論了Claude 4是如何思考的。

在未來很多年里，人類仍然非常重要。只要那一天還沒到，你就還有機會和價值。

關鍵在于推理的算力問題，但這被嚴重低估了。

程序設計競賽（competitive programming）和數(shù)學推理。

也就是說，關鍵不是模型不行，而是你會不會用。

每一步都是在「邊干邊補」的狀態(tài)下推進的

這些信號都可以用來訓練模型。

如果模型太小——推理很快，但學不到什么有用的東西；

只要能拿到最終獎勵，長任務反而更容易評估效果。

就AGI實現(xiàn)問題，Leopold Aschenbrenner寫了Situational Awareness。

更重要的是：認真想清楚，你最想改變世界的是什么？

模型會嘗試一條解法，然后「啊這不行」，重新走另一條路徑。這種「反思式推理」正是RL訓練難題過程中逐步顯現(xiàn)出來的。

這就是「訓練好」≠「實用性好」的現(xiàn)實挑戰(zhàn)。

我們還能把它們稱為「通用智能」嗎？還是說，它們只是「訓練在哪就聰明在哪」？

然后去試一試，動手探索。

所以這其實是一個「帕累托前沿」（Pareto Frontier）問題：

外界以為這些實驗室運轉(zhuǎn)得像完美機器，其實完全不是。

AI是線性尺度：先是「愚蠢的AI」，然后是AGI，最后是ASI（超級智能）。

如果用這種「容易判斷的獎勵信號」進行預訓練，會非常有幫助。

人類級別的推理能力，通常需要算力提升幾個數(shù)量級才能支撐。

把它們拆解成可衡量的任務，進行跟蹤和測量。

現(xiàn)在我們已經(jīng)看到了一些早期跡象，比如模型在推理類任務上的泛化能力，開始顯現(xiàn)。

RLVR沒學會新技能，是因為投入的算力不夠大。

回顧過去十年的AI討論，有一種傳統(tǒng)看法是：

這些大模型的開發(fā)流程，實則是在巨大的時間壓力下倉促構(gòu)建的。

如果模型太大——學得快，但推理太慢，算力消耗太大，不劃算。

我們該做的，是構(gòu)建一個類似SWE-bench的評估系統(tǒng)。

也許某一天，AI會在所有領域全面超越人類。但在那之前，還有一個很長的「合作階段」。

這個說法直覺上沒錯。

一旦模型把基礎能力打牢，AI也可以像人一樣：跳過簡單部分，專練最難的環(huán)節(jié)。

Sholto Douglas等人給學生的建議是：掌握技術(shù)，打好基礎：學生物、學計算機、學物理。

它的核心是：獎勵信號必須是「干凈」的，也就是說——它必須準確、明確、客觀。

Sholto Douglas等人建議：

Ai2的科學家Nathan Lambert，也認同這種觀點：

在當前這套模型能力+訓練環(huán)境下：

很多人甚至連完整提示都沒寫過、沒舉過幾個例子、沒把AI接入工作流程，就放棄了。

以及任務本身的模糊性或規(guī)模不清晰的問題（scope of change/task）。

這背后有兩個關鍵認知差異：

3. 如何追蹤模型的思考過程；

這就是現(xiàn)在大家都在做的「平衡的科學」。

如果以AGI達到人類推理效率為假設，這意味著今天的地球上，理論上已經(jīng)能同時運行1000萬個AGI。

電腦操作唯一的區(qū)別是：比數(shù)學和編碼更難嵌入反饋回路中。

人類本身就是生物意義上的通用智能。很多有價值的能力是通用的。

這類都是典型的、非常干凈的獎勵信號（clean reward signal）。

三人私交甚好，聊了2小時20多分鐘，主要集中在4個話題：

比起只用互聯(lián)網(wǎng)上現(xiàn)有的公開數(shù)據(jù)，這種訓練方式會強得多，泛化能力也更好。

隨著訓練迭代，模型生成的輸出越來越接近人類「想要的答案」。

訓練再好，如果推理慢或太貴，也難以落地。

強化學習現(xiàn)在也在走同樣的路徑：

預計到今年年底，我們將看到更明確的進展——

缺乏上下文信息（lack of context），難以處理復雜的、跨多個文件的變更（multi-file changes），以及任務本身的模糊性或規(guī)模不清晰的問題（scope of change/task）。

你要想搞出真正通用的智能系統(tǒng)，

現(xiàn)在的AI正在學會寫代碼。

但DeepSeek不斷碰到非常底層的硬件限制，然后思考：

下一篇：特朗普怒噴馬斯克“簡直瘋了”，特斯拉一天蒸發(fā)1520億美元！
上一篇：文沖東“換帥”，黑馬央企闖入？

婷婷开心六月久久综合丁香,免费大片黄在线观看,黄片中文字幕免费大全110,国产69久久精品成人看,美女免费黄色av网站在线观看,91精品国产91久久久久久,在线观看黄片欧洲

WPKAPP:RLHF已死，RLVR引爆AGI革命！Claude 4核心成員萬字對談

WPKAPP:RLHF已死，RLVR引爆AGI革命！Claude 4核心成員萬字對談