當(dāng)前位置: 首頁 > 出行資訊 > 全國 > 正文

wpk德州官網(wǎng)客服:頂會(huì)0篇，一夜RLHF爆文刷屏！他靠寫作逆襲AI圈，院士都說好

發(fā)布時(shí)間：2025-06-22 來源：

wpk德州官網(wǎng)最新版是一款人氣火爆的德州游戲,全新升級(jí)的競技場次,絕對(duì)沒有任何的卡頓情況,可以放心大膽的加入對(duì)局,每次都是隨機(jī)進(jìn)行匹配,海量話費(fèi)可以拿到手軟,不需要擔(dān)心作弊的情況,保證游戲的公平公正性

他們更熟悉細(xì)節(jié)，也更擅長把新點(diǎn)子實(shí)現(xiàn)出來。

wpk德州官網(wǎng)客服

拿下一份工業(yè)界研究崗，這對(duì)他來說才算真正「在AI領(lǐng)域站穩(wěn)了」。

wpk德州官網(wǎng)客服

他形成了一個(gè)非常明確的觀點(diǎn)：

在AI領(lǐng)域，太頻繁發(fā)模型，會(huì)讓我們來不及掌握、完善下一個(gè)模型；觀眾多了，維護(hù)公共輸出的成本也飆升。

真正理解了開源AI社區(qū)是怎么運(yùn)作的。

相信只要肯努力多年，多數(shù)人都能做成很難的事。不是不夠努力，是沒堅(jiān)持夠久。

在HuggingFace從事RLHF期間，他為開源社區(qū)做了很多基礎(chǔ)性工作：

盡管在技術(shù)上，Nathan Lambert表示這些項(xiàng)目與DPO沒有直接關(guān)系。

每日必須推進(jìn)技術(shù)進(jìn)展——或是重大功能，或是代碼優(yōu)化。

比如在做RewardBench的時(shí)候，他整整三個(gè)月每天都擔(dān)心被別人「搶先發(fā)布」。

團(tuán)隊(duì)只要稍微長大一點(diǎn)，可能就能帶來「瘋狂級(jí)別」的增益。

所以他現(xiàn)在轉(zhuǎn)向更「少而精」的策略。當(dāng)飛輪已經(jīng)轉(zhuǎn)起來時(shí)，更少、更大的動(dòng)作會(huì)更有價(jià)值。

事后回顧，Nathan Lambert認(rèn)為入學(xué)前，他已有一些些基本特質(zhì)：

許多時(shí)候，參與太多合作會(huì)讓人忽略一個(gè)問題：你是否能一個(gè)人把事做成？

博士生導(dǎo)師曾對(duì)他說過：「每天專注4小時(shí)，你也能改變世界。」

Roberto對(duì)將機(jī)器學(xué)習(xí)應(yīng)用于飄升機(jī)（ionocraft）感興趣。

當(dāng)飛輪啟動(dòng)，維持節(jié)奏比盲目奔跑更重要。

如果他當(dāng)初去了那些「前沿AI實(shí)驗(yàn)室}，可能早就被埋沒在其中，職業(yè)成長空間也被壓縮了。

但這也伴隨著風(fēng)險(xiǎn)。訓(xùn)練AI模型是個(gè)異常細(xì)致的過程，任務(wù)繁瑣、對(duì)小細(xì)節(jié)的執(zhí)行有極高要求。

當(dāng)時(shí)是HuggingFace的研究負(fù)責(zé)人Douwe Kiela，把他招進(jìn)去，領(lǐng)導(dǎo)人類反饋強(qiáng)化學(xué)習(xí)（RLHF）團(tuán)隊(duì)。

盡管前面經(jīng)歷了不少波折，Nathan Lambert心里一直有一個(gè)明確的目標(biāo)——

項(xiàng)目自然流入；推薦自然發(fā)生；你會(huì)被當(dāng)成「AI開放科學(xué)的頭部人物」之一，而不必不斷自我證明。

還訓(xùn)練了一些有趣的小模型。

Roberto Calandra現(xiàn)任德累斯頓工業(yè)大學(xué)正教授（W3教授級(jí)別），并領(lǐng)導(dǎo)該?！笇W(xué)習(xí)、自適應(yīng)系統(tǒng)與機(jī)器人」實(shí)驗(yàn)室（LASR）

盡管當(dāng)時(shí)總覺得自己格格不入，但那份全身心投入的執(zhí)著對(duì)真正的研究彌足珍貴。

而那時(shí)的他，卻低估了自己的價(jià)值。

2022年5月加入HuggingFace后，在ChatGPT問世前的七個(gè)月里，他認(rèn)為并未做出顯赫成果。

這份工作對(duì)他來說，幾乎是最理想的狀態(tài)：

FAIR實(shí)習(xí)+大量面試，幫他拿到第二個(gè)機(jī)會(huì)——DeepMind的實(shí)習(xí)。

他的公開寫作對(duì)AI2有明確價(jià)值，而他也能持續(xù)鍛煉表達(dá)力、擴(kuò)大影響力。這樣的工作極其稀有，大多數(shù)公司并不會(huì)真的幫你個(gè)人成長。

創(chuàng)造順暢推進(jìn)的環(huán)境。

論文鏈接：https://arxiv.org/abs/1901.03737

觀眾多了，維護(hù)公共輸出的成本也飆升。

這很充實(shí)、也很有趣。

那段時(shí)間最有價(jià)值的，其實(shí)是：

早期的「爆款」通常都不會(huì)真的火，只是逐步積累影響力；

最難的是第一步，而愿意埋頭學(xué)基礎(chǔ)的人，最終會(huì)在別人止步之處繼續(xù)前進(jìn)。

他沒采納那種「研究生上課不重要」的建議，反而學(xué)到了不少扎實(shí)的基礎(chǔ)知識(shí)。

通過RewardBench這類重要的學(xué)術(shù)項(xiàng)目，他表示自己建立了信心：

基礎(chǔ)不是障礙，反而是勢能的起點(diǎn)。

做了第一個(gè)LLM排行榜；

科研不是單一角色的戰(zhàn)場，推動(dòng)科學(xué)進(jìn)展的，是一個(gè)個(gè)看似不起眼、但密不可分的角色組合。

那正是深度強(qiáng)化學(xué)習(xí)的高光時(shí)刻，相當(dāng)于今天RL熱潮的「前浪」。

這是他后來變得非常重要的能力。

最后，他以零篇NeurIPS/ICML/ICLR論文完成了AI博士。

而這，正是他始終心系的愿景：AI的未來不屬于孤勇者，而是屬于一群協(xié)力前行、彼此賦能的人。

很會(huì)專注，能獨(dú)自鉆研技術(shù)難題。

很會(huì)專注，能獨(dú)自鉆研技術(shù)難題。相信只要肯努力多年，多數(shù)人都能做成很難的事。不是不夠努力，是沒堅(jiān)持夠久。對(duì)讀不讀完博士，無所謂。大不了拿個(gè)名校碩士。有很多沖勁，但沒方向。

練出了穩(wěn)定的工作習(xí)慣；真正理解了開源AI社區(qū)是怎么運(yùn)作的。

他慢慢覺得不再快樂了。

所以他更多的貢獻(xiàn)是：

但聽完迎新會(huì)、看教授介紹，他立刻就被AI吸引了。

FAIR的經(jīng)歷讓他真正學(xué)會(huì)了如何做實(shí)驗(yàn)、寫代碼。

不管如何，與此同時(shí)，他找到了屬于自己的定位：做開放科研的溝通者。

但堅(jiān)守HuggingFace的文化，堅(jiān)持日拱一卒：

不是每次實(shí)驗(yàn)都要成功，但每次投入都能積蓄下一次的突破。

他不再是那個(gè)親自下場刷代碼的人，而是負(fù)責(zé)讓項(xiàng)目走得更遠(yuǎn)、更穩(wěn)的人。

為機(jī)器人生成「復(fù)雜地形」進(jìn)行測試；

這才算搭上AI的邊：

基本不做線上社交（線下少量），大多數(shù)合作都會(huì)婉拒。

因?yàn)樵谶@個(gè)階段，高質(zhì)量的輸出才是短期目標(biāo)，而「被關(guān)注」是一個(gè)復(fù)雜得多的長期變量。

美國藝術(shù)與科學(xué)院與美國國家工程院（NAE）雙院士、斯坦福大學(xué)教授、NLP大牛Chris Manning，如獲至寶，甚至說Nathan Lambert的這兩項(xiàng)工作「救活了DPO」。

目前，該項(xiàng)目已不再積極維護(hù)和開發(fā)。

早期在HuggingFace和剛進(jìn)AI2時(shí)，他一直推崇「多發(fā)模型」，但久而久之，這變成了團(tuán)隊(duì)的負(fù)擔(dān)。

但他沒能真正融入伯克利AI實(shí)驗(yàn)室，也沒有AI方向的朋友，身邊全是EECS電氣工程那邊的同學(xué)。

但其實(shí)，即使是「顯而易見」的事，也很少有人認(rèn)真去做。

轉(zhuǎn)機(jī)往往藏在別人不經(jīng)意的一句引薦里。

之后一整年，他幾乎沒什么真正接觸AI研究的機(jī)會(huì)。

而一旦有了清晰的個(gè)人品牌，故事就自然會(huì)往你這兒聚攏。

2017年秋天，他開始在加州大學(xué)伯克利分校電氣工程與計(jì)算機(jī)科學(xué)系讀博。

大多數(shù)人放棄得太早了。

結(jié)果它成了RLHF關(guān)鍵詞下的長期搜索熱文（雖然現(xiàn)在內(nèi)容已經(jīng)有點(diǎn)舊了）。

前提是你一直踩著油門往前沖。

秋天錯(cuò)過了一次會(huì)議投稿，而且很多實(shí)驗(yàn)都失敗了。

在AI實(shí)驗(yàn)室趨于封閉、外界關(guān)注度飆升的當(dāng)下，只要持續(xù)做與AI相關(guān)的事，在公眾眼里的成長就會(huì)指數(shù)級(jí)上升。

這些「邊緣人社群」各有短長，最后大家都找到自己的落點(diǎn)。

研究生生涯后期，他在心理健康資源頁面上專門列了份「研究現(xiàn)實(shí)清單」，記錄所有不如意的事情。

這和他現(xiàn)在很多寫作動(dòng)機(jī)一樣：寫作是最好的學(xué)習(xí)方式。

盡管實(shí)習(xí)體驗(yàn)不盡如人意，但他由此積累了寶貴的技術(shù)經(jīng)驗(yàn)與人脈資源。

但一旦飛輪動(dòng)起來，「發(fā)布頻率」反而可能成為負(fù)擔(dān)：

論文鏈接：https://arxiv.org/abs/2305.18290

他不是從小泡在實(shí)驗(yàn)室的「圈內(nèi)人」，而是靠韌性和創(chuàng)造力硬闖出來的。

職場中的「飛輪效應(yīng)」

真正的轉(zhuǎn)機(jī)出現(xiàn)在2019年，Roberto問他要不要跟他去FAIR（Facebook人工智能研究院）實(shí)習(xí)。

在ChatGPT之前的那段時(shí)間，他在HuggingFace項(xiàng)目之間輾轉(zhuǎn)，基本是哪里有事、哪里需要人手就去哪兒。

其中最寶貴一課，是如何積累勢能（momentum）和心智占有率（mind-share）。

把TRL庫現(xiàn)代化；探索人類數(shù)據(jù)合同；復(fù)刻數(shù)據(jù)集；做了第一個(gè)LLM排行榜；還訓(xùn)練了一些有趣的小模型。

對(duì)讀不讀完博士，無所謂。大不了拿個(gè)名校碩士。

如何更有策略地使用積累的影響力？

轉(zhuǎn)機(jī)在他挖出了導(dǎo)師Kris Pister的一封舊郵件。

動(dòng)能可轉(zhuǎn)化為心智占有率，而后者一旦建立，僅需維持引力便能持續(xù)發(fā)揮影響。

這是一種完全不同的角色定位。

用慣性傳感器數(shù)據(jù)優(yōu)化步態(tài)、避障，甚至控制真實(shí)飛行器。

盡管注意力總量雖然在增長，但真正被關(guān)注的人反而在減少——

如今AI研究如此熱門，太多人只求在簡歷上勾選這段經(jīng)歷，而非深究細(xì)節(jié)——

這是一套全新的能力，他還在學(xué)習(xí)。

長期研究，就得真正做「長期」準(zhǔn)備。

這個(gè)策略其實(shí)很簡單：

這些為之后遇到契合項(xiàng)目時(shí)，他能快速接住、真正發(fā)力打下了基礎(chǔ)。

就像創(chuàng)業(yè)公司在找到產(chǎn)品市場匹配（PMF）前，要不斷試錯(cuò)迭代，職業(yè)生涯也需要不斷點(diǎn)火：

突破點(diǎn)：公開科研溝通>技術(shù)產(chǎn)出

之后，他堅(jiān)持做研究，同時(shí)不斷教學(xué)來維持學(xué)業(yè)。

他真正「出圈」的起點(diǎn)，是為HuggingFace寫的第一篇重量級(jí)博客——關(guān)于RLHF（基于人類反饋的強(qiáng)化學(xué)習(xí)）。

論文鏈接：https://arxiv.org/abs/2403.13787

飛輪一旦足夠大，有時(shí)候什么都不做反而更有效：

上課、讀論文，基本是獨(dú)自暗中摸索。

Ai2的高級(jí)研究科學(xué)家Nathan Lambert，最近分享了他如何走上AI之路。

現(xiàn)在，他已轉(zhuǎn)變了工作方式，已經(jīng)完全可以「因人隨事」而定。

這讓他更容易脫穎而出。

他們嘗試了用于強(qiáng)化學(xué)習(xí)的合成環(huán)境項(xiàng)目Simulate，但其實(shí)他們?nèi)耸指静蛔恪?/p>

最終他加入HuggingFace，那是唯一一份符合他要求的工作。

https://www.linkedin.com/in/natolambert/

一開始就是不?！冈囁?、發(fā)布、調(diào)整；早期的「爆款」通常都不會(huì)真的火，只是逐步積累影響力；真正讓飛輪轉(zhuǎn)起來的，是多次的積累之后，勢能終于爆發(fā)。

在HuggingFace，他收獲了許多。

這次合作從2018年春天開始。

現(xiàn)在，Chris Manning首次提出直接偏好優(yōu)化DPO的論文，被引用了3000多次。

在AI領(lǐng)域，太頻繁發(fā)模型，會(huì)讓我們來不及掌握、完善下一個(gè)模型；

此外，他還在特斯拉做過電池工程實(shí)習(xí)。

他另辟蹊徑，選擇了競爭沒那么激烈的方向。

他希望AI能真正朝好的方向發(fā)展，而且堅(jiān)信更開放的生態(tài)是實(shí)現(xiàn)這一目標(biāo)的最好方式。

所以，RewardBench是RLHF獎(jiǎng)勵(lì)模型的第一個(gè)評(píng)估工具。

真正讓飛輪轉(zhuǎn)起來的，是多次的積累之后，勢能終于爆發(fā)。

結(jié)果發(fā)了后，又過了三個(gè)月才有人發(fā)競品。

雖然未能如愿，但他并未氣餒，反而堅(jiān)持不懈，一直在主動(dòng)爭取機(jī)會(huì)。

周圍的同事，年輕、優(yōu)秀、富有驅(qū)動(dòng)力。

當(dāng)你愿意從舞臺(tái)中心走下來，才能搭起更大的舞臺(tái)。

有很多沖勁，但沒方向。

他的學(xué)術(shù)背景是MEMS（微機(jī)電系統(tǒng)）、高能物理/激光。

突破圈層的關(guān)鍵，不是資源而是契機(jī)+準(zhǔn)備。

很多人會(huì)高估別人的執(zhí)行力，低估簡單方案的價(jià)值，然后被自己復(fù)雜的想法拖?。ǔ翛]成本效應(yīng)）。

練出了穩(wěn)定的工作習(xí)慣；

每次和Roberto開會(huì)，他都「壓力山大」，生怕漏掉AI博士生「習(xí)以為常」的東西。

https://www.interconnects.ai/p/my-path-into-ai

優(yōu)化腿部幾何形狀的學(xué)習(xí)算法；

像Sergey Levine（下圖左）和Pieter Abbeel（下圖右）這類教授，當(dāng)時(shí)炙手可熱，風(fēng)頭正勁。

他不想總是站在最前線親自帶隊(duì)，而是希望通過營造環(huán)境、鼓勵(lì)他人，讓更多重要項(xiàng)目得以發(fā)生。

? 作為組織，HuggingFace雖坐擁心智占有率，近期卻面臨動(dòng)能不足。

HuggingFace如果當(dāng)時(shí)能擴(kuò)張團(tuán)隊(duì)，并配上合適的技術(shù)領(lǐng)導(dǎo)，可能能將影響力擴(kuò)大好幾倍。

他寫了很多申請，但直到畢業(yè)才拿到一些撥款，也算是前人栽樹，后人乘涼。

世界頂尖學(xué)術(shù)AI研究實(shí)驗(yàn)室

指引方向；提前清除潛在障礙；創(chuàng)造順暢推進(jìn)的環(huán)境。

但后來，時(shí)差、文化差異等問題接踵而至。

當(dāng)時(shí)，他做了扎實(shí)的工作。

（即使慢一點(diǎn)、質(zhì)量沒那么高、過程沒那么好玩——重點(diǎn)不在貶低團(tuán)隊(duì)，而是看清自己的能力邊界。）

把顯而易見但沒人做的事，及時(shí)簡單地做好。

現(xiàn)在，他花很多時(shí)間思考：

博士畢業(yè)時(shí)，他沒有在NeurIPS/ICML/ICLR等頂會(huì)上發(fā)表過文章。

技術(shù)最終服務(wù)于人，好的科研不是一個(gè)人的沖刺，而是一群人的合力。

正是這個(gè)實(shí)習(xí)把他從「AI圈外人」帶到了「AI圈內(nèi)人」的軌道上。

雖然他一直把自己當(dāng)「強(qiáng)化學(xué)習(xí)傳人」，但也沒想太多，寫完就發(fā)了。

盡管起步艱難、幾經(jīng)波折，他依舊在AI領(lǐng)域站穩(wěn)腳跟、有所成就。

? 個(gè)體持續(xù)積累動(dòng)能換取行業(yè)影響力；

RLHF技術(shù)博客「出圈」

加入HuggingFace，對(duì)Nathan Lambert來說也算幸運(yùn)，避開了一些聽起來更誘人、但后來大裁員或轉(zhuǎn)型的公司。

所以只要成為其中之一，收獲會(huì)非?？捎^。

比如HuggingFace最具影響力的模型之一——Zephyr Beta，就是基于他幫助搭建的基礎(chǔ)設(shè)施完成的。

偶爾，他也會(huì)做些學(xué)術(shù)指導(dǎo)，但非常保護(hù)自己的時(shí)間。

但日積月累，鍛煉了好習(xí)慣。

關(guān)鍵是要把「磚」一塊塊往上堆——

Diffusers提供最先進(jìn)的預(yù)訓(xùn)練擴(kuò)散模型，支持圖像、音頻甚至分子3D結(jié)構(gòu)生成

在他剛加入時(shí)，Ai2正好在訓(xùn)練Tülu 2 70B。

導(dǎo)師幫他牽線認(rèn)識(shí)了當(dāng)時(shí)的Sergey Levine組的博士后Roberto Calandra。

這兩個(gè)概念緊密關(guān)聯(lián)卻存在微妙差異——

盡管這些工作在都還不錯(cuò)，但坦白說，沒有哪個(gè)項(xiàng)目足以「構(gòu)建職業(yè)基礎(chǔ)」。

勢能來自每天一塊磚，而不是坐等奇跡。當(dāng)別人還在等待大項(xiàng)目，他已經(jīng)靠「基礎(chǔ)活」攢下了存在感和專業(yè)度。

這條路很清楚：一旦你突破了第一道門檻，后面就會(huì)順一點(diǎn)——

他表示他越來越喜歡用「飛輪」（flywheel）這個(gè)比喻來看待項(xiàng)目、職業(yè)、乃至整個(gè)機(jī)構(gòu)的發(fā)展。

你會(huì)被當(dāng)成「AI開放科學(xué)的頭部人物」之一，而不必不斷自我證明。

之后，他加入了Allen人工智能研究所（Allen Institute forAI，簡稱AI2）。

如今，他的谷歌引用數(shù)已有5千多，h指數(shù)為32。

我能獨(dú)立提出點(diǎn)子，并帶頭推進(jìn)高影響力的研究項(xiàng)目。

而那時(shí)候，他開始堅(jiān)持每周寫作，就是這一戰(zhàn)略最有力的驗(yàn)證。

讓人沒想到的是，這類崗位會(huì)在他畢業(yè)一年后幾乎「消失殆盡」。

一開始就是不?！冈囁?、發(fā)布、調(diào)整；

這不是謙虛，而是想說明：

到了2019年冬天，論文成為他的「頭等大事」，雖然最后論文完成了，但成文有點(diǎn)粗糙、略顯拼湊。

回頭看，那是他第一次意識(shí)到自己的特長：

真正的成長不是「更努力」，而是「更聰明地努力」。

其實(shí)那時(shí)他沒實(shí)現(xiàn)過RLHF算法，也沒完整讀過論文，只是為了搞懂新概念就動(dòng)筆了。

在Diffusers庫，他做了一些邊緣性的貢獻(xiàn)，還做了不少關(guān)于負(fù)責(zé)任AI的研究。

剛加入AI2時(shí)，他也經(jīng)歷了一段適應(yīng)期。

【新智元導(dǎo)讀】他不是天才，博士畢業(yè)0頂會(huì)論文，卻靠著堅(jiān)持寫技術(shù)博客，因RLHF「網(wǎng)紅」博客文章一炮而紅，逆襲成功、躋身AI核心圈！技術(shù)可以遲到，但影響力不能缺席。這一次，是寫作改變命運(yùn)。

用仿真優(yōu)化新設(shè)計(jì)，再用硅材料制造出來測試；

他曾主動(dòng)聯(lián)系Levine和Abbeel，希望加入他們的研究組，但都被婉拒。

在AI2的這段時(shí)間，是他職業(yè)生涯中最容易被看清楚的一段。

短期研究要產(chǎn)生影響，最有效方式就是把它接入模型訓(xùn)練流程；

這條路，正好也反映了他的AI界朋友圈：一群「AI界的流浪玩具」。

下一篇：馬卡：西班牙人在尋找霍安-加西亞替代者，相中馬洛卡的羅曼
上一篇：羅馬諾：特奧仍未同意加盟利雅得新月，后者可能考慮其他人選

相關(guān)閱讀

推薦圖文

羅馬諾：特奧仍未同意加盟利雅得新月，后者可能考慮其他人選

普京稱愿與澤連斯基會(huì)面

最新信息

推薦信息

京公網(wǎng)安備 11010702001433號(hào) 京ICP備11022796號(hào)
電腦版 | 手機(jī)版

婷婷开心六月久久综合丁香,免费大片黄在线观看,黄片中文字幕免费大全110,国产69久久精品成人看,美女免费黄色av网站在线观看,91精品国产91久久久久久,在线观看黄片欧洲

wpk德州官網(wǎng)客服:頂會(huì)0篇，一夜RLHF爆文刷屏！他靠寫作逆襲AI圈，院士都說好

wpk德州官網(wǎng)客服:頂會(huì)0篇，一夜RLHF爆文刷屏！他靠寫作逆襲AI圈，院士都說好