加入我們HHPoker精英德?lián)淦脚_,體驗(yàn)智慧與策略的碰撞。我們提供公平競技環(huán)境,豐富賽事活動,以及尊享會員服務(wù)。攜手并進(jìn),共創(chuàng)財富與榮耀,讓每一次出牌都成為精彩瞬間!期待您的加入,共赴德?lián)涫⒀纾?
早期在HuggingFace和剛進(jìn)AI2時,他一直推崇「多發(fā)模型」,但久而久之,這變成了團(tuán)隊(duì)的負(fù)擔(dān)。
這份工作對他來說,幾乎是最理想的狀態(tài):
https://www.linkedin.com/in/natolambert/
當(dāng)飛輪啟動,維持節(jié)奏比盲目奔跑更重要。
職場中的「飛輪效應(yīng)」
結(jié)果發(fā)了后,又過了三個月才有人發(fā)競品。
他們嘗試了用于強(qiáng)化學(xué)習(xí)的合成環(huán)境項(xiàng)目Simulate,但其實(shí)他們?nèi)耸指静蛔恪?/p>
博士畢業(yè)時,他沒有在NeurIPS/ICML/ICLR等頂會上發(fā)表過文章。
Diffusers提供最先進(jìn)的預(yù)訓(xùn)練擴(kuò)散模型,支持圖像、音頻甚至分子3D結(jié)構(gòu)生成
之后,他堅(jiān)持做研究,同時不斷教學(xué)來維持學(xué)業(yè)。
真正的成長不是「更努力」,而是「更聰明地努力」。
在HuggingFace,他收獲了許多。
那正是深度強(qiáng)化學(xué)習(xí)的高光時刻,相當(dāng)于今天RL熱潮的「前浪」。
這不是謙虛,而是想說明:
這條路,正好也反映了他的AI界朋友圈:一群「AI界的流浪玩具」。
轉(zhuǎn)機(jī)往往藏在別人不經(jīng)意的一句引薦里。
https://www.interconnects.ai/p/my-path-into-ai
在AI2的這段時間,是他職業(yè)生涯中最容易被看清楚的一段。
不是每次實(shí)驗(yàn)都要成功,但每次投入都能積蓄下一次的突破。
上課、讀論文,基本是獨(dú)自暗中摸索。
這很充實(shí)、也很有趣。
一開始就是不停「試水」、發(fā)布、調(diào)整; 早期的「爆款」通常都不會真的火,只是逐步積累影響力; 真正讓飛輪轉(zhuǎn)起來的,是多次的積累之后,勢能終于爆發(fā)。
他曾主動聯(lián)系Levine和Abbeel,希望加入他們的研究組,但都被婉拒。
這條路很清楚:一旦你突破了第一道門檻,后面就會順一點(diǎn)——
他希望AI能真正朝好的方向發(fā)展,而且堅(jiān)信更開放的生態(tài)是實(shí)現(xiàn)這一目標(biāo)的最好方式。
盡管在技術(shù)上,Nathan Lambert表示這些項(xiàng)目與DPO沒有直接關(guān)系。
但這也伴隨著風(fēng)險。訓(xùn)練AI模型是個異常細(xì)致的過程,任務(wù)繁瑣、對小細(xì)節(jié)的執(zhí)行有極高要求。
當(dāng)時,他做了扎實(shí)的工作。
對讀不讀完博士,無所謂。大不了拿個名校碩士。
因?yàn)樵谶@個階段,高質(zhì)量的輸出才是短期目標(biāo),而「被關(guān)注」是一個復(fù)雜得多的長期變量。
勢能來自每天一塊磚,而不是坐等奇跡。當(dāng)別人還在等待大項(xiàng)目,他已經(jīng)靠「基礎(chǔ)活」攢下了存在感和專業(yè)度。
他不是從小泡在實(shí)驗(yàn)室的「圈內(nèi)人」,而是靠韌性和創(chuàng)造力硬闖出來的。
到了2019年冬天,論文成為他的「頭等大事」,雖然最后論文完成了,但成文有點(diǎn)粗糙、略顯拼湊。
所以,RewardBench是RLHF獎勵模型的第一個評估工具。
每次和Roberto開會,他都「壓力山大」,生怕漏掉AI博士生「習(xí)以為?!沟臇|西。
動能可轉(zhuǎn)化為心智占有率,而后者一旦建立,僅需維持引力便能持續(xù)發(fā)揮影響。
盡管注意力總量雖然在增長,但真正被關(guān)注的人反而在減少——
美國藝術(shù)與科學(xué)院與美國國家工程院(NAE)雙院士、斯坦福大學(xué)教授、NLP大牛Chris Manning,如獲至寶,甚至說Nathan Lambert的這兩項(xiàng)工作「救活了DPO」。
當(dāng)時是HuggingFace的研究負(fù)責(zé)人Douwe Kiela,把他招進(jìn)去,領(lǐng)導(dǎo)人類反饋強(qiáng)化學(xué)習(xí)(RLHF)團(tuán)隊(duì)。
這和他現(xiàn)在很多寫作動機(jī)一樣:寫作是最好的學(xué)習(xí)方式。
盡管這些工作在都還不錯,但坦白說,沒有哪個項(xiàng)目足以「構(gòu)建職業(yè)基礎(chǔ)」。
但一旦飛輪動起來,「發(fā)布頻率」反而可能成為負(fù)擔(dān):
一開始就是不?!冈囁?、發(fā)布、調(diào)整;
觀眾多了,維護(hù)公共輸出的成本也飆升。
回頭看,那是他第一次意識到自己的特長:
其實(shí)那時他沒實(shí)現(xiàn)過RLHF算法,也沒完整讀過論文,只是為了搞懂新概念就動筆了。
如今AI研究如此熱門,太多人只求在簡歷上勾選這段經(jīng)歷,而非深究細(xì)節(jié)——
你會被當(dāng)成「AI開放科學(xué)的頭部人物」之一,而不必不斷自我證明。
他表示他越來越喜歡用「飛輪」(flywheel)這個比喻來看待項(xiàng)目、職業(yè)、乃至整個機(jī)構(gòu)的發(fā)展。
他們更熟悉細(xì)節(jié),也更擅長把新點(diǎn)子實(shí)現(xiàn)出來。
現(xiàn)在,他花很多時間思考:
在AI實(shí)驗(yàn)室趨于封閉、外界關(guān)注度飆升的當(dāng)下,只要持續(xù)做與AI相關(guān)的事,在公眾眼里的成長就會指數(shù)級上升。
其中最寶貴一課,是如何積累勢能(momentum)和心智占有率(mind-share)。
他寫了很多申請,但直到畢業(yè)才拿到一些撥款,也算是前人栽樹,后人乘涼。
(即使慢一點(diǎn)、質(zhì)量沒那么高、過程沒那么好玩——重點(diǎn)不在貶低團(tuán)隊(duì),而是看清自己的能力邊界。)
他不再是那個親自下場刷代碼的人,而是負(fù)責(zé)讓項(xiàng)目走得更遠(yuǎn)、更穩(wěn)的人。
論文鏈接:https://arxiv.org/abs/2403.13787
論文鏈接:https://arxiv.org/abs/2305.18290
他的學(xué)術(shù)背景是MEMS(微機(jī)電系統(tǒng))、高能物理/激光。
為機(jī)器人生成「復(fù)雜地形」進(jìn)行測試;
雖然他一直把自己當(dāng)「強(qiáng)化學(xué)習(xí)傳人」,但也沒想太多,寫完就發(fā)了。
在AI領(lǐng)域,太頻繁發(fā)模型,會讓我們來不及掌握、完善下一個模型;
正是這個實(shí)習(xí)把他從「AI圈外人」帶到了「AI圈內(nèi)人」的軌道上。
基本不做線上社交(線下少量),大多數(shù)合作都會婉拒。
還訓(xùn)練了一些有趣的小模型。
最后,他以零篇NeurIPS/ICML/ICLR論文完成了AI博士。
像Sergey Levine(下圖左)和Pieter Abbeel(下圖右)這類教授,當(dāng)時炙手可熱,風(fēng)頭正勁。
早期的「爆款」通常都不會真的火,只是逐步積累影響力;
真正讓飛輪轉(zhuǎn)起來的,是多次的積累之后,勢能終于爆發(fā)。
關(guān)鍵是要把「磚」一塊塊往上堆——
把TRL庫現(xiàn)代化; 探索人類數(shù)據(jù)合同; 復(fù)刻數(shù)據(jù)集; 做了第一個LLM排行榜; 還訓(xùn)練了一些有趣的小模型。
此外,他還在特斯拉做過電池工程實(shí)習(xí)。
在Diffusers庫,他做了一些邊緣性的貢獻(xiàn),還做了不少關(guān)于負(fù)責(zé)任AI的研究。
HuggingFace如果當(dāng)時能擴(kuò)張團(tuán)隊(duì),并配上合適的技術(shù)領(lǐng)導(dǎo),可能能將影響力擴(kuò)大好幾倍。
比如在做RewardBench的時候,他整整三個月每天都擔(dān)心被別人「搶先發(fā)布」。
轉(zhuǎn)機(jī)在他挖出了導(dǎo)師Kris Pister的一封舊郵件。
? 作為組織,HuggingFace雖坐擁心智占有率,近期卻面臨動能不足。
用慣性傳感器數(shù)據(jù)優(yōu)化步態(tài)、避障,甚至控制真實(shí)飛行器。
FAIR實(shí)習(xí)+大量面試,幫他拿到第二個機(jī)會——DeepMind的實(shí)習(xí)。
世界頂尖學(xué)術(shù)AI研究實(shí)驗(yàn)室
剛加入AI2時,他也經(jīng)歷了一段適應(yīng)期。
RLHF技術(shù)博客「出圈」
FAIR的經(jīng)歷讓他真正學(xué)會了如何做實(shí)驗(yàn)、寫代碼。
之后一整年,他幾乎沒什么真正接觸AI研究的機(jī)會。
事后回顧,Nathan Lambert認(rèn)為入學(xué)前,他已有一些些基本特質(zhì):
現(xiàn)在,他已轉(zhuǎn)變了工作方式,已經(jīng)完全可以「因人隨事」而定。
科研不是單一角色的戰(zhàn)場,推動科學(xué)進(jìn)展的,是一個個看似不起眼、但密不可分的角色組合。
2017年秋天,他開始在加州大學(xué)伯克利分校電氣工程與計算機(jī)科學(xué)系讀博。
比如HuggingFace最具影響力的模型之一——Zephyr Beta,就是基于他幫助搭建的基礎(chǔ)設(shè)施完成的。
而一旦有了清晰的個人品牌,故事就自然會往你這兒聚攏。
真正的轉(zhuǎn)機(jī)出現(xiàn)在2019年,Roberto問他要不要跟他去FAIR(Facebook人工智能研究院)實(shí)習(xí)。
他的公開寫作對AI2有明確價值,而他也能持續(xù)鍛煉表達(dá)力、擴(kuò)大影響力。 這樣的工作極其稀有,大多數(shù)公司并不會真的幫你個人成長。
那段時間最有價值的,其實(shí)是:
練出了穩(wěn)定的工作習(xí)慣; 真正理解了開源AI社區(qū)是怎么運(yùn)作的。
短期研究要產(chǎn)生影響,最有效方式就是把它接入模型訓(xùn)練流程;
但其實(shí),即使是「顯而易見」的事,也很少有人認(rèn)真去做。
突破圈層的關(guān)鍵,不是資源而是契機(jī)+準(zhǔn)備。
盡管實(shí)習(xí)體驗(yàn)不盡如人意,但他由此積累了寶貴的技術(shù)經(jīng)驗(yàn)與人脈資源。
用仿真優(yōu)化新設(shè)計,再用硅材料制造出來測試;
【新智元導(dǎo)讀】他不是天才,博士畢業(yè)0頂會論文,卻靠著堅(jiān)持寫技術(shù)博客,因RLHF「網(wǎng)紅」博客文章一炮而紅,逆襲成功、躋身AI核心圈!技術(shù)可以遲到,但影響力不能缺席。這一次,是寫作改變命運(yùn)。
在他剛加入時,Ai2正好在訓(xùn)練Tülu 2 70B。
很多人會高估別人的執(zhí)行力,低估簡單方案的價值,然后被自己復(fù)雜的想法拖住(沉沒成本效應(yīng))。
但日積月累,鍛煉了好習(xí)慣。
他慢慢覺得不再快樂了。
Ai2的高級研究科學(xué)家Nathan Lambert,最近分享了他如何走上AI之路。
前提是你一直踩著油門往前沖。
這些「邊緣人社群」各有短長,最后大家都找到自己的落點(diǎn)。
基礎(chǔ)不是障礙,反而是勢能的起點(diǎn)。
指引方向; 提前清除潛在障礙; 創(chuàng)造順暢推進(jìn)的環(huán)境。
這兩個概念緊密關(guān)聯(lián)卻存在微妙差異——
最難的是第一步,而愿意埋頭學(xué)基礎(chǔ)的人,最終會在別人止步之處繼續(xù)前進(jìn)。
把顯而易見但沒人做的事,及時簡單地做好。
這次合作從2018年春天開始。
導(dǎo)師幫他牽線認(rèn)識了當(dāng)時的Sergey Levine組的博士后Roberto Calandra。
加入HuggingFace,對Nathan Lambert來說也算幸運(yùn),避開了一些聽起來更誘人、但后來大裁員或轉(zhuǎn)型的公司。
這讓他更容易脫穎而出。
在AI領(lǐng)域,太頻繁發(fā)模型,會讓我們來不及掌握、完善下一個模型; 觀眾多了,維護(hù)公共輸出的成本也飆升。
團(tuán)隊(duì)只要稍微長大一點(diǎn),可能就能帶來「瘋狂級別」的增益。
做了第一個LLM排行榜;
飛輪一旦足夠大,有時候什么都不做反而更有效:
當(dāng)你愿意從舞臺中心走下來,才能搭起更大的舞臺。
通過RewardBench這類重要的學(xué)術(shù)項(xiàng)目,他表示自己建立了信心:
所以他現(xiàn)在轉(zhuǎn)向更「少而精」的策略。當(dāng)飛輪已經(jīng)轉(zhuǎn)起來時,更少、更大的動作會更有價值。
論文鏈接:https://arxiv.org/abs/1901.03737
很會專注,能獨(dú)自鉆研技術(shù)難題。
大多數(shù)人放棄得太早了。
真正理解了開源AI社區(qū)是怎么運(yùn)作的。
而這,正是他始終心系的愿景:AI的未來不屬于孤勇者,而是屬于一群協(xié)力前行、彼此賦能的人。
而那時的他,卻低估了自己的價值。
這是他后來變得非常重要的能力。
這個策略其實(shí)很簡單:
這是一套全新的能力,他還在學(xué)習(xí)。
研究生生涯后期,他在心理健康資源頁面上專門列了份「研究現(xiàn)實(shí)清單」,記錄所有不如意的事情。
這是一種完全不同的角色定位。
我能獨(dú)立提出點(diǎn)子,并帶頭推進(jìn)高影響力的研究項(xiàng)目。
有很多沖勁,但沒方向。
之后,他加入了Allen人工智能研究所(Allen Institute forAI,簡稱AI2)。
在ChatGPT之前的那段時間,他在HuggingFace項(xiàng)目之間輾轉(zhuǎn),基本是哪里有事、哪里需要人手就去哪兒。
盡管當(dāng)時總覺得自己格格不入,但那份全身心投入的執(zhí)著對真正的研究彌足珍貴。
如今,他的谷歌引用數(shù)已有5千多,h指數(shù)為32。
所以只要成為其中之一,收獲會非??捎^。
許多時候,參與太多合作會讓人忽略一個問題:你是否能一個人把事做成?
長期研究,就得真正做「長期」準(zhǔn)備。
相信只要肯努力多年,多數(shù)人都能做成很難的事。不是不夠努力,是沒堅(jiān)持夠久。
雖然未能如愿,但他并未氣餒,反而堅(jiān)持不懈,一直在主動爭取機(jī)會。
他真正「出圈」的起點(diǎn),是為HuggingFace寫的第一篇重量級博客——關(guān)于RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))。
每日必須推進(jìn)技術(shù)進(jìn)展——或是重大功能,或是代碼優(yōu)化。
他不想總是站在最前線親自帶隊(duì),而是希望通過營造環(huán)境、鼓勵他人,讓更多重要項(xiàng)目得以發(fā)生。
周圍的同事,年輕、優(yōu)秀、富有驅(qū)動力。
就像創(chuàng)業(yè)公司在找到產(chǎn)品市場匹配(PMF)前,要不斷試錯迭代,職業(yè)生涯也需要不斷點(diǎn)火:
如果他當(dāng)初去了那些「前沿AI實(shí)驗(yàn)室},可能早就被埋沒在其中,職業(yè)成長空間也被壓縮了。
秋天錯過了一次會議投稿,而且很多實(shí)驗(yàn)都失敗了。
不管如何,與此同時,他找到了屬于自己的定位:做開放科研的溝通者。
Roberto對將機(jī)器學(xué)習(xí)應(yīng)用于飄升機(jī)(ionocraft)感興趣。
2022年5月加入HuggingFace后,在ChatGPT問世前的七個月里,他認(rèn)為并未做出顯赫成果。
結(jié)果它成了RLHF關(guān)鍵詞下的長期搜索熱文(雖然現(xiàn)在內(nèi)容已經(jīng)有點(diǎn)舊了)。
盡管起步艱難、幾經(jīng)波折,他依舊在AI領(lǐng)域站穩(wěn)腳跟、有所成就。
而那時候,他開始堅(jiān)持每周寫作,就是這一戰(zhàn)略最有力的驗(yàn)證。
但堅(jiān)守HuggingFace的文化,堅(jiān)持日拱一卒:
目前,該項(xiàng)目已不再積極維護(hù)和開發(fā)。
如何更有策略地使用積累的影響力?
最終他加入HuggingFace,那是唯一一份符合他要求的工作。
讓人沒想到的是,這類崗位會在他畢業(yè)一年后幾乎「消失殆盡」。
很會專注,能獨(dú)自鉆研技術(shù)難題。 相信只要肯努力多年,多數(shù)人都能做成很難的事。不是不夠努力,是沒堅(jiān)持夠久。 對讀不讀完博士,無所謂。大不了拿個名校碩士。 有很多沖勁,但沒方向。
拿下一份工業(yè)界研究崗,這對他來說才算真正「在AI領(lǐng)域站穩(wěn)了」。
他沒采納那種「研究生上課不重要」的建議,反而學(xué)到了不少扎實(shí)的基礎(chǔ)知識。
博士生導(dǎo)師曾對他說過:「每天專注4小時,你也能改變世界?!?/p>
優(yōu)化腿部幾何形狀的學(xué)習(xí)算法;
技術(shù)最終服務(wù)于人,好的科研不是一個人的沖刺,而是一群人的合力。
他另辟蹊徑,選擇了競爭沒那么激烈的方向。
他形成了一個非常明確的觀點(diǎn):
這才算搭上AI的邊:
現(xiàn)在,Chris Manning首次提出直接偏好優(yōu)化DPO的論文,被引用了3000多次。
創(chuàng)造順暢推進(jìn)的環(huán)境。
盡管前面經(jīng)歷了不少波折,Nathan Lambert心里一直有一個明確的目標(biāo)——
Roberto Calandra現(xiàn)任德累斯頓工業(yè)大學(xué)正教授(W3教授級別),并領(lǐng)導(dǎo)該?!笇W(xué)習(xí)、自適應(yīng)系統(tǒng)與機(jī)器人」實(shí)驗(yàn)室(LASR)
但他沒能真正融入伯克利AI實(shí)驗(yàn)室,也沒有AI方向的朋友,身邊全是EECS電氣工程那邊的同學(xué)。
但后來,時差、文化差異等問題接踵而至。
所以他更多的貢獻(xiàn)是:
練出了穩(wěn)定的工作習(xí)慣;
項(xiàng)目自然流入; 推薦自然發(fā)生; 你會被當(dāng)成「AI開放科學(xué)的頭部人物」之一,而不必不斷自我證明。
但聽完迎新會、看教授介紹,他立刻就被AI吸引了。
偶爾,他也會做些學(xué)術(shù)指導(dǎo),但非常保護(hù)自己的時間。
這些為之后遇到契合項(xiàng)目時,他能快速接住、真正發(fā)力打下了基礎(chǔ)。
? 個體持續(xù)積累動能換取行業(yè)影響力;
突破點(diǎn):公開科研溝通>技術(shù)產(chǎn)出
在HuggingFace從事RLHF期間,他為開源社區(qū)做了很多基礎(chǔ)性工作: