婷婷开心六月久久综合丁香,免费大片黄在线观看,黄片中文字幕免费大全110,国产69久久精品成人看,美女免费黄色av网站在线观看,91精品国产91久久久久久,在线观看黄片欧洲

 
當(dāng)前位置: 首頁(yè) > 出行資訊 > 全國(guó) > 正文

HHpoker官網(wǎng):字節(jié)Seed新作:模型合并如何改變大模型預(yù)訓(xùn)練范式

發(fā)布時(shí)間:2025-06-22  來源:

HHPOKER是一款為德?lián)淙酆谜叽蛟斓脑诰€德?lián)淦脚_(tái)。我們應(yīng)用了先進(jìn)的技術(shù)和傳統(tǒng)德?lián)涞木?為您帶來蕞真實(shí)、驚心動(dòng)魄的德州體驗(yàn)。無論您是初學(xué)者還是職業(yè)玩家,撲克王都能滿足您的需求,讓您隨時(shí)隨地都能...

實(shí)驗(yàn)中,團(tuán)隊(duì)故意用過高的學(xué)習(xí)率(6e-3)訓(xùn)練一個(gè) 330M 參數(shù)的 MoE 模型,導(dǎo)致其損失劇烈震蕩。此時(shí)采用 PMA-init 合并 3 個(gè)故障前檢查點(diǎn),訓(xùn)練曲線迅速恢復(fù)平滑,避免了從頭訓(xùn)練的巨大浪費(fèi)。

HHpoker官網(wǎng)

對(duì)于大模型開發(fā)者而言,PMA 帶來的不僅是成本節(jié)省,更是一種「模擬退火」的思維革命——通過合并穩(wěn)定期的檢查點(diǎn),可快速預(yù)測(cè)衰減階段的性能,避免盲目延長(zhǎng)訓(xùn)練周期。對(duì)于中小型企業(yè),這意味著用更少的資源實(shí)現(xiàn) comparable 性能,甚至可能顛覆「大公司壟斷算力」的格局。

HHpoker官網(wǎng)

學(xué)習(xí)率的影響:當(dāng)前實(shí)驗(yàn)?zāi)J(rèn)使用縮放定律(Scaling Law)推薦的最優(yōu)學(xué)習(xí)率,未深入探索高學(xué)習(xí)率下 PMA 的表現(xiàn)。理論上,高學(xué)習(xí)率可能增加參數(shù)探索的多樣性,進(jìn)一步提升合并效果,但受限于算力成本,尚未量化分析。強(qiáng)化學(xué)習(xí)階段的應(yīng)用:論文主要聚焦預(yù)訓(xùn)練,而 RLHF(強(qiáng)化學(xué)習(xí)從人類反饋中學(xué)習(xí))作為大模型訓(xùn)練的關(guān)鍵環(huán)節(jié),其檢查點(diǎn)合并的潛力尚未挖掘。這將是未來研究的重要方向。

從「暴力堆算力」到「智能優(yōu)化訓(xùn)練流程」,大模型的發(fā)展正從粗放式增長(zhǎng)轉(zhuǎn)向精細(xì)化運(yùn)營(yíng)。字節(jié)跳動(dòng)的這項(xiàng)研究,以模型合并為切入點(diǎn),揭示了預(yù)訓(xùn)練過程中被忽視的「檢查點(diǎn)價(jià)值」,為學(xué)術(shù)界和工業(yè)界提供了一條低成本、高效能的新路徑。

簡(jiǎn)單移動(dòng)平均(SMA):所有模型權(quán)重等比例平均指數(shù)移動(dòng)平均(EMA):近期模型權(quán)重占比更高加權(quán)移動(dòng)平均(WMA):按訓(xùn)練步數(shù)線性加權(quán)

下游階段的「熱身優(yōu)勢(shì)」

在持續(xù)訓(xùn)練(CT)和監(jiān)督微調(diào)(SFT)階段,使用 PMA 合并后的模型作為初始化權(quán)重(PMA-init),能顯著改善訓(xùn)練動(dòng)態(tài)。例如,在 CT 階段,PMA-init 模型的 GradNorm 曲線更加平穩(wěn),早期訓(xùn)練中的 MMLU 得分比基線模型高 1-2 個(gè)百分點(diǎn)。盡管最終性能與基線持平,但其「熱身優(yōu)勢(shì)」可加速下游任務(wù)的收斂,尤其適合數(shù)據(jù)敏感型場(chǎng)景。

PMA 的「隱藏技能」:訓(xùn)練穩(wěn)定性與初始化優(yōu)化

正如論文結(jié)語(yǔ)所言:「PMA 不僅是一種技術(shù),更是一個(gè)監(jiān)視器——它讓預(yù)訓(xùn)練過程變得可預(yù)測(cè)、可優(yōu)化?!闺S著更多類似研究的涌現(xiàn),我們有理由相信,大模型訓(xùn)練將逐步擺脫「燒錢游戲」的標(biāo)簽,走向更可持續(xù)、更普惠的未來。

合并策略:簡(jiǎn)單平均(SMA)勝過復(fù)雜加權(quán)

有趣的是,即使在學(xué)習(xí)率余弦衰減階段(Cosine Decay Phase)的早期進(jìn)行合并,PMA 模型的性能也能媲美甚至超越自然衰減到末期的模型。例如,Seed-MoE-15B/150B 模型在衰減初期合并后,其性能與訓(xùn)練至末期的模型相差無幾。

實(shí)驗(yàn)結(jié)果表明,在訓(xùn)練初期,EMA 和 WMA 因更關(guān)注近期權(quán)重而表現(xiàn)略好,但隨著訓(xùn)練推進(jìn),三者性能差異逐漸消失。考慮到 SMA 的計(jì)算簡(jiǎn)單性和穩(wěn)定性,團(tuán)隊(duì)最終選擇其作為默認(rèn)策略。這一發(fā)現(xiàn)打破了「復(fù)雜加權(quán)必然更優(yōu)」的固有認(rèn)知,為工程落地提供了便利。

合并間隔(V)與模型規(guī)模正相關(guān):小模型(如 1.3B 參數(shù)的 MoE)適合較小的合并間隔(8B tokens),而大模型(如 100B 參數(shù)的 MoE)則可采用更大的間隔(80B tokens)。這與大模型通常使用更大批次訓(xùn)練的特性一致。

論文標(biāo)題:Model Merging in Pre-training of Large Language Models論文地址:https://arxiv.org/pdf/2505.12082

Seed 團(tuán)隊(duì)在這篇論文提出的預(yù)訓(xùn)練模型平均(PMA)技術(shù),通過合并訓(xùn)練過程中的檢查點(diǎn)(Checkpoint),不僅實(shí)現(xiàn)了模型性能的顯著提升,還能精準(zhǔn)預(yù)測(cè)學(xué)習(xí)率衰減階段的性能表現(xiàn)。這一成果被視為大模型訓(xùn)練領(lǐng)域的重要突破,甚至可能改變未來大模型開發(fā)的范式。

結(jié)語(yǔ):開啟高效訓(xùn)練的新時(shí)代

數(shù)學(xué)原理:為什么合并能「化平凡為神奇」?

后訓(xùn)練合并:任務(wù)能力的「拼圖游戲」

字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)近期在 arXiv 上發(fā)表的論文得到了 ViT 作者,前 Google Brain 最近跳去 OpenAI 的 Lucas Beyer 的親自解讀,Lucas 直言:「這是一篇簡(jiǎn)潔的論文,不知怎的讓我回憶起美好的在 Google Brain 的舊時(shí)光。(This is a neat paper that somehow made me reminisce good old Brain times. )」

研究團(tuán)隊(duì)通過實(shí)驗(yàn)發(fā)現(xiàn),在學(xué)習(xí)率穩(wěn)定階段(Warmup-Stable-Decay 中的 Stable Phase)進(jìn)行模型合并效果最佳。此時(shí)模型處于「高效學(xué)習(xí)期」,權(quán)重更新尚未進(jìn)入衰減階段,不同檢查點(diǎn)之間的參數(shù)差異既能保證多樣性,又不會(huì)因過度震蕩導(dǎo)致合并后性能下降。

合并數(shù)量(N)越多越好:當(dāng)訓(xùn)練完成時(shí),合并 15 個(gè)檢查點(diǎn)的模型性能比合并 3 個(gè)的高近 1 個(gè)百分點(diǎn)。但需平衡計(jì)算成本,團(tuán)隊(duì)建議實(shí)際應(yīng)用中取 N=10 作為折中方案。

預(yù)訓(xùn)練合并:訓(xùn)練效率的「時(shí)光機(jī)」

相比之下,預(yù)訓(xùn)練階段的模型合并研究仍較為匱乏。此類預(yù)訓(xùn)練合并通常涉及合并單一訓(xùn)練軌跡中的檢查點(diǎn),如 LAWA 中通過模型合并加速 LLM 訓(xùn)練的探索。然而,隨著模型規(guī)模和數(shù)據(jù)量的急劇增長(zhǎng),社區(qū)研究者難以評(píng)估模型合并對(duì)大規(guī)模模型的影響,主要原因在于難以獲取大規(guī)模預(yù)訓(xùn)練過程中的中間檢查點(diǎn)。盡管 DeepSeek 和 LLaMA 均表明其在模型開發(fā)中使用了模型合并技術(shù),但這些技術(shù)的詳細(xì)信息尚未公開披露。

PMA-init:讓訓(xùn)練「起死回生」

超參數(shù)規(guī)律:模型規(guī)模決定合并間隔

可視化實(shí)驗(yàn)也印證了這一點(diǎn):在 Seed-MoE-1.3B/13B 模型的某層參數(shù)空間中,單個(gè)檢查點(diǎn)的權(quán)重分布在 MMLU 得分等高線的不同位置,而合并后的權(quán)重位置往往更靠近高分區(qū)。

在大模型訓(xùn)練中,「損失激增」(Loss Spike)是令人頭疼的問題——硬件故障、參數(shù)震蕩等因素可能導(dǎo)致訓(xùn)練崩潰,不得不從頭再來。PMA 為此提供了一種「急救方案」:當(dāng)損失激增發(fā)生時(shí),合并故障前的 N 個(gè)檢查點(diǎn)作為初始化權(quán)重(PMA-init),可使訓(xùn)練恢復(fù)穩(wěn)定。

字節(jié)跳動(dòng)的研究將模型合并引入預(yù)訓(xùn)練階段,提出了Pre-trained Model Averaging(PMA)框架。簡(jiǎn)單來說,PMA 就是在預(yù)訓(xùn)練過程中,定期將不同訓(xùn)練階段的模型權(quán)重進(jìn)行平均,生成一個(gè)「合并模型」。這是因?yàn)椋侯A(yù)訓(xùn)練后期的模型權(quán)重往往在參數(shù)空間中探索了不同的局部最優(yōu)解,通過平均化可以抵消單個(gè)模型的偏差,逼近更優(yōu)的全局解。例如,在穩(wěn)定訓(xùn)練階段(Constant LR Phase)合并 10 個(gè)檢查點(diǎn)后,Seed-MoE-10B/100B 模型在 HumanEval 代碼生成任務(wù)上的得分從 54.3 提升至 61.6,漲幅超過 13%。

模型合并并非全新概念,此前主要應(yīng)用于后訓(xùn)練階段,即通過合并多個(gè)領(lǐng)域微調(diào)模型的權(quán)重,構(gòu)建一個(gè)多任務(wù)能力更強(qiáng)的統(tǒng)一模型。例如,DARE 方法將 WizardLM(通用對(duì)話模型)與 WizardMath(數(shù)學(xué)推理模型)合并后,在 GSM8K 數(shù)學(xué)推理基準(zhǔn)上的得分從 2.2 躍升至 66.3,展現(xiàn)了任務(wù)能力融合的強(qiáng)大潛力。

合并時(shí)機(jī):穩(wěn)定期合并效果最佳

PMA 技術(shù)的三大核心發(fā)現(xiàn)

在合并策略的對(duì)比實(shí)驗(yàn)中,研究團(tuán)隊(duì)測(cè)試了三種主流方法:

模型合并:從「后訓(xùn)練」到「預(yù)訓(xùn)練」的跨越

 
相關(guān)閱讀
 
推薦圖文
最新信息
推薦信息
Copyright © 2012 - 2020 交通出行網(wǎng) 版權(quán)所有
京公網(wǎng)安備 11010702001433號(hào) 京ICP備11022796號(hào)

電腦版 | 手機(jī)版