當(dāng)前位置: 首頁 > 出行資訊 > 全國 > 正文

wepoker官網(wǎng)下載:字節(jié)Seed新作：模型合并如何改變大模型預(yù)訓(xùn)練范式

發(fā)布時間：2025-06-22 來源：

HHPOKER是一款為德?lián)淙酆谜叽蛟斓脑诰€德?lián)淦脚_。我們應(yīng)用了先進的技術(shù)和傳統(tǒng)德?lián)涞木?為您帶來蕞真實、驚心動魄的德州體驗。無論您是初學(xué)者還是職業(yè)玩家,撲克王都能滿足您的需求,讓您隨時隨地都能...

預(yù)訓(xùn)練合并：訓(xùn)練效率的「時光機」

wepoker官網(wǎng)下載

對于大模型開發(fā)者而言，PMA 帶來的不僅是成本節(jié)省，更是一種「模擬退火」的思維革命——通過合并穩(wěn)定期的檢查點，可快速預(yù)測衰減階段的性能，避免盲目延長訓(xùn)練周期。對于中小型企業(yè)，這意味著用更少的資源實現(xiàn) comparable 性能，甚至可能顛覆「大公司壟斷算力」的格局。

wepoker官網(wǎng)下載

合并數(shù)量（N）越多越好：當(dāng)訓(xùn)練完成時，合并 15 個檢查點的模型性能比合并 3 個的高近 1 個百分點。但需平衡計算成本，團隊建議實際應(yīng)用中取 N=10 作為折中方案。

論文標(biāo)題：Model Merging in Pre-training of Large Language Models論文地址：https://arxiv.org/pdf/2505.12082

字節(jié)跳動 Seed 團隊近期在 arXiv 上發(fā)表的論文得到了 ViT 作者，前 Google Brain 最近跳去 OpenAI 的 Lucas Beyer 的親自解讀，Lucas 直言：「這是一篇簡潔的論文，不知怎的讓我回憶起美好的在 Google Brain 的舊時光。(This is a neat paper that somehow made me reminisce good old Brain times. )」

超參數(shù)規(guī)律：模型規(guī)模決定合并間隔

結(jié)語：開啟高效訓(xùn)練的新時代

合并策略：簡單平均（SMA）勝過復(fù)雜加權(quán)

PMA 技術(shù)的三大核心發(fā)現(xiàn)

在合并策略的對比實驗中，研究團隊測試了三種主流方法：

合并時機：穩(wěn)定期合并效果最佳

在大模型訓(xùn)練中，「損失激增」（Loss Spike）是令人頭疼的問題——硬件故障、參數(shù)震蕩等因素可能導(dǎo)致訓(xùn)練崩潰，不得不從頭再來。PMA 為此提供了一種「急救方案」：當(dāng)損失激增發(fā)生時，合并故障前的 N 個檢查點作為初始化權(quán)重（PMA-init），可使訓(xùn)練恢復(fù)穩(wěn)定。

實驗結(jié)果表明，在訓(xùn)練初期，EMA 和 WMA 因更關(guān)注近期權(quán)重而表現(xiàn)略好，但隨著訓(xùn)練推進，三者性能差異逐漸消失?？紤]到 SMA 的計算簡單性和穩(wěn)定性，團隊最終選擇其作為默認策略。這一發(fā)現(xiàn)打破了「復(fù)雜加權(quán)必然更優(yōu)」的固有認知，為工程落地提供了便利。

從「暴力堆算力」到「智能優(yōu)化訓(xùn)練流程」，大模型的發(fā)展正從粗放式增長轉(zhuǎn)向精細化運營。字節(jié)跳動的這項研究，以模型合并為切入點，揭示了預(yù)訓(xùn)練過程中被忽視的「檢查點價值」，為學(xué)術(shù)界和工業(yè)界提供了一條低成本、高效能的新路徑。

字節(jié)跳動的研究將模型合并引入預(yù)訓(xùn)練階段，提出了Pre-trained Model Averaging（PMA）框架。簡單來說，PMA 就是在預(yù)訓(xùn)練過程中，定期將不同訓(xùn)練階段的模型權(quán)重進行平均，生成一個「合并模型」。這是因為：預(yù)訓(xùn)練后期的模型權(quán)重往往在參數(shù)空間中探索了不同的局部最優(yōu)解，通過平均化可以抵消單個模型的偏差，逼近更優(yōu)的全局解。例如，在穩(wěn)定訓(xùn)練階段（Constant LR Phase）合并 10 個檢查點后，Seed-MoE-10B/100B 模型在 HumanEval 代碼生成任務(wù)上的得分從 54.3 提升至 61.6，漲幅超過 13%。

相比之下，預(yù)訓(xùn)練階段的模型合并研究仍較為匱乏。此類預(yù)訓(xùn)練合并通常涉及合并單一訓(xùn)練軌跡中的檢查點，如 LAWA 中通過模型合并加速 LLM 訓(xùn)練的探索。然而，隨著模型規(guī)模和數(shù)據(jù)量的急劇增長，社區(qū)研究者難以評估模型合并對大規(guī)模模型的影響，主要原因在于難以獲取大規(guī)模預(yù)訓(xùn)練過程中的中間檢查點。盡管 DeepSeek 和 LLaMA 均表明其在模型開發(fā)中使用了模型合并技術(shù)，但這些技術(shù)的詳細信息尚未公開披露。

數(shù)學(xué)原理：為什么合并能「化平凡為神奇」？

合并間隔（V）與模型規(guī)模正相關(guān)：小模型（如 1.3B 參數(shù)的 MoE）適合較小的合并間隔（8B tokens），而大模型（如 100B 參數(shù)的 MoE）則可采用更大的間隔（80B tokens）。這與大模型通常使用更大批次訓(xùn)練的特性一致。

簡單移動平均（SMA）：所有模型權(quán)重等比例平均指數(shù)移動平均（EMA）：近期模型權(quán)重占比更高加權(quán)移動平均（WMA）：按訓(xùn)練步數(shù)線性加權(quán)

可視化實驗也印證了這一點：在 Seed-MoE-1.3B/13B 模型的某層參數(shù)空間中，單個檢查點的權(quán)重分布在 MMLU 得分等高線的不同位置，而合并后的權(quán)重位置往往更靠近高分區(qū)。

模型合并并非全新概念，此前主要應(yīng)用于后訓(xùn)練階段，即通過合并多個領(lǐng)域微調(diào)模型的權(quán)重，構(gòu)建一個多任務(wù)能力更強的統(tǒng)一模型。例如，DARE 方法將 WizardLM（通用對話模型）與 WizardMath（數(shù)學(xué)推理模型）合并后，在 GSM8K 數(shù)學(xué)推理基準(zhǔn)上的得分從 2.2 躍升至 66.3，展現(xiàn)了任務(wù)能力融合的強大潛力。

有趣的是，即使在學(xué)習(xí)率余弦衰減階段（Cosine Decay Phase）的早期進行合并，PMA 模型的性能也能媲美甚至超越自然衰減到末期的模型。例如，Seed-MoE-15B/150B 模型在衰減初期合并后，其性能與訓(xùn)練至末期的模型相差無幾。

下游階段的「熱身優(yōu)勢」

后訓(xùn)練合并：任務(wù)能力的「拼圖游戲」

研究團隊通過實驗發(fā)現(xiàn)，在學(xué)習(xí)率穩(wěn)定階段（Warmup-Stable-Decay 中的 Stable Phase）進行模型合并效果最佳。此時模型處于「高效學(xué)習(xí)期」，權(quán)重更新尚未進入衰減階段，不同檢查點之間的參數(shù)差異既能保證多樣性，又不會因過度震蕩導(dǎo)致合并后性能下降。

在持續(xù)訓(xùn)練（CT）和監(jiān)督微調(diào)（SFT）階段，使用 PMA 合并后的模型作為初始化權(quán)重（PMA-init），能顯著改善訓(xùn)練動態(tài)。例如，在 CT 階段，PMA-init 模型的 GradNorm 曲線更加平穩(wěn)，早期訓(xùn)練中的 MMLU 得分比基線模型高 1-2 個百分點。盡管最終性能與基線持平，但其「熱身優(yōu)勢」可加速下游任務(wù)的收斂，尤其適合數(shù)據(jù)敏感型場景。

PMA-init：讓訓(xùn)練「起死回生」

實驗中，團隊故意用過高的學(xué)習(xí)率（6e-3）訓(xùn)練一個 330M 參數(shù)的 MoE 模型，導(dǎo)致其損失劇烈震蕩。此時采用 PMA-init 合并 3 個故障前檢查點，訓(xùn)練曲線迅速恢復(fù)平滑，避免了從頭訓(xùn)練的巨大浪費。

Seed 團隊在這篇論文提出的預(yù)訓(xùn)練模型平均（PMA）技術(shù)，通過合并訓(xùn)練過程中的檢查點（Checkpoint），不僅實現(xiàn)了模型性能的顯著提升，還能精準(zhǔn)預(yù)測學(xué)習(xí)率衰減階段的性能表現(xiàn)。這一成果被視為大模型訓(xùn)練領(lǐng)域的重要突破，甚至可能改變未來大模型開發(fā)的范式。

正如論文結(jié)語所言：「PMA 不僅是一種技術(shù)，更是一個監(jiān)視器——它讓預(yù)訓(xùn)練過程變得可預(yù)測、可優(yōu)化。」隨著更多類似研究的涌現(xiàn)，我們有理由相信，大模型訓(xùn)練將逐步擺脫「燒錢游戲」的標(biāo)簽，走向更可持續(xù)、更普惠的未來。

PMA 的「隱藏技能」：訓(xùn)練穩(wěn)定性與初始化優(yōu)化

模型合并：從「后訓(xùn)練」到「預(yù)訓(xùn)練」的跨越

學(xué)習(xí)率的影響：當(dāng)前實驗?zāi)J使用縮放定律（Scaling Law）推薦的最優(yōu)學(xué)習(xí)率，未深入探索高學(xué)習(xí)率下 PMA 的表現(xiàn)。理論上，高學(xué)習(xí)率可能增加參數(shù)探索的多樣性，進一步提升合并效果，但受限于算力成本，尚未量化分析。強化學(xué)習(xí)階段的應(yīng)用：論文主要聚焦預(yù)訓(xùn)練，而 RLHF（強化學(xué)習(xí)從人類反饋中學(xué)習(xí)）作為大模型訓(xùn)練的關(guān)鍵環(huán)節(jié)，其檢查點合并的潛力尚未挖掘。這將是未來研究的重要方向。

下一篇：烏克蘭到底摧毀了多少俄戰(zhàn)略轟炸機？是否俄“珍珠港時刻”？
上一篇：老當(dāng)益壯，C羅是首位40歲后為國家隊打入3球的歐洲球員

相關(guān)閱讀

推薦圖文

多特外租門將表態(tài)不會回去當(dāng)替補，經(jīng)紀(jì)人：他已為下階段做好準(zhǔn)備

日本30年期國債拍賣結(jié)果出爐投標(biāo)倍數(shù)為2023年以來新低

最新信息

推薦信息

京公網(wǎng)安備 11010702001433號京ICP備11022796號
電腦版 | 手機版

婷婷开心六月久久综合丁香,免费大片黄在线观看,黄片中文字幕免费大全110,国产69久久精品成人看,美女免费黄色av网站在线观看,91精品国产91久久久久久,在线观看黄片欧洲

wepoker官網(wǎng)下載:字節(jié)Seed新作：模型合并如何改變大模型預(yù)訓(xùn)練范式