WPK正版官網(wǎng)_WePoker下載-微撲克俱樂部加入Copyright ? WePoker. All Rights Reserverd. 簡(jiǎn)體中文 和好朋友一起玩最快樂的德州撲克
特斯拉報(bào)告顯示,經(jīng)優(yōu)化配置的 Stress 監(jiān)測(cè)系統(tǒng)在 Dojo 集群中檢出大量故障核心。檢測(cè)耗時(shí)分布呈現(xiàn)兩極分化:多數(shù)缺陷在執(zhí)行 1GB-100GB 負(fù)載指令(數(shù)秒至數(shù)分鐘)時(shí)被發(fā)現(xiàn);難檢測(cè)缺陷需執(zhí)行 1000GB 以上指令(數(shù)小時(shí))。
IT之家 6 月 7 日消息,特斯拉昨日發(fā)文,向用戶介紹了其百萬核心級(jí) Dojo 超算系統(tǒng)的故障核心檢測(cè)技術(shù)。
需強(qiáng)調(diào)的是,Stress 工具測(cè)試負(fù)載輕量且核心自包含,支持后臺(tái)測(cè)試無需離線。最終僅故障核心會(huì)被禁用,且每個(gè) D1 芯片可容忍數(shù)個(gè)核心失效而不影響整體功能。
據(jù)介紹,該公司開發(fā)的 Stress 工具能夠在不停機(jī)的狀態(tài)下,跨處理器乃至跨集群檢測(cè)易引發(fā)靜默數(shù)據(jù)錯(cuò)誤(SDC)的核心。
由于 Dojo 大芯片的超高復(fù)雜性,即使在制造過程中也難以 100% 檢測(cè)缺陷晶粒,而靜默數(shù)據(jù)錯(cuò)誤的檢測(cè)更困難。
特斯拉透露,Stress 工具除檢測(cè)故障核心外,還能發(fā)現(xiàn)罕見設(shè)計(jì)級(jí)缺陷并通過軟件調(diào)整修復(fù)。在監(jiān)測(cè)系統(tǒng)廣泛部署期間,多個(gè)底層軟件問題也被發(fā)現(xiàn)并修正。IT之家從官方獲悉,目前 Stress 工具已全面集成至運(yùn)行中的 Dojo 集群,在 AI 訓(xùn)練期間實(shí)施硬件健康監(jiān)測(cè)。特斯拉表示,通過該監(jiān)測(cè)觀察到的故障率與谷歌和 Meta 公布的數(shù)據(jù)相當(dāng),表明監(jiān)測(cè)工具與硬件水準(zhǔn)達(dá)到行業(yè)同等水平。
特斯拉將晶圓級(jí) Dojo 處理器稱為“訓(xùn)練模塊”,每個(gè)模塊包含 25 個(gè) 645mm2 的 D1 Chip,采用臺(tái)積電 InFO_SoW 技術(shù)封裝,集成 354 個(gè)定制的 64 位 RISC-V 核心(含 1.25MB SRAM 用于存儲(chǔ)數(shù)據(jù)和指令),以 5×5 集群排列并通過機(jī)械網(wǎng)絡(luò)互聯(lián),可提供 10TB/s 帶寬。每個(gè) D1 還支持 4TB/s 片外帶寬,因此單個(gè)“訓(xùn)練模塊”總共具備 8,850 核心,支持 8/16/32/64 位整數(shù)及多種數(shù)據(jù)格式。
為了提高效率,特斯拉想辦法改進(jìn)了其檢測(cè)技術(shù),這個(gè)過程主要通過三項(xiàng)創(chuàng)新來完成:
為每個(gè)核心分配 0.5MB 隨機(jī)指令專屬負(fù)載,利用訓(xùn)練模塊內(nèi)部高帶寬通信(而非主機(jī)通信)實(shí)現(xiàn)核心間負(fù)載傳遞與順序執(zhí)行,將指令測(cè)試量提升至 4.4GB 且大幅縮短時(shí)間使核心在不重置狀態(tài)下多次運(yùn)行負(fù)載,增加執(zhí)行環(huán)境隨機(jī)性以暴露潛在錯(cuò)誤。公司稱執(zhí)行次數(shù)增加帶來的速度損失遠(yuǎn)低于檢測(cè)可靠性提升通過 XOR 操作周期性整合寄存器值至指定 SRAM 區(qū)域,使缺陷計(jì)算單元識(shí)別概率提升 10 倍(經(jīng)缺陷核心實(shí)測(cè)),且性能損耗可控
為應(yīng)對(duì)核心故障風(fēng)險(xiǎn),特斯拉最初采用差分模糊測(cè)試技術(shù):生成隨機(jī)指令集并同步發(fā)送至所有核心,通過比對(duì)輸出結(jié)果識(shí)別差異。但因?yàn)橹鳈C(jī)與訓(xùn)練模塊間通信開銷過大,該過程耗時(shí)明顯過長(zhǎng)。
特斯拉表示,Dojo 是當(dāng)前全球唯二現(xiàn)存的最大處理器之一。這種晶圓級(jí)芯片采用整片 300mm 晶圓制成,單芯片尺寸已達(dá)物理極限。
特斯拉表示,該技術(shù)不僅適用于訓(xùn)練模塊層級(jí)或集成 12 個(gè)模塊的機(jī)柜層級(jí),更可在集群層級(jí)運(yùn)作,實(shí)現(xiàn)百萬級(jí)運(yùn)行核心中的故障定位。
雖然 SDC 在所有硬件上都難以避免,但 Dojo 處理器有著8,850 個(gè)核心、18000A 電流及 15000W 的超高功耗,這會(huì)嚴(yán)重放大其影響,因此所有核心必須按設(shè)計(jì)運(yùn)行,否則單個(gè)數(shù)據(jù)錯(cuò)誤便可毀掉整個(gè)耗時(shí)數(shù)周才能完成 AI 訓(xùn)練成果。