本站提供WPK官方正版微撲克下載網(wǎng)址,有WPK安卓版官方下載和ios新版本下載鏈接網(wǎng)址。WPK是一款線上能打德州的智力競技游戲平臺,下載安裝中遇到任何問題或需加入俱樂部請聯(lián)系客服
「啟蒙」系統(tǒng)可以全自動的實現(xiàn)芯片軟硬件設計各個步驟,達到或部分超越人類專家手工設計水平。
[3] Cheng, S. et al. QiMeng-CPU-v2: Automated superscalar processor design by learning data dependencies. In arXiv, https://arxiv.org/abs/2505.03195 (2025)
此外,利用處理器芯片大模型構建反饋式推理流程,包括正確性反饋和性能反饋。通過自動功能驗證和基于功能正確性反饋的自動修復,確保生成結果的正確性。同時通過自動性能評估和基于性能反饋的自動搜索,對解空間有效裁剪,實現(xiàn)對高性能設計結果的高效搜索。
[11] Church, A. Applications of recursive arithmetic to the problem of circuit synthesis. Summaries of the Summer Institute of Symbolic Logic 1, 3-50 (1957)
實驗室近年來獲得了處理器芯片領域首個國家自然科學獎等6項國家級科技獎勵;在處理器芯片領域國際頂級會議發(fā)表論文的數(shù)量長期列居中國第一;在國際上成功開創(chuàng)了深度學習處理器等熱門研究方向;孵化了總市值數(shù)千億元的國產(chǎn)處理器產(chǎn)業(yè)頭部企業(yè)。
然而,由于處理器芯片設計領域的特殊性,實現(xiàn)處理器芯片軟硬件全自動設計主要面臨數(shù)據(jù)稀缺、正確性和求解規(guī)模等方面的關鍵挑戰(zhàn)。
[6] Chen, H. et al. AutoOS: make your os more powerful by exploiting large language models. In Forty-first International Conference on Machine Learning (2024)
論文地址:https://arxiv.org/abs/2506.05007
以最頂層的多種應用實現(xiàn)為驅動,實現(xiàn)芯片軟硬件各個步驟的自動設計方法后,不僅可以為處理器芯片大模型提供豐富的軟硬件設計領域數(shù)據(jù),同時也可以為處理器芯片智能體提供與專業(yè)工具協(xié)同交互的流程設計經(jīng)驗。
[12] Chang, K. et al. Large processor chip model. In arXiv, https://arxiv.org/abs/2505.06302 (2025)
未來,還將通過符號主義、行為主義及連接主義等不同人工智能路徑的交叉探索,不斷提升「啟蒙」系統(tǒng)的處理器芯片軟硬件全自動設計能力,同時持續(xù)拓展「啟蒙」的應用邊界,為更廣泛的處理器芯片設計應用場景提供智能化支持。
這項研究有望改變處理器芯片軟硬件的設計范式,不僅有望大幅提升設計效率、縮短設計周期,同時有望針對特定應用場景需求實現(xiàn)快速定制化設計,靈活滿足芯片設計日益多樣化的需求。
大模型、智能體、應用三個層級
具體而言,「啟蒙」系統(tǒng)已實現(xiàn)自動設計RISC-V CPU,達到ARM Cortex A53性能,并能為芯片自動配置操作系統(tǒng)、轉譯程序、高性能算子庫,性能優(yōu)于人類專家設計水平。
雖然「啟蒙」系統(tǒng)的設計是自底而上的,但由于芯片軟硬件設計領域的專業(yè)數(shù)據(jù)極為缺乏,
同時實現(xiàn)國際首個基于大模型的端到端編譯器 [8],成功實現(xiàn)真實編譯數(shù)據(jù)集ExeBench中91%的編譯任務。
芯片硬件設計依賴工程師團隊編寫等硬件描述代碼(如Verilog、Chisel等),通過電子設計自動化(EDA)工具生成電路邏輯,并反復進行功能驗證和性能優(yōu)化。
結合反饋式推理能力,芯片生成智能體自動完成從功能需求到邏輯電路的設計,基礎軟件智能體自主完成給定基礎軟件對目標芯片的自動功能適配和性能優(yōu)化。
[9] Zhou, Q. et al. QiMeng-GEMM: Automatically generating high-performance matrix multiplication code by exploiting large language models. In Proceedings of the AAAI Conference on Artificial Intelligence, 22982–22990 (2025)
不同于傳統(tǒng)自動設計方法,「啟蒙」系統(tǒng)旨在端對端的實現(xiàn)從功能需求到處理器芯片軟硬件的全自動設計和適配優(yōu)化。
因此在具體實現(xiàn)時,采用自頂而下的構建方式更加容易切入。
[5] Zhu, Y. et al. CodeV-R1: Reasoning-Enhanced Verilog Generation. In arXiv, https://arxiv.org/abs/2505.24183 (2025)
芯片設計包含多個關鍵步驟,硬件設計方面包括邏輯設計、電路設計、物理設計等,基礎軟件方面包括操作系統(tǒng)內核設計、編譯工具鏈設計、高性能庫設計等。
[8] Zhang, S. et al. Introducing compiler semantics into large language models as programming language translators: A case study of c to x86 assembly. In Findings of the Association for Computational Linguistics: EMNLP, 996–1011 (2024)
(3)自演進:將自頂而下和自底而上的設計流程組成迭代的循環(huán),通過循環(huán)實現(xiàn)「啟蒙」系統(tǒng)的自演進,不斷提升「啟蒙」系統(tǒng)的處理器芯片軟硬件全自動設計能力。
[10] Zhang, X. et al. QiMeng-TensorOp: Automatically generating high-performance tensor operators with hardware primitives. In arXiv, https://arxiv.org/abs/2505.06302 (2025)
自動的電路邏輯設計長期以來都是計算機科學的核心問題之一[11]?,F(xiàn)有自動設計方法通常將AI技術作為工具用于優(yōu)化芯片設計的某個具體步驟。
為了減少芯片軟硬件設計的人力和資源投入,滿足芯片設計日益多樣化的需求,研究人員基于AI技術,構建國際首個全自動的處理器芯片軟硬設計系統(tǒng)「啟蒙」。
[2] Cheng, S. et al. Automated cpu design by learning from input-output examples. In Proceedings of the Thirty-Third International Joint Conference on Artificial Intelligence, 3843–3853 (2024).
在芯片前端設計方面,
其升級版「啟蒙2號」[3]為國際首個全自動設計的超標量處理器核,達到ARM Cortex A53性能,規(guī)模擴大至17,000,000個邏輯門。
眾所周知,芯片設計是一項非常具有挑戰(zhàn)性、需要耗費大量人力和資源的工作。
在自動高性能庫設計方面,提出國際首個基于大模型的高性能矩陣乘代碼自動生成框架QiMeng-GEMM [9]和國際首個基于大模型的高性能張量算子指令級自動生成框架QiMeng-TensorOp [10],在RISC-V CPU上的最高性能分別達到OpenBLAS的211%和251%,在NVIDIA GPU上的最高性能分別達到cuBLAS的115%和124%。
研究人員將繼續(xù)實現(xiàn)從自頂而下到自底而上的設計路線,并組成迭代的循環(huán),最終朝著實現(xiàn)整個「啟蒙」系統(tǒng)自演進的目標邁進。
目前,研究人員已基本完成第一步中軟硬件各個步驟的自動設計。并且以3D高斯?jié)姙R為驅動范例,將各個步驟串聯(lián),組成完整的軟硬件協(xié)同設計流程[12]。后續(xù)將繼續(xù)推進跨層協(xié)同設計數(shù)據(jù)集的建立和處理器芯片大模型的訓練。
基于芯片生成智能體和基礎軟件智能體,針對多樣化的實際應用場景,在最上層全自動完成處理器芯片軟硬件設計各個步驟。
【新智元導讀】近日,中國科學院計算技術研究所聯(lián)合軟件研究所推出「啟蒙」系統(tǒng),基于AI技術,實現(xiàn)處理器芯片軟硬件各個步驟的全自動設計,達到或部分超越人類專家手工設計水平。
其中,實驗室學術委員會主任為孫凝暉院士,實驗室主任為陳云霽研究員。
處理器芯片大模型需要充分結合領域特點,掌握處理器芯片設計的領域知識,具備軟硬件設計的基礎能力。
這一過程高度專業(yè)化且復雜,通常需上百人團隊耗時數(shù)月甚至數(shù)年,成本極高[1]。
在自動操作系統(tǒng)配置優(yōu)化方面,實現(xiàn)國際首個基于大模型的操作系統(tǒng)內核配置自動優(yōu)化方法AutoOS [6],可自動生成定制優(yōu)化后的操作系統(tǒng)內核配置,性能相比行業(yè)專家手工優(yōu)化最高可提升25.6%。
圖3 「啟蒙」系統(tǒng)中的反饋式推理,包括正確性反饋和性能反饋
中國科學院計算技術研究所處理器芯片全國重點實驗室,聯(lián)合中國科學院軟件研究所,基于大模型等AI技術,推出處理器芯片和相關基礎軟件全自動設計系統(tǒng)——「啟蒙」。
自2008年起,中國科學院計算技術研究所便開始長期從事芯片設計和人工智能的交叉研究。其中一項為人熟知的產(chǎn)出就是人工智能芯片寒武紀。
依托中國科學院計算技術研究所建立的處理器芯片全國重點實驗室,是中國科學院批準正式啟動建設的首批重點實驗室之一,并被科技部遴選為首批 20個標桿全國重點實驗室,2022年5月開始建設。
處理器芯片軟硬件全自動設計
為了應對上述挑戰(zhàn),建立處理器芯片軟硬件全自動設計的新范式,「啟蒙」共包含三個層級。底層為處理器芯片領域大模型,中間層構建芯片和軟件智能體,實現(xiàn)處理器芯片和基礎軟件的自動設計,在最上層應用于芯片軟硬件設計的各個步驟。
而在面向芯片設計的人工智能方法上,計算所也已有十多年的積累,并且從未停止探索如何用人工智能方法使得芯片設計完全自動化。
[7] Dong, S. et al. QiMeng-Xpiler: Transcompiling tensor programs for deep learning systems with a neural-symbolic approach. In arXiv, https://arxiv.org/abs/2505.02146 (2025)
因此,「啟蒙」系統(tǒng)采用「三步走」的技術路線:
[4] Zhao, Y. et al. CodeV: Empowering llms for verilog generation through multi-level summarization. In arXiv, https://arxiv.org/abs/2407.10424 (2024)
傳統(tǒng)設計范式下,軟件生態(tài)適配周期長、成本高,嚴重制約硬件算力釋放。以openEuler為例,其包含1萬余軟件倉庫、400余萬文件,需針對不同RISC-V指令組合逐一驗證兼容性。
芯片設計向來是科技界的「皇冠明珠」,傳統(tǒng)設計流程需要頂尖專家團隊耗時數(shù)月甚至數(shù)年攻堅,極具挑戰(zhàn)性。
在硬件代碼自動生成方面,實現(xiàn)硬件代碼自動生成大模型CodeV系列 [4,5],能同時完成Chisel、Verilog語言的代碼自動生成與代碼片段補全。其中,CodeV-R1在Verilog硬件代碼生成領域達到7B量級國際最優(yōu)水平,在RTLLM Benchmark上超越671B滿血版DeepSeek-R1。
(1)自頂而下:以通用大語言模型作為處理器芯片大模型的起點,實現(xiàn)處理器芯片智能體并完成處理器芯片軟硬件各個步驟的自動設計。將各個步驟串聯(lián)后自動產(chǎn)生豐富的跨層協(xié)同設計領域數(shù)據(jù),用于訓練處理器芯片大模型。
圖1 啟蒙1號實物圖,啟蒙1號和啟蒙2號的性能對比
(2)自底而上:基于訓練后的處理器芯片大模型重新構建智能體,并應用于軟硬件設計的各個步驟,提升自動設計效果,
在處理器芯片大模型的基礎上,為自動設計處理器芯片的軟硬件,「啟蒙」系統(tǒng)分別構建了芯片生成智能體和基礎軟件智能體。
同時,當前芯片基礎軟件適配需求激增。AI、云計算和邊緣計算等技術推動專用處理器設計多樣化,指令集組合呈指數(shù)級增長,每種組合均需適配龐大的基礎軟件棧。
基于「啟蒙」系統(tǒng),芯片軟硬件設計的各個環(huán)節(jié)都能實現(xiàn)全自動完成,設計成果可比肩甚至超過人工專家設計水平。
[1] Bentley, B. Validating a modern microprocessor. In Proceedings of International Conference on Computer Aided Verification (CAV), 2–4 (2005).
圖2 「啟蒙」系統(tǒng)的結構圖,包含三個層級
在自動編譯工具鏈設計方面,實現(xiàn)國際首個自動跨平臺張量程序轉譯工具QiMeng-Xpiler [7],可在不同的處理器芯片如英偉達GPU、寒武紀MLU、AMD MI加速器、Intel DL Boost,和不同編程模型如SIMT、SIMD之間自動程序轉譯,性能最高達到廠商手工優(yōu)化算子庫的2倍。