WPK正版官網:智源大會前線速寫：多模態(tài)模型的“ChatGPT時刻”還未到來

發(fā)布時間：2025-06-22 來源：

德撲圈APP官網提供HHpoker下載IOS安卓蘋果安裝包客戶端正版下載鏈接地址,并提供HHpoker俱樂部加入全聯盟排名實力靠譜24小時營業(yè)德撲俱樂部推薦,短牌、奧馬哈、德州牛仔等好玩的HH撲克競技!

在技術和商業(yè)的結合層面，Sand.ai聯合創(chuàng)始人張拯強調，應當追求有效的Scaling Law。即在擴展模型規(guī)模、提升性能時，由此帶來的用戶價值和經濟回報是否足以覆蓋所投入的資源成本。如果模型能力提升的代價過高，用戶得不到對應的回報，那么從商業(yè)角度來看，這樣的Scaling就是無效的。

WPK正版官網

今年4月，OpenAI研究科學家姚順雨的一篇長帖曾引發(fā)熱議。他表示，AI已進入下半場，重心將從解決問題轉向定義問題。在智源大會分論壇上，AI視覺領域的明星創(chuàng)企Luma AI首席科學家宋佳銘直言，"上下半場"的劃分更像是在描述語言模型。如果上半場是預訓練，下半場是推理，目前多模態(tài)模型還未能很好地解決上半場的問題。

WPK正版官網

宋佳銘解釋稱，對于上半場的期望是，多模態(tài)模型能夠通過一個大一統(tǒng)的模型，像人一樣處理不同模態(tài)的任務，并且保持足夠快的推理速度。這個模型應當具備多模態(tài)思維鏈，否則在下半場無法真正打通推理能力。

如果從多模態(tài)模型的應用落地角度來看，騰訊混元多模態(tài)生成負責人蘆清林認為，上下半場的分界線并不清晰。"因為五分的模型對應五分的用法，八分的模型對應八分的用法。"他表示。一個判定信號是，專業(yè)領域的人是否開始使用這項技術。即便技術研發(fā)人員認為模型還存在很多可改進的地方，如果專業(yè)人員已經開始采用，并且覺得能在實際工作中帶來提效或幫助，那么它已經達到了能帶來實際改變的階段。

藍鯨新聞6月8日訊（記者朱俊熹）回顧生成式AI的演進歷程，除大語言模型的爆發(fā)外，還有一條并行推進的技術路線：多模態(tài)大模型。過去一兩年間，多模態(tài)路線上先后出現OpenAI的視頻生成模型Sora、4o圖像生成功能等重要里程碑。但在6月6日至7日的2025北京智源大會上，業(yè)界人士的主流觀點是：屬于多模態(tài)的"ChatGPT時刻"尚未到來。

字節(jié)跳動Seed圖像&視頻生成負責人黃偉林則分享了判斷技術商業(yè)化程度的三個數據指標。一是效率數據，如用戶在使用AI生圖時，生成多少張圖片會下載一張。二是APP上的用戶留存數據。三是收入數據，他指出頭部AI視頻產品ARR（年度經常性收入）年底有望達到1億美元或更多，明年將可能實現5到10倍的增長。

曹越指出，沿著DiT架構方向會發(fā)現，隨著模型大小提升，將快速達到瓶頸，需要找到可擴展的解決方案。如果將自回歸的思路引入視頻生成方向，可能會有顯著不同的體驗。其訓練方式本質就是基于之前一段視頻，來生成未來的一段視頻。因此生成視頻時長可從現在的5秒提升至幾分鐘，存在較大的技術提升空間。

在AI視頻創(chuàng)企Sand.ai創(chuàng)始人兼CEO曹越看來，要想精準地預測并生成未來的視頻內容，關鍵在于對過去視頻內容的充分理解。為此，Sand.ai將主要探索方向押注在自回歸這一技術路徑上。當下的多模態(tài)生成領域中，DiT架構，即基于Transformer架構的擴散模型是主流選擇。如果說DiT是逐步去噪來還原圖像或視頻，自回歸則是按順序逐幀、逐塊地生成圖像或視頻。

智源研究院院長王仲遠表示，當前的多模態(tài)模型大多是對靜態(tài)畫面的理解，描述的是存在的事實。但人類對多模態(tài)的理解并不是基于單幀圖像的描述，而是可以從一個畫面預測下一個可能的畫面。"當我手接近水時，可以預測我要拿水；如果不小心把它碰倒在地板上時，會預測水灑下去。如果沒有蓋子，地板會被水灑濕。"

下一篇：忍無可忍，馬斯克“瘋了”？
上一篇：硬實力韓國遭西亞圍剿+3任主帥+核心傷病仍不敗提前進世界杯

婷婷开心六月久久综合丁香,免费大片黄在线观看,黄片中文字幕免费大全110,国产69久久精品成人看,美女免费黄色av网站在线观看,91精品国产91久久久久久,在线观看黄片欧洲

WPK正版官網:智源大會前線速寫：多模態(tài)模型的“ChatGPT時刻”還未到來