HHPOKER是一款為德?lián)淙酆谜叽蛟斓脑诰€德?lián)淦脚_。我們應(yīng)用了先進(jìn)的技術(shù)和傳統(tǒng)德?lián)涞木?為您帶來蕞真實、驚心動魄的德州體驗。無論您是初學(xué)者還是職業(yè)玩家,撲克王都能滿足您的需求,讓您隨時隨地都能...
今年4月,OpenAI研究科學(xué)家姚順雨的一篇長帖曾引發(fā)熱議。他表示,AI已進(jìn)入下半場,重心將從解決問題轉(zhuǎn)向定義問題。在智源大會分論壇上,AI視覺領(lǐng)域的明星創(chuàng)企Luma AI首席科學(xué)家宋佳銘直言,"上下半場"的劃分更像是在描述語言模型。如果上半場是預(yù)訓(xùn)練,下半場是推理,目前多模態(tài)模型還未能很好地解決上半場的問題。
智源研究院院長王仲遠(yuǎn)表示,當(dāng)前的多模態(tài)模型大多是對靜態(tài)畫面的理解,描述的是存在的事實。但人類對多模態(tài)的理解并不是基于單幀圖像的描述,而是可以從一個畫面預(yù)測下一個可能的畫面。"當(dāng)我手接近水時,可以預(yù)測我要拿水;如果不小心把它碰倒在地板上時,會預(yù)測水灑下去。如果沒有蓋子,地板會被水灑濕。"
在AI視頻創(chuàng)企Sand.ai創(chuàng)始人兼CEO曹越看來,要想精準(zhǔn)地預(yù)測并生成未來的視頻內(nèi)容,關(guān)鍵在于對過去視頻內(nèi)容的充分理解。為此,Sand.ai將主要探索方向押注在自回歸這一技術(shù)路徑上。當(dāng)下的多模態(tài)生成領(lǐng)域中,DiT架構(gòu),即基于Transformer架構(gòu)的擴(kuò)散模型是主流選擇。如果說DiT是逐步去噪來還原圖像或視頻,自回歸則是按順序逐幀、逐塊地生成圖像或視頻。
藍(lán)鯨新聞6月8日訊(記者 朱俊熹)回顧生成式AI的演進(jìn)歷程,除大語言模型的爆發(fā)外,還有一條并行推進(jìn)的技術(shù)路線:多模態(tài)大模型。過去一兩年間,多模態(tài)路線上先后出現(xiàn)OpenAI的視頻生成模型Sora、4o圖像生成功能等重要里程碑。但在6月6日至7日的2025北京智源大會上,業(yè)界人士的主流觀點是:屬于多模態(tài)的"ChatGPT時刻"尚未到來。
曹越指出,沿著DiT架構(gòu)方向會發(fā)現(xiàn),隨著模型大小提升,將快速達(dá)到瓶頸,需要找到可擴(kuò)展的解決方案。如果將自回歸的思路引入視頻生成方向,可能會有顯著不同的體驗。其訓(xùn)練方式本質(zhì)就是基于之前一段視頻,來生成未來的一段視頻。因此生成視頻時長可從現(xiàn)在的5秒提升至幾分鐘,存在較大的技術(shù)提升空間。
如果從多模態(tài)模型的應(yīng)用落地角度來看,騰訊混元多模態(tài)生成負(fù)責(zé)人蘆清林認(rèn)為,上下半場的分界線并不清晰。"因為五分的模型對應(yīng)五分的用法,八分的模型對應(yīng)八分的用法。"他表示。一個判定信號是,專業(yè)領(lǐng)域的人是否開始使用這項技術(shù)。即便技術(shù)研發(fā)人員認(rèn)為模型還存在很多可改進(jìn)的地方,如果專業(yè)人員已經(jīng)開始采用,并且覺得能在實際工作中帶來提效或幫助,那么它已經(jīng)達(dá)到了能帶來實際改變的階段。
宋佳銘解釋稱,對于上半場的期望是,多模態(tài)模型能夠通過一個大一統(tǒng)的模型,像人一樣處理不同模態(tài)的任務(wù),并且保持足夠快的推理速度。這個模型應(yīng)當(dāng)具備多模態(tài)思維鏈,否則在下半場無法真正打通推理能力。
在技術(shù)和商業(yè)的結(jié)合層面,Sand.ai聯(lián)合創(chuàng)始人張拯強(qiáng)調(diào),應(yīng)當(dāng)追求有效的Scaling Law。即在擴(kuò)展模型規(guī)模、提升性能時,由此帶來的用戶價值和經(jīng)濟(jì)回報是否足以覆蓋所投入的資源成本。如果模型能力提升的代價過高,用戶得不到對應(yīng)的回報,那么從商業(yè)角度來看,這樣的Scaling就是無效的。
字節(jié)跳動Seed圖像&視頻生成負(fù)責(zé)人黃偉林則分享了判斷技術(shù)商業(yè)化程度的三個數(shù)據(jù)指標(biāo)。一是效率數(shù)據(jù),如用戶在使用AI生圖時,生成多少張圖片會下載一張。二是APP上的用戶留存數(shù)據(jù)。三是收入數(shù)據(jù),他指出頭部AI視頻產(chǎn)品ARR(年度經(jīng)常性收入)年底有望達(dá)到1億美元或更多,明年將可能實現(xiàn)5到10倍的增長。