HHpoker是一款線上德?lián)涓偧糀PP,擁有數(shù)據(jù)分析、互動交流、牌譜回顧分享、模擬真實保險等多種創(chuàng)新功能,幫助您控制浮動風(fēng)險。在HHpoker您可以與更多的德州愛好者練習(xí)&切磋,并且平臺、聯(lián)盟、俱樂部三方在反伙牌和作弊方面進(jìn)行24小時嚴(yán)格監(jiān)管巡查及嚴(yán)厲執(zhí)行,致力于為德?lián)渫婕掖蛟煲粋€公平公正綠色娛樂競技的生態(tài)圈子。
以ChatGPT為代表的語言類大模型重塑內(nèi)容生成方式時,多模態(tài)模型還在等待它的"iPhone時刻"。近日召開的2025智源大會上,智源研究院(以下簡稱"智源")正式發(fā)布了包括原生多模態(tài)世界模型Emu3等"悟界"大模型系列,Emu3實現(xiàn)了文本、圖像、視頻的任何組合理解與生成,通過單一模型就可以捕捉世界的規(guī)律。
顯然人類的學(xué)習(xí)路線不是這樣的,從出生就開始聽聲音、跟物品和圖像交互,反而文字是在幼兒園或小學(xué)才開始接觸的。
梅濤把視頻生成問題總結(jié)為三點,敘事性、穩(wěn)定性、可控性。"要保證視頻做5分鐘和1小時是完整的故事,IP要有一致性。穩(wěn)定性現(xiàn)在做得還可以",談到可控性,他拿自己在北京電影學(xué)院上過的一門課"鏡頭的語言"舉例,"導(dǎo)演的要求非常高,第幾秒出現(xiàn)什么鏡頭、人物出現(xiàn)什么表情要求非常高,今天的大模型還沒有做到這一點,我們還在等待ChatGPT時刻的到來"。
根據(jù)中研普華產(chǎn)業(yè)研究院的數(shù)據(jù),2024年全球多模態(tài)AI市場規(guī)模達(dá)到24億美元,年均復(fù)合增長率超過28%。預(yù)計到2025年,全球多模態(tài)大模型市場規(guī)模將達(dá)到1280億美元,2023—2025年復(fù)合增長率高達(dá)62.3%。雖有諸多挑戰(zhàn),多模態(tài)大模型的未來仍是一片星辰大海。
事實上,市場上新舊產(chǎn)品同臺競技,呈現(xiàn)出立體、多維度的思考,多模態(tài)大模型更是如此。按照當(dāng)前技術(shù)成熟度評估,視頻生成等核心能力仍處于GPT-2到GPT-3的過渡階段,與產(chǎn)業(yè)預(yù)期存在顯著差距。多模態(tài)模型將經(jīng)歷更長的技術(shù)沉淀期,這也意味著更大的想象力空間。
梅濤創(chuàng)立的智象未來關(guān)注怎樣將多模態(tài)模型進(jìn)行應(yīng)用,幫助客戶和用戶發(fā)揮創(chuàng)造力,提升生產(chǎn)力。從2023年到2025年,他對多模態(tài)模型應(yīng)用每年都有新觀察。
以曹越在微軟研究院、智源研究院又創(chuàng)立Sand.ai的經(jīng)歷,他認(rèn)為過去有兩個技術(shù)進(jìn)展最令人印象深刻,"一個是ChatGPT,或者說預(yù)訓(xùn)練的規(guī)?;?,另一個是GPT-o2和DeepSeek R2這種類型的技術(shù),本質(zhì)上是Test-time scaling(測試時縮放)"。
視頻生成處在GPT-2-GPT-3階段
AI發(fā)展之快,每年都有新話題,2024年,價格戰(zhàn)是大模型的關(guān)鍵詞,2025感到風(fēng)向變了,大模型應(yīng)用百花齊放,反而有種大模型發(fā)展"變慢"了的體感。
他進(jìn)一步說,"傳統(tǒng)的CV(計算機(jī)視覺)模型的落地應(yīng)用比較成熟,大模型在視覺理解能力得到提升,或者泛化能力更強(qiáng)以后,可以迅速替代和填補(bǔ)原來傳統(tǒng)的視覺模型應(yīng)用領(lǐng)域的空白需求,無非就是成本收益比的問題。只要有市場有需求,基礎(chǔ)研發(fā)人員就可以把成本壓下來,形成規(guī)?;瘧?yīng)用以后,達(dá)到商業(yè)化應(yīng)用的臨界點"。
"當(dāng)前多模態(tài)大模型的學(xué)習(xí)路徑,尤其是多模態(tài)理解模型,通常是先將語言模型訓(xùn)練到很強(qiáng)的程度,再學(xué)習(xí)其他模態(tài)信息。"智源研究院院長王仲遠(yuǎn)向北京商報記者解釋,"這就如同先達(dá)到博士學(xué)位水平,再去接觸其他知識,在這個過程中,模型的能力可能會出現(xiàn)下降,從博士水平降到大學(xué)甚至高中水平。"
"技術(shù)方案不夠收斂"也是Sand.ai創(chuàng)始人兼CEO曹越提到的多模態(tài)模型發(fā)展的第一個挑戰(zhàn)。
Emu3所謂的原生多模態(tài)大模型的原生正是如此,"是指在模型訓(xùn)練初始階段,就將文字、圖像、聲音乃至腦信號等各種模態(tài)數(shù)據(jù)都納入其中進(jìn)行訓(xùn)練。隨著模態(tài)種類不斷增加,如何從繁雜的模態(tài)數(shù)據(jù)中篩選出最有效的信息,成為亟待突破的技術(shù)難題",據(jù)王仲遠(yuǎn)介紹,這與企業(yè)選擇的技術(shù)路線存在差異。
在他所在的視頻生成領(lǐng)域,"Sora的出現(xiàn),讓大家意識到視頻生成的質(zhì)量可以這么高,但從技術(shù)方向看,DiT訓(xùn)練方案有很大問題,核心問題就是不夠可拓展",曹越以大語言模型舉例對比,"有點像2018年的BERT。當(dāng)時核心痛點是,當(dāng)訓(xùn)到10B大小時,要再更大時就不會有進(jìn)步了。BERT一開始有很好的生成效果,但是ChatGPT后來者居上,因為ChatGPT可以訓(xùn)1000B。這意味著在技術(shù)方案方面還有很大的技術(shù)空間,生成效果上也有很大的提升空間"。
智象未來創(chuàng)始人兼CEO梅濤更加直接,"目前視頻生成處于GPT-2到GPT-3的階段"。
嚴(yán)格來說,Emu3是智源2024年10月發(fā)布的多模態(tài)模型,目前智源已在訓(xùn)練下一個版本?;贓mu3,智源還官宣了全球首個腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ。
大模型爆發(fā)至今,很多時候無外乎是選對了方向,又懂得流量密碼,一個現(xiàn)象級產(chǎn)品就橫空出世了。事實上,這種選擇需要前期足夠多的思考、實踐和勇氣。
"2023年模型就是產(chǎn)品,我們做的是模型的服務(wù),也就是PaaS(平臺即服務(wù)),到了2024年可以賣工具,工具就是SaaS(軟件即服務(wù)),我們希望做每個人都能使用的工具,后來發(fā)現(xiàn)工具的使用門檻比較高,特別是做影視級專業(yè)內(nèi)容的需求。2025年我們再往上升級,客戶不用關(guān)心我們是怎么做的,我們希望直接把結(jié)果交給用戶,幫用戶做增長、跟用戶分傭。"梅濤說。
對于視頻生成來說,張鵬認(rèn)為,"基于視覺生成,這兩個事情還沒有完全統(tǒng)一起來。這使得我們要同時兼顧兩件事。目前這兩件事在技術(shù)角度上,沒有太好的辦法融合到一起,帶來的根本約束更大"。
其實,不管是大語言模型還是多模態(tài)模型,數(shù)據(jù)的存量和增量、成本等一系列問題,都會限制發(fā)展,但在智譜AI CEO張鵬看來,這都是表面現(xiàn)象,"還有一個最瓶頸、最麻煩的地方就是商業(yè)應(yīng)用"。