hhpoker原名德?lián)淙?最新下載地址, 適用于蘋果安卓華為,客服24H實(shí)時(shí)響應(yīng)多對(duì)一全方位對(duì)接,加入HHPOKER俱樂部,開啟您的VIP德?lián)渲?
梅濤把視頻生成問題總結(jié)為三點(diǎn),敘事性、穩(wěn)定性、可控性。"要保證視頻做5分鐘和1小時(shí)是完整的故事,IP要有一致性。穩(wěn)定性現(xiàn)在做得還可以",談到可控性,他拿自己在北京電影學(xué)院上過的一門課"鏡頭的語(yǔ)言"舉例,"導(dǎo)演的要求非常高,第幾秒出現(xiàn)什么鏡頭、人物出現(xiàn)什么表情要求非常高,今天的大模型還沒有做到這一點(diǎn),我們還在等待ChatGPT時(shí)刻的到來"。
"技術(shù)方案不夠收斂"也是Sand.ai創(chuàng)始人兼CEO曹越提到的多模態(tài)模型發(fā)展的第一個(gè)挑戰(zhàn)。
嚴(yán)格來說,Emu3是智源2024年10月發(fā)布的多模態(tài)模型,目前智源已在訓(xùn)練下一個(gè)版本?;贓mu3,智源還官宣了全球首個(gè)腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ。
其實(shí),不管是大語(yǔ)言模型還是多模態(tài)模型,數(shù)據(jù)的存量和增量、成本等一系列問題,都會(huì)限制發(fā)展,但在智譜AI CEO張鵬看來,這都是表面現(xiàn)象,"還有一個(gè)最瓶頸、最麻煩的地方就是商業(yè)應(yīng)用"。
視頻生成處在GPT-2-GPT-3階段
AI發(fā)展之快,每年都有新話題,2024年,價(jià)格戰(zhàn)是大模型的關(guān)鍵詞,2025感到風(fēng)向變了,大模型應(yīng)用百花齊放,反而有種大模型發(fā)展"變慢"了的體感。
事實(shí)上,市場(chǎng)上新舊產(chǎn)品同臺(tái)競(jìng)技,呈現(xiàn)出立體、多維度的思考,多模態(tài)大模型更是如此。按照當(dāng)前技術(shù)成熟度評(píng)估,視頻生成等核心能力仍處于GPT-2到GPT-3的過渡階段,與產(chǎn)業(yè)預(yù)期存在顯著差距。多模態(tài)模型將經(jīng)歷更長(zhǎng)的技術(shù)沉淀期,這也意味著更大的想象力空間。
"2023年模型就是產(chǎn)品,我們做的是模型的服務(wù),也就是PaaS(平臺(tái)即服務(wù)),到了2024年可以賣工具,工具就是SaaS(軟件即服務(wù)),我們希望做每個(gè)人都能使用的工具,后來發(fā)現(xiàn)工具的使用門檻比較高,特別是做影視級(jí)專業(yè)內(nèi)容的需求。2025年我們?cè)偻仙?jí),客戶不用關(guān)心我們是怎么做的,我們希望直接把結(jié)果交給用戶,幫用戶做增長(zhǎng)、跟用戶分傭。"梅濤說。
以ChatGPT為代表的語(yǔ)言類大模型重塑內(nèi)容生成方式時(shí),多模態(tài)模型還在等待它的"iPhone時(shí)刻"。近日召開的2025智源大會(huì)上,智源研究院(以下簡(jiǎn)稱"智源")正式發(fā)布了包括原生多模態(tài)世界模型Emu3等"悟界"大模型系列,Emu3實(shí)現(xiàn)了文本、圖像、視頻的任何組合理解與生成,通過單一模型就可以捕捉世界的規(guī)律。
顯然人類的學(xué)習(xí)路線不是這樣的,從出生就開始聽聲音、跟物品和圖像交互,反而文字是在幼兒園或小學(xué)才開始接觸的。
以曹越在微軟研究院、智源研究院又創(chuàng)立Sand.ai的經(jīng)歷,他認(rèn)為過去有兩個(gè)技術(shù)進(jìn)展最令人印象深刻,"一個(gè)是ChatGPT,或者說預(yù)訓(xùn)練的規(guī)?;硪粋€(gè)是GPT-o2和DeepSeek R2這種類型的技術(shù),本質(zhì)上是Test-time scaling(測(cè)試時(shí)縮放)"。
根據(jù)中研普華產(chǎn)業(yè)研究院的數(shù)據(jù),2024年全球多模態(tài)AI市場(chǎng)規(guī)模達(dá)到24億美元,年均復(fù)合增長(zhǎng)率超過28%。預(yù)計(jì)到2025年,全球多模態(tài)大模型市場(chǎng)規(guī)模將達(dá)到1280億美元,2023—2025年復(fù)合增長(zhǎng)率高達(dá)62.3%。雖有諸多挑戰(zhàn),多模態(tài)大模型的未來仍是一片星辰大海。
"當(dāng)前多模態(tài)大模型的學(xué)習(xí)路徑,尤其是多模態(tài)理解模型,通常是先將語(yǔ)言模型訓(xùn)練到很強(qiáng)的程度,再學(xué)習(xí)其他模態(tài)信息。"智源研究院院長(zhǎng)王仲遠(yuǎn)向北京商報(bào)記者解釋,"這就如同先達(dá)到博士學(xué)位水平,再去接觸其他知識(shí),在這個(gè)過程中,模型的能力可能會(huì)出現(xiàn)下降,從博士水平降到大學(xué)甚至高中水平。"
智象未來創(chuàng)始人兼CEO梅濤更加直接,"目前視頻生成處于GPT-2到GPT-3的階段"。
Emu3所謂的原生多模態(tài)大模型的原生正是如此,"是指在模型訓(xùn)練初始階段,就將文字、圖像、聲音乃至腦信號(hào)等各種模態(tài)數(shù)據(jù)都納入其中進(jìn)行訓(xùn)練。隨著模態(tài)種類不斷增加,如何從繁雜的模態(tài)數(shù)據(jù)中篩選出最有效的信息,成為亟待突破的技術(shù)難題",據(jù)王仲遠(yuǎn)介紹,這與企業(yè)選擇的技術(shù)路線存在差異。
梅濤創(chuàng)立的智象未來關(guān)注怎樣將多模態(tài)模型進(jìn)行應(yīng)用,幫助客戶和用戶發(fā)揮創(chuàng)造力,提升生產(chǎn)力。從2023年到2025年,他對(duì)多模態(tài)模型應(yīng)用每年都有新觀察。
在他所在的視頻生成領(lǐng)域,"Sora的出現(xiàn),讓大家意識(shí)到視頻生成的質(zhì)量可以這么高,但從技術(shù)方向看,DiT訓(xùn)練方案有很大問題,核心問題就是不夠可拓展",曹越以大語(yǔ)言模型舉例對(duì)比,"有點(diǎn)像2018年的BERT。當(dāng)時(shí)核心痛點(diǎn)是,當(dāng)訓(xùn)到10B大小時(shí),要再更大時(shí)就不會(huì)有進(jìn)步了。BERT一開始有很好的生成效果,但是ChatGPT后來者居上,因?yàn)镃hatGPT可以訓(xùn)1000B。這意味著在技術(shù)方案方面還有很大的技術(shù)空間,生成效果上也有很大的提升空間"。
大模型爆發(fā)至今,很多時(shí)候無(wú)外乎是選對(duì)了方向,又懂得流量密碼,一個(gè)現(xiàn)象級(jí)產(chǎn)品就橫空出世了。事實(shí)上,這種選擇需要前期足夠多的思考、實(shí)踐和勇氣。
他進(jìn)一步說,"傳統(tǒng)的CV(計(jì)算機(jī)視覺)模型的落地應(yīng)用比較成熟,大模型在視覺理解能力得到提升,或者泛化能力更強(qiáng)以后,可以迅速替代和填補(bǔ)原來傳統(tǒng)的視覺模型應(yīng)用領(lǐng)域的空白需求,無(wú)非就是成本收益比的問題。只要有市場(chǎng)有需求,基礎(chǔ)研發(fā)人員就可以把成本壓下來,形成規(guī)?;瘧?yīng)用以后,達(dá)到商業(yè)化應(yīng)用的臨界點(diǎn)"。
對(duì)于視頻生成來說,張鵬認(rèn)為,"基于視覺生成,這兩個(gè)事情還沒有完全統(tǒng)一起來。這使得我們要同時(shí)兼顧兩件事。目前這兩件事在技術(shù)角度上,沒有太好的辦法融合到一起,帶來的根本約束更大"。