當(dāng)前位置: 首頁(yè) > 出行資訊 > 全國(guó) > 正文

WPKAPP:聚焦多模態(tài)：ChatGPT時(shí)刻未到，2025大模型“變慢”了嗎

發(fā)布時(shí)間：2025-06-22 來源：

hhpoker原名德?lián)淙?最新下載地址, 適用于蘋果安卓華為,客服24H實(shí)時(shí)響應(yīng)多對(duì)一全方位對(duì)接,加入HHPOKER俱樂部,開啟您的VIP德?lián)渲?

梅濤把視頻生成問題總結(jié)為三點(diǎn)，敘事性、穩(wěn)定性、可控性。"要保證視頻做5分鐘和1小時(shí)是完整的故事，IP要有一致性。穩(wěn)定性現(xiàn)在做得還可以"，談到可控性，他拿自己在北京電影學(xué)院上過的一門課"鏡頭的語(yǔ)言"舉例，"導(dǎo)演的要求非常高，第幾秒出現(xiàn)什么鏡頭、人物出現(xiàn)什么表情要求非常高，今天的大模型還沒有做到這一點(diǎn)，我們還在等待ChatGPT時(shí)刻的到來"。

WPKAPP

"技術(shù)方案不夠收斂"也是Sand.ai創(chuàng)始人兼CEO曹越提到的多模態(tài)模型發(fā)展的第一個(gè)挑戰(zhàn)。

WPKAPP

嚴(yán)格來說，Emu3是智源2024年10月發(fā)布的多模態(tài)模型，目前智源已在訓(xùn)練下一個(gè)版本?；贓mu3，智源還官宣了全球首個(gè)腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ。

其實(shí)，不管是大語(yǔ)言模型還是多模態(tài)模型，數(shù)據(jù)的存量和增量、成本等一系列問題，都會(huì)限制發(fā)展，但在智譜AI CEO張鵬看來，這都是表面現(xiàn)象，"還有一個(gè)最瓶頸、最麻煩的地方就是商業(yè)應(yīng)用"。

視頻生成處在GPT-2-GPT-3階段

AI發(fā)展之快，每年都有新話題，2024年，價(jià)格戰(zhàn)是大模型的關(guān)鍵詞，2025感到風(fēng)向變了，大模型應(yīng)用百花齊放，反而有種大模型發(fā)展"變慢"了的體感。

事實(shí)上，市場(chǎng)上新舊產(chǎn)品同臺(tái)競(jìng)技，呈現(xiàn)出立體、多維度的思考，多模態(tài)大模型更是如此。按照當(dāng)前技術(shù)成熟度評(píng)估，視頻生成等核心能力仍處于GPT-2到GPT-3的過渡階段，與產(chǎn)業(yè)預(yù)期存在顯著差距。多模態(tài)模型將經(jīng)歷更長(zhǎng)的技術(shù)沉淀期，這也意味著更大的想象力空間。

"2023年模型就是產(chǎn)品，我們做的是模型的服務(wù)，也就是PaaS（平臺(tái)即服務(wù)），到了2024年可以賣工具，工具就是SaaS（軟件即服務(wù)），我們希望做每個(gè)人都能使用的工具，后來發(fā)現(xiàn)工具的使用門檻比較高，特別是做影視級(jí)專業(yè)內(nèi)容的需求。2025年我們?cè)偻仙?jí)，客戶不用關(guān)心我們是怎么做的，我們希望直接把結(jié)果交給用戶，幫用戶做增長(zhǎng)、跟用戶分傭。"梅濤說。

以ChatGPT為代表的語(yǔ)言類大模型重塑內(nèi)容生成方式時(shí)，多模態(tài)模型還在等待它的"iPhone時(shí)刻"。近日召開的2025智源大會(huì)上，智源研究院（以下簡(jiǎn)稱"智源"）正式發(fā)布了包括原生多模態(tài)世界模型Emu3等"悟界"大模型系列，Emu3實(shí)現(xiàn)了文本、圖像、視頻的任何組合理解與生成，通過單一模型就可以捕捉世界的規(guī)律。

顯然人類的學(xué)習(xí)路線不是這樣的，從出生就開始聽聲音、跟物品和圖像交互，反而文字是在幼兒園或小學(xué)才開始接觸的。

以曹越在微軟研究院、智源研究院又創(chuàng)立Sand.ai的經(jīng)歷，他認(rèn)為過去有兩個(gè)技術(shù)進(jìn)展最令人印象深刻，"一個(gè)是ChatGPT，或者說預(yù)訓(xùn)練的規(guī)?；硪粋€(gè)是GPT-o2和DeepSeek R2這種類型的技術(shù)，本質(zhì)上是Test-time scaling（測(cè)試時(shí)縮放）"。

根據(jù)中研普華產(chǎn)業(yè)研究院的數(shù)據(jù)，2024年全球多模態(tài)AI市場(chǎng)規(guī)模達(dá)到24億美元，年均復(fù)合增長(zhǎng)率超過28%。預(yù)計(jì)到2025年，全球多模態(tài)大模型市場(chǎng)規(guī)模將達(dá)到1280億美元，2023—2025年復(fù)合增長(zhǎng)率高達(dá)62.3%。雖有諸多挑戰(zhàn)，多模態(tài)大模型的未來仍是一片星辰大海。

"當(dāng)前多模態(tài)大模型的學(xué)習(xí)路徑，尤其是多模態(tài)理解模型，通常是先將語(yǔ)言模型訓(xùn)練到很強(qiáng)的程度，再學(xué)習(xí)其他模態(tài)信息。"智源研究院院長(zhǎng)王仲遠(yuǎn)向北京商報(bào)記者解釋，"這就如同先達(dá)到博士學(xué)位水平，再去接觸其他知識(shí)，在這個(gè)過程中，模型的能力可能會(huì)出現(xiàn)下降，從博士水平降到大學(xué)甚至高中水平。"

智象未來創(chuàng)始人兼CEO梅濤更加直接，"目前視頻生成處于GPT-2到GPT-3的階段"。

Emu3所謂的原生多模態(tài)大模型的原生正是如此，"是指在模型訓(xùn)練初始階段，就將文字、圖像、聲音乃至腦信號(hào)等各種模態(tài)數(shù)據(jù)都納入其中進(jìn)行訓(xùn)練。隨著模態(tài)種類不斷增加，如何從繁雜的模態(tài)數(shù)據(jù)中篩選出最有效的信息，成為亟待突破的技術(shù)難題"，據(jù)王仲遠(yuǎn)介紹，這與企業(yè)選擇的技術(shù)路線存在差異。

梅濤創(chuàng)立的智象未來關(guān)注怎樣將多模態(tài)模型進(jìn)行應(yīng)用，幫助客戶和用戶發(fā)揮創(chuàng)造力，提升生產(chǎn)力。從2023年到2025年，他對(duì)多模態(tài)模型應(yīng)用每年都有新觀察。

在他所在的視頻生成領(lǐng)域，"Sora的出現(xiàn)，讓大家意識(shí)到視頻生成的質(zhì)量可以這么高，但從技術(shù)方向看，DiT訓(xùn)練方案有很大問題，核心問題就是不夠可拓展"，曹越以大語(yǔ)言模型舉例對(duì)比，"有點(diǎn)像2018年的BERT。當(dāng)時(shí)核心痛點(diǎn)是，當(dāng)訓(xùn)到10B大小時(shí)，要再更大時(shí)就不會(huì)有進(jìn)步了。BERT一開始有很好的生成效果，但是ChatGPT后來者居上，因?yàn)镃hatGPT可以訓(xùn)1000B。這意味著在技術(shù)方案方面還有很大的技術(shù)空間，生成效果上也有很大的提升空間"。

大模型爆發(fā)至今，很多時(shí)候無(wú)外乎是選對(duì)了方向，又懂得流量密碼，一個(gè)現(xiàn)象級(jí)產(chǎn)品就橫空出世了。事實(shí)上，這種選擇需要前期足夠多的思考、實(shí)踐和勇氣。

他進(jìn)一步說，"傳統(tǒng)的CV（計(jì)算機(jī)視覺）模型的落地應(yīng)用比較成熟，大模型在視覺理解能力得到提升，或者泛化能力更強(qiáng)以后，可以迅速替代和填補(bǔ)原來傳統(tǒng)的視覺模型應(yīng)用領(lǐng)域的空白需求，無(wú)非就是成本收益比的問題。只要有市場(chǎng)有需求，基礎(chǔ)研發(fā)人員就可以把成本壓下來，形成規(guī)?；瘧?yīng)用以后，達(dá)到商業(yè)化應(yīng)用的臨界點(diǎn)"。

對(duì)于視頻生成來說，張鵬認(rèn)為，"基于視覺生成，這兩個(gè)事情還沒有完全統(tǒng)一起來。這使得我們要同時(shí)兼顧兩件事。目前這兩件事在技術(shù)角度上，沒有太好的辦法融合到一起，帶來的根本約束更大"。

相關(guān)閱讀

推薦圖文

波帥帶熱刺歐冠決賽數(shù)月后下課決賽前穆帥下課奪冠澳波下課

比亞迪西安號(hào) / 長(zhǎng)沙號(hào)雙船進(jìn)入試航階段，即將投入運(yùn)營(yíng)

最新信息

推薦信息

巴基斯坦上將聊殲-10CE嘴角都?jí)翰蛔×?/a>

京公網(wǎng)安備 11010702001433號(hào) 京ICP備11022796號(hào)
電腦版 | 手機(jī)版

婷婷开心六月久久综合丁香,免费大片黄在线观看,黄片中文字幕免费大全110,国产69久久精品成人看,美女免费黄色av网站在线观看,91精品国产91久久久久久,在线观看黄片欧洲

WPKAPP:聚焦多模態(tài)：ChatGPT時(shí)刻未到，2025大模型“變慢”了嗎

WPKAPP:聚焦多模態(tài)：ChatGPT時(shí)刻未到，2025大模型“變慢”了嗎