當(dāng)前位置: 首頁 > 出行資訊 > 全國 > 正文

德州下載手機(jī)版:聚焦多模態(tài)：ChatGPT時刻未到，2025大模型“變慢”了嗎

發(fā)布時間：2025-06-22 來源：

HHpoker是一款線上德?lián)涓偧糀PP，擁有數(shù)據(jù)分析、互動交流、牌譜回顧分享、模擬真實保險等多種創(chuàng)新功能，幫助您控制浮動風(fēng)險。在HHpoker您可以與更多的德州愛好者練習(xí)&切磋，并且平臺、聯(lián)盟、俱樂部三方在反伙牌和作弊方面進(jìn)行24小時嚴(yán)格監(jiān)管巡查及嚴(yán)厲執(zhí)行，致力于為德?lián)渫婕掖蛟煲粋€公平公正綠色娛樂競技的生態(tài)圈子。

以ChatGPT為代表的語言類大模型重塑內(nèi)容生成方式時，多模態(tài)模型還在等待它的"iPhone時刻"。近日召開的2025智源大會上，智源研究院（以下簡稱"智源"）正式發(fā)布了包括原生多模態(tài)世界模型Emu3等"悟界"大模型系列，Emu3實現(xiàn)了文本、圖像、視頻的任何組合理解與生成，通過單一模型就可以捕捉世界的規(guī)律。

德州下載手機(jī)版

顯然人類的學(xué)習(xí)路線不是這樣的，從出生就開始聽聲音、跟物品和圖像交互，反而文字是在幼兒園或小學(xué)才開始接觸的。

德州下載手機(jī)版

梅濤把視頻生成問題總結(jié)為三點，敘事性、穩(wěn)定性、可控性。"要保證視頻做5分鐘和1小時是完整的故事，IP要有一致性。穩(wěn)定性現(xiàn)在做得還可以"，談到可控性，他拿自己在北京電影學(xué)院上過的一門課"鏡頭的語言"舉例，"導(dǎo)演的要求非常高，第幾秒出現(xiàn)什么鏡頭、人物出現(xiàn)什么表情要求非常高，今天的大模型還沒有做到這一點，我們還在等待ChatGPT時刻的到來"。

根據(jù)中研普華產(chǎn)業(yè)研究院的數(shù)據(jù)，2024年全球多模態(tài)AI市場規(guī)模達(dá)到24億美元，年均復(fù)合增長率超過28%。預(yù)計到2025年，全球多模態(tài)大模型市場規(guī)模將達(dá)到1280億美元，2023—2025年復(fù)合增長率高達(dá)62.3%。雖有諸多挑戰(zhàn)，多模態(tài)大模型的未來仍是一片星辰大海。

事實上，市場上新舊產(chǎn)品同臺競技，呈現(xiàn)出立體、多維度的思考，多模態(tài)大模型更是如此。按照當(dāng)前技術(shù)成熟度評估，視頻生成等核心能力仍處于GPT-2到GPT-3的過渡階段，與產(chǎn)業(yè)預(yù)期存在顯著差距。多模態(tài)模型將經(jīng)歷更長的技術(shù)沉淀期，這也意味著更大的想象力空間。

梅濤創(chuàng)立的智象未來關(guān)注怎樣將多模態(tài)模型進(jìn)行應(yīng)用，幫助客戶和用戶發(fā)揮創(chuàng)造力，提升生產(chǎn)力。從2023年到2025年，他對多模態(tài)模型應(yīng)用每年都有新觀察。

以曹越在微軟研究院、智源研究院又創(chuàng)立Sand.ai的經(jīng)歷，他認(rèn)為過去有兩個技術(shù)進(jìn)展最令人印象深刻，"一個是ChatGPT，或者說預(yù)訓(xùn)練的規(guī)?；?，另一個是GPT-o2和DeepSeek R2這種類型的技術(shù)，本質(zhì)上是Test-time scaling（測試時縮放）"。

視頻生成處在GPT-2-GPT-3階段

AI發(fā)展之快，每年都有新話題，2024年，價格戰(zhàn)是大模型的關(guān)鍵詞，2025感到風(fēng)向變了，大模型應(yīng)用百花齊放，反而有種大模型發(fā)展"變慢"了的體感。

他進(jìn)一步說，"傳統(tǒng)的CV（計算機(jī)視覺）模型的落地應(yīng)用比較成熟，大模型在視覺理解能力得到提升，或者泛化能力更強(qiáng)以后，可以迅速替代和填補(bǔ)原來傳統(tǒng)的視覺模型應(yīng)用領(lǐng)域的空白需求，無非就是成本收益比的問題。只要有市場有需求，基礎(chǔ)研發(fā)人員就可以把成本壓下來，形成規(guī)?；瘧?yīng)用以后，達(dá)到商業(yè)化應(yīng)用的臨界點"。

"當(dāng)前多模態(tài)大模型的學(xué)習(xí)路徑，尤其是多模態(tài)理解模型，通常是先將語言模型訓(xùn)練到很強(qiáng)的程度，再學(xué)習(xí)其他模態(tài)信息。"智源研究院院長王仲遠(yuǎn)向北京商報記者解釋，"這就如同先達(dá)到博士學(xué)位水平，再去接觸其他知識，在這個過程中，模型的能力可能會出現(xiàn)下降，從博士水平降到大學(xué)甚至高中水平。"

"技術(shù)方案不夠收斂"也是Sand.ai創(chuàng)始人兼CEO曹越提到的多模態(tài)模型發(fā)展的第一個挑戰(zhàn)。

Emu3所謂的原生多模態(tài)大模型的原生正是如此，"是指在模型訓(xùn)練初始階段，就將文字、圖像、聲音乃至腦信號等各種模態(tài)數(shù)據(jù)都納入其中進(jìn)行訓(xùn)練。隨著模態(tài)種類不斷增加，如何從繁雜的模態(tài)數(shù)據(jù)中篩選出最有效的信息，成為亟待突破的技術(shù)難題"，據(jù)王仲遠(yuǎn)介紹，這與企業(yè)選擇的技術(shù)路線存在差異。

在他所在的視頻生成領(lǐng)域，"Sora的出現(xiàn)，讓大家意識到視頻生成的質(zhì)量可以這么高，但從技術(shù)方向看，DiT訓(xùn)練方案有很大問題，核心問題就是不夠可拓展"，曹越以大語言模型舉例對比，"有點像2018年的BERT。當(dāng)時核心痛點是，當(dāng)訓(xùn)到10B大小時，要再更大時就不會有進(jìn)步了。BERT一開始有很好的生成效果，但是ChatGPT后來者居上，因為ChatGPT可以訓(xùn)1000B。這意味著在技術(shù)方案方面還有很大的技術(shù)空間，生成效果上也有很大的提升空間"。

智象未來創(chuàng)始人兼CEO梅濤更加直接，"目前視頻生成處于GPT-2到GPT-3的階段"。

嚴(yán)格來說，Emu3是智源2024年10月發(fā)布的多模態(tài)模型，目前智源已在訓(xùn)練下一個版本?；贓mu3，智源還官宣了全球首個腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ。

大模型爆發(fā)至今，很多時候無外乎是選對了方向，又懂得流量密碼，一個現(xiàn)象級產(chǎn)品就橫空出世了。事實上，這種選擇需要前期足夠多的思考、實踐和勇氣。

"2023年模型就是產(chǎn)品，我們做的是模型的服務(wù)，也就是PaaS（平臺即服務(wù)），到了2024年可以賣工具，工具就是SaaS（軟件即服務(wù)），我們希望做每個人都能使用的工具，后來發(fā)現(xiàn)工具的使用門檻比較高，特別是做影視級專業(yè)內(nèi)容的需求。2025年我們再往上升級，客戶不用關(guān)心我們是怎么做的，我們希望直接把結(jié)果交給用戶，幫用戶做增長、跟用戶分傭。"梅濤說。

對于視頻生成來說，張鵬認(rèn)為，"基于視覺生成，這兩個事情還沒有完全統(tǒng)一起來。這使得我們要同時兼顧兩件事。目前這兩件事在技術(shù)角度上，沒有太好的辦法融合到一起，帶來的根本約束更大"。

其實，不管是大語言模型還是多模態(tài)模型，數(shù)據(jù)的存量和增量、成本等一系列問題，都會限制發(fā)展，但在智譜AI CEO張鵬看來，這都是表面現(xiàn)象，"還有一個最瓶頸、最麻煩的地方就是商業(yè)應(yīng)用"。

下一篇：2122套小高層！青島城中村改造，超級大手筆！
上一篇：越秀、北京城建、未來科學(xué)城、貝好家聯(lián)合體23.95億摘北京昌平宅地

相關(guān)閱讀

推薦圖文

比亞迪西安號 / 長沙號雙船進(jìn)入試航階段，即將投入運營

阿斯：12000名西班牙球迷遠(yuǎn)征德國，自去年歐洲杯以來最多

最新信息

推薦信息

京公網(wǎng)安備 11010702001433號京ICP備11022796號
電腦版 | 手機(jī)版

婷婷开心六月久久综合丁香,免费大片黄在线观看,黄片中文字幕免费大全110,国产69久久精品成人看,美女免费黄色av网站在线观看,91精品国产91久久久久久,在线观看黄片欧洲

德州下載手機(jī)版:聚焦多模態(tài)：ChatGPT時刻未到，2025大模型“變慢”了嗎

德州下載手機(jī)版:聚焦多模態(tài)：ChatGPT時刻未到，2025大模型“變慢”了嗎