HHpoker官網(wǎng)是一款線上能打德州的棋牌競技平臺,本站提供官方版HHpokerApp下載網(wǎng)址,有HHpoker安卓版官方下載和HHpokerios最新版本下載鏈接,Depu Circle改名叫HHpoker,推薦加入全聯(lián)盟實(shí)力靠譜俱樂部,全天客服大小全級別優(yōu)質(zhì)牌局俱樂部免費(fèi)送上桌金幣,HHpoker您的德?lián)浼s局神器軟件。
王長虎:視頻生成一定是被低估的。其實(shí)很多人的觀點(diǎn)只是為了自己公司的生存發(fā)展,比如說做大語言模型的,要先得到大家的關(guān)注,然后估值蹭蹭上漲,融資也非常順利。所以不管是公眾還是創(chuàng)業(yè)者,還是投資人,都在關(guān)注大語言模型。當(dāng)大語言模型先占據(jù)人的心智了,就會有很多共識。
晚點(diǎn):選擇 to C 方向,也意味著可能與大廠有更直接的競爭。比如即夢也是一個有視頻生成功能的 to C 產(chǎn)品;而抖音、快手也一直都有特效、模版的玩法。你們作為新公司,跑出來的機(jī)會是什么?
愛詩的階段性成績,直觀原因,是他們試到了新的產(chǎn)品形態(tài),并找到了病毒式傳播的爆發(fā)點(diǎn);而背后的基礎(chǔ),又來自自研視頻模型的性能,效果要好、速度要快。
隨著視頻行業(yè)的發(fā)展,需要更大的內(nèi)容供給,這是很大的增量,不存在說大公司把所有機(jī)會都干掉了。
王長虎: 這事對創(chuàng)作本身也有影響,因?yàn)椴煌慕换?dǎo)致不同的劇情走向,視頻本身就能知道不同的群體喜歡的是什么,就能自我進(jìn)化,做出更好的視頻。
晚點(diǎn):你們模型為什么能做到比別人快?
晚點(diǎn):可能我們看視頻時,并不希望所有內(nèi)容都是我想出來的,這樣我也會很累,而且有時也需要內(nèi)容給我們 “意外”。
模型技術(shù)的進(jìn)化,將模糊內(nèi)容創(chuàng)作和消費(fèi)的界限
當(dāng)時看到大語言模型蒸蒸日上,也有人在做圖片生成、3D 生成,但唯獨(dú)沒有人做視頻生成。大家的反饋是覺得太難了。但我覺得這樣是不對的,這就有了非共識:我們覺得視頻生成是大事,而我們過去在視頻和 AI 方面有經(jīng)驗(yàn),能贏在全球。
可靈、MiniMax 海螺、Pika、Runway 等產(chǎn)品主要服務(wù)專業(yè)視頻制作者,愛詩則在有相近功能的網(wǎng)頁端產(chǎn)品之外,也做了面向 to C 用戶的視頻生成移動端產(chǎn)品,玩法又潮、又簡單:
兩個月后,模型 V3.5 又把用戶等待時長從分鐘級降低到了 10 秒內(nèi),所以我們決定讓 App 上線。做到一定標(biāo)準(zhǔn),用戶才會選擇你。這是結(jié)果,不是原因。
王長虎:這兩年一直在成長。前段時間我還分享,其實(shí)我不會創(chuàng)業(yè),創(chuàng)業(yè)其實(shí)是要邊做邊學(xué)。公司在發(fā)展過程中要做很多決策,這些決策、這個公司的發(fā)展跟創(chuàng)始人息息相關(guān)。所以這個過程中我們在很多高壓的情況下做了抉擇。
晚點(diǎn):OpenAI 接下來是否會把自回歸也用到視頻生成上?如果他們真這么做,有可能帶來斷層的體驗(yàn)領(lǐng)先嗎?
今天(6 月 6 日),PixVerse 的國內(nèi)版 “拍我 AI” 正式上線,更多中國用戶也能簡單、快速地體驗(yàn) AI 視頻制作。
晚點(diǎn):你們在哪些 “高壓” 情況下做了抉擇?
王長虎:這是兩個引擎。發(fā)展前期,模型一定是更重要的,一旦模型做不好,會影響用戶的產(chǎn)品體驗(yàn);當(dāng)模型能做到全球最好,并且能持續(xù)進(jìn)化時,產(chǎn)品的比重越來越大;產(chǎn)品能看到用戶真需求,就會牽引技術(shù)的發(fā)展。
謝旭璋:對,所有能看視頻的人可能都有用視頻表達(dá)的欲望,只是過去表達(dá)欲沒被滿足。我們希望用 AI 幫助這些人邁出第一步,讓他們先做出來第一個好玩的、跟自己有關(guān)的、可以分享的視頻。很多用戶的第一個萬贊、10 萬贊、乃至百萬贊短視頻,就是用 PixVerse 做的。
晚點(diǎn):大廠也不缺資源,為什么你們能比大廠做得快?有觀點(diǎn)認(rèn)為,團(tuán)隊(duì)小,目標(biāo)簡單。
謝旭璋:視頻是一個更通用的傳播媒介。所以一個好玩的模板和效果,在美國能火,中國能火,在巴西也能火,在泰國也能火,在歐洲也能火。具體到收入占比,GDP 高的國家就會相對占比更大。
王長虎:我過去 20 年都在做研究,研究界的好多論文,你都可以說是新趨勢。要辯分辨哪些是在講故事,哪些是真正有效。
王長虎:最重要的還是看結(jié)果。DiT 架構(gòu)視頻內(nèi)容是一次生成,自回歸是順序生成。不同的方法各有優(yōu)劣。4o 確實(shí)引發(fā)了大家的探索,自回歸的劣勢在視頻生成里會放大,因?yàn)橹饚蓵欣鄯e誤差,能不能用 Diffusion 技術(shù)彌補(bǔ)?最近還有一個趨勢,就是推進(jìn)實(shí)時視頻生成的發(fā)展。
王長虎:邊做邊學(xué),那時目標(biāo)還是 AI 生成,至于做圖片、做視頻、做大模型?還在思考過程中。
王長虎:綜合優(yōu)勢,模型架構(gòu)、算法、工程、產(chǎn)品能力。外界解讀時會希望能找到一些簡單的結(jié)論,但這件事其實(shí)是非常難的。去年一些比我們?nèi)谫Y更多的大模型公司不缺錢,不缺人,不缺數(shù)據(jù),但其中多數(shù)公司依然做不出來(視頻生成模型),說明這件事很難。
王長虎:現(xiàn)在也有很強(qiáng)的開源模型,比如阿里通義萬相的視頻大模型。但對做好應(yīng)用,開源不是最重要的,DeepSeek 牛,不僅牛在開源,而在于他模型確實(shí)好。ChatGPT 剛出來時,也冒出了好多應(yīng)用。但隨著模型進(jìn)化,很多應(yīng)用自然就被顛覆了。
晚點(diǎn):綜合能力不只有模型,那現(xiàn)在模型和產(chǎn)品在愛詩的成長中各自扮演的角色是什么?
謝旭璋:我們現(xiàn)在還沒有那么精細(xì)化,是讓產(chǎn)品自己跑出來。
自回歸一方面不是一個新東西,之前不少公司也探索了很久,至少到目前為止,最主流、效果也最好的模型仍是 DiT;另一方面,自回歸是一個有希望的方向,GPT-4o 在圖片生成上,很可能就是用了自回歸加 Diffusion 的架構(gòu)。
王長虎:我在創(chuàng)業(yè)時就有目標(biāo)要服務(wù)普通人,愿景是 “幫助每個人成為生活的導(dǎo)演”。
晚點(diǎn):你們面臨這么多高壓的情況,有沒有哪次投入一段時間卻沒看到結(jié)果?
王長虎:早期是 Sora 出來之前,我們猥瑣發(fā)育的階段,那段時間我們快速把底層能力搭建起來了;第二階段是 Sora 出來之后,好多團(tuán)隊(duì)都撲上來做,進(jìn)入大亂戰(zhàn)時期,現(xiàn)在又一些公司已經(jīng)關(guān)停了、賣身,但我們殺出重圍了;新的階段是我們需要向一些真正有資源、有人才的大廠學(xué)習(xí),和他們一起競爭。
晚點(diǎn):拿 “毒液” 變身模版為例,門檻或者說壁壘在什么地方?今天我是另外一家想做“毒液”變身視頻模板的公司,我也可以 copy?
再就是需要用戶洞察,變身火了可能幾周到一個月,但之后我們也能持續(xù)做出讓用戶喜歡的模版。
晚點(diǎn):你們的視頻生成模版和短視頻軟件上的特效功能有什么區(qū)別?他們也能做出很逼真的視頻。
10 億次播放的 AI 變身特效,PixVerse 的 “病毒傳播”
王長虎:這就是創(chuàng)業(yè)公司的優(yōu)勢所在,沒那么復(fù)雜,所以效率高。大公司的業(yè)務(wù),沒人管可能能跑出來;業(yè)務(wù)被重視了、升級了,就不知道是好事還是壞事了。
晚點(diǎn):2023 年初您剛創(chuàng)業(yè)時我們聊過,您當(dāng)時還沒有提到要做視頻里的視頻生成這個方向。
王長虎:有兩個里程碑。一是我們在模型 V4 時就能做到用 5-7 秒生成 5 秒長的視頻,并且我們是在不損失質(zhì)量的情況下做到。這樣人在觀看視頻時,視頻也在同時生成下一秒,就可以無限生成下去。
晚點(diǎn):視頻生成價值被認(rèn)可是 2024 年 2 月 Sora 出現(xiàn)之后,這之前是非共識。你覺得到現(xiàn)在,大家有認(rèn)知到視頻生成的價值嗎?好像在輿論層面,如果某大語言模型做得很強(qiáng),大家就會有很厲害的感知;但如果是視頻生成做得強(qiáng),好像大家感知不會很強(qiáng)。
一種觀點(diǎn)是,35 歲以下的創(chuàng)始人更適合大模型創(chuàng)業(yè),不管是做模型還是應(yīng)用——模型技術(shù)迭代快,年輕人學(xué)得更快;而做應(yīng)用要洞察用戶,AI 的早鳥用戶就是年輕人。
因此還會帶來的一個改變可能是,視頻和游戲的界限越來越模糊。
謝旭璋:模型方面,我認(rèn)為海外的 Google 做得好,國內(nèi)是我們、快手可靈和 MiniMax 海螺。視頻生成領(lǐng)域里,用戶量最大的三個公司就是這 3 家中國公司。
借助 “模版”,用戶上傳照片、等上幾秒后,就可以把任何人物封裝成一個小玩具,平地入海、變身美人魚,讓自家的貓?zhí)颇咳蝮w驗(yàn)一次綠巨人變身,然后再一鍵分享這些視頻到 TikTok、Instagram 等平臺。“很多用戶的第一個萬贊、十萬贊、乃至百萬贊的短視頻,就是用 PixVerse 做的?!?謝旭璋說。
比如說 2023 年初我們要不要做視頻?那時候很多人都不認(rèn)同這件事情,大家都在看大語言模型。
王長虎:過去這兩年我看到視頻的創(chuàng)作和消費(fèi)的界限越來越模糊了。未來能夠做到每個消費(fèi)者都能具備創(chuàng)作能力;并且每個看視頻的人都可以去跟視頻實(shí)時交互,改變內(nèi)容,比如我對泰坦尼克號的結(jié)局不滿意,我就可以讓視頻的走向改變。
愛詩的全球用戶現(xiàn)在已超過 6000 萬,是可靈當(dāng)前用戶數(shù)的近 3 倍;其中,上線剛 6 個多月的 PixVerse 移動端月活已超過 1600 萬。
題圖來源:拍我 AI 網(wǎng)頁端截圖
王長虎:我們沒有那樣的機(jī)會。做一遍做錯了就可能發(fā)展不起來了。因?yàn)橹灰鼍蜁ê芏噱X,我們不像 OpenAI 那樣不差錢。
晚點(diǎn):所以你們?nèi)ツ暝f,愛詩的目標(biāo)客群就是每天玩抖音、TikTok 的普通人?
王長虎:這就像 ChatGPT 之前也有微軟小冰,可以對話但是效果不一樣。
晚點(diǎn):被低估會帶來什么?
晚點(diǎn):你們有沒有砸資源干一些可能會浪費(fèi)的事情? 你剛才提到一個關(guān)鍵抉擇是最開始確定視頻生成方向。后面還有類似的抉擇嗎?
晚點(diǎn):一直有 “火” 的模板?怎么做到的?這真能持續(xù)嗎?
晚點(diǎn):這可能會帶來應(yīng)用上的變化?后面的內(nèi)容在前面觀看時還沒有生成,相當(dāng)于能做一些定制化的內(nèi)容,或者有交互。
晚點(diǎn):視頻生成領(lǐng)域也在出現(xiàn)一些新的技術(shù)趨勢,比如從 DiT 架構(gòu)(Diffusion Transformer,結(jié)合擴(kuò)散模型和 Transformer 架構(gòu)的生成模型)到有人推出了自回歸技術(shù)(Autoregressive model,可逐步生成序列)的視頻生成模型。你怎么看這個方向的潛力?
晚點(diǎn):類似變身等模版,現(xiàn)在是 PixVerse 和 “拍我 AI” App 上的核心玩法,不需要寫 Prompt,對普通人非常友好。而且你們剛上了信息流功能,用戶可以直接在平臺上分享生成的視頻。從模型到具體的產(chǎn)品形態(tài),決策是怎么發(fā)生的?
王長虎:大家對大語言模型的期待過高,會成為創(chuàng)業(yè)公司的壓力和動力。我們沒有這樣的約束,會走得更健康。
晚點(diǎn):我在你們的產(chǎn)品界面里看到很多英語、俄語、泰語的視頻。實(shí)際上對你們來說,哪個市場是你們占比比較大的?
謝旭璋:我們內(nèi)部會不停有創(chuàng)意出來,未來也希望讓用戶能貢獻(xiàn)創(chuàng)意。但比較重要的是基礎(chǔ)模型,基礎(chǔ)模型不好,很多創(chuàng)意是沒有辦法實(shí)現(xiàn)的。
解鎖 AI 視頻的病毒傳播后,愛詩推出 PixVerse 中國版 “拍我 AI”。
晚點(diǎn):你們提前計(jì)劃了主攻哪些海外市場?還是看哪個市場先跑出來?
上個月,一款咧嘴笑模版將 PixVerse 推上美國 iOS 下載榜前五。去年底爆火的由 PixVerse 制作的超級英雄變身視頻,目前全網(wǎng)播放量已超 10 億次。
王長虎:概率不太能算出來。一方面我們創(chuàng)業(yè)初期規(guī)劃路線時就有了第二代架構(gòu)路線,而且當(dāng)時就決定要在 2024 年春節(jié)后去做。另一方面,“成功” 怎么定義?Sora 雖然 demo 引起了轟動,但是十個月后上線,Sora 已經(jīng)不在第一梯隊(duì)了。只把代碼寫完很簡單,但真正能讓用戶用起來而且喜歡,才是 “成功”。
同時,AI 視頻的場景已經(jīng)被探索過了,像去年我們在做毒液變身時,中國應(yīng)該有小幾百萬人來用過這個特效,在全球各種社交媒體上,變身特效視頻被播放超過 10 億次,比看過原電影的人要多。我記得有當(dāng)時有很多人在閑魚上發(fā)帖,花錢找人代做視頻,所以我覺得中國用戶的付費(fèi)意愿或者使用意愿和海外是相近的。
晚點(diǎn):為什么現(xiàn)在這個時間點(diǎn)進(jìn)國內(nèi)市場,做中國版?
“我不會創(chuàng)業(yè)” 王長虎說,但沒關(guān)系,“創(chuàng)業(yè)就是邊做邊學(xué)”。
二就是前面的那 5 秒,能不能實(shí)時生成?這是更難的,但也更有價值,會開啟更大的世界。
“不夠年輕?!?023 年初,我們第一次和投資人聊到正在籌備創(chuàng)業(yè)的王長虎時,這是對方的第一反應(yīng)。
謝旭璋:首先是我們產(chǎn)品背后的基礎(chǔ)是自己的視頻模型,我對我們模型迭代比較有信心。再就是視頻行業(yè)不管在國內(nèi)還是海外,是一個還在發(fā)展,還在快速變大的一個行業(yè):優(yōu)酷、愛奇藝、NetFlix 沒有被抖音、快手、TikTok 取代,電視臺、電影院也沒有被優(yōu)酷、愛奇藝、NetFlix 等取代,現(xiàn)在還有了直播、短劇等形式。同樣的,新的視頻平臺都不是老的視頻平臺們做出來的。
晚點(diǎn):創(chuàng)業(yè)兩年多,你有哪些成長?
王長虎:2023 年 6 月時,我們資源到位,核心人員到了之后,我們真的需要做事情的時候,那時候就明確的看到了這個方向,決心 All in 視頻生成。
晚點(diǎn):后來怎么定位到現(xiàn)在的視頻生成方向?看到了哪些跡象?
謝旭璋:對,我們覺得 Sora 最后發(fā)布的這個模型跟當(dāng)時 demo 差距非常大,開玩笑說,前后差了十個 PixVerse。它其實(shí)開了一個不太好的頭,導(dǎo)致那之后很多公司會發(fā) demo 稱做到了什么,但實(shí)際交付不了。
晚點(diǎn):你們會擔(dān)心接下來會有一個特別強(qiáng)的開源模型,別的應(yīng)用公司可以在這個開源模型上達(dá)到和愛詩相似的效果嗎?
晚點(diǎn):所以你覺得自己掌握模型能力非常重要。
短視頻里的特效不是端到端的,每一個特效都要針對性去調(diào)整、設(shè)計(jì);而用生成技術(shù)產(chǎn)生模版,效率高很多,同時能讓用戶也參與貢獻(xiàn)模版,不是光靠我們的團(tuán)隊(duì)在做。這是過去的短視頻特效沒有的生產(chǎn)機(jī)制——所以我們的模版內(nèi)容多元、足夠有差異化。
晚點(diǎn):你們覺得在全球范圍內(nèi),視頻生成行業(yè)里面公認(rèn)的第一梯隊(duì)的模型來自哪幾家公司?
王長虎:另一個需要做決策的,就是 Sora 出來之后,我要不要花更多的資源甚至十倍資源去做第二代 DIT 架構(gòu)模型?那時有聲音說我們是不是已經(jīng)落后 Sora 很多了?我們不像大公司能很快籌到那么多錢,三個月,一次能做成就做成了,做不成就再也沒有第二次機(jī)會了,壓力也很大。
晚點(diǎn):你剛剛沒提 OpenAI,Sora 已經(jīng)不算第一梯隊(duì)了嗎?
謝旭璋:我覺得幾個點(diǎn)可以參考。“毒液” 變身已經(jīng)火了半年了,到目前為止應(yīng)該沒有哪家的模型能完全復(fù)現(xiàn)這個效果,所以本身這個技術(shù)有難度,需要高質(zhì)量的生成模型,才能讓變身過程和結(jié)果都符合預(yù)期,另外還需要做一些微調(diào)。
王長虎:對,特別是在不是成熟的,還在進(jìn)化中的階段。
產(chǎn)品形態(tài)是逐漸清晰的。兩年前大家不相信視頻生成是因?yàn)榧夹g(shù)不好;一年前只有專業(yè)創(chuàng)作者才能忍受很慢的生成等待時間。所以我們一直在過程中提升模型能力,每兩個月就有大的提升。
晚點(diǎn):成立兩年多,你們已經(jīng)經(jīng)歷了行業(yè)發(fā)展的幾個階段,接下來會面對的是什么?
但是你要知道創(chuàng)業(yè)不是這回事,我們應(yīng)有獨(dú)立的思考。
愛詩兩位創(chuàng)始人過去都沒有完整操盤過 to C 產(chǎn)品:王長虎是中科大博士,有近 20 年 AI 研究經(jīng)歷,2017-2021 年間,他擔(dān)任字節(jié)跳動視覺技術(shù)負(fù)責(zé)人,在抖音從 0 到 1 增長最快的時期提供技術(shù)支持。謝旭璋則畢業(yè)于北大光華管理學(xué)院,創(chuàng)業(yè)前的 6 年一直在光源資本工作。
越是 C 端用戶,越不能忍受頻繁的抽卡和生成時等太久。2024 年 10 月,PixVerse 發(fā)布 V3,大幅減少 “抽卡” 頻率;兩個月后,V3.5 又將生成時間壓縮到 10 秒以內(nèi),滿足了 C 端用戶的基本要求。成立至今,PixVerse 已總共更新了 7 版模型。
視頻生成被低估,是壓力也是好處
可偏偏,在數(shù)家視頻生成創(chuàng)業(yè)公司被收購或關(guān)停時,是 80 后的王長虎,搭配聯(lián)創(chuàng) 90 后謝旭璋,帶著既做模型,也做應(yīng)用的愛詩科技跑到了行業(yè)頭部。
謝旭璋:我們本身就想做全球產(chǎn)品,中國是其中非常大的市場,早期我們?nèi)巳颂兕櫜贿^來,現(xiàn)在我們產(chǎn)品開發(fā)、模型迭代都走上正軌了。
王長虎:創(chuàng)業(yè)公司是持續(xù)有壓力的,我們是在做一個大模型,很花資源。有一些時刻是一旦做錯了你就沒有機(jī)會。因?yàn)橐獰芏噱X的,一旦做錯了就可能沒有機(jī)會再做第二次。
晚點(diǎn):指生成的時間跟視頻長度相等,或者說更快一點(diǎn)?
在去年 10 月,我們的產(chǎn)品在海外破圈了,是因?yàn)槲覀兊?V3 模型能把過往極低的抽卡概率拉到接近 100%。這樣我們用最好的模型,搭配產(chǎn)品推出了模版生成功能,二者結(jié)合,普通人不需要輸入 Prompt,只需要上傳一張圖片,選好模版就能達(dá)到 100% 的成功率,這是真的讓普通人玩起來的時刻,我們認(rèn)為這是視頻生成的 ChatGPT 時刻。
晚點(diǎn):你們當(dāng)時覺得多大的概率會成功?
愛詩方面稱,現(xiàn)在他們的訂閱收入已能覆蓋公司絕大部分成本費(fèi)用,現(xiàn)金流接近為正。