歡迎來到WEPoker(微撲克)官網(wǎng),打造一個有趣的線上德?lián)淦脚_,為玩家提供豐富的在線德州游戲和德?lián)溴\標(biāo)賽。俱樂部專注于為會員提供優(yōu)質(zhì)德?lián)潴w驗和客服服務(wù)
基于上述數(shù)據(jù),研究者促使擴散模型在真實數(shù)據(jù)與合成的「輸入-輸出編輯空間」進行交錯學(xué)習(xí),提高對真實圖片的編輯效果。
或者把手里的iPhone換成字面意思上的蘋果。
【新智元導(dǎo)讀】豆包的一句話P圖功能,又進化了!各種高考祝福、網(wǎng)絡(luò)梗圖、大片級精修、設(shè)計師草稿,無不是信手拈來。此刻,AI P圖再次迎來降維打擊,只要用自然語言,就能實現(xiàn)精準(zhǔn)的圖片編輯。可以說,AI修圖終于來到了3.0時代!
讓照片中的人物頭戴簪花,衣服換成惠安民族服裝,背景替換為福建海邊。
在保留圖像主體和背景、精準(zhǔn)執(zhí)行編輯指令方面表現(xiàn)不佳,導(dǎo)致生成結(jié)果可控性差、成品率低,難以滿足真實應(yīng)用需求。
高考第一天就這么來了!莘莘學(xué)子們離解放的日子,也只剩不到三天。
豆包在精細且自然地處理編輯區(qū)域的同時,都能高保真地維持其他信息。
說句話,圖就自己變了!
而豆包都完美做到了。
與此同時,用戶的需求也早已不局限在生圖這個單一的場景中。這一點,從GPT-4o「魔改吉卜力風(fēng)」一夜火爆全網(wǎng),便不難看出。
比如,我們可以把喬幫主抱著的蘋果電腦換成最新版的MacBook。
這次帶來的另一個「神器」功能,就是局部修改PS。
現(xiàn)已加入生產(chǎn)力豪華套餐
這就不得不提它背后的模型——SeedEdit 3.0了。
這時,模型不僅需要完全理解圖片(找到墨鏡),并且還要理解要添加的文字(別認錯字)。
祝廣大考生文曲星附體,逢考必過,心想事成!
豆包上的AI生圖,為何進化到了如此強大的地步?
將衣服和發(fā)型換成大人模樣
現(xiàn)在,在AI修圖邁入3.0時代的今天,豆包SeedEdit 3.0不僅打破了傳統(tǒng)P圖工具的門檻,更真正將「所見即所得」升級為「所想即所得」。
舉個例子,比如我們想在眼鏡左鏡片上添加文字「暴」,右鏡片上添加文字「富」。
要知道,圖像編輯任務(wù)訓(xùn)練的另一大關(guān)鍵,就是讓模型聽懂指令,區(qū)分出哪里需要變,哪里需要不變。
在這個大家都希望AI「言出法隨」的時代,你只需動動嘴,剩下的交給AI。
話說,現(xiàn)在P圖已經(jīng)進化成這樣了嗎?
圖像局部修改:化身PS達人
P圖中的「變」與「不變」
就這樣,對于編輯圖像時的難題——「哪里改,哪里不改」,SeedEdit 3.0都表現(xiàn)出了更佳的理解力和權(quán)衡力。
還是未來的賽博朋克世界?
之所以能有如此表現(xiàn),正是因為團隊在 SeedEdit 3.0的研發(fā)工作中提出了一種高效的數(shù)據(jù)融合策略,并構(gòu)建了多種專用獎勵模型。
不論是圖中文字編輯、局部精修、風(fēng)格遷移,還是超寫實建模與視覺美學(xué)體驗,它都做到了「穩(wěn)準(zhǔn)狠」——穩(wěn)在每一次操作都可復(fù)現(xiàn),準(zhǔn)在每一句指令都能精準(zhǔn)理解,狠在生成效果足以媲美專業(yè)級修圖師。
尤其在人像美化、場景替換、視角調(diào)整與光影變化等復(fù)雜編輯任務(wù)中,展現(xiàn)出了讓人印象極其深刻的穩(wěn)定性與真實感。
一直以來,AI在圖像編輯領(lǐng)域都有個很難過去的坎——在圖片中「準(zhǔn)確地」添加文字。
經(jīng)過兩個版本的迭代,豆包AI智能生圖直接化身你個人專屬的P圖專家。
要知道,之前的圖像編輯模型,往往存在這樣一個令人頭疼的通病——
改文案、做海報,簡直是打工人神器,以后編輯圖片不用再求人了。
而且,操作起來既然不用糾結(jié)細節(jié),也無需學(xué)習(xí)復(fù)雜的軟件界面。
可以看到,如今在SeedEdit 3.0加持下的豆包已經(jīng)不單單局限于日常P圖,更是變成了設(shè)計師們的工作利器。
再加上豆包APP的超強圖片編輯能力,用AI來P圖真正做到了「言出法隨」。
如此沒有違和感的成片,說聲「PS大神」不為過吧!
如今,回憶起當(dāng)年的場景,有沒有想過直接穿越到霍格沃茨的魔法世界?
你只需要一句簡單的指令,便能看到想象力如何被一鍵點亮。
圖片文字編輯:超準(zhǔn)超實用
還是局部圖像任意修改細節(jié)。
無論是主體還原、背景一致性,還是細節(jié)保真度,SeedEdit 3.0均實現(xiàn)大幅提升。
他們還沿用了此前驗證過的框架:底層使用視覺理解模型,頂層采用因果擴散網(wǎng)絡(luò),并在擴散過程中重新引入圖像編碼器。然后在視覺理解模型與擴散模型之間,加入一條連接,用于將前者獲取的編輯推理信息與后者對齊。
就算是細節(jié)拉滿的promt,豆包也能輕松get。
雖說用AI來P圖已經(jīng)是稀松平常,但在這次用過豆包AI最新版本智能修圖后,真的有被征服,只剩下一個感受——穩(wěn)!太穩(wěn)了!
一秒入古畫,人在畫中游
由此,人臉與物體特征這類細節(jié)保留顯著提升。
在實測過程中,豆包的另一個令人印象深刻之處就是:P起圖來,它怎么那么會!
改造完成后的SeedEdit 3.0結(jié)構(gòu)
而SeedEdit 3.0通過引入多源數(shù)據(jù)融合策略與定制化獎勵機制,成功突破了這一瓶頸。
從上面這些實測中不難看出,SeedEdit 3.0對非編輯區(qū)域的保持能力很強——既能留住細節(jié),又能兼顧美感。
值得一提的是,這次豆包P圖保留的人臉細膩質(zhì)感,實在令人贊嘆不已。
將界面改為手機點餐app的UI,移除人像,將「Shop」「Spring Sale Up to 50% Off」「Clothing」「Shoes」「Accessories」「Home」「Wireless Eardus」「Woman Hat」「Brejan Sweater」「Sneakers」「-20% On select items」「New Arrivals」等文字改成餐飲相關(guān)的
編輯:編輯部 XZH
比如將圖中的「暴富」換成「發(fā)財」,ChatGPT兩個字都打錯了。
這就要歸功于,SeedEdit 3.0團隊對于模型細節(jié)上的提升。
隨著圖像生成的質(zhì)量越來越高,AI生圖也開始從「玩具」逐漸進化成真正的生產(chǎn)力工具。
比如,在花瓶的瓶身上畫上花紋,將花瓶上色成青花瓷,并變成真實花瓶。
這當(dāng)然也要歸功于SeedEdit 3.0。
圖像風(fēng)格遷移:秒變攝影大師
張伯倫拿著100分照片的梗圖,秒變高考祝福
這次豆包的能力提升主要得益于圖像編輯模型SeedEdit 3.0全量上線。
對于這項任務(wù),即使是國外的扛把子ChatGPT,翻車也是常態(tài)。尤其,是在處理中文時。
為此,團隊專門開發(fā)了一套增強型數(shù)據(jù)融合策略,構(gòu)建了合成數(shù)據(jù)集、編輯專家數(shù)據(jù)、傳統(tǒng)人工編輯操作、視頻幀與多鏡頭幾個類別的數(shù)據(jù)。
輕描淡寫一句「天空換成夕陽」,早晨的城市公園瞬間鋪滿溫柔的晚霞
這是三個要求,不僅要找到人物,還要定位服裝,最后還要識別背景。
豆包這次升級另外一個看點就是可以進行圖片整體風(fēng)格遷移,比如將人物直接放入拍立得相框。
把照片改成插畫風(fēng)格,女生騎坐在一條可愛的卡通紅金魚身上,金魚眼睛大且靈動,魚鰭、魚尾色彩鮮艷,背景是橙紅色放射狀漸變并帶白色線條裝飾,上方有黃橙漸變卡通字「一定高中」,底部是藍白色海浪圖案。
相比之下,豆包就能完美達成。
在未來,團隊還將探索更豐富的編輯操作,讓大家創(chuàng)意爆棚,靈感爆棚。
這下,再也不擔(dān)心女朋友的要求了。
通過將這些獎勵模型與擴散模型聯(lián)合訓(xùn)練,團隊針對性地改善了關(guān)鍵任務(wù)的編輯質(zhì)量(如人臉對齊、文本渲染等)。在落地時也對推理加速進行了同步優(yōu)化。
再比如,將圖片里的四種花上色,并擺放在同一個精美的玻璃瓶里,玻璃瓶置于客廳的窗臺上,去掉標(biāo)注的文字,變?yōu)閷憣崝z影圖片。
最后,在訓(xùn)練和推理加速上,SeedEdit 3.0還融合了蒸餾模型方法、CFG蒸餾、統(tǒng)一噪聲參照、自適應(yīng)時間步采樣等多個加速方法,實現(xiàn)了10秒級的推理。
不論是精準(zhǔn)的在圖像上編輯文字。
現(xiàn)在,是時候告別繁瑣,擁抱想象力的無限可能了。
還有比如這張,原圖是哪吒和敖丙在實驗室里做果汁。我們要求p成背景在高考考場,豆包就很好地領(lǐng)會到了。