近日,由Picsart AI Research等多個(gè)團(tuán)隊(duì)聯(lián)合開(kāi)發(fā)的AI視頻模型StreamingT2V驚艷亮相,以其強(qiáng)大的長(zhǎng)視頻生成能力刷新了行業(yè)記錄。這款模型能夠生成長(zhǎng)達(dá)1200幀、時(shí)長(zhǎng)達(dá)2分鐘的視頻,不僅在技術(shù)上超越了此前備受矚目的Sora模型,更以其免費(fèi)開(kāi)源的特性,為開(kāi)源生態(tài)注入了新的活力。
StreamingT2V的發(fā)布標(biāo)志著視頻生成領(lǐng)域取得了重要突破。此前,市場(chǎng)上的視頻生成模型大多只能生成幾秒到十幾秒的視頻,而Sora模型的60秒生成能力已經(jīng)算是業(yè)內(nèi)佼佼者。然而,StreamingT2V不僅將視頻生成時(shí)長(zhǎng)提升至2分鐘,理論上還可以做到無(wú)限長(zhǎng),為視頻生成領(lǐng)域帶來(lái)了前所未有的可能性。
StreamingT2V的成功得益于其先進(jìn)的自回歸技術(shù)架構(gòu)。該模型能夠創(chuàng)建具有豐富運(yùn)動(dòng)動(dòng)態(tài)的長(zhǎng)視頻,同時(shí)保持視頻的時(shí)間一致性和高幀級(jí)圖像質(zhì)量。通過(guò)引入條件注意力模塊(CAM)和外觀保留模塊(APM),以及一種隨機(jī)混合方法,StreamingT2V有效解決了現(xiàn)有文本到視頻擴(kuò)散模型在擴(kuò)展到長(zhǎng)視頻時(shí)出現(xiàn)的質(zhì)量下降、表現(xiàn)生硬或停滯等問(wèn)題。
CAM作為短期記憶塊,通過(guò)注意機(jī)制調(diào)節(jié)當(dāng)前一代的視頻,確保視頻塊之間的過(guò)渡自然流暢;而APM作為長(zhǎng)期記憶塊,則從第一個(gè)視頻塊中提取高級(jí)場(chǎng)景和對(duì)象特征,防止模型在生成過(guò)程中忘記初始場(chǎng)景。此外,StreamingT2V還利用高分辨率文本到視頻模型對(duì)生成的視頻進(jìn)行自動(dòng)回歸增強(qiáng),進(jìn)一步提高了視頻的質(zhì)量和分辨率。
目前,StreamingT2V已經(jīng)在GitHub上開(kāi)源,并在huggingface上提供了免費(fèi)試玩。盡管由于服務(wù)器負(fù)載可能較高,用戶可能需要耐心等待,但嘗試輸入文字和圖片提示來(lái)生成視頻的體驗(yàn)依然讓人興奮。huggingface上也展示了一些成功的案例,這些案例充分證明了StreamingT2V在視頻生成方面的強(qiáng)大實(shí)力。
StreamingT2V的發(fā)布不僅為視頻生成領(lǐng)域帶來(lái)了新的技術(shù)突破,也為開(kāi)源社區(qū)提供了一個(gè)強(qiáng)大的工具。它的出現(xiàn)將有助于推動(dòng)相關(guān)技術(shù)的發(fā)展和應(yīng)用,為電影制作、游戲開(kāi)發(fā)、虛擬世界構(gòu)建等領(lǐng)域帶來(lái)更多創(chuàng)新和可能性。
未來(lái),隨著StreamingT2V等先進(jìn)技術(shù)的不斷完善和普及,我們或許可以期待看到更多高質(zhì)量、長(zhǎng)時(shí)長(zhǎng)的AI生成視頻在各個(gè)領(lǐng)域得到廣泛應(yīng)用。同時(shí),開(kāi)源社區(qū)也將繼續(xù)發(fā)揮重要作用,推動(dòng)相關(guān)技術(shù)的不斷創(chuàng)新和發(fā)展。
原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.rponds.cn/article/647410.html