
初創(chuàng)公司Stability AI專注于開發(fā)人工智能(AI)產(chǎn)品,最近發(fā)布了一款令人期待的AI模型——Stable Video Diffusion。這款模型的獨特之處在于,它能夠通過現(xiàn)有的靜態(tài)圖片生成高質(zhì)量的視頻,是基于之前發(fā)布的Stable Diffusion文本轉(zhuǎn)圖片模型的延伸。目前市面上能夠生成視頻的AI模型相對較少,因此Stable Video Diffusion引起了廣泛關注。
然而,需要注意的是,Stable Video Diffusion目前并不對所有人開放。它目前處于Stability AI所謂的“研究預覽”階段。想要使用這款模型的人必須同意一些使用條款,其中規(guī)定了Stable Video Diffusion的預期應用場景(例如“教育或創(chuàng)意工具”、“設計和其他藝術過程”等)以及非預期的場景(例如“對人或事件的事實或真實的表達”)。
Stable Video Diffusion實際上由兩個模型組成:SVD和SVD-XT。SVD可以將靜態(tài)圖片轉(zhuǎn)化為14幀的576×1024像素視頻,而SVD-XT則使用相同的架構,但將幀數(shù)提高到24。兩者都能以每秒3到30幀的速度生成視頻。
根據(jù)Stability AI發(fā)布的白皮書,SVD和SVD-XT最初是在一個包含數(shù)百萬視頻的數(shù)據(jù)集上進行訓練的,然后在一個規(guī)模較小的數(shù)據(jù)集上進行了“微調(diào)”,這個數(shù)據(jù)集只有幾十萬到一百萬左右的視頻片段。雖然這些視頻的來源并不十分清楚,但白皮書暗示許多是來自公開的研究數(shù)據(jù)集,因此無法判斷是否存在版權問題。
盡管Stable Video Diffusion還存在一些局限性,Stability AI對此也很坦誠。例如,這些模型不能生成沒有運動或緩慢攝像機平移的視頻,也不能通過文本進行控制,也不能渲染文字(至少不能清晰地渲染),也不能一致地“正確地”生成人臉和人物。
雖然目前還處于早期階段,但Stability AI指出這些模型非常具有擴展性,可以適應諸如生成物體的360度視圖等用例。最終,Stability AI的目標是將Stable Video Diffusion商業(yè)化,稱其在“廣告、教育、娛樂等領域”都有潛在的應用。這一新穎的AI模型無疑將為視頻生成領域帶來新的可能性。

原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請注明出處:http://m.rponds.cn/article/597666.html