近日,OpenAI展示了其新型視頻生成模型Sora,這一模型在文本轉(zhuǎn)視頻技術(shù)上取得了顯著進(jìn)步。然而,在彭博社進(jìn)行的測(cè)試中,Sora的表現(xiàn)并不完美,出現(xiàn)了一些不符合現(xiàn)實(shí)場(chǎng)景的動(dòng)作,如鸚鵡飛過猴子時(shí)翅膀扭曲,以及猴子身上出現(xiàn)鸚鵡尾巴等。
這些問題反映了Sora在理解和呈現(xiàn)物體物理特性方面的局限性。OpenAI科學(xué)家Bill Peebles也承認(rèn)了這一點(diǎn),他表示:“確實(shí)會(huì)在片段中找到一些奇怪的動(dòng)作?!?/p>
Sora采用Diffusion transformer技術(shù),將視頻內(nèi)容分解成一系列patch,并通過去噪技術(shù)預(yù)測(cè)出清晰的原始圖像信息。雖然這種方法優(yōu)化了視頻生成效果,但Sora仍面臨一系列挑戰(zhàn)和局限性。
這些挑戰(zhàn)包括物理交互的準(zhǔn)確性、對(duì)象狀態(tài)變化的一致性、長(zhǎng)期樣本的連貫性、物體的自發(fā)出現(xiàn)、手部和身體部位的處理、計(jì)算資源的需求、模型的泛化能力以及視頻編輯和擴(kuò)展的能力。在復(fù)雜場(chǎng)景中,Sora可能會(huì)出現(xiàn)不符合現(xiàn)實(shí)場(chǎng)景的動(dòng)作,如籃球穿過籃筐側(cè)面、狗在走路時(shí)相互穿過等。
盡管Sora在某些特定場(chǎng)景下表現(xiàn)出色,但OpenAI表示,該模型仍有很長(zhǎng)的路要走,需要解決許多技術(shù)挑戰(zhàn)。隨著技術(shù)的不斷進(jìn)步,我們有理由相信Sora的未來會(huì)更加出色。
原創(chuàng)文章,作者:秋秋,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.rponds.cn/article/634322.html