AI February 6, 2024

AI影片產生器


post-thumb

Google發表了全新生成式 AI 模型「Lumiere」,主攻運算難度更高的影片領域,除了可以用文字敘述來產生影片外,也可將圖片轉換成影片,甚至還能夠變換影片中的物件、視覺風格,又或是將缺失的部分進行填補。

Lumiere 使用 STUNet (Space-Time U-Net architecture)技術,與一般影片 AI 是逐格生成的方式不同,STUNet 是在分析多張畫面之間的關聯性後,再進行內容產生,可以有效提升物件內容之間的關聯性,減少畫面扭曲、抖動、變形的狀況。

Lumiere 能夠支援多種影片生成的方式,既可以使用文字敘述,也能將靜態圖片轉為動態,也能將影片轉換成不同的視覺風格,如果不知道該如何形容所希望的風格,也能附上參考圖片,讓 AI 去仿造出有著相似元素的影片。

另外,Lumiere 也支援局部替換功能,不論是靜態或是動態,只要將想要替換的區域圈選出來,再輸入關鍵字,AI 就能自動修改該區域的內容,例如修改影片中人物的服裝,或是替角色加入額外裝飾等,都不成問題。

然而 Google 目前只是公開研發成果,還未開放給大眾使用,未來推出的日程也尚未確定,所以各位「大膽的想法」還是先收起來吧! Google新論文介紹影片生成模型Lumiere,Lumiere是一種文字轉影片擴散模型,該模型的主要目的,是創建真實、多樣且動作連貫的影片。該模型使用一種稱為時空U-Net(Space-Time U-Net,STUNet)基礎架構,官方提到,這種技術可以一次生成完整的影片長度,而不需要經過多次處理。

近年圖像生成模型有著巨大的進步,能夠根據複雜的文字提示,生成高解析度且逼真的圖像,不過,研究人員要將文字轉圖像技術應用到文字轉影片領域面臨挑戰,主要原因在於影片中的動作複雜性。

當前文字轉影片模型仍然無法生成長時間,有著高品質視覺效果且動作逼真的影片,研究人員解釋,這些模型通常採用分階段設計,會先生成幾個關鍵畫面,接著用時間超解析度(Temporal Super-Resolution,TSR)模型,填充關鍵畫面之間的畫面。該方法雖然在記憶體效率上表現良好,但是在生成連貫動作上有其限制。

Google的新模型Lumiere則採用不同的方法,使用STUNet架構一次性生成完整時間長度的影片,該架構能夠在空間和時間上同時降採樣(Downsample)訊號,在更緊湊的時空表示中進行大部分運算,這使得Lumiere能夠生成更長時間、動作更加連貫的影片。Lumiere一次可以生成80影格,以每秒16影格來算,可產生長達5秒的影片,研究人員提到,5秒的長度超過大多數媒體作品中平均鏡頭時長。

Lumiere建立於一個經過預訓練的文字轉圖像模型之上,首先會由基礎模型在像素空間生成圖像的基本草稿,接著透過一系列空間超解析度(SSR)模型,逐步提升這些圖像的解析度和細節。不過,採用空間超解析度技術針對影片的每一個時窗進行處理,可能會在不同時窗的邊界處,產生外觀上的不一致,這是因為每個時窗都是獨立處理,所以在時窗拼接時,可能會有細節上的差異。

研究人員採用了Multidiffusion方法來解決時窗上的不連續,藉由在不同的時窗上進行空間超解析度處理,並彙整處理過的片段,以確保影片片段在視覺上的一致性和連續性。

整體來說,Lumiere是一個強大的文字轉影片擴散模型,能夠生成高品質且動作連貫的影片,可用於多種影片編輯和內容創建任務上,諸如影片修復、圖像轉影片生成,或是生成特定風格影片等。 科技的發展日新月異,幾乎每過一段時間就會有階段性的突破。近日,Google發表了全新影片生成AI模型「Lumiere」;與曾被濫用在AI換臉影片所使用的「DeepFaceLab」不同,Lumiere主打的是從無到有的生成及風格化視覺處理,它能夠靠著文字指令產生連續影片,或是上傳原有的圖片、影片,讓Lumiere產生不同風格化的作品。

強大的運算系統,讓影片「無中生有」,或讓「圖片動起來」

Lumiere主要透過 STUNet 架構(Space-Time U-Net architecture)來生成影片,與其他現有AI影片模型截然不同的是,現有的AI影片模型大多是先建立一個關鍵影格,後再逐格合成連續影片所需的關鍵幀,但這會導致影片產生不自然或抖動。

而使用STUNet 架構的Lumiere,則是利用模型學習物體多個時、空間的移動及變化軌跡,所以能夠直接將一次性指令運算為「連續性的畫面」,讓影片顯得更加真實及流暢。

從示範影片中,我們可以看到使用者輸入「一隻帶著好笑墨鏡的狗正在開車」指令後,Lumiere所產生的真實畫面;或者,我們將名畫「戴珍珠耳環的少女」上傳,並輸入「女孩眨眼及並微笑」的指令,就可以得到動起來的名畫。

或者,丟入一張靜止的篝火或蝴蝶照片,使用「Cinemagraph」功能,圈起想要營造動態的範圍,Lumiere也能產生搖曳的火焰和撲動的翅膀。

生成風格化系列影片,或進行影片修復

Lumiere運算系統的強大可不止如此,「Stylized Generation」功能顯示,當使用者上傳了一張螢光藍的蘑菇參考圖,並輸入「跳舞的熊」指令;AI就能參考上傳素材的「材質與風格」,隨即產出與參考圖風格一致的指令作品。靠著此功能,使用者可以大量產生同系列的動圖,不論是卡通或手繪風格,都難不倒Lumiere。

如果原被遮蔽或是有損毀也沒關係,將被遮擋的影片丟進Lumiere使用「Video Inpainting」功能處理,也能夠得到運算後完好如初的修復影片。

若是上傳一段完整的影片到Lumiere,可以讓模型將你的影片主體替換材質,比如將跑步中的真人,換置為木製效果人、紙人、磚塊人、花人等。

AI使用上的爭議及道德問題?

回到大眾最關心的議題,AI影片是否會造成更多紛擾?

其實上述可見,這次的示範影片幾乎都是針對物品或是動物為主,少數人像示範中,人物面部也已模糊處理;顯然在功能部分,正面人像處理並非Lumiere的主打;且若仔細觀察Lumiere產生之影片,也仍能夠看出一些不自然的銜接或抖動。

綜觀而言,目前的AI技術在影像處理方面還沒發展到人眼看不出來的地步,且處理真人面部表情需要大量運算,即使是之前的「DeepFaceLab」不雅影片換臉風波,也需要「一定數量的正、側臉素材」作參考,並不是什麼角度的影片都能換臉;是故,單就相同事件來說,發生在Lumiere的機率並不高。

而目前的AI影片生成技術也無法取代人類作業,因若要達到相同效益,目前AI所需花費也將比人類高出數倍,並不符合經濟效益。

Lumiere的研發是為了能讓使用者輕鬆地創造影像內容,但目前Google尚未對外提供這項產品的服務。面對AI的持續進步,大眾應當將之當作「有效的輔助工具」看待,避免因不必要的恐慌及猜忌,而拒絕它們的存在。

(圖片來源:Lumiere YouTube頻道截圖、Lumiere官方網站)

原文網址:Google發表最新AI模型Lumiere!強大運算為市面上AI影片生成之突破

更多放言報導

Ai掀潮流引正負面效應?惡骨「對美醜定義不同」談台灣發展目前技術跟不上

搶救王義川大兵AI宣傳圖來自「他」之手⋯網路圖文作家惡骨曝熱血沸騰背後秘密,幽默回「要被救的人不應太帥氣」

圖像生成 AI 現在已經變得越來越強大,不過影片生成則不是那麼容易。最近 Google 發表了最新的影片生成模型,可以提供更暢順的影片。

Google 新公布的 Lumiere 影片生成模型採用了全新的 Diffusion 模型技術 STUNet,可以讓模型認知物件在時間和空間中的定位,一次生成整個影片,使動作更加流暢自然。以前的技術雖然可以逐格生成影片,不過連貫性始終有一定程度的缺陷,讓人感到不自然。

Lumiere 的影片生成最多可以製作 80 格,比 Stable Video Diffusion 模型的 25 格要多,而且可以支援文字指令、圖片風格指令以及影片編輯指令等,用法相當多元化。目前 Lumiere 只是研究階段,未來實際提供相關產品還有一段長時間,特別是在解決濫用風險之前應該不會對外公開。

(本文由 Unwire HK 授權轉載;首圖來源:Google Research)

延伸閱讀: Google近日推出一種名為「Lumiere」的全新人工智慧影片模型,該模型擁有創造出連貫、流暢且真實動作的能力,並能在完整影片片段中展現出來。這種創新技術與現有的AI影片模型有顯著不同,Lumiere不是將各個單獨的畫面組合在一起,而是透過同時處理物體的位置和其動作,一次性地創建整部影片。

這項技術以時空架構為基礎,考量了所有的動作和位置相關方面。在生成過程中,Lumiere會檢視物體該被放置在何處,以及何時以及如何進行動作,確保影片的「空間」和「時間」元素都能得到妥善處理。這種一次性處理兩個方面的方式,使得Lumiere能創造出更連貫的動作。

Lumiere的功能不僅止於此,它還能跨越文字到影片和圖像到影片,從參考圖像提供有風格的生成,以確實調整影片中元素的外觀。Google研究團隊表示,Lumiere實現了「最先進的文字到影片生成結果」,「有助於廣泛的內容創建工作和影片編輯應用。」此外,Lumiere也具備動畫化圖像特定區域的能力,並能提供如改變衣物風格或影像中特定動物種類的插畫(inpainting)能力。然而,這僅僅是一項研究計劃,目前並無法親自體驗。

Google過去也推出過其他AI影片工具,例如Imagen版本的影像模式,該模式在Google雲端中提供AI圖像生成,並且VideoPoet是一個用於零拍攝影片生成的大型語言模型。Video Poet還能在不需要文字指導的情況下,從影片片段創建音頻。

『腦部營養這樣做』

👉記憶力衰退居然跟飲食有關?!

👉預防記憶力衰退,綜合維他命幫你健腦

👉40歲開始腦退化,及早保養這樣做! 圖像生成 AI 現在已經變得越來越強大,不過影片生成則不是那麼容易。最近 Google 就發表了最新的一個影片生成模型,可以提供更暢順的影片。

Google 新公佈的 Lumiere 影片生成模型採用了全新的 Diffusion 模型技術 STUNet,可以讓模型認知物件在時間和空間中的定位,從而一次過生成整個影片,使動作更加流暢自然。以前的技術雖然可以逐格生成影片,不過連貫性始終有一定缺陷,讓人感到不自然。

Lumiere 的影片生成最多可以製作 80 格,比 Stable Video Diffusion 模型的 25 格要多,而且可以支援文字指令、圖片風格指令以及影片編輯指令等,用法相當多元化。不過目前 Lumiere 只是研究階段,未來實際提供相關產品相信還有一段長時間,特別是在解決濫用風險之前應該不會對外公開。

來源:ArsTechina

分享到 :

最新影片

Google推出AI擴散模型Lumiere,可通過文字生成連貫動作影片

品玩 / 何渝婷編譯

2024-01-29 17:03

(示意圖/取自pixabay)

根據《 heehel 》報導,Google研究院日前推出了一款名為 Lumiere 的「文生影片」擴散模型,主打採用自家最新開發的「Space-Time U-Net」基礎架構,號稱能夠一次生成「完整、真實、動作連貫」的影片。

Google表示,業界絕大多數「文生影片」模型無法生成時間長、品質佳、動作連貫逼真的內容,這是因為此類模型通常「分段生成影片」,首先產生幾張關鍵幀,接著用「時間超級分辨率(Temporal Super-Resolution)」技術,生成關鍵幀之間的影片文件,這種方法雖然能夠節省 RAM,但難以生成「連貫逼真」的影片。

Google提到,他們的新模型 Lumiere 相對於業界模型最大的不同是採用了全新「Space-Time U-Net」基礎架構,該架構能夠在空間和時間上同時「降採樣(Downsample)」訊號,從而在「更緊湊的時空中進行更多運算」,令 Lumiere 生成持續時間更長、動作更連貫的影片。

除了應用「Space-Time U-Net」基礎架構外,Google還介紹了 Lumiere 的基礎特性,該 AI 建立在一個經過預先訓練的「文生圖」模型基礎上,研究人員首先讓基礎模型生成影片分幀的基本像素草稿,接著通過空間超分辨率(SSR)模型,逐步提升分幀分辨率及細節,並利用「Multidiffusion」通用生成框架提升模型穩定性,從而保證了最終輸出的影片一致性和連續性。

本文為品玩授權刊登,原文標題為「谷歌推出 AI 擴散模型 Lumiere,可通過文字生成連貫動作視頻」


回到上一頁