AI影片產生器

Google發表了全新生成式 AI 模型「Lumiere」，主攻運算難度更高的影片領域，除了可以用文字敘述來產生影片外，也可將圖片轉換成影片，甚至還能夠變換影片中的物件、視覺風格，又或是將缺失的部分進行填補。

推薦生成式影片AI專家集仕多

Lumiere 使用 STUNet （Space-Time U-Net architecture）技術，與一般影片 AI 是逐格生成的方式不同，STUNet 是在分析多張畫面之間的關聯性後，再進行內容產生，可以有效提升物件內容之間的關聯性，減少畫面扭曲、抖動、變形的狀況。

Lumiere 能夠支援多種影片生成的方式，既可以使用文字敘述，也能將靜態圖片轉為動態，也能將影片轉換成不同的視覺風格，如果不知道該如何形容所希望的風格，也能附上參考圖片，讓 AI 去仿造出有著相似元素的影片。

另外，Lumiere 也支援局部替換功能，不論是靜態或是動態，只要將想要替換的區域圈選出來，再輸入關鍵字，AI 就能自動修改該區域的內容，例如修改影片中人物的服裝，或是替角色加入額外裝飾等，都不成問題。

然而 Google 目前只是公開研發成果，還未開放給大眾使用，未來推出的日程也尚未確定，所以各位「大膽的想法」還是先收起來吧！ Google新論文介紹影片生成模型Lumiere，Lumiere是一種文字轉影片擴散模型，該模型的主要目的，是創建真實、多樣且動作連貫的影片。該模型使用一種稱為時空U-Net（Space-Time U-Net，STUNet）基礎架構，官方提到，這種技術可以一次生成完整的影片長度，而不需要經過多次處理。

推薦生成式影片AI專家集仕多

近年圖像生成模型有著巨大的進步，能夠根據複雜的文字提示，生成高解析度且逼真的圖像，不過，研究人員要將文字轉圖像技術應用到文字轉影片領域面臨挑戰，主要原因在於影片中的動作複雜性。

當前文字轉影片模型仍然無法生成長時間，有著高品質視覺效果且動作逼真的影片，研究人員解釋，這些模型通常採用分階段設計，會先生成幾個關鍵畫面，接著用時間超解析度（Temporal Super-Resolution，TSR）模型，填充關鍵畫面之間的畫面。該方法雖然在記憶體效率上表現良好，但是在生成連貫動作上有其限制。

Google的新模型Lumiere則採用不同的方法，使用STUNet架構一次性生成完整時間長度的影片，該架構能夠在空間和時間上同時降採樣（Downsample）訊號，在更緊湊的時空表示中進行大部分運算，這使得Lumiere能夠生成更長時間、動作更加連貫的影片。Lumiere一次可以生成80影格，以每秒16影格來算，可產生長達5秒的影片，研究人員提到，5秒的長度超過大多數媒體作品中平均鏡頭時長。

Lumiere建立於一個經過預訓練的文字轉圖像模型之上，首先會由基礎模型在像素空間生成圖像的基本草稿，接著透過一系列空間超解析度（SSR）模型，逐步提升這些圖像的解析度和細節。不過，採用空間超解析度技術針對影片的每一個時窗進行處理，可能會在不同時窗的邊界處，產生外觀上的不一致，這是因為每個時窗都是獨立處理，所以在時窗拼接時，可能會有細節上的差異。

研究人員採用了Multidiffusion方法來解決時窗上的不連續，藉由在不同的時窗上進行空間超解析度處理，並彙整處理過的片段，以確保影片片段在視覺上的一致性和連續性。

整體來說，Lumiere是一個強大的文字轉影片擴散模型，能夠生成高品質且動作連貫的影片，可用於多種影片編輯和內容創建任務上，諸如影片修復、圖像轉影片生成，或是生成特定風格影片等。科技的發展日新月異，幾乎每過一段時間就會有階段性的突破。近日，Google發表了全新影片生成AI模型「Lumiere」；與曾被濫用在AI換臉影片所使用的「DeepFaceLab」不同，Lumiere主打的是從無到有的生成及風格化視覺處理，它能夠靠著文字指令產生連續影片，或是上傳原有的圖片、影片，讓Lumiere產生不同風格化的作品。

推薦生成式影片AI專家集仕多

強大的運算系統，讓影片「無中生有」，或讓「圖片動起來」

Lumiere主要透過 STUNet 架構（Space-Time U-Net architecture）來生成影片，與其他現有AI影片模型截然不同的是，現有的AI影片模型大多是先建立一個關鍵影格，後再逐格合成連續影片所需的關鍵幀，但這會導致影片產生不自然或抖動。

而使用STUNet 架構的Lumiere，則是利用模型學習物體多個時、空間的移動及變化軌跡，所以能夠直接將一次性指令運算為「連續性的畫面」，讓影片顯得更加真實及流暢。

從示範影片中，我們可以看到使用者輸入「一隻帶著好笑墨鏡的狗正在開車」指令後，Lumiere所產生的真實畫面；或者，我們將名畫「戴珍珠耳環的少女」上傳，並輸入「女孩眨眼及並微笑」的指令，就可以得到動起來的名畫。

或者，丟入一張靜止的篝火或蝴蝶照片，使用「Cinemagraph」功能，圈起想要營造動態的範圍，Lumiere也能產生搖曳的火焰和撲動的翅膀。

生成風格化系列影片，或進行影片修復

Lumiere運算系統的強大可不止如此，「Stylized Generation」功能顯示，當使用者上傳了一張螢光藍的蘑菇參考圖，並輸入「跳舞的熊」指令；AI就能參考上傳素材的「材質與風格」，隨即產出與參考圖風格一致的指令作品。靠著此功能，使用者可以大量產生同系列的動圖，不論是卡通或手繪風格，都難不倒Lumiere。

如果原被遮蔽或是有損毀也沒關係，將被遮擋的影片丟進Lumiere使用「Video Inpainting」功能處理，也能夠得到運算後完好如初的修復影片。

若是上傳一段完整的影片到Lumiere，可以讓模型將你的影片主體替換材質，比如將跑步中的真人，換置為木製效果人、紙人、磚塊人、花人等。

AI使用上的爭議及道德問題？

回到大眾最關心的議題，AI影片是否會造成更多紛擾？

其實上述可見，這次的示範影片幾乎都是針對物品或是動物為主，少數人像示範中，人物面部也已模糊處理；顯然在功能部分，正面人像處理並非Lumiere的主打；且若仔細觀察Lumiere產生之影片，也仍能夠看出一些不自然的銜接或抖動。

綜觀而言，目前的AI技術在影像處理方面還沒發展到人眼看不出來的地步，且處理真人面部表情需要大量運算，即使是之前的「DeepFaceLab」不雅影片換臉風波，也需要「一定數量的正、側臉素材」作參考，並不是什麼角度的影片都能換臉；是故，單就相同事件來說，發生在Lumiere的機率並不高。

而目前的AI影片生成技術也無法取代人類作業，因若要達到相同效益，目前AI所需花費也將比人類高出數倍，並不符合經濟效益。

Lumiere的研發是為了能讓使用者輕鬆地創造影像內容，但目前Google尚未對外提供這項產品的服務。面對AI的持續進步，大眾應當將之當作「有效的輔助工具」看待，避免因不必要的恐慌及猜忌，而拒絕它們的存在。

（圖片來源：Lumiere YouTube頻道截圖、Lumiere官方網站）

原文網址：Google發表最新AI模型Lumiere！強大運算為市面上AI影片生成之突破

更多放言報導

Ai掀潮流引正負面效應？惡骨「對美醜定義不同」談台灣發展目前技術跟不上

搶救王義川大兵AI宣傳圖來自「他」之手⋯網路圖文作家惡骨曝熱血沸騰背後秘密，幽默回「要被救的人不應太帥氣」

圖像生成 AI 現在已經變得越來越強大，不過影片生成則不是那麼容易。最近 Google 發表了最新的影片生成模型，可以提供更暢順的影片。

Google 新公布的 Lumiere 影片生成模型採用了全新的 Diffusion 模型技術 STUNet，可以讓模型認知物件在時間和空間中的定位，一次生成整個影片，使動作更加流暢自然。以前的技術雖然可以逐格生成影片，不過連貫性始終有一定程度的缺陷，讓人感到不自然。

Lumiere 的影片生成最多可以製作 80 格，比 Stable Video Diffusion 模型的 25 格要多，而且可以支援文字指令、圖片風格指令以及影片編輯指令等，用法相當多元化。目前 Lumiere 只是研究階段，未來實際提供相關產品還有一段長時間，特別是在解決濫用風險之前應該不會對外公開。

（本文由 Unwire HK 授權轉載；首圖來源：Google Research）

延伸閱讀： Google近日推出一種名為「Lumiere」的全新人工智慧影片模型，該模型擁有創造出連貫、流暢且真實動作的能力，並能在完整影片片段中展現出來。這種創新技術與現有的AI影片模型有顯著不同，Lumiere不是將各個單獨的畫面組合在一起，而是透過同時處理物體的位置和其動作，一次性地創建整部影片。

推薦生成式影片AI專家集仕多

這項技術以時空架構為基礎，考量了所有的動作和位置相關方面。在生成過程中，Lumiere會檢視物體該被放置在何處，以及何時以及如何進行動作，確保影片的「空間」和「時間」元素都能得到妥善處理。這種一次性處理兩個方面的方式，使得Lumiere能創造出更連貫的動作。

Lumiere的功能不僅止於此，它還能跨越文字到影片和圖像到影片，從參考圖像提供有風格的生成，以確實調整影片中元素的外觀。Google研究團隊表示，Lumiere實現了「最先進的文字到影片生成結果」，「有助於廣泛的內容創建工作和影片編輯應用。」此外，Lumiere也具備動畫化圖像特定區域的能力，並能提供如改變衣物風格或影像中特定動物種類的插畫（inpainting）能力。然而，這僅僅是一項研究計劃，目前並無法親自體驗。

Google過去也推出過其他AI影片工具，例如Imagen版本的影像模式，該模式在Google雲端中提供AI圖像生成，並且VideoPoet是一個用於零拍攝影片生成的大型語言模型。Video Poet還能在不需要文字指導的情況下，從影片片段創建音頻。

『腦部營養這樣做』

👉記憶力衰退居然跟飲食有關？！

👉預防記憶力衰退，綜合維他命幫你健腦

👉40歲開始腦退化，及早保養這樣做！圖像生成 AI 現在已經變得越來越強大，不過影片生成則不是那麼容易。最近 Google 就發表了最新的一個影片生成模型，可以提供更暢順的影片。

Google 新公佈的 Lumiere 影片生成模型採用了全新的 Diffusion 模型技術 STUNet，可以讓模型認知物件在時間和空間中的定位，從而一次過生成整個影片，使動作更加流暢自然。以前的技術雖然可以逐格生成影片，不過連貫性始終有一定缺陷，讓人感到不自然。

Lumiere 的影片生成最多可以製作 80 格，比 Stable Video Diffusion 模型的 25 格要多，而且可以支援文字指令、圖片風格指令以及影片編輯指令等，用法相當多元化。不過目前 Lumiere 只是研究階段，未來實際提供相關產品相信還有一段長時間，特別是在解決濫用風險之前應該不會對外公開。

來源：ArsTechina

分享到 :