一句話生成60秒短片！生成式AI新星Sora厲害在哪？

地球一瞬

李芸 2024-02-23 2024-02-26

本文經授權轉載自友站數位時代文/ 陳建鈞

地球一瞬，世界各地正發生這些大小事。
註：本文為單一事件快訊報導，非深度文章

從和人無礙對談、寫程式到通過Google的工程師面試，OpenAI的生成式AI已經展露過眾多能力，現在他們又掌握了一項新技能：拍影片。新亮相的AI模型「Sora」讓用戶能夠用短短一句話，生成長達1分鐘的擬真影片。

「為您介紹Sora，我們的文字轉視訊模型。Sora可以在保證畫面品質及遵守用戶提示詞的前提下，生成長達1分鐘的影片，」OpenAI在官網中表示。

Sora厲害在哪？真真假假讓你分不清

生成影片的AI其實並不新鮮，從Google、Meta等科技巨頭，到成立不滿一年的新創Pika Labs等公司，都發表過生成影片的AI技術。

而Sora最大的特點在於極其逼真，外媒《Wired》聲稱，這是沒有在其他影片生成AI模型中看見過的真實感，並且生成的影片長於其他模型。

根據OpenAI在官網上的介紹，Sora能夠生成包含多名角色、特定動作類型以及大量細節的複雜場景，而且AI不僅了解用戶在提示詞所說的各種物體，還知道這些物體是如何存在於現實世界，進而營造出讓人驚豔的逼真感受。

還能精準理解你要什麼

另外，Sora也對語言有著深入理解，可以準確的呈現提示詞所說內容，生成吸引目光的飽滿角色，且可以在一段影片中建立多種不同的鏡頭，並精準保留角色及視覺的風格。

OpenAI也在官網上揭露了大量演示影片，例如一名女子走在東京街頭的短片，其提示詞為：

「一名穿著時尚的女子走在充滿溫暖霓虹燈及招牌的東京街頭。她身著黑色皮夾克、紅色長裙及黑色靴子，拎著一個黑色包包，戴著太陽眼鏡，擦著紅色口紅，走起路來自信又隨性。潮濕的街道反射出七彩燈光，行人熙來攘往。」

（A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.）

The models video of California during the gold rush 🤯 pic.twitter.com/KDTaxY1hOk

這段1分鐘的短片裡，雖然從招牌文字、道路布局到路人過於平滑的移動等等存在不少破綻，但乍看之下仍然極為逼真，若是焦點放在時尚女子身上的話，或許一時半會沒辦法注意到這是全然由AI生成的影片。

且不光是具有現實感的現代影片，在提示詞：「淘金熱時的加州歷史鏡頭。」（Historical footage of California during the gold rush）裡，Sora就為影片打上了充滿年代感的濾鏡，不過包含建築布局等仍有一些仔細看便能發現的不合理之處。

Sora還是有弱點的

OpenAI指出，目前的模型存在弱點，難以精準模擬複雜場景裡的物理原理，並且不太能理解因果關係，假如要求Sora生成一個人吃餅乾的影片，可能畫面中咬了一口餅乾後，餅乾仍然完好無缺。同時Sora還有些左右不分、難以精確呈現隨時間變化的事件等問題。

至於生成這樣一部充滿真實感的影片需要花上多長時間？OpenAI沒有公佈具體用時，僅向媒體透露所費時間大約是「出門吃一餐墨西哥捲餅」，

Sora還有些功能沒有對外展示，例如從一幅圖像生成短片，或者替既有影片填補上缺少的幀數，甚至延伸內容。OpenAI研究人員比爾．皮布斯（Bill Peebles）表示，「這是一種提高講故事能力非常酷的方式。你可以畫出想法，然後使其成為現實。」

目前Sora還無法撼動電影產業，因為每次生成的內容多少有所差異，不可能將120部1分鐘影片串成電影。但對於TikTok等短影音平台來說，將是顛覆性的新工具，即使是普通民眾也能利用AI技術生成高品質的短片。

Introducing Sora, our text-to-video model.Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3WPrompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf

被拿來生成假消息怎麼辦？OpenAI正與各界合作防範安全問題

不過如此逼真的影像生成能力，若被有心人士用來生成假消息，該怎麼辦？這也是為何OpenAI還沒有公開發布Sora的原因之一，目前該模型僅提供攻擊模擬團隊（red team）和少數藝術家、設計師及電影製作人使用。

OpenAI強調，目前他們正在開發能夠檢測假消息的工具，並計畫嵌入C2PA的後設資料（metadata），例如先前在Dall-E 3中，生成的圖像檔案資料上就會顯示該圖片是使用Dall E打造。除此之外，OpenAI聲稱也將一併包含Dall-E 3既有的使用規範，拒絕生成名人，以及暴力、性或仇恨內容。

OpenAI聲稱，他們正在與各國政府、教育人士及藝術家合作，以了解各界的擔憂及如何正向使用。

「就如我們無法預測所有正向的使用方式，我們也無法預先知道所有惡意使用方式。」

他們在官網上表示，「這也是為什麼我們認為從在現實世界的使用中學習，打造及發布更安全AI系統的關鍵。」

ai openai sora 人工智慧生成式ai 假消息影片北美洲

數位時代

長期聚焦於全球、台灣與中國等地最新的科技、網路、創業、數位行銷等議題的動態及趨勢。受到企業領袖與新世代菁英的喜愛，更引領台灣社會對「新商業」的關注與討論。

延伸閱讀

收起全部