一句話生成60秒短片!生成式AI新星Sora厲害在哪?

本文經授權轉載自友站數位時代文/ 陳建鈞 

地球一瞬,世界各地正發生這些大小事。

註:本文為單一事件快訊報導,非深度文章

文章插圖

從和人無礙對談、寫程式到通過Google的工程師面試,OpenAI生成式AI已經展露過眾多能力,現在他們又掌握了一項新技能:拍影片。新亮相的AI模型「Sora」讓用戶能夠用短短一句話,生成長達1分鐘的擬真影片。

「為您介紹Sora,我們的文字轉視訊模型。Sora可以在保證畫面品質及遵守用戶提示詞的前提下,生成長達1分鐘的影片,」OpenAI在官網中表示。

Sora厲害在哪?真真假假讓你分不清

生成影片的AI其實並不新鮮,從GoogleMeta等科技巨頭,到成立不滿一年的新創Pika Labs等公司,都發表過生成影片的AI技術。

而Sora最大的特點在於極其逼真,外媒《Wired》聲稱,這是沒有在其他影片生成AI模型中看見過的真實感,並且生成的影片長於其他模型。

根據OpenAI在官網上的介紹,Sora能夠生成包含多名角色、特定動作類型以及大量細節的複雜場景,而且AI不僅了解用戶在提示詞所說的各種物體,還知道這些物體是如何存在於現實世界,進而營造出讓人驚豔的逼真感受。

還能精準理解你要什麼

另外,Sora也對語言有著深入理解,可以準確的呈現提示詞所說內容,生成吸引目光的飽滿角色,且可以在一段影片中建立多種不同的鏡頭,並精準保留角色及視覺的風格。

OpenAI也在官網上揭露了大量演示影片,例如一名女子走在東京街頭的短片,其提示詞為:

「一名穿著時尚的女子走在充滿溫暖霓虹燈及招牌的東京街頭。她身著黑色皮夾克、紅色長裙及黑色靴子,拎著一個黑色包包,戴著太陽眼鏡,擦著紅色口紅,走起路來自信又隨性。潮濕的街道反射出七彩燈光,行人熙來攘往。」

(A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.)

這段1分鐘的短片裡,雖然從招牌文字、道路布局到路人過於平滑的移動等等存在不少破綻,但乍看之下仍然極為逼真,若是焦點放在時尚女子身上的話,或許一時半會沒辦法注意到這是全然由AI生成的影片。

且不光是具有現實感的現代影片,在提示詞:「淘金熱時的加州歷史鏡頭。」(Historical footage of California during the gold rush)裡,Sora就為影片打上了充滿年代感的濾鏡,不過包含建築布局等仍有一些仔細看便能發現的不合理之處。

Sora還是有弱點的

OpenAI指出,目前的模型存在弱點,難以精準模擬複雜場景裡的物理原理,並且不太能理解因果關係,假如要求Sora生成一個人吃餅乾的影片,可能畫面中咬了一口餅乾後,餅乾仍然完好無缺。同時Sora還有些左右不分、難以精確呈現隨時間變化的事件等問題。

至於生成這樣一部充滿真實感的影片需要花上多長時間?OpenAI沒有公佈具體用時,僅向媒體透露所費時間大約是「出門吃一餐墨西哥捲餅」,

Sora還有些功能沒有對外展示,例如從一幅圖像生成短片,或者替既有影片填補上缺少的幀數,甚至延伸內容。OpenAI研究人員比爾.皮布斯(Bill Peebles)表示,「這是一種提高講故事能力非常酷的方式。你可以畫出想法,然後使其成為現實。」

目前Sora還無法撼動電影產業,因為每次生成的內容多少有所差異,不可能將120部1分鐘影片串成電影。但對於TikTok短影音平台來說,將是顛覆性的新工具,即使是普通民眾也能利用AI技術生成高品質的短片。

被拿來生成假消息怎麼辦?OpenAI正與各界合作防範安全問題

不過如此逼真的影像生成能力,若被有心人士用來生成假消息,該怎麼辦?這也是為何OpenAI還沒有公開發布Sora的原因之一,目前該模型僅提供攻擊模擬團隊(red team)和少數藝術家、設計師及電影製作人使用。

OpenAI強調,目前他們正在開發能夠檢測假消息的工具,並計畫嵌入C2PA的後設資料(metadata),例如先前在Dall-E 3中,生成的圖像檔案資料上就會顯示該圖片是使用Dall E打造。除此之外,OpenAI聲稱也將一併包含Dall-E 3既有的使用規範,拒絕生成名人,以及暴力、性或仇恨內容。

OpenAI聲稱,他們正在與各國政府、教育人士及藝術家合作,以了解各界的擔憂及如何正向使用。

「就如我們無法預測所有正向的使用方式,我們也無法預先知道所有惡意使用方式。」

他們在官網上表示,「這也是為什麼我們認為從在現實世界的使用中學習,打造及發布更安全AI系統的關鍵。」

數位時代 logo

數位時代

長期聚焦於全球、台灣與中國等地最新的科技、網路、創業、數位行銷等議題的動態及趨勢。受到企業領袖與新世代菁英的喜愛,更引領台灣社會對「新商業」的關注與討論。