OpenAI 發布黑科技 AI 模型 Sora，簡單輸入文字就能產生奧斯卡等級影片

OpenAI 剛剛發佈了一個可以產生 1 分鐘影片的 AI 模型 Sora，只需要簡單輸入短短幾個字，很高興能夠見證這段歷史，要說 AI 影片有多驚人，不如直接看影片：

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

上面這段影片的咒語（Prompt）為：
“Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.”

快速翻譯成中文大概就是：「美麗、白雪皚皚的東京市熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道，跟隨幾個人享受美麗的雪天，並在附近的攤位購物。絢麗的櫻花花瓣與雪花一起在風中飛舞。

短短用了 3-4 個句子，就可以產生如此逼真的短片，你能想像嗎？若是將金庸小說、童話故事輸入 Sora，那麼你可以在幾秒鐘內完成一部電影。

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024

Prompt:
“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually. the street is damp and reflective, creating a mirror effect of the colorful lights. many pedestrians walk about.”

中譯：「一個時髦的女人走在東京的街道上，到處都是溫暖的發光霓虹燈和動畫的城市標誌。她身穿黑色皮夾克，紅色長裙，黑色靴子，背著一個黑色錢包。她戴著墨鏡，塗著紅色口紅。她自信而隨意地走路。街道潮濕而反光，營造出五顏六色的燈光的鏡面效果。許多行人走來走去。

上面又是另一個例子，如果不說的話，完全看不出這是由 AI 所產生的片段。

Sora 是一種 AI 模型，這種技術涉及將自然語言轉換為視覺表示形式，例如圖片或影片。

將文字變成影片最大的挑戰是，AI 模型除了需要理解上下文的關係之外，還必須了解到物體的運動原理、時間的前後邏輯、影片中的人與物的互動結果等，像是蘋果會往下掉、餅乾被吃完後會有缺口等。

Sora 還使用了一種稱為 style transfer 的技術，能夠根據使用者的喜好修改影片的外觀和風格。例如，如果使用者想要一個具有電影風格的影片、使用 35 毫米膠片上拍攝、色彩鮮豔等，Sora 可以將這些效果應用於影片，更改亮度、顏色和鏡頭角度。

此外，Sora 還能夠產生畫質高達 1920×1080 和高達 1080×1920 的影片，它還能從靜止的圖片來建立影片，或使用新材料腦補現有素材。例如，如果使用者提供森林的靜止圖像，Sora 可以在圖片上新增動畫並加入動物、鳥類或人等元素，如果使用者提供汽車在道路上行駛的影片，Sora 可以腦補影片，例如：加入交通、建築物或風景等元素。

未來的應用相當廣泛，例如透過文字就能產生電影預告片、短片、動畫、MV、紀錄片等。又或者能夠產生成教育影片，像是：解釋科學概念、歷史事件或文化現象。

然而 Sora 並不是完美的，首先 Sora 目前不是大家都能用的，只有一小部分研究人員和創意專業人士才能使用它以獲得回饋和進行測試。

另外 OpenAI 至截稿前也尚未宣佈何時發佈 Sora 開放大眾使用，或者定價及授權方式是什麼？

Sora 受 OpenAI 服務條款的約束，該條款禁止使用該模型創建涉及極端暴力、色情內容、仇恨圖片、名人肖像等。OpenAI 還監控 Sora 的使用方式，並保留在檢測到任何違規或濫用時撤銷使用許可權或修改輸出的權利。

最具備爭議的是，Sora 與 ChatGPT 模型一樣，訓練此 AI 模型的影片來源為何？OpenAI 能夠合法並免費的使用這些影片去訓練自家的 AI 模型嗎？甚至透過 AI 產生的影片版權在誰身上呢？

這些問題都有待監管單位去解決，AI 的發展速度已經遠遠超乎大家的想像，從文字開始，現階段已進階到影片，未來會走向哪裡呢？你是否已經開始懷念起沒有 AI、沒有智慧型手機、沒有電玩那個單純美好的年代？

資料來源：https://openai.com/sora