跳至內容

文字到影片生成模型

本頁使用了標題或全文手工轉換
維基百科,自由的百科全書
使用OpenAI的Sora文字到影片模型生成的影片,提示詞為:一位时尚女性走在充满温暖霓虹灯和动画城市标志的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,手持黑色手提包。她戴着太阳镜和红色口红,自信而随意地行走。街道潮湿且反光,形成了彩色灯光的镜面效果。许多行人穿梭其中。

文字到影片模型(英語:Text-to-Video Model)是一種機器學習模型,它使用自然語言描述作為輸入,生成與輸入文字相關的影片[1] 2020年代,高品質文字到影片生成的進展主要得益於影片擴散模型的發展。[2]

模型

[編輯]

目前存在多種文字到影片模型,包括開源模型。中文輸入的模型[3] CogVideo是最早開發的文字到影片模型之一,擁有94億參數,其開原始碼演示版本於2022年在GitHub上發布。[4] 同年,Meta Platforms發布了部分文字到影片模型「Make-A-Video」,[5][6][7]GoogleBrain(後為Google DeepMind)推出了Imagen Video,這是一個基於3D U-Net的文字到影片模型。[8][9][10][11][12]

2023年3月,一篇題為「VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation」的研究論文發表,提出了一種新的影片生成方法。[13] VideoFusion模型將擴散過程分解為兩個部分:基礎噪聲和殘差噪聲,這些部分在訊框之間共享以確保時間一致性。透過使用預訓練的圖像擴散模型作為基礎生成器,該模型能夠高效生成高品質且連貫的影片。透過在影片資料上微調預訓練模型,解決了圖像和影片資料之間的領域差距,增強了模型生成逼真且一致影片序列的能力。[14] 同月,Adobe在其功能中引入了Firefly AI。[15]

2024年1月,Google宣布開發了一款名為Lumiere的文字到影片模型,預計將整合先進的影片編輯功能。[16] Matthias NiessnerLourdes Agapito在AI公司Synthesia致力於開發3D神經彩現技術,透過使用2D和3D神經表示形狀、外觀和運動,實現可控的影片合成。[17] 2024年6月,Luma Labs推出了其Dream Machine影片工具。[18][19] 同月,[20] 快手將其Kling AI文字到影片模型擴充到國際使用者。2024年7月,TikTok母公司字節跳動透過其子公司Faceu Technology在中國發布了Jimeng AI。[21] 到2024年9月,中國AI公司MiniMax推出了其video-01模型,加入了智譜AI百川智慧型月之暗面等AI模型公司的行列,推動中國在AI技術領域的參與。[22]

文字到影片模型的替代方法包括[23] Google的Phenaki、Hour One、Colossyan[3] Runway的Gen-3 Alpha,[24][25] 以及OpenAI的Sora[26] [27] 此外,還出現了Plug-and-Play、Text2LIVE和TuneAVideo等文字到影片模型。[28] Google還計劃在2025年為YouTube Shorts推出名為Veo的影片生成工具。[29] FLUX.1的開發者Black Forest Labs宣布了其文字到影片模型SOTA。[30]

架構與訓練

[編輯]

文字到影片模型的開發採用多種架構。與文生圖模型類似,這些模型可使用迴圈神經網路(如長短期記憶網路)進行訓練,此類別方法應用於像素轉換模型和隨機影片生成模型,分別提升連貫性與真實感。[31] 其他替代架構包括Transformer模型生成對抗網路變分自編碼器(用於人體運動預測)[32] 以及擴散模型也被用於圖像生成部分的開發。[33]

用於模型訓練的文字-影片資料集包括WebVid-10M、HDVILA-100M、CCV、ActivityNet和Panda-70M等。[34][35] 這些資料集包含數百萬原始影片、生成影片、帶字幕影片及輔助訓練的文字資訊。此外PromptSource、DiffusionDB和VidProM等資料集提供多樣化文字輸入,指導模型解析不同提示。[34][35]

影片生成過程需要同步文字輸入與影片訊框序列,保證時序對齊與內容一致性。[35] 由於計算資源限制,影片長度增加時生成品質可能下降。[35]

局限性

[編輯]

儘管文字到影片模型效能快速提升,但其主要局限在於計算強度過高,導致難以生成高品質長影片。[36][37] 此外,模型需大量特定訓練資料才能生成高品質內容,造成資料取得難題。[37][36]

模型可能誤解文字提示,導致影片內容偏離預期。這源於語意上下文捕捉不足,影響影片與文字的語意對齊能力。[37][35] 當前正在最佳化的模型包括Make-A-Video、Imagen Video、Phenaki、CogVideo、GODIVA和NUWA等,旨在提升文字-影片對齊效能。[37]

倫理問題

[編輯]

文字到影片模型引發與內容生成相關的倫理和法律問題,可能產生不適當或未經授權的內容,包括侵權資訊、虛假資訊及未經許可使用真實人物肖像。[38] 確保AI生成內容符合安全倫理標準至關重要,因其生成內容可能難以辨識有害性。AI對NSFW內容或著作權材料的辨識過濾仍存挑戰,影響創作者與受眾雙方。[38]

影響與應用

[編輯]

文字到影片模型在教育宣傳、創意產業等領域具有廣泛應用前景,可簡化培訓影片、電影預告、遊戲資產及視覺化內容的生成流程。[39] 這些功能為使用者帶來經濟效益與個性化體驗。 2024年完成的首部全AI生成長片《時間真相》,部分旁白由約翰·德·蘭西(《星際迷航:下一代》中"Q"的扮演者)擔任。該片採用Runway Gen-3 Alpha和Kling 1.6等先進工具製作,相關著作《電影人工智慧》探討了文字到影片技術的局限性與實施挑戰,以及圖像到影片技術在關鍵鏡頭中的應用。

現有模型對比

[編輯]
模型/產品 公司 發布年份 狀態 核心功能 能力特點 定價 影片時長 支援語言
Synthesia Synthesia 2019 已發布 AI數字人、支援60+語言、客製化化選項[40] 專注企業培訓與行銷數字人生成[40] 訂閱制,起價約30美元/月 依訂閱方案變化 60+
InVideo AI InVideo 2021 已發布 AI影片創作、大型素材庫、AI講解員[40] 社群媒體模板適配[40] 免費版可用,付費版起價16美元/月 依內容類型變化 多語言(未具體說明)
Fliki Fliki AI 2022 已發布 支援AI數字人與語音、覆蓋70種語言[40] 提供65+數字人與2000+語音庫[40] 免費版可用,付費版起價30美元/月 依訂閱方案變化 70+
Runway Gen-2 Runway AI 2023 已發布 支援文字/圖像/影片多模態輸入[41] 高畫質生成,含風格化與分鏡模式[41] 免費試用,付費方案未詳述 最長16秒 多語言(未具體說明)
Pika Labs Pika Labs 2024 測試版 動態影片生成、攝錄影機運動控制[42] 自然動態生成,使用者友好介面[42] 測試期免費 支援訊框延續生成較長影片 多語言(未具體說明)
Runway Gen-3 Alpha Runway AI 2024 測試版 超高畫質、相片級人物生成、精細時序控制[43] 影視級客製化化生成[43] 免費試用,企業客製化定價 單片段最長10秒,可延伸 多語言(未具體說明)
OpenAI Sora OpenAI 2024 測試版 深度語意理解、電影級視覺效果、多鏡頭生成[44] 支援細節豐富、動態感強的情緒化影片生成,處於安全測試階段[44] 定價未公布 預計支援長影片(時長待定) 多語言(未具體說明)

相關條目

[編輯]

參考資料

[編輯]
  1. ^ Artificial Intelligence Index Report 2023 (PDF) (報告). Stanford Institute for Human-Centered Artificial Intelligence: 98. [2025-03-13]. (原始內容存檔 (PDF)於2025-02-26). Multiple high quality text-to-video models, AI systems that can generate video clips from prompted text, were released in 2022. 
  2. ^ Melnik, Andrew; Ljubljanac, Michal; Lu, Cong; Yan, Qi; Ren, Weiming; Ritter, Helge. Video Diffusion Models: A Survey. 2024-05-06. arXiv:2405.03150可免費查閱 [cs.CV]. 
  3. ^ 3.0 3.1 Wodecki, Ben. Text-to-Video Generative AI Models: The Definitive List. AI Business. Informa. 2023-08-11 [2024-11-18]. (原始內容存檔於2025-03-05). 
  4. ^ CogVideo, THUDM, 2022-10-12 [2022-10-12] 
  5. ^ Davies, Teli. Make-A-Video: Meta AI's New Model For Text-To-Video Generation. Weights & Biases. 2022-09-29 [2022-10-12]. (原始內容存檔於2025-03-05) (英語). 
  6. ^ Monge, Jim Clyde. This AI Can Create Video From Text Prompt. Medium. 2022-08-03 [2022-10-12]. (原始內容存檔於2023-08-22) (英語). 
  7. ^ Meta's Make-A-Video AI creates videos from text. www.fonearena.com. [2022-10-12]. (原始內容存檔於2024-12-27). 
  8. ^ google: Google takes on Meta, introduces own video-generating AI. The Economic Times. 2022-10-06 [2022-10-12]. (原始內容存檔於2023-06-05). 
  9. ^ Monge, Jim Clyde. This AI Can Create Video From Text Prompt. Medium. 2022-08-03 [2022-10-12]. (原始內容存檔於2023-08-22) (英語). 
  10. ^ Nuh-uh, Meta, we can do text-to-video AI, too, says Google. The Register. [2022-10-12]. 
  11. ^ Papers with Code - See, Plan, Predict: Language-guided Cognitive Planning with Video Prediction. paperswithcode.com. [2022-10-12] (英語). 
  12. ^ Papers with Code - Text-driven Video Prediction. paperswithcode.com. [2022-10-12]. (原始內容存檔於2025-02-19) (英語). 
  13. ^ Luo, Zhengxiong; Chen, Dayou; Zhang, Yingya; Huang, Yan; Wang, Liang; Shen, Yujun; Zhao, Deli; Zhou, Jingren; Tan, Tieniu. VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation. 2023. arXiv:2303.08320可免費查閱 [cs.CV]. 
  14. ^ Luo, Zhengxiong; Chen, Dayou; Zhang, Yingya; Huang, Yan; Wang, Liang; Shen, Yujun; Zhao, Deli; Zhou, Jingren; Tan, Tieniu. VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation. 2023. arXiv:2303.08320可免費查閱 [cs.CV]. 
  15. ^ Adobe launches Firefly Video model and enhances image, vector and design models. Adobe Newsroom. Adobe Inc. 2024-10-10 [2024-11-18]. (原始內容存檔於2025-01-08). 
  16. ^ Yirka, Bob. Google announces the development of Lumiere, an AI-based next-generation text-to-video generator.. Tech Xplore. 2024-01-26 [2024-11-18]. 
  17. ^ Text to Speech for Videos. Synthesia.io. [2023-10-17]. (原始內容存檔於2024-03-04). 
  18. ^ Nuñez, Michael. Luma AI debuts 'Dream Machine' for realistic video generation, heating up AI media race. VentureBeat. 2024-06-12 [2024-11-18]. (原始內容存檔於2025-03-05) (美國英語). 
  19. ^ Fink, Charlie. Apple Debuts Intelligence, Mistral Raises $600 Million, New AI Text-To-Video. Forbes. [2024-11-18]. (原始內容存檔於2024-12-12) (英語). 
  20. ^ Franzen, Carl. What you need to know about Kling, the AI video generator rival to Sora that's wowing creators. VentureBeat. 2024-06-12 [2024-11-18]. (原始內容存檔於2024-06-27) (美國英語). 
  21. ^ ByteDance joins OpenAI's Sora rivals with AI video app launch. Reuters. 2024-08-06 [2024-11-18]. 
  22. ^ Chinese ai "tiger" minimax launches text-to-video-generating model to rival OpenAI's sora. Yahoo! Finance. 2024-09-02 [2024-11-18]. 
  23. ^ Text2Video-Zero, Picsart AI Research (PAIR), 2023-08-12 [2023-08-12] 
  24. ^ Kemper, Jonathan. Runway's Sora competitor Gen-3 Alpha now available. THE DECODER. 2024-07-01 [2024-11-18]. (原始內容存檔於2024-12-26) (美國英語). 
  25. ^ Generative AI's Next Frontier Is Video. Bloomberg.com. 2023-03-20 [2024-11-18]. (原始內容存檔於2023-03-21) (英語). 
  26. ^ OpenAI teases 'Sora,' its new text-to-video AI model. NBC News. 2024-02-15 [2024-11-18]. (原始內容存檔於2024-02-15) (英語). 
  27. ^ Kelly, Chris. Toys R Us creates first brand film to use OpenAI's text-to-video tool. Marketing Dive. Informa. 2024-06-25 [2024-11-18]. (原始內容存檔於2025-01-08) (美國英語). 
  28. ^ Jin, Jiayao; Wu, Jianhang; Xu, Zhoucheng; Zhang, Hang; Wang, Yaxin; Yang, Jielong. Text to Video: Enhancing Video Generation Using Diffusion Models and Reconstruction Network. 2023 2nd International Conference on Computing, Communication, Perception and Quantum Technology (CCPQT). IEEE. 2023-08-04: 108–114 [2025-03-13]. ISBN 979-8-3503-4269-7. doi:10.1109/CCPQT60491.2023.00024. (原始內容存檔於2024-12-15). 
  29. ^ Forlini, Emily Dreibelbis. Google's veo text-to-video AI generator is coming to YouTube shorts. PC Magazine. 2024-09-18 [2024-11-18]. (原始內容存檔於2025-03-06). 
  30. ^ Announcing Black Forest Labs. Black Forest Labs. 2024-08-01 [2024-11-18]. (原始內容存檔於2024-11-17) (美國英語). 
  31. ^ Bhagwatkar, Rishika; Bachu, Saketh; Fitter, Khurshed; Kulkarni, Akshay; Chiddarwar, Shital. A Review of Video Generation Approaches. 2020 International Conference on Power, Instrumentation, Control and Computing (PICC). IEEE. 2020-12-17: 1–5 [2025-03-13]. ISBN 978-1-7281-7590-4. doi:10.1109/PICC51425.2020.9362485. (原始內容存檔於2024-12-12). 
  32. ^ Kim, Taehoon; Kang, ChanHee; Park, JaeHyuk; Jeong, Daun; Yang, ChangHee; Kang, Suk-Ju; Kong, Kyeongbo. Human Motion Aware Text-to-Video Generation with Explicit Camera Control. 2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). IEEE. 2024-01-03: 5069–5078. ISBN 979-8-3503-1892-0. doi:10.1109/WACV57701.2024.00500. 
  33. ^ Singh, Aditi. A Survey of AI Text-to-Image and AI Text-to-Video Generators. 2023 4th International Conference on Artificial Intelligence, Robotics and Control (AIRC). IEEE. 2023-05-09: 32–36 [2025-03-13]. ISBN 979-8-3503-4824-8. arXiv:2311.06329可免費查閱. doi:10.1109/AIRC57904.2023.10303174. (原始內容存檔於2024-12-15). 
  34. ^ 34.0 34.1 Miao, Yibo; Zhu, Yifan; Dong, Yinpeng; Yu, Lijia; Zhu, Jun; Gao, Xiao-Shan. T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models. 2024-09-08. arXiv:2407.05965可免費查閱 [cs.CV]. 
  35. ^ 35.0 35.1 35.2 35.3 35.4 Zhang, Ji; Mei, Kuizhi; Wang, Xiao; Zheng, Yu; Fan, Jianping. From Text to Video: Exploiting Mid-Level Semantics for Large-Scale Video Classification. 2018 24th International Conference on Pattern Recognition (ICPR). IEEE. August 2018: 1695–1700 [2025-03-13]. ISBN 978-1-5386-3788-3. doi:10.1109/ICPR.2018.8545513. (原始內容存檔於2024-12-13). 
  36. ^ 36.0 36.1 Bhagwatkar, Rishika; Bachu, Saketh; Fitter, Khurshed; Kulkarni, Akshay; Chiddarwar, Shital. A Review of Video Generation Approaches. 2020 International Conference on Power, Instrumentation, Control and Computing (PICC). IEEE. 2020-12-17: 1–5 [2025-03-13]. ISBN 978-1-7281-7590-4. doi:10.1109/PICC51425.2020.9362485. (原始內容存檔於2024-12-12). 
  37. ^ 37.0 37.1 37.2 37.3 Singh, Aditi. A Survey of AI Text-to-Image and AI Text-to-Video Generators. 2023 4th International Conference on Artificial Intelligence, Robotics and Control (AIRC). IEEE. 2023-05-09: 32–36 [2025-03-13]. ISBN 979-8-3503-4824-8. arXiv:2311.06329可免費查閱. doi:10.1109/AIRC57904.2023.10303174. (原始內容存檔於2024-12-15). 
  38. ^ 38.0 38.1 Miao, Yibo; Zhu, Yifan; Dong, Yinpeng; Yu, Lijia; Zhu, Jun; Gao, Xiao-Shan. T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models. 2024-09-08. arXiv:2407.05965可免費查閱 [cs.CV]. 
  39. ^ Singh, Aditi. A Survey of AI Text-to-Image and AI Text-to-Video Generators. 2023 4th International Conference on Artificial Intelligence, Robotics and Control (AIRC). IEEE. 2023-05-09: 32–36 [2025-03-13]. ISBN 979-8-3503-4824-8. arXiv:2311.06329可免費查閱. doi:10.1109/AIRC57904.2023.10303174. (原始內容存檔於2024-12-15). 
  40. ^ 40.0 40.1 40.2 40.3 40.4 40.5 Top AI Video Generation Models of 2024. Deepgram. [2024-08-30]. (原始內容存檔於2024-11-03) (英語). 
  41. ^ 41.0 41.1 Runway Research | Gen-2: Generate novel videos with text, images or video clips. runwayml.com. [2024-08-30]. (原始內容存檔於2025-02-27) (英語). 
  42. ^ 42.0 42.1 Sharma, Shubham. Pika Labs' text-to-video AI platform opens to all: Here's how to use it. VentureBeat. 2023-12-26 [2024-08-30]. (原始內容存檔於2024-12-13) (美國英語). 
  43. ^ 43.0 43.1 Runway Research | Introducing Gen-3 Alpha: A New Frontier for Video Generation. runwayml.com. [2024-08-30]. (原始內容存檔於2025-03-13) (英語). 
  44. ^ 44.0 44.1 Sora | OpenAI. openai.com. [2024-08-30]. (原始內容存檔於2025-03-05).