ショート動画を爆速で作成できる無料でオープンソースのAIモデル「Ovi」誕生、「テキスト」「テキスト+画像」で動画と音声を同時に生成可能

テキスト単体、あるいはテキスト+画像で5秒の動画を作成できるAIモデル「Ovi」が誕生しました。オープンソースで公開されており、自分で環境を構築すれば無料で使用することができます。
GitHub - character-ai/Ovi
https://github.com/character-ai/Ovi

Oviで生成された動画は、以下のリンク先から確認できます。
Ovi/example_prompts at main · character-ai/Ovi · GitHub
https://github.com/character-ai/Ovi?tab=readme-ov-file
生成される動画は5秒間で、フレームレートは24fps。基本解像度は最大720×720ですが、より高い解像度の動画を生成できるアップスケーリング機能も搭載されています。
オープンソースで公開されており、自分で環境を構築することで無料で使用できるのが特徴。GPUの最小メモリ要件は32GBで、FP8に量子化したモデルなら24GBのメモリで動作します。121フレーム、720x720のビデオ生成を50段階のノイズ除去で実行した場合にかかる時間(End-to-End Time)は、早くて40秒未満です。

wavespeed.aiやHuggingFaceでも試すことができますが、各サイトの有料クレジットが必要です。
実際に試した人は「1週間ほど使っているが本当に素晴らしい。他のAI生成ツールと同様に、スロットマシンのようなもので、良い入力をしても悪い出力が出ることもあるが、十分に時間をかければ良い、あるいは使えるものが得られる。テキストから動画、テキストと画像から動画の両方で見た目も音もリアルなものをたくさん作った。テキストのみだと90年代のテレビのような画質になることもあるが、だからこそリアルに感じられる。RTX 5090を使うと5秒の動画を生成するのに約4分~5分かかる」と話しています。
Oviは、キャラクターAIと会話できるサービスなどを提供する「character-ai」が開発したモデルです。自社開発の音声データセットを用いて5B(50億)パラメーター規模の音声ブランチをゼロから設計・事前学習し、音声生成を実現しています。
今後、より高い解像度のデータを使用して微調整し、さらに長い動画を生成できるよう取り組むとのことです。
・関連記事
ディズニーがAI会話サービス「Character.AI」に対して自社キャラの使用停止を要求、人気キャラが性的搾取に使われていると主張 - GIGAZINE
Googleが動画生成AI「Veo 3.1」をリリース、1分以上の動画生成に対応&音声品質の向上など - GIGAZINE
xAIが動画生成AI「Imagine v0.9」を発表、規制の緩さで話題の「Grokの動画生成機能」がアップデートされる - GIGAZINE
OpenAIが動画生成AI「Sora 2」を発表、同時リリースのiOS向けソーシャルアプリ「Sora」ではSora 2で自分や友人の顔から動画を生成可能 - GIGAZINE
・関連コンテンツ
You can read the machine translated English article A free and open source AI model 'Ovi' th….







