「Gemini Omni、そういえば進化したって聞いてたのに、まだ使ってない……!」
少し今さら感はありますが、今回はGemini Omniで動画を作ってみた体験をまとめてみます。
AXメディアでは、これまで基本的に静止画をメインに使ってきました。ですが、PR動画やちょっとしたアニメーションもあったら面白いかもなぁと思い、試しにGemini Omniを使ってみることにしました。

この記事でわかること(結論)
- Gemini Omniを使うと、短いPR動画やアニメーションのたたき台を作れる。
- 映像の雰囲気は作りやすい一方で、日本語テキストやキャラクター再現は崩れやすい。
- AIに全部任せるより、映像生成と字幕・細かい調整を分けて使うことが大切。
Gemini Omniって何ができるの?
Gemini Omniは、Googleが発表したマルチモーダルAIモデルです。
ざっくり言うと、テキスト・画像・動画・音声などを組み合わせて、動画を作ったり編集したりできるAIです。
テキストだけで動画を作る従来の動画生成AIから一歩進んで、画像や動画を素材として使ったり、会話しながら映像を修正したりできるのが特徴です。
Gemini Omniでできること
- テキストから動画を生成する
- 画像や動画をもとに、新しい動画を作る
- 会話形式で動画を編集する
- BGMや音声を含めた動画表現を作る
- キャラクターや世界観をある程度保ちながら映像を展開する
特にすごいと思ったのは、難しい動画編集ソフトを使わなくても、「こういう雰囲気にしたい」「このキャラを登場させたい」と伝えるだけで、短い動画のたたき台が作れるところです。
もちろん、完璧に思い通りになるわけではありません。ただ、ゼロから動画を作ることを考えると、かなりハードルが下がるなと感じました。

まずはAXメディアのPR動画を作ってみた
今回は、AXメディアのPR動画っぽいものを作ってみることにしました。
自分の中である程度の構成は決まっていたので、まずは箇条書きでどんどん打ち込み、それを綺麗なプロンプトにChatGPTで整えてもらいました。
構成は以下のように入力しました。(例として置いておきます)
登場キャラクターは、BOSS、こおじ、さくらこをメインにして、最後に全員のカットがどーんと出るように指示しました。
1回目:構成はいい。でも文字が変…
まず、1回目にできた動画がこちらです。
構成はかなりいい感じでした。見栄えも綺麗で、「お、ちゃんとPR動画っぽい!」と思える仕上がりです。
ただ、大問題だったのが文章です。
日本語ではあるのですが、支離滅裂というか、こちらが指示した言葉が崩れたような文字になっていました。
やっぱり、動画生成AIに文字まで正確に出してもらうのは、まだ難しいんだなぁと苦笑しました。
こおじ?ミフオ?あなたたちは誰…?
※タップすると拡大表示になります。


ちょいちょいこおじさんとBOSSの顔が混ざってる…。そして何より知らないくまがいる!
ミフオ、どうしちゃったの…?というくらい別のくまが出てきて驚きました。
ただ、これは正直ある程度は納得です。
BOSSとこおじさんのように少し似ている人物や、ミフオのようにぱっと見は単純そうなキャラクターは、静止画でも完璧に再現するのが意外と難しいです。ましてやアニメーションになると、細かく指示していない部分は崩れやすいのだと思います。
以前ChatGPTにも、「Geminiで文字が崩れる場合は、映像だけ生成して、字幕はCapCutやCanvaで後入れすると安定します」と言われていたので、次は文字なしで作ってみることにしました。
2回目:文字なし+高級感で再チャレンジ
2回目は、文字を入れずに、より高級感のある雰囲気で動画を作ってもらいました。
最初の方はいい感じです。
1回目より少し単調な印象にはなりましたが、BOSSが登場するときに床が光る演出はかなり良かったです。
「これはこれで使えるかも?」と思ったのですが、その後の数秒が大問題でした。
消えたBOSSと、現れたミフオらしきくま
※タップすると拡大表示になります。


BOSSが消えて、こおじさんが2人になっている。
しかも、ただのこおじさん2人ではなく、BOSSの顔立ちは少し残しつつ、服装と髪型がこおじさんになったような、なんとも言えないちぐはぐさでした。
さらにミフオも、耳が大量についているような作画になっていて、さっきよりは似ているけれど、さっきよりちょっときもい…という状態に。
大失敗だ…と、頭を抱えつつ笑っちゃうような仕上がりでした(笑)
実際に使ってみて分かったこと
今回は急ぎの案件ではなく、お遊び感覚で試してみただけだったので、ここまでで一旦終了にしました。
実際に使ってみて感じたことは、まず少し待つだけでアニメーション動画ができるのは本当にすごいということです。
これまで動画を作るとなると、構成を考えて、素材を用意して、編集して、書き出して…とかなり大変でした。
でもGemini Omniを使うと、完璧ではないにしても、短時間で「それっぽい動画のたたき台」までは作れます。
これは、PR動画やSNS用の短いアニメーション、企画段階のイメージ共有にはかなり便利だと思いました。

一方で、まだ難しいと感じたところ
一方で、今回かなりはっきり分かった弱点は以下の通りです。
- 動画内の日本語テキストは崩れやすい
- キャラクターの細かい再現はまだ不安定
- 複数キャラを出すと、見た目が混ざることがある
- シンプルなキャラでも、アニメーション化すると崩れることがある
特に、AXメディアのように決まったキャラクターを使いたい場合は、まだ一発で完璧に仕上げるのは難しそうです。
文字も同じで、Gemini Omniに直接入れてもらうより、映像だけAIで作って、字幕やテロップはCapCutやCanvaで後入れする方が安定すると思いました。

まとめ:全部任せるより、たたき台として使うのが良さそう
今回Gemini Omniを使ってみて、改めて感じたのは、AIは「全部任せるもの」ではなく、「作業を進めるための相棒」として使うのが大事ということです。
今後さらに精度が上がれば、PR動画や記事用アニメーション、SNS投稿用の短尺動画など、いろいろな場面で使いやすくなっていきそうだなと思いました。
どのAIにも言えることですが、完璧に頼りきるのではなく、得意なところをうまく使っていくことが大切ですね。

