Gemini Omniで動画生成して分かった失敗例と使いどころ

Gemini Omniで動画生成を試した体験談記事のアイキャッチ画像。失敗例と使いどころを初心者向けに解説している。

「Gemini Omni、そういえば進化したって聞いてたのに、まだ使ってない……!」

少し今さら感はありますが、今回はGemini Omniで動画を作ってみた体験をまとめてみます。

AXメディアでは、これまで基本的に静止画をメインに使ってきました。ですが、PR動画やちょっとしたアニメーションもあったら面白いかもなぁと思い、試しにGemini Omniを使ってみることにしました。

さくらこがパソコンを前に、AXメディアのPR動画やアニメーション制作について考えているイラスト。

この記事でわかること(結論)

  • Gemini Omniを使うと、短いPR動画やアニメーションのたたき台を作れる。
  • 映像の雰囲気は作りやすい一方で、日本語テキストやキャラクター再現は崩れやすい。
  • AIに全部任せるより、映像生成と字幕・細かい調整を分けて使うことが大切。

Gemini Omniって何ができるの?

Gemini Omniは、Googleが発表したマルチモーダルAIモデルです。

ざっくり言うと、テキスト・画像・動画・音声などを組み合わせて、動画を作ったり編集したりできるAIです。

テキストだけで動画を作る従来の動画生成AIから一歩進んで、画像や動画を素材として使ったり、会話しながら映像を修正したりできるのが特徴です。

Gemini Omniでできること

  • テキストから動画を生成する
  • 画像や動画をもとに、新しい動画を作る
  • 会話形式で動画を編集する
  • BGMや音声を含めた動画表現を作る
  • キャラクターや世界観をある程度保ちながら映像を展開する

特にすごいと思ったのは、難しい動画編集ソフトを使わなくても、「こういう雰囲気にしたい」「このキャラを登場させたい」と伝えるだけで、短い動画のたたき台が作れるところです。

もちろん、完璧に思い通りになるわけではありません。ただ、ゼロから動画を作ることを考えると、かなりハードルが下がるなと感じました。

Gemini Omniでできることとして、文字から動画生成、画像や動画から生成、会話で編集、BGMや音声表現、キャラクターや世界観の維持を説明する図解。

まずはAXメディアのPR動画を作ってみた

今回は、AXメディアのPR動画っぽいものを作ってみることにしました。

自分の中である程度の構成は決まっていたので、まずは箇条書きでどんどん打ち込み、それを綺麗なプロンプトにChatGPTで整えてもらいました。

構成は以下のように入力しました。(例として置いておきます)

以下の内容を、必ず下記の形式で出力してください。形式以外の補足・感想・前置きは不要です。
添付した4枚の画像をもとに、G's AX事業部「AXメディア」のPR用アニメーション動画を作成してください。
長さは約15秒、16:9、スタイリッシュで近未来感のあるビジネスアニメ風にしてください。
全体の雰囲気は、透明感のあるモダンなオフィス空間、青系のホログラム演出、AIやデータの可視化表現を入れ、かっこよく洗練された印象にしてください。
【画像の役割】
- 1枚目:全員集合イラスト(最後に大きく印象的に見せる)
- 2枚目:BOSS
- 3枚目:こおじ
- 4枚目:さくらこ
【動画構成】
■ 0.0〜3.5秒
さくらこが前へ歩いてくる。
カメラは足元からゆっくり上に移動し、顔は下あごあたりまで見える程度で止める。
ベージュのパンツも自然に見えるようにする。
背景は近未来的なオフィス。
やわらかい緊張感と期待感のある演出。
画面テキストまたはナレーション:
「AIで『働く』が変わる時代に、私たちは何を考えるか。」
■ 3.5〜7.0秒
こおじが歩いているカット。
横顔を中心に、顔に少し影が入るかっこいい演出。
落ち着いた表情で、知的で冷静な印象。
下はジーパンで、カジュアルさも少し感じられるようにする。
背景にデータ線や業務フローを思わせるホログラム演出。
画面テキストまたはナレーション:
「AIは敵ではなく、味方です。」
■ 7.0〜10.5秒
BOSSが歩いてくるカット。
最初は足元のみを映し、力強く進んでくる印象を出す。
ローアングル気味で、存在感とリーダー性を強調する。
テンポよく、重厚感のある演出。
画面テキストまたはナレーション:
「DXの次のステージ、それがAXです。」
■ 10.5〜12.5秒
3人の印象的なカットを短くつなぎ、
AIと人が協力しながら働き方を前向きに変えていくイメージを表現する。
追加ナレーション:
「業務を見える化し、人とAIのより良い関係を考える。」
■ 12.5〜15.0秒
最後に1枚目の全員集合イラストを、迫力ある演出でどーんと表示する。
カメラが少し寄る、または光の演出とともに登場させる。
「G's AX事業部」「AXメディア」が印象に残るように見せる。
締めは前向きで力強く、ブランドPRとしてかっこよく仕上げる。
画面テキストまたはナレーション:
「AXメディアは、その問いを一緒に考える場所にしていきたい。」
最後に短くロゴ的に:
「AXメディア」
【演出ルール】
- 人物の顔立ち・髪型・服装・雰囲気は添付画像をできるだけ維持する
- アニメ調で、ビジネス向けの上質さを出す
- 青白い光、AI、データ、可視化、未来感のあるUI表現を入れる
- 文字は大きく見やすく、日本語を崩しすぎない
- 全体として「AI時代の働き方を前向きに考えるメディア」の印象を伝える
- 最後の全員ショットは特に印象的で、かっこよく仕上げる

登場キャラクターは、BOSS、こおじ、さくらこをメインにして、最後に全員のカットがどーんと出るように指示しました。

1回目:構成はいい。でも文字が変…

まず、1回目にできた動画がこちらです。

構成はかなりいい感じでした。見栄えも綺麗で、「お、ちゃんとPR動画っぽい!」と思える仕上がりです。

ただ、大問題だったのが文章です。

日本語ではあるのですが、支離滅裂というか、こちらが指示した言葉が崩れたような文字になっていました。

やっぱり、動画生成AIに文字まで正確に出してもらうのは、まだ難しいんだなぁと苦笑しました。

こおじ?ミフオ?あなたたちは誰…?

※タップすると拡大表示になります。

短髪の男性キャラクターが横を向いているプロフィール風のイラスト。

白いクマのキャラクター「ミフオ」らしきくまが正面を向いて立っているイラスト。

ちょいちょいこおじさんとBOSSの顔が混ざってる…。そして何より知らないくまがいる!

ミフオ、どうしちゃったの…?というくらい別のくまが出てきて驚きました。

ただ、これは正直ある程度は納得です。

BOSSとこおじさんのように少し似ている人物や、ミフオのようにぱっと見は単純そうなキャラクターは、静止画でも完璧に再現するのが意外と難しいです。ましてやアニメーションになると、細かく指示していない部分は崩れやすいのだと思います。

以前ChatGPTにも、「Geminiで文字が崩れる場合は、映像だけ生成して、字幕はCapCutやCanvaで後入れすると安定します」と言われていたので、次は文字なしで作ってみることにしました。

2回目:文字なし+高級感で再チャレンジ

2回目は、文字を入れずに、より高級感のある雰囲気で動画を作ってもらいました。

最初の方はいい感じです。

1回目より少し単調な印象にはなりましたが、BOSSが登場するときに床が光る演出はかなり良かったです。

「これはこれで使えるかも?」と思ったのですが、その後の数秒が大問題でした。

消えたBOSSと、現れたミフオらしきくま

※タップすると拡大表示になります。

白いTシャツを着た男性キャラクター2人が、オフィス風の背景で立っているイラスト。

耳が不自然な白いクマのキャラクター「ミフオ」が笑顔で手を振っているイラスト。

BOSSが消えて、こおじさんが2人になっている。

しかも、ただのこおじさん2人ではなく、BOSSの顔立ちは少し残しつつ、服装と髪型がこおじさんになったような、なんとも言えないちぐはぐさでした。

さらにミフオも、耳が大量についているような作画になっていて、さっきよりは似ているけれど、さっきよりちょっときもい…という状態に。

大失敗だ…と、頭を抱えつつ笑っちゃうような仕上がりでした(笑)

実際に使ってみて分かったこと

今回は急ぎの案件ではなく、お遊び感覚で試してみただけだったので、ここまでで一旦終了にしました。

実際に使ってみて感じたことは、まず少し待つだけでアニメーション動画ができるのは本当にすごいということです。

これまで動画を作るとなると、構成を考えて、素材を用意して、編集して、書き出して…とかなり大変でした。

でもGemini Omniを使うと、完璧ではないにしても、短時間で「それっぽい動画のたたき台」までは作れます。

これは、PR動画やSNS用の短いアニメーション、企画段階のイメージ共有にはかなり便利だと思いました。

従来の動画制作で構成や素材、編集、書き出しに苦戦するさくらこと、Geminiで動画が完成して喜ぶさくらこを比較したイラスト。

一方で、まだ難しいと感じたところ

一方で、今回かなりはっきり分かった弱点は以下の通りです。

  • 動画内の日本語テキストは崩れやすい
  • キャラクターの細かい再現はまだ不安定
  • 複数キャラを出すと、見た目が混ざることがある
  • シンプルなキャラでも、アニメーション化すると崩れることがある

特に、AXメディアのように決まったキャラクターを使いたい場合は、まだ一発で完璧に仕上げるのは難しそうです。

文字も同じで、Gemini Omniに直接入れてもらうより、映像だけAIで作って、字幕やテロップはCapCutやCanvaで後入れする方が安定すると思いました。

Gemini Omniの弱点として、日本語テキストの崩れ、キャラクター再現の不安定さ、複数キャラクターの混ざりやすさ、アニメ化による崩れを説明するホワイトボード画像。

まとめ:全部任せるより、たたき台として使うのが良さそう

今回Gemini Omniを使ってみて、改めて感じたのは、AIは「全部任せるもの」ではなく、「作業を進めるための相棒」として使うのが大事ということです。

今後さらに精度が上がれば、PR動画や記事用アニメーション、SNS投稿用の短尺動画など、いろいろな場面で使いやすくなっていきそうだなと思いました。

どのAIにも言えることですが、完璧に頼りきるのではなく、得意なところをうまく使っていくことが大切ですね。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

さくらこのアバター さくらこ AIメディア編集・実践担当

AX事業部の若手社員。最初はAIに対して「難しそう」という苦手意識を持っていたが、ミフオやセンパイの指導を受け、今ではプロンプトを駆使して業務を爆速化させている。読者と同じ「初心者目線」で、本当に役立つ実務ノウハウを発信中。