Gemini Computer Useとは?画面操作AIでできることと注意点

Gemini Computer Useを解説するアイキャッチ。ノートPCの画面にAIの手が伸びてボタンを操作する様子を青紫ピンクのグラデーションで描き、「AIが画面を操作する」「できること・まだ任せられないこと」と示した画像。

2026年6月24日、GoogleがGemini 3.5 Flashに「Computer Use(コンピュータ操作)」を標準搭載したと発表しました。AIが画面を見て、ブラウザやアプリをクリック・入力で操作する機能です。出典:Google公式ブログ「Introducing computer use in Gemini 3.5 Flash」(2026年6月24日)

この Gemini Computer Use は、AIが「質問に答える」段階から「画面を操作して作業する」段階に入ったことを示す動きです。ただし現時点では開発者向けの提供が中心で、誰でもすぐ使える機能ではありません。

本記事では、このニュースを題材に、画面を操作するAIで何ができて、まだ何ができないのか、そして任せる前に押さえるべき注意点を、中小企業の視点で整理します。

この記事でわかること(結論)

  • 何が起きたか:Geminiに「画面を見てクリック・入力する」機能が標準搭載された。AIが”答える”から”操作する”段階へ進んだ。
  • 従来との違い:連携が用意されていないアプリやサイトでも、画面さえあればAIが操作できる(RPAに近いが、画面を見て判断して動く)。
  • 使える場面:アプリ間の転記、定型的なWeb入力、情報の集め回りなど「画面をまたぐ繰り返し作業」。
  • まだできないこと:予期しないポップアップやCAPTCHA、初見の画面に弱く、無監督では任せられない。
  • 中小企業の構え方:今すぐ飛びつく機能ではない。「知っておく・取り消せる作業から・人が最終確認」の3つで備える。

Geminiに「画面を操作する」機能が標準搭載された

結論から言うと、AIが画面を見て自分でクリック・入力する機能が、Geminiの主力モデルに標準で組み込まれました。これまで単独だった機能が、日常的に使うモデルの一部になった、という変化です。

Googleは2026年6月24日、Gemini 3.5 Flashに「Computer Use」を組み込みツールとして搭載したと発表しました。これまで単独の「Gemini 2.5 Computer Useモデル」として提供されていた機能が、主力モデルであるFlashにそのまま統合された形です。

仕組みはシンプルです。AIが画面のスクリーンショットを認識し、次にどう動くかを判断して、ブラウザ・モバイル・デスクトップ上でクリックや入力、スクロールといった操作を実行します。人間が画面を見ながらマウスとキーボードを動かすのと同じことを、AIが代わりに行うイメージです。

ここで重要な前提を一つ。この機能は、Gemini APIやGemini Enterprise Agent Platformを通じて、開発者や企業がエージェントを構築するために提供されています。つまり、普段使っているGeminiアプリで今すぐオンにできる機能ではありません。本記事も「すぐ使う手順」ではなく、「この先どう向き合うか」を整理する内容として読んでください。

「画面操作(Computer Use)」とは何か ── チャット型・連携型との違い

Computer Useとは、AIが画面を見て、人間と同じようにGUIを操作する機能です。連携が用意されていないアプリやサイトでも操作できる点が、これまでとの最大の違いです。

これまでのAIの使い方は、大きく2つでした。質問に答えてもらうか、あらかじめ用意された連携(API)を通じて決まった処理をしてもらうか、です。Computer Useはそのどちらとも違い、画面さえあれば操作の対象にできます。AI連携に対応していない古い業務システムや、社内独自のツールでも動かせる、ということです。

イメージとしては、決まった手順を自動化する「RPA」に近いものです。ただしRPAが事前に手順を細かく登録するのに対し、Computer Useは画面を「見て判断」しながら動く点が異なります。

なお、AIエージェントには複数のタイプがあります。AIエージェントとは何かという基本はAIエージェントとチャットボットは何が違うのか?自律型AIの基本概念で整理しています。チャットに常駐して依頼するタイプはClaude Tagとは?Slack常駐AIに任せていい業務の見分け方、パソコン上の作業を代行するタイプはMicrosoft Copilot Coworkとは?中小企業が見るべき料金と導入判断で扱っています。今回のComputer Useは、それらとは別の「画面そのものを操作する」タイプにあたります。


AIの使い方を3タイプで整理した図解。質問に答えるチャット型、連携で決まった処理をする型、画面を見て操作するComputer Use型を並べ、Computer Useが連携なしでも画面を操作できる新しいタイプであることを示した構造図。

何に使えるのか ── 想定される業務

向いているのは、複数の画面をまたぐ「繰り返しの定型作業」です。アプリ間の転記や定型的なWeb入力など、これまで人が手で繰り返していた作業が対象になります。

Googleは、想定される使い道として、複数の業務アプリをまたいだ作業や、繰り返しの多いWeb操作、ソフトウェアの動作確認などを挙げています。中小企業の実務に引き寄せると、次のような場面が考えられます。

  • アプリ間の転記:あるツールの情報を、別のツールへ手作業で移している作業。
  • 定型的なWeb入力:申請フォームや予約サイトへの、繰り返しの入力。
  • 情報の集め回り:複数のサイトを順に開いて、決まった情報を拾ってくる作業。
  • 動作確認:自社サイトやツールが正しく動くかのチェック。

こうした「画面をまたぐ繰り返し作業」は、これまで人が手で行うか、専用の自動化を組むしかありませんでした。Computer Useは、連携が用意されていない相手でも画面操作でつなげられる点で、一歩進んでいます。AIを使った業務自動化の考え方そのものはAIでルーティン作業を自動化!業務効率化に使える相談プロンプトでも整理しています。

まだ任せきれない ── 画面操作AIの現在地

結論として、いまはまだ無監督で任せられる段階ではありません。決まった画面の繰り返しには強い一方、想定外の表示に弱いからです。

具体的には、予期しないポップアップ、CAPTCHA(私はロボットではありませんの確認)、表示が動的に変わる画面、これまで見たことのないレイアウトなどでつまずきやすいとされています。人間なら一瞬で対応できる「いつもと違う表示」に、AIはまだうまく対処できません。

Google自身も、この機能を無人で動かすことは想定していません。重要な操作の前に人の確認を求める仕組みや、不正な介入を検知したらタスクを自動停止する仕組みを、任意の安全機能として用意しています。性能を測るベンチマークでは上位モデルや競合に迫るスコアを記録していますが、ベンチマークが高いことと、実務で人が見ずに任せられることは別の話です。今はまだ「見ていないと危ない」段階だと捉えるのが妥当です。


画面を操作するAIの得意と苦手を対比した図解。決まった画面の繰り返し作業は得意な一方、予期しないポップアップ・CAPTCHA・動的に変わる画面・初見のレイアウトに弱く、無監督では任せられず人の監督が必要であることを示した構造図。

任せる前に押さえる注意点 ── 画面操作AIならではのリスク

画面を操作するAIには、文章を返すだけのAIにはなかったリスクがあります。最低限、次の3つを押さえてから任せてください。

  • 悪意あるページにだまされるリスク:操作中に開いたページに紛れ込んだ指示文に、AIがだまされて意図しない操作をしてしまう「プロンプトインジェクション」という危険があります。Googleも検知時に自動停止する仕組みを用意していますが、前提として人の監督が必要です。
  • 取り消せない操作:送信・購入・削除など、後から取り消せない操作は、必ず人が確認してから実行する。AIに最後のボタンまで押させない、という線引きが大切です。
  • 権限の絞り込み:AIに操作させるアカウントの権限を、必要な範囲に限定しておく。万一の誤操作の影響を、あらかじめ小さくしておきます。

AIをだます攻撃の基本はAIジェイルブレイクとは?3つのセキュリティリスクと安全な使い方、社内で守るべきルールの作り方は【雛形あり】会社の機密情報をAIに入力していい?今日から守るべき「安全な社内ルール」入門で整理しています。

中小企業はどう構えるか

今すぐ飛びつく機能ではありません。やるべきは「知っておく・取り消せる作業から試す・自社の作業を棚卸しする」の3つです。提供は開発者・企業向けが中心で、本格的に使える環境が整うのはこれからだからです。

  • 知っておく:AIが「画面を操作する」段階に来た、という流れを把握しておく。これだけでも、今後の判断が変わります。
  • 取り消せる作業から試す:いずれ手軽に使えるようになったら、影響の小さい・繰り返しの・取り消せる作業から。人が必ず最終確認をする前提で始めます。
  • 自社の作業を棚卸ししておく:自社のどの定型作業が「画面操作の繰り返し」かを洗い出しておくと、ツールが手軽になったとき、すぐ動けます。

あわせて、自動化を1つのAIやツールに集めすぎない視点も持っておきたいところです。提供元の都合で使えなくなるリスクについてはAIの1社依存リスクとは?中小企業が見るべき分散とコストの備えで整理しています。

まとめ|AIは「画面を操作する」段階に入った。ただし監督つきで

Gemini 3.5 FlashへのComputer Use搭載は、AIが「答える」だけの存在から「画面を操作して作業する」存在へと進む流れを、はっきり示した一例です。同じ方向の動きは各社で進んでおり、これは一過性の話ではありません。

とはいえ、できることが増えた分、注意も必要です。想定外の画面には弱く、悪意あるページにだまされる危険もあるため、いまは無監督で任せられる段階ではありません。中小企業の現実的な構え方は、「画面を操作する時代が来たと知っておく」「使うなら取り消せる作業から」「人が必ず最終確認をする」の3つです。便利さを取り入れながら、最後の判断は人が握る。これが、画面操作AIと付き合ううえでの土台になります。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

こおじのアバター こおじ AXメディア ディレクター

「実務直結・標準化」を信条とする、AXメディアのディレクション担当。さくらこのセンパイ。個人のスキルに頼らない「仕組みとしてのAI活用」を追求しており、こおじが考案するプロンプト(センパイメソッド)は社内でも高く評価されている。