2025年7月も後半に入り、生成AIの世界ではまた一段と“大きな波”が押し寄せてきました。
今週は特に、「AIが検索し、行動し、画面の中で手を動かす」という新しいステージへの移行が加速した印象です。
OpenAI、Google、Anthropic、Amazon、Adobe
──各社のアップデートが共通して「次の実用フェーズ」を見据えていることが見て取れました。
特に目立ったのは「エージェント」と「マルチモーダル」。
ただ生成するだけでなく、AIが“自律して行動し始める”流れがいよいよ本格化しています。
その中から、今週注目すべきトピックを厳選5つに絞ってご紹介します。
目次
ChatGPT Agentが正式公開|“画面で動くAI”のはじまり
OpenAIがついに「ChatGPT Agent」をリリースしました。
これまでのChatGPTは“言葉で答える存在”でしたが、Agentはその先へと踏み出しました。
今回の機能で何ができるのか?
ひとことで言えば──
「仮想PCの前で、AIがあなたの代わりにマウスとキーボードを動かしてくれる」のです。
実際に何ができるのか?
たとえば以下のようなタスクを、ChatGPTが自律的に、かつ視覚的にこなします。
- Excelを開き、フォーマットを整え、関数を組んで集計する
- PC上のファイルを分類し、必要な情報を抽出・保存する
- ウェブ上のツールを操作して申請やレポート出力を完了させる
- 画像を指定サイズに加工し、適切なフォルダへ移動させる
しかも、その一連の動きは仮想画面としてユーザーに見える化されており、
「あ、この処理ちょっと違うな」と思ったら途中で止めることも可能。
この「見える×止められる」という設計が、安心感と実用性を一気に引き上げています。
利用条件と制限は?
現時点では、以下のような利用制限つきの段階リリースとなっています。
Plus/Teamプラン:月40クエリ
Proプラン:月400クエリ
待ち時間ゼロで即日利用可能なユーザーも増えており、今後の拡大が予想されます。
現状ではコード解釈・ファイル処理・操作ログの表示など、比較的シンプルなタスクが中心ですが、
すでに業務の自動化アシスタントとして実用可能なレベルに達しています。
“AIは秘書を超えていく”時代へ
この「Agent」の登場で、AIはついに“操作する”フェーズ*に入りました。
これまでは「考えるAI」でしたが、これからは「考えて、動くAI」。
想像してみてください。
朝、ToDoリストをChatGPTに送るだけで
勤怠データを集計し、上司にメールを自動作成
Canvaで資料をテンプレ化し、PDFで保存
顧客情報をCRMに登録し、返信メールも用意
そんな未来が、もう手の届くところにあるのです。
これは「AIによる職場革命」の幕開け
ChatGPT Agent の登場は、個人の働き方だけでなく、
チーム運営や業務設計の前提そのものを変える可能性を秘めています。
小規模チームでも「AI部下」を持てる
一人で複数人分の事務処理をこなせる
定型業務を“任せておく”ことが当たり前に
もちろん、万能ではありません。
今のところは「人間が指示した範囲内で動く」ことが前提です。
でも、それでもなお──
“人間がいちいち手を動かす必要のない領域”が確実に広がっているのは間違いありません。
言葉で教えるAIから、
“操作してくれるAI”へ。
未来のAI像が、また一歩、私たちのそばに近づいてきました。
Google検索が“行動するAI”へ|Gemini 2.5 + 電話もかける「AI Phone Call」
Googleもまた、検索という体験の再定義に動き出しました。
Labs版のGoogle Searchに、ついに Gemini 2.5 Pro が搭載。
さらに、「検索結果を見る」だけにとどまらない、“次のアクションまでを担うAI”としての進化が始まっています。
AIが電話をかける時代に
注目すべきは、AIが実際に電話をかけてくれる「AI Phone Call」という新機能。
レストランや美容室などの店舗に対して、AIが直接電話をかけ、営業時間や予約状況を確認し、その内容をユーザーに返してくれるというものです。
電話のやりとりは要約されて表示されるため、「検索したあとに、また電話して聞く」という手間がごっそり削られます。
言い換えれば、Googleは検索から“行動”へと役割を拡張し始めたのです。
検索の本質が変わりつつある
これまでの検索体験は、情報収集の入口に過ぎませんでした。
しかし、Geminiの統合とこの新機能によって、Google検索は「ユーザーの代わりに動くAI」へとシフトし始めています。
たとえば、
お店の混雑状況を“実際に確認”してもらったり
交通機関の最新情報を“その場で取得”してくれたり
「知る」から「済ませる」までを一気通貫で担える存在に進化しつつあるのです。
検索の未来は、もう“画面の向こう”で動き始めている。
Claude Sonnet 4がパワーアップ|API制限が大幅緩和
OpenAIに次ぐ注目株、AnthropicのClaudeシリーズ。
その中核モデル「Claude Sonnet 4」が、今週すべての利用プランでAPIのレート制限を大幅に緩和しました。
このアップデートにより、企業や開発者が本格的にClaudeを使ったプロダクト運用へ踏み出せる環境が整いつつあります。
レート緩和で“現実的に使える”モデルへ
これまでは、API経由で大量のリクエストを送ろうとすると制限に引っかかり、本格的なアプリ開発には向かないという声もありました。
しかし、今回の変更により、高並列なリクエスト処理や継続的なタスク実行が可能に。
ビジネス用途でも、ChatGPTだけでなくClaudeを選ぶ選択肢が現実味を帯びてきました。
Claudeが本命の選択肢に
Claudeは、文章生成や要約、読解力において「自然で知的」な出力に定評があります。
また、制御性・安全性の高さから、規模の大きな企業でも安心して採用できると評価されることも多く、
このAPI制限の緩和によって、さらに導入ハードルが下がりました。
GPT、Geminiだけじゃない。
Claudeも、もう“本命候補”の一角です。
AWSが「AgentCore」公開|どのAIでもエージェント運用できる時代へ
クラウドの巨人・Amazonも、生成AIの「次の形」に向けて大きく舵を切りました。
AWSは新たに、Bedrock上で動作するエージェント基盤「AgentCore」をプレビュー公開。
注目すべきは、この仕組みがOpenAIだけでなく、GeminiやClaudeなどあらゆるLLMと連携可能な点です。
メモリ・コード・ブラウザが一体化
AgentCoreは、単なるAPI連携ではありません。
エージェントに必要な構成要素──メモリ(履歴保持)、コード実行、ブラウザ操作、ツール選択などを一括で管理できる、まさに“エージェントの骨格”を提供するOS的存在。
これにより、開発者は個別に環境構築やリクエスト管理をすることなく、安定して複雑な自律エージェントを構築可能になります。
マルチモデル時代の“共通エンジン”へ
従来、エージェント開発は特定モデルへの依存が強く、「OpenAIでしか動かない」「Claudeには非対応」といった縛りが多く存在しました。
しかしAgentCoreを使えば、LLMを選ばずにエージェントを構築できるため、開発の柔軟性と将来性が一気に高まります。
「モデルを選ぶ」時代から、
「どう使うかを選べる」時代へ。
Adobe Fireflyが爆速進化|SFX生成&アバター合成で映像制作の次元が変わる
生成画像の先を行くAdobeの映像AI「Firefly Video」が、
今週さらに進化し、音・動き・キャラクターを扱える領域へと踏み込みました。
特に注目なのは、効果音自動生成(SFX)機能とText-to-Avatar(文字からアバター生成)の追加。
加えて、Google VeoやRunway Gen-4といった他社ツールとのシームレスな連携強化も発表され、
いよいよAdobeが映像AIの総合ハブになりつつあります。
SFXとアバター生成で“音と人”が加わった
これまでのFirefly Videoは、映像そのものの生成に強みがありました。
そこに加わったのが、シーンに応じた効果音を自動で作る「SFX生成(β)」と、
文字ベースでキャラクターを合成し登場させる「Text-to-Avatar(β)」。
これにより、一つのプロンプトで“映像+音+人物”が揃う時代が近づいています。
生成動画の“制作体験”を変えていく
今回の進化は、「高画質な映像が作れる」こと以上に、
制作の流れそのものが根本から変わることを意味します。
動画編集ソフトを開かずに、SFXや構図が揃う
キャラクターもAIで挿入可能に
他の生成AIとスムーズに連携しながら、完結型の映像制作へ
動画制作が、プロの領域から“想像力があれば誰でもできる”領域へと開かれつつあります。
映像AIは、“つくる技術”から“語る体験”へ。
今週のまとめ|キーワードは「エージェント」と「マルチモーダル」
今週の生成AI界隈は、まさに“AIが自ら動き始めた”ことを象徴するアップデートが集中しました。
ChatGPT Agent:タスクを実行し、画面上で“動く”AIへ
Google検索:検索から“行動の実行”へ
Claude & AWS:エージェント開発の基盤がオープンに
Adobe Firefly:映像・音・キャラが一体化した創作体験へ
生成AIは、いま“単なるツール”から「パートナー」へと進化し始めています。
そしてその裏では、複数モダリティ(言語・画像・音・操作)を横断的に扱う技術=マルチモーダルが、確実にその土台を固めつつあります。
来週も、変化のスピードに振り落とされないよう、
「今、何が動いているのか」を一緒に追っていきましょう!