目次
今週のキーワード
AIがただの“便利ツール”だった時代は、もしかするともう終わったのかもしれません。
2025年7月最後の週。生成AIは、またひとつその“在り方”を変えてきました。
今週のキーワードは──
「Study(学び方)」「Image to Video」「On-device AI」「評価の自動較正」「推論基盤」「ロボティクス」。
どれもバラバラに見えますが、そのすべてに**「人間の領域を、AIがどう補完しはじめているか」**という共通の問いがあります。
ChatGPTのStudy Modeは、「答え」ではなく「考え方」をAIが導く新しい教育の形。
Google Veo 3は、たった1枚の画像から“物語のある動画”をつくる力を見せてきました。
Windowsでは、設定すら言葉で操作できる時代へ。Copilot+PCの本領が見えてきた週でもあります。
開発現場では、LangChainがAIの自己評価の誤差を正す「Align Evals」を公開。
推論コストと速度の競争はNVIDIA NIM / TensorRT-LLMによってさらに加速。
そして極めつけは、Skild AIによる“汎用ロボットの脳”の登場。家の中でも工場でも、AIが“身体”を持ちはじめました。
こうして並べてみると、生成AIは「見る」「考える」「動く」という、かつて人間だけの領域だった感覚や行為へと静かに踏み込んでいるように思えます。
本記事では、これらの注目トピックを深掘りしながら、「この一週間で何がどう変わったのか?」を追っていきます。
OpenAI Study Mode:答えより“学び方”
「ChatGPTが、勉強の“やり方”まで教えてくれるようになった。」
そんな未来を思わせる新機能が、7月29日、正式にリリースされました。
その名も「Study Mode」。
ChatGPTをただの解答マシンにするのではなく、“考える力”を引き出す先生のような存在に変える
──そんな狙いを持つ学習専用モードです。
🧠 なにが新しい?
Study Modeでは、問題を入れてもすぐに答えは返ってきません。
代わりにChatGPTは、こう問いかけてきます。
「まず何がわかっていて、何がわからないか教えてもらえる?」
「どうやってこの問題を解こうと思う?」
そう、これはまるでソクラテス式対話。
AIが“答え”ではなく“思考の手順”を一緒に辿ってくれる。
結果、わからないところを自分の言葉で整理し、自力で答えにたどり着く力を養う構成になっています。
対象プランと使える環境
この機能はChatGPT Free・Plus・Team・Enterpriseすべてで使用可能(7月29日時点)。
Webブラウザ・iOSアプリ・Androidアプリ・デスクトップアプリでも順次利用可能になっており、
教育機関向けのChatGPT Eduにも展開予定とされています。
どんなときに使える?
たとえば数学の問題、英語の長文読解、化学のグラフ、歴史の年表整理──
どれも「いきなり答え」ではなく「どう解くか?」を練習する場面でStudy Modeは威力を発揮します。
教育者の間では、次のような使い方が注目されています:
家庭教師のように寄り添って考えさせる
宿題のサポートに使いながら、安易なカンニングを防ぐ
苦手な単元を自力で理解し直すための“第二の脳”として使う
また、画像入力にも対応しており、グラフや図形問題も画面共有しながら対話できるのが特長です。
⚠️ 気になる“懸念”と教育現場でのルール整備
一方、当然ながら「抜け道になるのでは?」という懸念もあります。
Study Modeといえど、プロンプト次第では答えに誘導しすぎたり、丸写し的に使われる可能性もゼロではありません。
OpenAI側も「教育機関と連携しながら、適切な使用ガイドラインを整備していく」と表明しており、現場ごとのルール作りが求められそうです。
🔖 一言アクション
ChatGPTを“答えをくれる存在”から“問いをくれる存在”へ──
もしあなたが先生、親、あるいは学び直し中の大人なら、Study Modeを一度体験してみてください。
「教えるAI」の可能性が、静かに見えてくるはずです。
Gemini API:Veo 3 Fast & Image→Video
✨ 仕様:何がすごい?
2025年7月31日、Googleは生成AIビデオモデルVeo 3 FastをVeo 3と共にGemini APIおよびVertex AIで公開しました。
両モデルとも8秒/1080p動画+ネイティブ音声生成に対応します。
Veo 3:音声・音楽・効果音を同期生成、シネマ品質。価格は$0.75/秒。
Veo 3 Fast:軽量&低価格版(音声あり)、$0.40/秒。A/Bテストや広告など高速反復向き。
TechRadar+15Android Central+15Google Developers Blog+15ウィキペディア+5THE DECODER+5Reddit+5Image-to-video機能:1枚の静止画に動き・音声・物語性を加え、動画に変換。Veo 3/Fastともに対応。
7月末よりGemini APIに導入、8月から一般プレビュー。 THE DECODER
これまでテキストのみだったプロンプトに、画像入力による動画生成が加わったことで、制作の幅が格段に広がりました。
🧑💻 入手方法とサンプルコード導線
Gemini API/Vertex AI 経由での利用
Gemini APIでは
veo-3.0-generate-preview
(通常版)とveo-3.0-fast-generate-preview
(Fast版)モデルが使用可能。APIのリリースノートに7月31日の更新として反映。 blog.google+12Google AI for Developers+12Google Developers Blog+12Python SDKサンプル(Google AI StudioのStarter App)から、プロンプト送信 → 生成 → MP4保存まで一貫してテスト可能。音声のネガティブプロンプト制御も可。 Reddit+2Google Developers Blog+2THE DECODER+2
Python サンプル概略:
同じAPIで画像入力→動画生成にも対応し、すでにImagenで生成済の画像を出発点に動画化するケースも推奨されています。
Google AI for DevelopersGoogle Developers Blog
💡 広告・MV・UGC 向け作例アイデア
広告/A/Bテスト:商品静止画→複数バリエーションのデモ動画生成。Veo 3 Fastが特に最適。
ウィキペディア+15PPC Land+15Gemini+15
ミュージックビデオ風の短尺MV構成:ファンアートや風景写真に音の演出を加えて8秒のストーリー動画を制作。
UGC・ソーシャルメディア投稿:ユーザーの写真を共有→簡単に映像化。
GeminiやFlowと組み合わせてSNS向けに展開可能。実際に数千万本のVeo動画が生まれている事例あり。 LifewireAndroid Central
⚠️ 注意点と補足
SynthIDウォーターマークが全出力に埋め込まれ、動画がAI生成されたことが明確に表示されます。Traceability 対策の一環です。 TechRadar+4Google Developers Blog+4blog.google+4
利用料金は生成秒数ベース。例:Veo 3で8秒動画なら$6.00、Fastなら$3.20程度。大量生成時はコスト管理必須です。
EUや英国など一部地域では機能制限あり。プロンプトガイドと安全フィルターは適宜更新中。
🔖 一言アクション
静止画を“動画”に変える力を、アプリやブランドプロモに取り込んでみてください。
Gemini APIやVertex AIのStarter Appを起点に、サンプルを実行するだけで、すぐに可能性をつかめます。
Microsoftアップデートまとめ
🖥️ Windows:Settingsエージェント/Narrator・Click to Doの画像説明
Settings 中に自然言語エージェント導入
7月末から、AMD/Intel搭載のCopilot+ PC向けに、「設定を変えたい」を自然言語で伝えるだけで操作手順を提示/自動実行するAIエージェントがSettingsアプリに展開されています(例:「マウスカーソルが小さい」など)
Windows Central+2Windows Blog+2Tom's Guide+2。Narrator・Click to Do に AI画像説明機能追加
スクリーン上の画像をAIが言語で説明する機能が、SnapdragonだけでなくAMD/Intel搭載のCopilot+ PCにも拡大。内容理解のアクセシビリティが大きく向上しています
ウィキペディアWindows Central。
また、Snipping Toolには「perfect screenshot」(AIによる最適トリミング)や色を検出するカラーピッカーも導入されました
Tom's Guide+1Windows Central+1。
☁️ Microsoft 365 Copilot:Copilot Pages の自動生成
Copilot Pages:Microsoft 365 Copilot Chatの中でAIの応答をそのまま「編集・共有可能なページ」に変換できる新機能。
SharePointまたはOneDriveがあれば、個人またはチームで利用可。Copilotライセンスがなくても利用できる場合ありMicrosoft サポート。
さらに:チャット入力時に自動でページ作成
Copilotが「この場面で文書ページが適切」と判断すると、自動的にPagesが立ち上がり編集可能に。
仕事の流れを止めずにドキュメント化できる新体験ですスーパースンプル365。
👩💻 GitHub Copilot:7月の月次アップデートまとめ
Monthly Roundup(7月)が公開され、Copilotに関する新機能と改善点の全体像をGitHubコミュニティで共有。
具体的なチャット・コーディング改善、新規統合やUX改善などが網羅されています。
注目の改善例:
Copilot coding agent:バックグラウンドでPull Requestの作成や更新を自動化する新機能。タスク割り当てだけで対応完了まで管理可能にThe GitHub Blog。
GitHub Copilotはすでに多くのIDE環境に統合され、個人開発者向けFreeプランから法人向けEnterpriseプランまで広く対応。開発の効率化・品質向上に寄与しており、ユーザー満足度は高いとの報告もあります。
🧩 小まとめ
WindowsではCopilot+ PC向けに設定を自然言語で操作するSettingsエージェントや画像説明機能を強化。
Microsoft 365 Copilotではチームや個人のワークフローを止めない編集体験「Copilot Pages」を導入。
GitHub Copilotは月次更新で新機能(コードエージェントなど)を追加し、コード作成からPR管理までをよりAI化。
🔖 一言アクション
Windowsユーザーなら、Copilot+ PCでSettingsエージェントやClick to Doの新機能を試してみてください。
自然言語で設定操作ができる未来感が味わえます。
Microsoft 365ユーザーは、Copilot Pagesでチャット→ドキュメント作成の流れを体験し、生産性を実感してみましょう。
開発者向けには、GitHub Copilot coding agentでPull Requestの自動化を試し、コード生成と管理を一手に任せてみてください。
LangChain / LangSmith:Align Evalsで“評価の信頼”を上げる
AIの進化とともに注目されてきたのが「AIがAIを評価する」仕組み。
しかしそこには、“ズレ”という見えにくい壁がありました。
そんななかLangChainは、7月末に新機能**「Align Evals」を公開。
これは、LLMによる自動評価を人間の判断と“揃える”=較正(calibration)**するための仕組みです。
🔍 Align Evals とは?
LLM-as-a-judge(AIによる出力の採点)は便利ですが、
「正しくないものを高く評価してしまう」といった信頼性の欠如が課題でした。
Align Evalsでは、以下のようなプロセスを踏むことで
“人間の感覚に近づけたAI評価”を自前で構築できるようになります。
まず、評価タスクに対して複数の評価器(AI)を走らせる
次に、人間による評価とどれだけ一致するかを比較
最もズレの少ないAIを選ぶ or 重みづけして合成
その結果をLangSmithのトレースに保存し、LangGraphにも連携
まさに、AIを「信頼できる審査員」に育てていくプロセスです。
LangChainのチームは、「これによって開発のPDCA全体が早く・安くなる」と明言しています。
NVIDIA:NIM/TensorRT/HPC SDKの基盤更新
裏側で静かに、しかし確実に“生成AIの土台”を支えるNVIDIA。
この1週間も、3つの重要な技術スタックに更新が入りました。
⚙️ NIM for LLMs 1.12.0(7/25付)
TensorRT-LLMの新バージョンに対応
ガイド付きデコードの強化/LoRAまわりの最適化
起動時間の短縮・FP16エンジンの改善も
つまり、「より速く、軽く、柔軟に」モデルを動かせるようになっています。
⚡ TensorRT-LLM 0.19系
CUDA 12.9、PyTorch 2.7、TensorRT 10.10に最適化
通常の推論だけでなく、エージェント型の細かな分岐処理も安定
これにより、“数千のユーザーが一斉に触る”ような大規模サービスでも耐える設計が現実的になっています。
🧮 HPC SDK 25.7
開発者向けには、FortranやC++ベースの数値ライブラリも一括更新
CUDA 12.9U1に対応し、機械学習と科学計算のハイブリッド運用も視野に
全体として、「最新CUDA世代にフル対応し、推論速度・安定性・柔軟性をトリプル強化した」一週間だったといえます。
運用者は、CUDA 12.9系を軸にしたビルド環境の整備を検討するとスムーズです。
ロボティクス:Skild Brainで“1脳多体”へ
ロボットに、ひとつの“脳”を与える──
そんなSFのような話が、現実の技術として前進しました。
発表したのは、AmazonとSoftBankが支援するSkild AI。
同社が開発した「Skild Brain」は、あらゆるタイプのロボットに対応可能な“汎用AI頭脳”です。
🧠 何ができるの?
四足歩行ロボ(犬型)
自律走行ロボ(倉庫・宅配)
アーム型ロボ(製造ライン)
ヒューマノイドロボット(実験段階)
それぞれが異なる形状と環境でも、ひとつのAIモデルで動作可能。
しかも、歩行中に押されても姿勢を復元したり、散らかった部屋を自力で整理したりといった、リアルな環境への適応力も見せています。
🔬 どうやって学ばせている?
人間の動画(例:棚を整理する様子)
シミュレーション環境(物理演算・複数エージェント)
実機のセンサーデータ(実際の手触りや動き)
これらを組み合わせた「マルチモーダル統合学習」で、Skild Brainはロボットに“動きの常識”を教えているのです。
今後の応用先としては──
物流倉庫やピッキングラインでの軽作業
高齢者・要支援者の見守り・補助
家庭内での清掃や配膳、育児サポートまで
いよいよ「AIが手足を持つ時代」が、家庭にも届き始めた印象です。
生成AIが“ひとつ先の地平”を見せてきた週
「学び方を教えるAI」
「写真から物語を紡ぐAI」
「言葉で設定を変えるOS」
「自分の評価基準を調整するAI」
「推論コストを減らす裏方」
「ひとつの脳で多様な身体を動かすロボット」
──この1週間で、生成AIはこれだけの領域を横断しながら、
“人間らしさ”を補完しはじめたと言えるかもしれません。
AIは、ただ効率を上げる道具ではなく、
私たちの視点・行動・学び方そのものをアップデートしてくる存在になりつつあります。
だからこそ、
「何ができるか」だけでなく、
「どう使えば、人間がもっと豊かになれるか」
を問い直すタイミングが来ているのかもしれません。
次週もまた、世界は進化します。
あなたはその変化を、どう活かしますか?