2025-11 第4週 — オープンソース数学の習得、Claude Opus 4.5、そしてAWSがエージェントに備える | 毎週 AI ニュース

11月が終わりに近づくにつれ、焦点は消費者向けローンチからインフラストラクチャと専門的推論へと移りました。
DeepSeekは感謝祭に「数学爆弾」を投下し、形式論理において独占的な巨人に匹敵するオープンソースモデルをリリースしました。
Anthropicは静かながらも確実に、エンタープライズプラットフォーム全体にClaude Opus 4.5を展開しました。
そしてAWSは、大規模なre:Inventカンファレンスに備えて、エージェントの未来に向けた重要な可観測性ツールをリリースしました。

今週のメッセージは明確です：AIは「テキストを生成する」から「真実を検証する」そして「複雑なワークフローを管理する」へと移行しています。

🔹 DeepSeek Math-V2：自己検証が推論の天井を打ち破る

出典：DeepSeek / Simon Willison
👉 分析：https://simonwillison.net/2025/Nov/27/deepseek-math-v2/

11月27日にリリースされたDeepSeek Math-V2は、新しい**「自己検証」**メカニズムを利用し、モデルが最終的な答えを確定する前に自身の推論ステップを批評できるようにします。
ベンチマーク破壊： このモデルはIMO 2025ベンチマークで金メダルレベルのパフォーマンスを達成し、Putnamコンペティションセットで118/120のスコアを獲得し、GPT-5を困惑させた問題を効果的に解決しました。
オープンソース： 業界を驚かせる動きとして、モデルの重みはApache 2.0の下でリリースされ、DeepSeekの「オープンソースの灯台」としての評判を固めました。
効率性： 大規模な汎用モデルとは異なり、Math-V2は形式言語と証明検証に関する専門的なトレーニングが、論理タスクにおいてより大きなモデルを上回ることができることを証明しています。

DeepSeek Math-V2は、**システム2思考(遅い推論)**が解決可能なエンジニアリング問題になりつつあり、ローカル開発者でもアクセス可能であることを示唆しています。

🔹 Claude Opus 4.5：エンタープライズの主力が拡大

出典：Google Cloud / Anthropic 👉 Google Cloudリリース：https://docs.cloud.google.com/vertex-ai/generative-ai/docs/partner-models/claude
👉 Windsurfチェンジログ：https://windsurf.com/changelog

Claude Opus 4.5は11月24日に一般提供が開始され、AnthropicのAPIとGoogle Vertex AIで同時にロールアウトされました。
このモデルは「信頼性の王」として位置づけられており、初期のレポートでは、幻覚なしに複雑な複数ページのコンプライアンス指示に従うことにおいて大幅な改善が見られると述べられています。
IDE統合： エージェント優先のエディタWindsurfは、11月21日にそのコアをアップデートしてOpus 4.5をサポートし、「深いアーキテクチャリファクタリング」タスクの優先モデルとして引用しています。
Gemini 3の消費者向け機能ほど「派手」ではありませんが、Opus 4.5はAnthropicの高信頼エンタープライズセクターにおける地位を固めています。

Claude Opus 4.5はスピードについてではありません。重要なビジネスロジックの保証された実行についてです。

🔹 AWS AgentCore可観測性：エージェントメッシュの可視化

出典：AWS 👉 AWSニュースブログ：https://aws.amazon.com/blogs/mt/2025-top-10-announcements-for-aws-cloud-operations/

re:Invent 2025のわずか数日前、AWSは11月26日にAmazon CloudWatchの生成AI可観測性とAgentCoreをリリースしました。
エージェントトレーシング： 開発者は「エージェントワークフロー」をエンドツーエンドでトレースでき、AIエージェントがツールを呼び出し、データベースにアクセスし、分散システム全体でエラーを処理する方法を可視化できます。
モデル非依存： このシステムはLangChain、LangGraph、CrewAIをサポートしており、開発の未来がAWSインフラストラクチャ上でオープンソースフレームワークをオーケストレーションすることを含むことを認識しています。
非計装検出： 新しい「アプリケーションマップ」はサービスの依存関係を自動的に検出し、運用チームが手動タグ付けなしにAIエージェントがどのAPIにアクセスしているかを確認できるようにします。

AWSは、AIエージェントはもはや単なるおもちゃではなく、プロダクションワークロードであるというシグナルを送っており、マイクロサービスと同じ監視の厳格さが必要です。

🔹 週次スナップショット：検証レイヤー

論理 → DeepSeek Math-V2は、オープンソースモデルが専門分野において人間よりも優れた「自分の作業をチェックする」ことができることを証明しています。
信頼性 → Claude Opus 4.5は、長いコンテキストのエンタープライズタスクに安定性をもたらします。
可視性 → AWS AgentCoreは、これらのスマートモデルが自律的に行動し始めたときに、実際に何をしているかを確認できることを保証します。

業界は**「このAIが何を書けるか見て」から「このAIが考えることをどのように信頼し監視できるか見て」**へと成熟しています。

🔹 開発者への2つの提案

「自己検証」プロンプトを試してみてください。 DeepSeekの成功は、その内部の「批評」ステップから来ています。プロンプトエンジニアリングを更新して、モデルに最終的なコードを出力する前に**「証明を生成し、それを批評し、そして修正する」**よう求めてみてください。この「システム2」フローは、複雑な論理において優れていることが証明されています。
今すぐエージェントを計装してください。 AWSがAgentCore可観測性を立ち上げたことで、「プロダクションAI」の基準が上がりました。エージェントを構築している場合は、printステートメントに頼るのをやめてください。**トレーシングツール(LangSmithやAWS X-Rayなど)**を使用して、エージェントの決定ループを可視化し始めてください。プロダクションでループに陥る前に。