← 返回每周 AI 新闻

Weekly Briefing

2025-11 第4周 — 开源数学大师、Claude Opus 4.5 和 AWS 为智能体做准备

2025年11月29日

2025-11 第4周 — 开源数学大师、Claude Opus 4.5 和 AWS 为智能体做准备

随着11月接近尾声,焦点从消费者产品发布转向了基础设施和专业推理
DeepSeek 在感恩节投下了一颗”数学炸弹”,发布了一个在形式逻辑方面可与专有巨头相媲美的开源模型。
Anthropic 悄然而坚定地在企业平台上部署了 Claude Opus 4.5。
而 AWS 在为其大型 re:Invent 会议做准备时,发布了面向智能体未来的关键可观测性工具。

本周的信息很明确:AI 正在从”生成文本”转向”验证真相”和”管理复杂工作流”。


🔹 DeepSeek Math-V2:自我验证突破推理天花板

来源:DeepSeek / Simon Willison
👉 分析:https://simonwillison.net/2025/Nov/27/deepseek-math-v2/

  • 11月27日 发布,DeepSeek Math-V2 采用了一种新颖的**“自我验证”**机制,允许模型在最终确定答案之前批判自己的推理步骤。
  • 基准测试突破: 该模型在 IMO 2025 基准测试中达到了金牌级别的表现,在 Putnam 竞赛集上得分 118/120,有效解决了困扰 GPT-5 的问题。
  • 开源: 在一个令业界惊讶的举动中,模型权重在 Apache 2.0 许可下发布,巩固了 DeepSeek 作为”开源灯塔”的声誉。
  • 效率: 与大型通用模型不同,Math-V2 证明了在形式语言和证明验证上的专业训练可以在逻辑任务上超越更大的模型。

DeepSeek Math-V2 表明,**系统2思维(慢速推理)**正在成为一个可解决的工程问题,即使是本地开发者也可以访问。


🔹 Claude Opus 4.5:企业主力军扩展

来源:Google Cloud / Anthropic 👉 Google Cloud 发布:https://docs.cloud.google.com/vertex-ai/generative-ai/docs/partner-models/claude
👉 Windsurf 更新日志:https://windsurf.com/changelog

  • Claude Opus 4.511月24日 正式发布,同时在 Anthropic 的 API 和 Google Vertex AI 上推出。
  • 该模型被定位为”可靠性之王”,早期报告称其在遵循复杂的多页合规指令方面有显著改进,且不会出现幻觉。
  • IDE 集成: 智能体优先的编辑器 Windsurf11月21日 更新其核心以支持 Opus 4.5,称其为”深度架构重构”任务的首选模型。
  • 虽然不如 Gemini 3 的消费者功能”炫目”,但 Opus 4.5 巩固了 Anthropic 在高信任企业领域的地位。

Claude Opus 4.5 不是关于速度;而是关于关键业务逻辑的保证执行


🔹 AWS AgentCore 可观测性:可视化智能体网格

来源:AWS 👉 AWS 新闻博客:https://aws.amazon.com/blogs/mt/2025-top-10-announcements-for-aws-cloud-operations/

  • 就在 re:Invent 2025 前几天,AWS 于 11月26日 发布了 Amazon CloudWatch 的生成式 AI 可观测性AgentCore
  • 智能体追踪: 开发者现在可以端到端追踪”智能体工作流”,可视化 AI 智能体如何调用工具、访问数据库以及在分布式系统中处理错误。
  • 模型无关: 该系统支持 LangChain、LangGraph 和 CrewAI,承认未来的开发涉及在 AWS 基础设施上编排开源框架。
  • 无需插桩的发现: 新的”应用程序地图”自动发现服务依赖关系,允许运维团队查看其 AI 智能体正在访问哪些 API,而无需手动标记。

AWS 正在发出信号:AI 智能体不再只是玩具——它们是生产工作负载,需要与微服务相同的监控严格性。


🔹 每周快照:验证层

  • 逻辑 → DeepSeek Math-V2 证明开源模型现在可以在专业领域”检查自己的工作”,比人类做得更好。
  • 可靠性 → Claude Opus 4.5 为长上下文企业任务带来稳定性。
  • 可见性 → AWS AgentCore 确保当这些智能模型开始自主行动时,我们实际上可以看到它们在做什么。

行业正在从**“看看这个 AI 能写什么”成熟到”看看我们如何信任和监控这个 AI 的思考。”**


🔹 给开发者的两个建议

  • 尝试”自我验证”提示。 DeepSeek 的成功来自其内部的”批判”步骤。尝试更新你的提示工程,要求你的模型在输出最终代码之前**“生成证明、批判它,然后修复它”**。这种”系统2”流程被证明在复杂逻辑方面更优越。

  • 现在就为你的智能体添加监控。 随着 AWS 推出 AgentCore 可观测性,“生产 AI”的标准已经提高。如果你正在构建智能体,停止依赖 print 语句。开始使用**追踪工具(如 LangSmith 或 AWS X-Ray)**来可视化你的智能体的决策循环,在它们在生产中陷入循环之前