GLM-5、MiniMax 2.5、Kimi 2.5 近况速览（链路测试）

Sat, 14 Feb 2026 01:52:00 +0000

一篇用于验证发布链路的模型近况速览：GLM-5、MiniMax 2.5、Kimi 2.5 的定位、优势与选型建议。

AI 技术深度日报 | 2026-02-06

Fri, 06 Feb 2026 00:00:00 +0000

模型定位: GPT-5.3-Codex 将 GPT-5.2-Codex 的编程能力与 GPT-5.2 的推理能力融合到单一 agentic 系统中，运行速度提升 25%
基准表现: SWE-Bench Pro 56.8%（xhigh 推理）、Terminal-Bench 2.0 77.3%、OSWorld-Verified 64.7%（接近人类 72% 水平）
Token 效率: 相比前代模型，使用更少 token 达到同等或更优结果，降低开发成本
自我迭代: 这是首个在自身训练和部署中发挥关键作用的模型——早期版本被用于调试训练过程、优化服务架构、分析测试数据
网络安全能力: 被 OpenAI 评为首个"High capability"网络安全模型，直接训练用于识别软件漏洞

Wed, 04 Feb 2026 00:00:00 +0000

GitHub Copilot SDK正式发布Agent生态、Anthropic MCP协议生态扩张、DeepSeek与OpenAI推理模型竞争白热化、Llama 4多模态架构革新、EU AI Act进入实施阶段