<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>LLM on 碳基人的小站</title>
    <link>https://crossthewall.org/tags/llm/</link>
    <description>Recent content in LLM on 碳基人的小站</description>
    <generator>Hugo -- 0.146.5</generator>
    <language>zh-cn</language>
    <lastBuildDate>Sat, 14 Feb 2026 01:52:00 +0000</lastBuildDate>
    <atom:link href="https://crossthewall.org/tags/llm/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>GLM-5、MiniMax 2.5、Kimi 2.5 近况速览（链路测试）</title>
      <link>https://crossthewall.org/posts/2026-02-14-glm5-minimax25-kimi25-status-test/</link>
      <pubDate>Sat, 14 Feb 2026 01:52:00 +0000</pubDate>
      <guid>https://crossthewall.org/posts/2026-02-14-glm5-minimax25-kimi25-status-test/</guid>
      <description>一篇用于验证发布链路的模型近况速览：GLM-5、MiniMax 2.5、Kimi 2.5 的定位、优势与选型建议。</description>
    </item>
    <item>
      <title>AI 技术深度日报 | 2026-02-06</title>
      <link>https://crossthewall.org/posts/2026-02-06-ai-digest/</link>
      <pubDate>Fri, 06 Feb 2026 00:00:00 +0000</pubDate>
      <guid>https://crossthewall.org/posts/2026-02-06-ai-digest/</guid>
      <description>&lt;h2 id=&#34;-今日-ai-前沿动态&#34;&gt;📰 今日 AI 前沿动态&lt;/h2&gt;
&lt;hr&gt;
&lt;h3 id=&#34;1-openai-发布-gpt-53-codex统一编程与专业推理的-agentic-模型&#34;&gt;1. OpenAI 发布 GPT-5.3-Codex：统一编程与专业推理的 Agentic 模型&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;来源&lt;/strong&gt;: &lt;a href=&#34;https://openai.com/index/introducing-gpt-5-3-codex/&#34;&gt;OpenAI 官方博客&lt;/a&gt; | &lt;a href=&#34;https://www.marktechpost.com/2026/02/05/openai-just-launched-gpt-5-3-codex-a-faster-agentic-coding-model-unifying-frontier-code-performance-and-professional-reasoning-into-one-system/&#34;&gt;MarkTechPost&lt;/a&gt;&lt;/p&gt;
&lt;h4 id=&#34;核心要点&#34;&gt;核心要点：&lt;/h4&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;模型定位&lt;/strong&gt;: GPT-5.3-Codex 将 GPT-5.2-Codex 的编程能力与 GPT-5.2 的推理能力融合到单一 agentic 系统中，运行速度提升 25%&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;基准表现&lt;/strong&gt;: SWE-Bench Pro 56.8%（xhigh 推理）、Terminal-Bench 2.0 77.3%、OSWorld-Verified 64.7%（接近人类 72% 水平）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Token 效率&lt;/strong&gt;: 相比前代模型，使用更少 token 达到同等或更优结果，降低开发成本&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;自我迭代&lt;/strong&gt;: 这是首个在自身训练和部署中发挥关键作用的模型——早期版本被用于调试训练过程、优化服务架构、分析测试数据&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;网络安全能力&lt;/strong&gt;: 被 OpenAI 评为首个&amp;quot;High capability&amp;quot;网络安全模型，直接训练用于识别软件漏洞&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 id=&#34;技术影响分析&#34;&gt;技术影响分析：&lt;/h4&gt;
&lt;ul&gt;
&lt;li&gt;标志着编程 Agent 从&amp;quot;代码生成工具&amp;quot;进化为&amp;quot;全栈工作伙伴&amp;quot;，可执行研究、工具使用、复杂执行等长周期任务&lt;/li&gt;
&lt;li&gt;GDPval 70.9% 的胜率表明模型已具备处理 44 种职业典型工作任务的能力（制作演示文稿、电子表格、PRD 等）&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h3 id=&#34;2-anthropic-推出-claude-opus-46百万-token-上下文--agent-teams&#34;&gt;2. Anthropic 推出 Claude Opus 4.6：百万 Token 上下文 + Agent Teams&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;来源&lt;/strong&gt;: &lt;a href=&#34;https://techcrunch.com/2026/02/05/anthropic-releases-opus-4-6-with-new-agent-teams/&#34;&gt;TechCrunch&lt;/a&gt; | &lt;a href=&#34;https://venturebeat.com/technology/anthropics-claude-opus-4-6-brings-1m-token-context-and-agent-teams-to-take&#34;&gt;VentureBeat&lt;/a&gt; | &lt;a href=&#34;https://azure.microsoft.com/en-us/blog/claude-opus-4-6-anthropics-powerful-model-for-coding-agents-and-enterprise-workflows-is-now-available-in-microsoft-foundry-on-azure/&#34;&gt;Azure 博客&lt;/a&gt;&lt;/p&gt;</description>
    </item>
    <item>
      <title>AI 技术深度日报 | 2026-02-04</title>
      <link>https://crossthewall.org/posts/2026-02-04-ai-digest/</link>
      <pubDate>Wed, 04 Feb 2026 00:00:00 +0000</pubDate>
      <guid>https://crossthewall.org/posts/2026-02-04-ai-digest/</guid>
      <description>GitHub Copilot SDK正式发布Agent生态、Anthropic MCP协议生态扩张、DeepSeek与OpenAI推理模型竞争白热化、Llama 4多模态架构革新、EU AI Act进入实施阶段</description>
    </item>
  </channel>
</rss>
