🤖 AI 与大模型

Google 发布 Gemini 3.1 Pro

Google 推出 Gemini 3.1 系列的首个模型,定价与 Gemini 3 Pro 持平(输入 2 美元 / 百万 token,输出 12 美元 / 百万 token),不到 Claude Opus 4.6 价格的一半,但 benchmark 分数非常接近。官方特别强调了 SVG 动画能力的提升——Simon Willison 测试了「鹈鹕骑自行车」的经典 prompt,模型思考了 323.9 秒后生成了一幅相当精致的作品,腿部姿态、篮子里的小鱼等细节都处理得不错。不过目前模型响应极慢,一个简单的「hi」花了 104 秒,显然是上线首日的负载问题。

🔗 Simon Willison 的评测

点评: 价格砍半、性能对标 Opus 4.6,Google 在性价比上继续施压。SVG 生成能力的进步虽然看起来像「花活」,但实际上是多模态推理能力的直观体现。首日性能问题倒是老毛病了,每家发新模型都这样。


SWE-bench 2026 年 2 月排行榜更新

SWE-bench 官方发布了最新一轮独立评测结果(非实验室自报),使用统一的 mini-swe-agent 对所有模型进行公平测试:

  • 🥇 Claude 4.5 Opus(高推理)76.8%
  • 🥈 Gemini 3 Flash(高推理)75.8%
  • 🥉 MiniMax M2.5(高推理)75.8%
  • Claude Opus 4.6 75.6%
  • GLM-5 / GPT-5.2 / Claude 4.5 Sonnet 并列 72.8%

值得注意的是:Claude 4.5 Opus 反超了更新的 4.6 版本;中国模型 MiniMax M2.5、GLM-5、Kimi K2.5、DeepSeek V3.2 四款进入前十;OpenAI 最强编码模型 GPT-5.3-Codex 未参评(可能尚未开放 API)。

🔗 SWE-bench 排行榜详情

点评: 独立第三方评测比实验室自报可信得多。中国模型集体上榜是个信号——编码能力的差距在快速缩小。另外 4.5 Opus 反超 4.6 也说明「更新不一定更好」,模型迭代中的取舍值得关注。


Claude Code 负责人 Boris Cherny 深度访谈

Lenny Rachitsky 对 Anthropic Claude Code 负责人 Boris Cherny 进行了深度访谈。核心要点:

  • Claude Code 从一年前的简单终端原型,发展到占公开 GitHub 提交量的 4%,上月日活翻倍
  • Boris 认为编码问题已经「被解决」,接下来的重点是编码之后的事
  • 反直觉的产品原则:给团队少资源但无限 token,反而能做出更好的 AI 产品
  • Boris 曾短暂离开 Anthropic 去了 Cursor,两周后又回来了
  • 每位新成员入职时会分享三条核心原则

🔗 完整访谈

点评: 「编码已被解决」这个判断很大胆,但从 SWE-bench 76.8% 的成绩来看,至少对于标准化的编码任务确实接近了。Boris 去 Cursor 两周就回来这个细节很有意思——说明即使在 AI 编码工具赛道内部,不同路线的差异也很大。


Benedict Evans:OpenAI 如何竞争?

Benedict Evans 发表长文分析 OpenAI 面临的四大战略困境:

  1. 没有独特技术壁垒——半打公司都在出前沿模型,每隔几周互相超越,没有类似 Windows 或 iOS 的网络效应
  2. 用户基数大但粘性低——8-9 亿周活用户,但仅 5% 付费,80% 用户 2025 年全年发送不到 1000 条消息
  3. 没有现有产品做分发——不像 Google、Apple 有既有产品可以把 AI 做成功能
  4. 产品团队不控制路线图——研究突破决定产品方向,产品负责人只能把突破「变成按钮」

Evans 认为 Sam Altman 深知这些问题,过去 12 个月一直在试图用纸面优势换取更持久的战略位置。

🔗 完整文章

点评: 这是近期对 OpenAI 战略处境最清醒的分析之一。「一英里宽、一英寸深」的用户基数描述非常精准。对比 Google 和 Apple 把 AI 嵌入既有产品的能力,OpenAI 确实需要在模型之外找到真正的护城河。


Pragmatic Engineer:中层管理者继续减少,Anthropic 封锁第三方开发者

Gergely Orosz 的 The Pulse #162 回归,核心话题:

  • 组织趋势:AI 驱动下中层管理者进一步减少,团队结构更灵活
  • Anthropic 封锁第三方开发者,而 OpenAI Codex 拥抱开放生态——两种截然不同的策略
  • Peter Steinberger(OpenClaw 创始人)加入 OpenAI,OpenClaw 保持独立开源
  • AI 生成的软件量激增,但质量把控成为新挑战

🔗 The Pulse #162

点评: Anthropic 和 OpenAI 在开发者生态上走了完全相反的路,这会是 2026 年 AI 平台竞争的关键分歧。Peter Steinberger 加入 OpenAI 是个重磅人事变动——用 OpenClaw 证明了自己对 AI 编码工具的理解后,去 OpenAI 做下一代 agent,值得持续关注。


🎵 产品与融资

World Labs 获 10 亿美元融资

由 Fei-Fei Li 创立的 World Labs 完成 10 亿美元融资,投资方包括 AMD、NVIDIA 和 Fidelity。公司专注于空间智能(Spatial Intelligence),旗舰产品 MARBLE 可以从图片、视频或文本生成连贯的 3D 世界。

🔗 World Labs 公告

点评: 10 亿美元的融资规模说明资本对「空间智能」赛道的信心。从 2D 生成到 3D 世界构建,这可能是 AI 在游戏、建筑、影视领域落地的关键一步。

Google Gemini 集成 Lyria 3 音乐生成

Google 宣布 Gemini 应用集成最新音乐生成模型 Lyria 3,用户可以通过文本或图片生成 30 秒音乐片段(Beta 阶段)。这标志着 Gemini 的多模态能力正式扩展到消费级音乐创作领域。

🔗 Google 官方博客

点评: 音乐生成从独立工具走向平台集成,Google 把它直接塞进 Gemini 是个聪明的分发策略。30 秒的限制说明还在试水,但方向很明确。


💻 开发者工具与工程

cmux:基于 Ghostty 的终端管理器,为 AI 编码而生

Hacker News 上的热门 Show HN 项目。作者因为同时跑多个 Claude Code 和 Codex 会话,受不了原生通知缺乏上下文,于是用 Swift/AppKit 构建了 cmux——一个原生 macOS 终端应用,使用 libghostty 渲染,支持垂直标签页、智能通知系统(显示 git 分支、工作目录、监听端口),以及内置可脚本化的浏览器。Agent 等待输入时窗格会亮蓝色边框,Cmd+Shift+U 跳转到最近未读。

🔗 GitHub 仓库

点评: 这是 AI 编码工具生态成熟的标志——当核心工具足够好用时,周边工具开始涌现来解决「多 agent 并行管理」这类实际痛点。用原生 Swift 而非 Electron 也说明开发者对性能的追求没有因为 AI 时代而降低。

GitHub 推出 Agentic Workflows

GitHub 发布 Agentic Workflows 功能,允许 AI agent 自动化仓库任务。这是 GitHub 将 AI 能力从代码补全扩展到完整工作流自动化的重要一步。

🔗 TLDR Tech 报道


🧠 观点与思考

「AI 让你变无聊」

Marginalia 博主的这篇文章在 Hacker News 获得 477 分,引发热议。核心论点:

  • AI 前的 Show HN 项目,你能和一个深入思考过问题的人对话;现在 vibe coded 的项目作者往往对问题空间缺乏深入理解
  • 原创想法来自于长时间沉浸在问题中,而这恰恰是你外包给 LLM 的部分
  • 「人类在环」不会让 AI 更像人思考,反而让人的思维更像 AI 输出
  • 你不会用挖掘机举重来锻炼肌肉,同理你不会用 GPU 思考来产生有趣的想法

🔗 原文

点评: 这篇文章触及了 AI 辅助开发的核心悖论——效率提升的代价可能是思考深度的下降。「原创想法是你外包出去的那部分工作的副产品」这个洞察非常犀利。不过我认为关键在于使用方式:把 AI 当搜索引擎用和把 AI 当思考替代品用,结果会截然不同。

「AI 不是同事,是外骨骼」

另一篇 HN 热文(103 分)提出了相反的视角:把 AI 当自主 agent 会失望,把它当人类能力的放大器才对。文章用大量外骨骼的真实数据做类比——Ford 工厂部署外骨骼后伤害减少 83%,军用外骨骼让 200 磅感觉像 10 磅,但人始终在做决策。

🔗 原文

点评: 和上一篇形成有趣的对照。「外骨骼」比「同事」或「工具」都更精确——它强调的是增强而非替代,且人类始终保持控制权。这两篇放在一起读,基本上就是 2026 年 AI 使用哲学的两极。


📊 系统设计

ByteByteGo:最终一致性——现代数据库的关键权衡

Alex Xu 团队发布了关于最终一致性的深度解析,涵盖为什么需要最终一致性、如何控制它、以及如何处理它带来的挑战。适合正在设计分布式系统的工程师参考。

🔗 完整文章


🎮 其他值得关注

  • Stratechery:Ben Thompson 对话 Matthew Ball,讨论 2026 年游戏行业现状以及「注意力争夺战」 → 链接
  • Microsoft Project Silica:用玻璃存储数据,单片 12cm×12cm 可存 4.84TB,数据稳定性超 10000 年 → Ars Technica 报道
  • Meta 首款智能手表:代号 Malibu 2,内置 Meta AI 助手,预计今年发布,可能同时兼容 Android 和 iOS
  • GLM-5 技术报告发布:结合 DSA 效率优化与异步强化学习,解耦生成与训练 → 论文