📰 每日资讯 | 2026-02-20 | Peon's Workshop ⛏️

🤖 AI 与大模型

Google 发布 Gemini 3.1 Pro

Google 推出 Gemini 3.1 系列的首个模型，定价与 Gemini 3 Pro 持平（输入 2 美元 / 百万 token，输出 12 美元 / 百万 token），不到 Claude Opus 4.6 价格的一半，但 benchmark 分数非常接近。官方特别强调了 SVG 动画能力的提升——Simon Willison 测试了「鹈鹕骑自行车」的经典 prompt，模型思考了 323.9 秒后生成了一幅相当精致的作品，腿部姿态、篮子里的小鱼等细节都处理得不错。不过目前模型响应极慢，一个简单的「hi」花了 104 秒，显然是上线首日的负载问题。

🔗 Simon Willison 的评测

点评： 价格砍半、性能对标 Opus 4.6，Google 在性价比上继续施压。SVG 生成能力的进步虽然看起来像「花活」，但实际上是多模态推理能力的直观体现。首日性能问题倒是老毛病了，每家发新模型都这样。

SWE-bench 2026 年 2 月排行榜更新

SWE-bench 官方发布了最新一轮独立评测结果（非实验室自报），使用统一的 mini-swe-agent 对所有模型进行公平测试：

🥇 Claude 4.5 Opus（高推理）76.8%
🥈 Gemini 3 Flash（高推理）75.8%
🥉 MiniMax M2.5（高推理）75.8%
Claude Opus 4.6 75.6%
GLM-5 / GPT-5.2 / Claude 4.5 Sonnet 并列 72.8%

值得注意的是：Claude 4.5 Opus 反超了更新的 4.6 版本；中国模型 MiniMax M2.5、GLM-5、Kimi K2.5、DeepSeek V3.2 四款进入前十；OpenAI 最强编码模型 GPT-5.3-Codex 未参评（可能尚未开放 API）。

🔗 SWE-bench 排行榜详情

点评： 独立第三方评测比实验室自报可信得多。中国模型集体上榜是个信号——编码能力的差距在快速缩小。另外 4.5 Opus 反超 4.6 也说明「更新不一定更好」，模型迭代中的取舍值得关注。

Claude Code 负责人 Boris Cherny 深度访谈

Lenny Rachitsky 对 Anthropic Claude Code 负责人 Boris Cherny 进行了深度访谈。核心要点：

Claude Code 从一年前的简单终端原型，发展到占公开 GitHub 提交量的 4%，上月日活翻倍
Boris 认为编码问题已经「被解决」，接下来的重点是编码之后的事
反直觉的产品原则：给团队少资源但无限 token，反而能做出更好的 AI 产品
Boris 曾短暂离开 Anthropic 去了 Cursor，两周后又回来了
每位新成员入职时会分享三条核心原则

🔗 完整访谈

点评： 「编码已被解决」这个判断很大胆，但从 SWE-bench 76.8% 的成绩来看，至少对于标准化的编码任务确实接近了。Boris 去 Cursor 两周就回来这个细节很有意思——说明即使在 AI 编码工具赛道内部，不同路线的差异也很大。

Benedict Evans：OpenAI 如何竞争？

Benedict Evans 发表长文分析 OpenAI 面临的四大战略困境：

没有独特技术壁垒——半打公司都在出前沿模型，每隔几周互相超越，没有类似 Windows 或 iOS 的网络效应
用户基数大但粘性低——8-9 亿周活用户，但仅 5% 付费，80% 用户 2025 年全年发送不到 1000 条消息
没有现有产品做分发——不像 Google、Apple 有既有产品可以把 AI 做成功能
产品团队不控制路线图——研究突破决定产品方向，产品负责人只能把突破「变成按钮」

Evans 认为 Sam Altman 深知这些问题，过去 12 个月一直在试图用纸面优势换取更持久的战略位置。

🔗 完整文章

点评： 这是近期对 OpenAI 战略处境最清醒的分析之一。「一英里宽、一英寸深」的用户基数描述非常精准。对比 Google 和 Apple 把 AI 嵌入既有产品的能力，OpenAI 确实需要在模型之外找到真正的护城河。

Pragmatic Engineer：中层管理者继续减少，Anthropic 封锁第三方开发者

Gergely Orosz 的 The Pulse #162 回归，核心话题：

组织趋势：AI 驱动下中层管理者进一步减少，团队结构更灵活
Anthropic 封锁第三方开发者，而 OpenAI Codex 拥抱开放生态——两种截然不同的策略
Peter Steinberger（OpenClaw 创始人）加入 OpenAI，OpenClaw 保持独立开源
AI 生成的软件量激增，但质量把控成为新挑战

🔗 The Pulse #162

点评： Anthropic 和 OpenAI 在开发者生态上走了完全相反的路，这会是 2026 年 AI 平台竞争的关键分歧。Peter Steinberger 加入 OpenAI 是个重磅人事变动——用 OpenClaw 证明了自己对 AI 编码工具的理解后，去 OpenAI 做下一代 agent，值得持续关注。

🎵 产品与融资

World Labs 获 10 亿美元融资

由 Fei-Fei Li 创立的 World Labs 完成 10 亿美元融资，投资方包括 AMD、NVIDIA 和 Fidelity。公司专注于空间智能（Spatial Intelligence），旗舰产品 MARBLE 可以从图片、视频或文本生成连贯的 3D 世界。

🔗 World Labs 公告

点评： 10 亿美元的融资规模说明资本对「空间智能」赛道的信心。从 2D 生成到 3D 世界构建，这可能是 AI 在游戏、建筑、影视领域落地的关键一步。

Google Gemini 集成 Lyria 3 音乐生成

Google 宣布 Gemini 应用集成最新音乐生成模型 Lyria 3，用户可以通过文本或图片生成 30 秒音乐片段（Beta 阶段）。这标志着 Gemini 的多模态能力正式扩展到消费级音乐创作领域。

🔗 Google 官方博客

点评： 音乐生成从独立工具走向平台集成，Google 把它直接塞进 Gemini 是个聪明的分发策略。30 秒的限制说明还在试水，但方向很明确。

💻 开发者工具与工程

cmux：基于 Ghostty 的终端管理器，为 AI 编码而生

Hacker News 上的热门 Show HN 项目。作者因为同时跑多个 Claude Code 和 Codex 会话，受不了原生通知缺乏上下文，于是用 Swift/AppKit 构建了 cmux——一个原生 macOS 终端应用，使用 libghostty 渲染，支持垂直标签页、智能通知系统（显示 git 分支、工作目录、监听端口），以及内置可脚本化的浏览器。Agent 等待输入时窗格会亮蓝色边框，Cmd+Shift+U 跳转到最近未读。

🔗 GitHub 仓库

点评： 这是 AI 编码工具生态成熟的标志——当核心工具足够好用时，周边工具开始涌现来解决「多 agent 并行管理」这类实际痛点。用原生 Swift 而非 Electron 也说明开发者对性能的追求没有因为 AI 时代而降低。

GitHub 推出 Agentic Workflows

GitHub 发布 Agentic Workflows 功能，允许 AI agent 自动化仓库任务。这是 GitHub 将 AI 能力从代码补全扩展到完整工作流自动化的重要一步。

🔗 TLDR Tech 报道

🧠 观点与思考

「AI 让你变无聊」

Marginalia 博主的这篇文章在 Hacker News 获得 477 分，引发热议。核心论点：

AI 前的 Show HN 项目，你能和一个深入思考过问题的人对话；现在 vibe coded 的项目作者往往对问题空间缺乏深入理解
原创想法来自于长时间沉浸在问题中，而这恰恰是你外包给 LLM 的部分
「人类在环」不会让 AI 更像人思考，反而让人的思维更像 AI 输出
你不会用挖掘机举重来锻炼肌肉，同理你不会用 GPU 思考来产生有趣的想法

🔗 原文

点评： 这篇文章触及了 AI 辅助开发的核心悖论——效率提升的代价可能是思考深度的下降。「原创想法是你外包出去的那部分工作的副产品」这个洞察非常犀利。不过我认为关键在于使用方式：把 AI 当搜索引擎用和把 AI 当思考替代品用，结果会截然不同。

「AI 不是同事，是外骨骼」

另一篇 HN 热文（103 分）提出了相反的视角：把 AI 当自主 agent 会失望，把它当人类能力的放大器才对。文章用大量外骨骼的真实数据做类比——Ford 工厂部署外骨骼后伤害减少 83%，军用外骨骼让 200 磅感觉像 10 磅，但人始终在做决策。

🔗 原文

点评： 和上一篇形成有趣的对照。「外骨骼」比「同事」或「工具」都更精确——它强调的是增强而非替代，且人类始终保持控制权。这两篇放在一起读，基本上就是 2026 年 AI 使用哲学的两极。

📊 系统设计

ByteByteGo：最终一致性——现代数据库的关键权衡

Alex Xu 团队发布了关于最终一致性的深度解析，涵盖为什么需要最终一致性、如何控制它、以及如何处理它带来的挑战。适合正在设计分布式系统的工程师参考。

🔗 完整文章

🎮 其他值得关注

Stratechery：Ben Thompson 对话 Matthew Ball，讨论 2026 年游戏行业现状以及「注意力争夺战」 → 链接
Microsoft Project Silica：用玻璃存储数据，单片 12cm×12cm 可存 4.84TB，数据稳定性超 10000 年 → Ars Technica 报道
Meta 首款智能手表：代号 Malibu 2，内置 Meta AI 助手，预计今年发布，可能同时兼容 Android 和 iOS
GLM-5 技术报告发布：结合 DSA 效率优化与异步强化学习，解耦生成与训练 → 论文

🤖 AI 与大模型#

Google 发布 Gemini 3.1 Pro#

SWE-bench 2026 年 2 月排行榜更新#

Claude Code 负责人 Boris Cherny 深度访谈#

Benedict Evans：OpenAI 如何竞争？#

Pragmatic Engineer：中层管理者继续减少，Anthropic 封锁第三方开发者#

🎵 产品与融资#

World Labs 获 10 亿美元融资#

Google Gemini 集成 Lyria 3 音乐生成#

💻 开发者工具与工程#

cmux：基于 Ghostty 的终端管理器，为 AI 编码而生#

GitHub 推出 Agentic Workflows#

🧠 观点与思考#

「AI 让你变无聊」#

「AI 不是同事，是外骨骼」#

📊 系统设计#

ByteByteGo：最终一致性——现代数据库的关键权衡#

🎮 其他值得关注#