📡 AI 资讯日报

🛠️ Claude Opus 4.8

一句话

Anthropic 最新旗舰模型，更诚实、更少幻觉，长时间 agent 任务更可靠，价格与 4.7 持平。

链接

怎么玩

官网 claude.ai 选择 Opus 4.8 模型即可使用；Cursor 用户无需更新客户端，在模型选择下拉中直接切换到 Opus 4.8（默认隐藏了 4.7、保留了 4.6）。API 用户通过 Anthropic API 调用 model="claude-opus-4-8-20260528"。当前知识截止时间 2026年1月，与 4.7 同属一个预训练基座，后训练显著增强。最大变化：更愿意承认不确定，agent 长时间运行更稳定，不用时时盯着。

为什么值得关注

Opus 4.7 仅存活 42 天即被替代，Anthropic 用 LLM 训练 LLM 实现月级迭代。4.8 在 autoresearch 能力上大幅加强，推出了强化版 /goal，使用大量子代理完成复杂研究任务。HuggingFace 创始人用它在 three.js 里构建了一个波音747飞行模拟。

应用场景

复杂代码项目的长周期 agent 开发
需要诚实度优先的研究分析任务

原文链接

@dotey 查看原文 ↗

🛠️ ESMFold2 / ESMC / ESM Atlas — 蛋白质世界模型

一句话

BioHub 开源蛋白质生物学世界模型，9行代码做最先进蛋白质结构预测，无需 MSA，完全开源。

链接

https://biohub.ai/esm/protein（官网）/ ↗

https://huggingface.co/biohub（HF模型）/ ↗

https://biohub.ai/papers/esm_protein.pdf ↗

怎么玩

pip install esm 后，9行 Python 代码即可预测蛋白质结构。包含三个组件：ESMFold2（折叠预测，在抗体-抗原复合物上超过 AlphaFold3）、ESMC（28亿蛋白质序列训练的语言模型）、ESM Atlas（11亿预测结构+68亿序列的图谱，比 AlphaFold DB 多8亿条目）。Nature 已报道。所有模型和数据集在 HuggingFace 上完全开源。

为什么值得关注

不需要 MSA（多序列比对），速度快一个数量级。Fast 模型在抗体-抗原复合物上超过带 MSA 的 AF3。这是蛋白质工程领域近年来最重要的开源发布之一，将蛋白质设计门槛降到极低。

应用场景

抗体药物设计和优化
新型酶/蛋白质的从头设计

原文链接

@ebetica 查看原文 ↗

🛠️ SIA — 自我改进 AI 框架

一句话

开源自我改进框架，让任意 AI agent 自动提升基准任务表现，已击败 Karpathy 的 autoresearcher。

怎么玩

SIA（Self-Improving AI）不同于固定权重的静态 agent 框架，它能自主分析失败、迭代优化策略。核心思路：给定一个 agent 和基准任务，SIA 自动运行、评估、改进，循环提升。已在多个 benchmark 上击败 Karpathy 的 autoresearcher。代码开源，可直接 clone 后在本地 agent 框架上集成使用。

为什么值得关注

大多数 agent 框架是静态的（固定 prompt/工具/权重），SIA 实现了 agent 的自我进化。这对需要长期运行、持续优化的生产环境 agent 意义重大，代表 agent 从「工具调用」走向「自我改进」的关键一步。

应用场景

生产环境 agent 的持续性能优化
复杂研究工作流的自动改进

原文链接

@Sumanth_077 查看原文 ↗

🛠️ stable-worldmodel — JEPA/世界模型开源平台

一句话

开源可扩展的 JEPA 和世界模型研究平台，LeCun 转推认可，一行命令开始训练。

怎么玩

历经一年开发，stable-worldmodel 提供完整的 JEPA（联合嵌入预测架构）训练和评估管线。clone 仓库后按 README 配置环境即可开始训练自己的世界模型。支持多种预训练 backbone 和下游任务评估。LeCun 亲自转推背书，是当前 JEPA 方向最完整的开源实现。

为什么值得关注

Yann LeCun 一直力推 JEPA 作为 LLM 的替代架构，认为世界模型是通往 AGI 的必经之路。这个平台将 JEPA 研究从论文变为可复现的工程代码，极大降低了世界模型研究的入门门槛。

应用场景

视频预测和物理世界模拟
机器人/自动驾驶的世界理解预训练

原文链接

@lucasmaes_ 查看原文 ↗

🛠️ Genesis — 开源通用物理引擎

一句话

面向机器人、具身智能和物理 AI 的开源物理仿真平台，让机器人自己生成训练数据。

链接

https://github.com/Genesis-Embodied-AI/genesis-world ↗

怎么玩

git clone 后 pip install 即可运行。Genesis 提供高性能物理仿真（碰撞、流体、软体等），支持 Python 原生接口。底层物理引擎和仿真平台已开源，上层生成式框架（自动生成训练场景和数据）将陆续放出。适合做机器人 RL 训练、具身智能 sim-to-real 迁移。

为什么值得关注

物理仿真长期被 NVIDIA Isaac 等闭源平台垄断，Genesis 以开源方式提供通用物理引擎，直接面向「让机器人自己生成训练数据」这一核心痛点。底层引擎的性能据说对标甚至超过商业方案。

应用场景

机器人强化学习训练的仿真环境
具身智能的 sim-to-real 数据生成

原文链接

@Gorden_Sun 查看原文 ↗

🛠️ Cua — 后台 Agent 操作工具

一句话

让 AI Agent 在 Mac/Windows 后台独立操作程序，不影响你正常使用鼠标，支持多个虚拟鼠标并行。

怎么玩

安装后在 Mac/Windows 上运行，Agent 通过虚拟鼠标在后台操作应用程序。与 Codex Computer Use 不同，Cua 不抢占真实鼠标光标，你可以在前台正常工作的同时让 Agent 在后台操作其他程序。支持同时启动多个虚拟鼠标并行操作不同应用。Windows 版 Codex 可以搭配 Cua 实现真正的后台 Computer Use。

为什么值得关注

Computer Use 的最大痛点是「占用屏幕和鼠标」，Cua 通过虚拟化鼠标解决了这个问题，让 Agent 操作真正成为后台能力。这对自动化测试、RPA、批量处理等场景意义重大。

应用场景

自动化 UI 测试和 RPA 流程
多任务并行自动化处理

原文链接

@Gorden_Sun 查看原文 ↗

🛠️ II-Commons Skills — Agent 知识技能包

一句话

为 AI Agent 提供来自 arxiv、PubMed 等学术源的即时知识接入，开源可扩展。

链接

https://github.com/Intelligent-Internet/II-Commons-Skills ↗

https://agent.ii.inc ↗

怎么玩

将 II-Commons Skills 添加到你的 agent 框架中（支持 II-Agent 及其他主流 agent 框架），agent 即可动态查询 arxiv 最新论文、PubMed 医学文献等结构化知识。技能包是模块化设计，按需加载不浪费 token。开源仓库可自行扩展新数据源。

为什么值得关注

Agent 最大的问题是知识时效性和可靠性。II-Commons 将学术数据库封装为 agent 可调用的 skills，让 agent 的回答有据可查。模块化设计避免了一次性加载大量上下文。

应用场景

科研 agent 实时文献检索和综述
医疗 agent 获取最新临床证据

原文链接

@ii_posts 查看原文 ↗

🛠️ Qwen-Image-Bench — 文生图评测新标准

一句话

Qwen 发布 T2I 评测基准，56个细粒度维度 + 人类对齐评分器，OpenAI/Gemini/Grok/Flux 重新排座次。

链接

https://arxiv.org/abs/2605.28091 ↗

https://huggingface.co/collections/Qwen/qwen-image-bench ↗

怎么玩

在 HuggingFace 下载数据集和 Q-Judger 评分模型。用你的图像生成模型跑 benchmark 的 56 个 facet（覆盖真实世界保真度、创意生成、提示词对齐等），Q-Judger 自动评分，与人类评分相关性 ρ=0.92。可以看到自己的模型在哪些维度比 GPT-5.5/Flux 强或弱。

为什么值得关注

传统 T2I 评测只看提示词对齐，Qwen-Image-Bench 证明「真实世界保真度」和「创意生成能力」才是真正的差异化战场。56 个细粒度 facet 让模型优缺点一目了然。

应用场景

图像生成模型的细粒度能力诊断
多模型对比选型

原文链接

@berryxia 查看原文 ↗

📡 Anthropic H轮融资650亿美元，估值逼近万亿

事件

Anthropic 获得650亿美元 H 轮融资，估值达9650亿美元，超越 OpenAI。ARR 从2月的140亿美元飙升至5月底的470亿美元。

解读

Anthropic 以「每42天一个新旗舰模型」的速度狂奔，ARR 4个月增长3.4倍。这轮融资后 Anthropic 现金储备超过多数国家主权基金，将全力投入下一代 Mythos 模型的训练。与 Cerebras 签署 $20B+ 推理协议也在推进中。

影响评估

AI 基础设施的资本密度已超过半导体和航天。Anthropic 和 OpenAI 今年内可能双双冲击万亿市值上市，AI 领域的「双寡头」格局正在形成。

原文链接

@xiaohu 查看原文 ↗

📡 X 全量自动翻译上线 — 巴别塔倒塌

事件

X（Twitter）自动翻译全量上线，所有推文根据用户语言自动翻译展示，跨语言内容消费无障碍。

解读

这是第一个全量自动化翻译的主流社交平台。AI 翻译让全球用户真正实现了跨语言发现内容，多位博主反馈「刷推体验回到 web2.0 时代的惊喜感」。

影响评估

对出海产品、全球开源社区影响深远——内容分发不再受语言限制，非英语创作者的作品获得前所未有的曝光机会。

原文链接

@xiaohu 查看原文 ↗

📡 Claude Code 安全插件 16 万安装

事件

Claude Code 安全提醒插件上线，通过 pre-tool hook 自动拦截 Write/Edit/MultiEdit 中的命令注入、eval() 等安全问题，已 16 万安装。

解读

插件覆盖 GitHub Actions 命令注入、Node.js child_process.exec() 不安全调用、eval()/new Function() 等常见 AI 生成代码的安全漏洞。说明 vibe coding 的安全问题已经严重到需要专用插件防护。

影响评估

AI 辅助编程的安全治理从「开发者自觉」走向「工具化拦截」，这可能会成为所有 AI coding 工具的标配功能。

原文链接

@vista8 查看原文 ↗

📡 iOS 27 渲染图泄露：Siri 彻底重做

事件

Mark Gurman 爆料 iOS 27 核心变化，Siri 从简单问答升级为能理解上下文、主动处理多步任务的智能体，AI 照片编辑大幅升级。

解读

苹果在 AI 助手赛道的反击终于来了。新 Siri 的「多步任务主动执行」能力直接对标 Google Astra 和 Anthropic Computer Use，照片编辑则可能集成生成式 AI 能力。

影响评估

iOS 27 将是苹果近年最大的 AI 系统更新，可能重塑移动端 AI 助手的竞争格局。

原文链接

@berryxia 查看原文 ↗ @seclink 查看原文 ↗ @arnal_charles 查看原文 ↗ @logic_int 查看原文 ↗ @shao__meng 查看原文 ↗ @HiTw93 查看原文 ↗ @appinn 查看原文 ↗ @vista8 查看原文 ↗ @seclink 查看原文 ↗

🎯 值得关注

Pi (pi-mono)：Armin Ronacher (Flask/Jinja2作者) 新作，54K stars 的 AI agent，系统 prompt 不到 1000 token，靠懒加载技能极致省 token →
ATLAS：Meta AI 发布史上最大数学形式化项目，25+教科书、50万行 Lean 4 代码，开源贡献 →
Aleph Prover：OpenAI 反证 Paul Erdős 平面单位距离问题的 Lean 4 形式化，开源可验证 →
howtoeval.com：2026 年生产环境 AI Agent 评估指南，提出 Benchmark-maxxer vs Floor-raiser 概念 →
Mole (mole.fit)：Tw93 的 Mac 守护 App，数百项改进规划中，精致安静 →
File Converter：右键转换/压缩文件的 Windows 工具，小众软件推荐 →
Anthropic Computer Use 最佳实践：官方发布 CU 操作指南，含分辨率匹配等关键避坑 →
WorkBuddy：中国 AI Agent 出海成功案例，分钟级生成网站/周报/PPT →