📡 AI 资讯日报

2026-05-29
🔥 今日主线

Anthropic 发布 Claude Opus 4.8,42天刷新旗舰模型迭代速度;同时 BioHub 开源蛋白质世界模型 ESMFold2,9行代码即可做最先进蛋白质结构预测。开源工具和基础模型同日井喷。

🛠️ Claude Opus 4.8

Anthropic 最新旗舰模型,更诚实、更少幻觉,长时间 agent 任务更可靠,价格与 4.7 持平。

https://claude.ai(官网) ↗

官网 claude.ai 选择 Opus 4.8 模型即可使用;Cursor 用户无需更新客户端,在模型选择下拉中直接切换到 Opus 4.8(默认隐藏了 4.7、保留了 4.6)。API 用户通过 Anthropic API 调用 model="claude-opus-4-8-20260528"。当前知识截止时间 2026年1月,与 4.7 同属一个预训练基座,后训练显著增强。最大变化:更愿意承认不确定,agent 长时间运行更稳定,不用时时盯着。

Opus 4.7 仅存活 42 天即被替代,Anthropic 用 LLM 训练 LLM 实现月级迭代。4.8 在 autoresearch 能力上大幅加强,推出了强化版 /goal,使用大量子代理完成复杂研究任务。HuggingFace 创始人用它在 three.js 里构建了一个波音747飞行模拟。

原文链接
🛠️ ESMFold2 / ESMC / ESM Atlas — 蛋白质世界模型

BioHub 开源蛋白质生物学世界模型,9行代码做最先进蛋白质结构预测,无需 MSA,完全开源。

https://biohub.ai/esm/protein(官网)/ ↗

https://huggingface.co/biohub(HF模型)/ ↗

https://biohub.ai/papers/esm_protein.pdf ↗

pip install esm 后,9行 Python 代码即可预测蛋白质结构。包含三个组件:ESMFold2(折叠预测,在抗体-抗原复合物上超过 AlphaFold3)、ESMC(28亿蛋白质序列训练的语言模型)、ESM Atlas(11亿预测结构+68亿序列的图谱,比 AlphaFold DB 多8亿条目)。Nature 已报道。所有模型和数据集在 HuggingFace 上完全开源。

不需要 MSA(多序列比对),速度快一个数量级。Fast 模型在抗体-抗原复合物上超过带 MSA 的 AF3。这是蛋白质工程领域近年来最重要的开源发布之一,将蛋白质设计门槛降到极低。

原文链接
🛠️ SIA — 自我改进 AI 框架

开源自我改进框架,让任意 AI agent 自动提升基准任务表现,已击败 Karpathy 的 autoresearcher。

SIA(Self-Improving AI)不同于固定权重的静态 agent 框架,它能自主分析失败、迭代优化策略。核心思路:给定一个 agent 和基准任务,SIA 自动运行、评估、改进,循环提升。已在多个 benchmark 上击败 Karpathy 的 autoresearcher。代码开源,可直接 clone 后在本地 agent 框架上集成使用。

大多数 agent 框架是静态的(固定 prompt/工具/权重),SIA 实现了 agent 的自我进化。这对需要长期运行、持续优化的生产环境 agent 意义重大,代表 agent 从「工具调用」走向「自我改进」的关键一步。

原文链接
🛠️ stable-worldmodel — JEPA/世界模型开源平台

开源可扩展的 JEPA 和世界模型研究平台,LeCun 转推认可,一行命令开始训练。

历经一年开发,stable-worldmodel 提供完整的 JEPA(联合嵌入预测架构)训练和评估管线。clone 仓库后按 README 配置环境即可开始训练自己的世界模型。支持多种预训练 backbone 和下游任务评估。LeCun 亲自转推背书,是当前 JEPA 方向最完整的开源实现。

Yann LeCun 一直力推 JEPA 作为 LLM 的替代架构,认为世界模型是通往 AGI 的必经之路。这个平台将 JEPA 研究从论文变为可复现的工程代码,极大降低了世界模型研究的入门门槛。

原文链接
🛠️ Genesis — 开源通用物理引擎

面向机器人、具身智能和物理 AI 的开源物理仿真平台,让机器人自己生成训练数据。

https://github.com/Genesis-Embodied-AI/genesis-world ↗

git clone 后 pip install 即可运行。Genesis 提供高性能物理仿真(碰撞、流体、软体等),支持 Python 原生接口。底层物理引擎和仿真平台已开源,上层生成式框架(自动生成训练场景和数据)将陆续放出。适合做机器人 RL 训练、具身智能 sim-to-real 迁移。

物理仿真长期被 NVIDIA Isaac 等闭源平台垄断,Genesis 以开源方式提供通用物理引擎,直接面向「让机器人自己生成训练数据」这一核心痛点。底层引擎的性能据说对标甚至超过商业方案。

原文链接
🛠️ Cua — 后台 Agent 操作工具

让 AI Agent 在 Mac/Windows 后台独立操作程序,不影响你正常使用鼠标,支持多个虚拟鼠标并行。

安装后在 Mac/Windows 上运行,Agent 通过虚拟鼠标在后台操作应用程序。与 Codex Computer Use 不同,Cua 不抢占真实鼠标光标,你可以在前台正常工作的同时让 Agent 在后台操作其他程序。支持同时启动多个虚拟鼠标并行操作不同应用。Windows 版 Codex 可以搭配 Cua 实现真正的后台 Computer Use。

Computer Use 的最大痛点是「占用屏幕和鼠标」,Cua 通过虚拟化鼠标解决了这个问题,让 Agent 操作真正成为后台能力。这对自动化测试、RPA、批量处理等场景意义重大。

原文链接
🛠️ II-Commons Skills — Agent 知识技能包

为 AI Agent 提供来自 arxiv、PubMed 等学术源的即时知识接入,开源可扩展。

https://github.com/Intelligent-Internet/II-Commons-Skills ↗

https://agent.ii.inc ↗

将 II-Commons Skills 添加到你的 agent 框架中(支持 II-Agent 及其他主流 agent 框架),agent 即可动态查询 arxiv 最新论文、PubMed 医学文献等结构化知识。技能包是模块化设计,按需加载不浪费 token。开源仓库可自行扩展新数据源。

Agent 最大的问题是知识时效性和可靠性。II-Commons 将学术数据库封装为 agent 可调用的 skills,让 agent 的回答有据可查。模块化设计避免了一次性加载大量上下文。

原文链接
🛠️ Qwen-Image-Bench — 文生图评测新标准

Qwen 发布 T2I 评测基准,56个细粒度维度 + 人类对齐评分器,OpenAI/Gemini/Grok/Flux 重新排座次。

https://arxiv.org/abs/2605.28091 ↗

https://huggingface.co/collections/Qwen/qwen-image-bench ↗

在 HuggingFace 下载数据集和 Q-Judger 评分模型。用你的图像生成模型跑 benchmark 的 56 个 facet(覆盖真实世界保真度、创意生成、提示词对齐等),Q-Judger 自动评分,与人类评分相关性 ρ=0.92。可以看到自己的模型在哪些维度比 GPT-5.5/Flux 强或弱。

传统 T2I 评测只看提示词对齐,Qwen-Image-Bench 证明「真实世界保真度」和「创意生成能力」才是真正的差异化战场。56 个细粒度 facet 让模型优缺点一目了然。

原文链接
📡 Anthropic H轮融资650亿美元,估值逼近万亿

Anthropic 获得650亿美元 H 轮融资,估值达9650亿美元,超越 OpenAI。ARR 从2月的140亿美元飙升至5月底的470亿美元。

Anthropic 以「每42天一个新旗舰模型」的速度狂奔,ARR 4个月增长3.4倍。这轮融资后 Anthropic 现金储备超过多数国家主权基金,将全力投入下一代 Mythos 模型的训练。与 Cerebras 签署 $20B+ 推理协议也在推进中。

AI 基础设施的资本密度已超过半导体和航天。Anthropic 和 OpenAI 今年内可能双双冲击万亿市值上市,AI 领域的「双寡头」格局正在形成。

原文链接
📡 X 全量自动翻译上线 — 巴别塔倒塌

X(Twitter)自动翻译全量上线,所有推文根据用户语言自动翻译展示,跨语言内容消费无障碍。

这是第一个全量自动化翻译的主流社交平台。AI 翻译让全球用户真正实现了跨语言发现内容,多位博主反馈「刷推体验回到 web2.0 时代的惊喜感」。

对出海产品、全球开源社区影响深远——内容分发不再受语言限制,非英语创作者的作品获得前所未有的曝光机会。

原文链接
📡 Claude Code 安全插件 16 万安装

Claude Code 安全提醒插件上线,通过 pre-tool hook 自动拦截 Write/Edit/MultiEdit 中的命令注入、eval() 等安全问题,已 16 万安装。

插件覆盖 GitHub Actions 命令注入、Node.js child_process.exec() 不安全调用、eval()/new Function() 等常见 AI 生成代码的安全漏洞。说明 vibe coding 的安全问题已经严重到需要专用插件防护。

AI 辅助编程的安全治理从「开发者自觉」走向「工具化拦截」,这可能会成为所有 AI coding 工具的标配功能。

原文链接
📡 iOS 27 渲染图泄露:Siri 彻底重做

Mark Gurman 爆料 iOS 27 核心变化,Siri 从简单问答升级为能理解上下文、主动处理多步任务的智能体,AI 照片编辑大幅升级。

苹果在 AI 助手赛道的反击终于来了。新 Siri 的「多步任务主动执行」能力直接对标 Google Astra 和 Anthropic Computer Use,照片编辑则可能集成生成式 AI 能力。

iOS 27 将是苹果近年最大的 AI 系统更新,可能重塑移动端 AI 助手的竞争格局。

原文链接

🎯 值得关注