📡 AI 资讯日报

2026-05-21
🔥 今日主线

Google I/O 2026 刷屏——Gemini 3.5 Flash 性能碾压自家 3.1 Pro、Gemini Omni 做 any2any 世界模型、Antigravity 2.0 正面硬刚 Codex。与此同时开源社区疯狂输出:Codex 增强插件、开源版 Claude Design、PaddleOCR 打通 HuggingFace 生态、端侧 TTS 模型跑167倍实时速度,今天的主题是「开源工具集体爆发 + Google 全力反扑」。

🛠️ Codex++ —— 给你的 Codex App 开挂

增强/魔改 Codex 客户端的开源插件,即使你用 API 登录也能解锁 Computer Use、Goal 指令、Chrome 风格顶部 Tab、任务完成声音提醒等功能

https://github.com/b-nnett/codex-plusplus ↗

克隆仓库后,把安装指令直接发给你的 Codex Agent:「Inspect & install this for me: https://github.com/b-nnett/codex-plusplus, tell me where you install it and send me the local path for me to add new tweaks.」Codex 会自动完成检查、安装和配置。安装后你可以:1)在 API 登录模式下使用 Computer Use 功能(原本仅限订阅用户);2)添加自定义 Goal 指令引导 Agent 行为;3)切换界面为 Chrome 顶部 Tab 布局;4)设置任务开始/完成的提示音。是重度 Codex 用户的必装增强包。

这是社区首次系统性地 Hack Codex 客户端,把官方限制的功能通过插件方式解锁出来。顶部 Tab 的多会话管理方案也很有争议——宝玉指出这可能带来内存占用问题,但这种「浏览器式」的 Agent App 交互确实是新方向

原文链接
🛠️ Open Design —— 开源版 Claude Design,接 Codex/Claude Code 就能做设计

140 套现成设计体系的开源设计工具,可搭配 Codex、Claude Code、Cursor Agent 让 AI 自动完成 UI 设计、生成页面、测试交互、迭代修改

https://github.com/nexu-io/open-design ↗

1)安装后选择一个 CLI Agent(推荐 Codex 或 Claude Code);2)打开 Open Design,告诉 Agent 你想做什么设计(比如「做一个 SaaS 登录页」);3)Agent 会在 Open Design 工作台里自动选择设计流程、填写 brief、生成页面、检查文件、测试交互;4)你可以直接丢一个参考网站 URL,它自动复刻风格。整个过程几乎不需要碰命令行,所有操作在可视化工作台完成。比单买 Claude Design $200/月划算太多。

这可能是目前最强的开源设计 Agent 方案。Tom Huang 团队实现了「人负责表达需求和判断方向,Agent 负责执行和迭代」的协作模式——设计从一次性生成变成了人+Agent 在同一环境里持续迭代的工作流。140 套设计体系覆盖了市面上几乎所有主流设计风格

原文链接
🛠️ Rodin Gen-2.5 —— 一张图生成高质量 3D 模型

上传一张图片即可生成千万级面数的 3D 资产,一键下载 obj/fbx/glb 源文件和贴图,直接导入 Blender/Maya/Unity 继续编辑

https://hyperhuman.deemos.com/rodin ↗

访问 Rodin 官网,上传任意产品图、角色图或概念图,等待几秒即可生成 3D 模型。下载格式包括 obj、fbx、glb 等主流 3D 格式,贴图资源也会一并打包。导入到 3D 软件后可以继续精修。向阳乔木体验后对比几年前在字节做 3D 虚拟人要协调建模师、绑骨师、贴图师的流程,感慨现在一张图就搞定。

Rodin Gen-2.5 号称全球首款实现千万级面数的 3D 生成模型。从图片到可直接用于生产环境的 3D 资产,这直接砍掉了传统 3D 建模的大量重复劳动。对独立开发者和小团队来说,3D 内容创作的门槛被大幅拉低

原文链接
🛠️ PaddleOCR 3.5 —— 打通 HuggingFace 生态,OCR 迎来 LLM 级推理

PaddleOCR 最新版支持 Transformers 作为推理后端,PP-OCRv5 和 PaddleOCR-VL 1.5 模型现在可以直接在 HuggingFace 上用,无需 PaddlePaddle 框架

https://github.com/PaddlePaddle/PaddleOCR ↗

pip install paddleocr 后,现在可以选择用 Transformers backend 推理。PP-OCRv5 做标准文字识别,PaddleOCR-VL 1.5 做视觉语言级别的文档理解。最重要的是模型直接托管在 HuggingFace Hub,可以用熟悉的 transformers 接口加载,不需要装 PaddlePaddle 全家桶。对于已有的 HuggingFace pipeline,切换成本极低。

PaddleOCR 一直是中文 OCR 的天花板,但之前绑定 PaddlePaddle 框架让很多开发者却步。这次打通 HuggingFace 生态意味着 PaddleOCR 终于融入了主流 ML 工具链——LLM 推理、模型微调、部署都变得简单。对于需要大量文档数字化、票据识别的场景,这是重大利好

原文链接
🛠️ Supertonic —— 端侧多语言 TTS,167 倍实时速度

完全本地运行的超快多语言 TTS 模型,ONNX Runtime 推理,6600 万参数,生成速度达到实时播放的 167 倍

下载模型通过 ONNX Runtime 在本地推理,支持多语言。适合集成到任何需要语音合成的应用里——因为它纯本地运行,零延迟、零成本、隐私安全。167 倍实时速度意味着生成 1 分钟语音只需要不到 0.4 秒。可在 MacBook 甚至移动设备上跑。

端侧 TTS 一直存在速度慢、音质差的问题。Supertonic 用仅 66M 参数做到了 167 倍实时速度,这在端侧 TTS 里是颠覆性的。结合 Gemma 4 等端侧 LLM,本地语音助手的产品体验将大幅提升——全离线、低延迟、免费

原文链接
🛠️ 乔帮主油猴脚本合集 —— 让微信/小红书/抖音支持截图粘贴

一套开源的 Tampermonkey 脚本,让微信、小红书、抖音网页版支持截图直接粘贴上传,外加 YouTube 字幕复制下载、小宇宙倍速调节

https://github.com/joeseesun/qiaomu-userscripts ↗

装好 Tampermonkey 浏览器插件后,在 GreasyFork 或直接从 GitHub 安装这些脚本。主要功能:1)微信/小红书/抖音网页版——截图后 Ctrl+V 直接粘贴上传图片(这些平台原生不支持粘贴);2)YouTube——一键复制/下载字幕,支持倍速调节,一键发送字幕到 ChatGPT 或 NotebookLM 处理;3)小宇宙网页版——倍速播放调整。全部即装即用,零配置。

2026 年了微信/小红书/抖音居然还不支持粘贴图片上传,这套脚本解决的就是这些「反人类」的产品设计。乔帮主出品质量有保证,一套脚本覆盖日常内容创作的多个痛点——截图分享、字幕处理、播客收听,搭配 Raycast AI 等工具能形成高效的内容创作工作流

原文链接
🛠️ Draw Things + Flux.2 —— iPad 上跑开源生图模型

开源 iOS/macOS 生图 App Draw Things 最新版开始支持 Flux.2,iPad 本地跑高质量文生图不再鸡肋

在 iPad 或 Mac App Store 下载 Draw Things,免费开源。加载 Flux.2 模型(首次需下载模型文件),然后就像用 Stable Diffusion 一样输入提示词生成图片。因为是本地推理,图片完全私密、无限生成、零费用。对新版 iPad Pro/Mac 的 Apple Silicon 优化得很好。

Draw Things 之前虽然支持 SD 系列模型但质量一般,Flux.2 是目前最强的开源文生图模型之一,这次集成让 iPad 从「随便玩玩」变成了可用的移动端 AI 生图工作站。对于需要随时随地快速出图的设计师和创作者来说,iPad + Draw Things + Flux.2 是一个很棒的组合

原文链接
🛠️ 豆包输入法 Mac 版 —— AI 时代的 Mac 中文输入法

字节出品的 Mac 中文输入法,中英文混合输入、专业名词识别、语音+键盘联动,准确率和响应速度碾压竞品

下载安装后切换为豆包输入法,支持拼音、语音双模式。最大亮点是中英文混合输入——不需要切换输入法就能中英混打(比如「我刚用 Codex 跑了一个 Pipeline」不打乱码)。语音输入和键盘输入可以联动:说一段话自动转文字,然后键盘微调修改。歸藏用了几天表示「已经离不开了」,Orange 也发现语音+键盘联动能 1+1>2。

Mac 上一直没有好用的国产 AI 输入法(搜狗广告多、讯飞体验一般),豆包填补了这个空白。核心优势是 AI 驱动的上下文理解和专业名词识别——对技术写作、中英混排场景特别友好。字节把 AI 能力注入了最基础的人机交互环节

原文链接
🛠️ 美团龙猫大模型 —— 每天免费 5500 万 Token

美团推出龙猫大模型,注册即送每天 5500 万 token 免费额度,适合做大量推理任务

注册美团龙猫大模型平台,即可免费使用每天 5500 万 token 的推理额度。适合批量文本处理、数据清洗、RAG 索引构建等 token 消耗量大的场景。API 兼容 OpenAI 格式,改个 endpoint 就能接入。

5500 万 token/天在免费额度里极其慷慨(对比 OpenAI 免费额度每月仅百万级),而且是日更的。这对个人开发者和学生来说可以覆盖几乎所有日常使用。美团此举可能是在 AI 领域卡位的信号

原文链接
🛠️ CommonGround Kernel —— 让多个 Agent 互相协作的开源框架

Intelligent Internet 开源的 Agent 协调内核,解决 Agent 之间无法移交任务、不能基于对方成果继续工作的问题

https://github.com/Intelligent-Internet/CommonGround/ ↗

在你的 Agent 工作流中集成 CommonGround Kernel,不同 Agent 可以共享工作上下文、协调任务、互相交接。博客有详细的使用指南。如果你在搭建多 Agent 系统(比如一个 Agent 做调研、另一个做开发、再一个做测试),CommonGround 解决了它们之间的「记忆孤岛」问题。

多 Agent 协作是 2026 年 Agent 领域的核心挑战。目前主流的 Agent 框架(Codex、Claude Code、Cumora)各自为战,Agent 之间无法有效传递上下文。CommonGround 试图建立一个开放标准来解决这个问题,如果得到社区采纳,将是 Agent 生态的重要基础设施

原文链接
📡 Google I/O 2026:Gemini 3.5 Flash + Omni + Antigravity 2.0 三连击

Google 在 I/O 2026 发布 Gemini 3.5 Flash(性能超 Gemini 3.1 Pro 且更快更便宜)、Gemini Omni(any2any 原生多模态世界模型)、Antigravity 2.0(Agent-first 原生应用)、Gemini Spark(基于 Gemini 3.5 + Antigravity harness 的 Agent 产品)

Google 把过去半年的落后一口气追回来了。Gemini 3.5 Flash 在 Intelligence vs Speed 的 Pareto 前沿上把整个行业往前推了一大截——Intelligence Index 55 分,超过 Grok 4.3 和 Claude Sonnet 4。Gemini Omni 不是单纯的视频模型,而是音频/图像/视频/文本 any2any 的世界模型,Gorden Sun 实测后发现「错怪它了」。Antigravity 2.0 界面直接对标 Codex App,从「带 Agent Manager 的 IDE」走向「Agent-first 原生应用」。但 Nathan Clark 的吐槽也一针见血:Google 产品线太混乱,Gemini/Gemini Advanced/AI Pro/AI Ultra/Spark 傻傻分不清

Google 在模型能力上缩小了与 OpenAI/Anthropic 的差距,但产品矩阵的混乱仍是最大短板。Antigravity 能否挑战 Codex 尚不可知,但至少说明 Agent 原生应用的 UI 范式(侧边栏 + 对话 + 文件区)正在成为行业标准

原文链接
📡 OpenAI 即将 IPO

据《华尔街日报》报道,OpenAI 正在准备在未来几天或几周内申请首次公开募股(IPO)

这将是 AI 行业有史以来规模最大的 IPO。OpenAI 从非营利到「有限盈利」再到 IPO,商业化路径已经完全清晰。上市将为 OpenAI 带来巨额资金,但也意味着每个季度的财报压力——这对前沿研究投入可能形成约束。同时,IPO 也意味着 OpenAI 核心技术能力和财务数据的全面公开,竞争对手将获得前所未有的情报

AI 行业估值体系将被 OpenAI IPO 重塑。巨头们(Google、Meta、微软)可能加大投入以应对上市后的 OpenAI 的资本优势。创业公司则面临选边站或差异化竞争的压力。资本市场可能迎来一波 AI 概念股热潮

原文链接
📡 Andrej Karpathy 加入 Anthropic,Eureka Labs 关停

两年前离开 OpenAI 启动 AI 教育项目 Eureka Labs 的 Andrej Karpathy,正式宣布加入 Anthropic,Eureka Labs 账号锁推,AI 教育之旅就此告一段落

Karpathy 是 AI 社区最具影响力的教育者之一,他的 Neural Networks: Zero to Hero 系列教程影响了一代 AI 从业者。Eureka Labs 两年来迟迟没有实质性产品推出,这次关停侧面说明「AI+教育」的商业化路径仍然不清晰。加入 Anthropic 后,Karpathy 可能会在 Agent 安全、对齐、可解释性等方向发力

Anthropic 得到了一位顶级研究者和教育者,品牌加成巨大。AI 教育领域失去了一位最有号召力的旗手——Karpathy 的课从来不只是教技术,而是建立思维范式。对国内做 AI 教育的人来说,这可能是「天花板信号」

原文链接
📡 Midjourney 创始人后悔用 Google TPU:白白浪费一年

Midjourney 创始人暗示他们被 Google TPU 坑了,如果回到过去会从第一天起全部使用 Nvidia GPU,使用 TPU 导致研究进度落后了大约一年

这是 Midjourney 创始人在被问及「为什么 Midjourney 进展不够快」时的坦诚回应。TPU 虽然在理论性能上不输 GPU,但实际适配成本、工具链成熟度、调试难度都远不如 Nvidia CUDA 生态。对于需要快速迭代的研究型团队,生态成熟度远比硬件理论算力重要

这个案例会成为「TPU vs GPU」争论的经典注脚。Google 要想让更多团队选用 TPU,仅靠硬件性能不够,必须在开发者工具和生态建设上大幅投入。Nvidia 的护城河又一次被验证——不是硬件本身,而是 CUDA 生态 + 社区惯性

原文链接
📡 Cerebras 为 Kimi K2.6 提供高速推理

Cerebras 在 GPT 5.3 Codex Spark 之后,再次为 Kimi K2.6(超过 1T 参数)提供高速推理平台。此前 Kimi K2.6 官方推理极慢,Groq 被 Nvidia 收购后也未跟进

Cerebras 正在成为超大规模模型的「高速推理专用平台」——不做基座模型,专门给别人的大模型做推理加速。Kimi K2.6 在官方平台上慢到几乎不可用,Cerebras 的介入让它变成了真正可用的产品。这对月之暗面(Kimi 母公司)来说是救命稻草

AI 推理市场正在形成新格局:大模型公司做训练和基座,Cerebras/Groq 等做推理加速。如果 Kimi K2.6 在 Cerebras 上体验良好,可能会吸引更多国内大模型公司选择 Cerebras 作为海外推理合作伙伴

原文链接
📡 Andrew Ng 新课:用 AI Agent 生成图像和视频

Andrew Ng 与 Google Cloud 合作推出新课程——构建能生成图像和视频的 AI Agent,重点在于让 Agent 自我评估输出质量并迭代优化

这门课定位在「Agent + 视觉生成」的交汇处,相对冷门但前沿。核心理念是让 Agent 不仅生成内容,还能自我 critique 和改进——这是 Agent 从「工具」到「创作者」的关键跃迁。Katie Nguyen 主讲,免费短课程形式

Agent 自我评估和迭代能力是通向更高级自主 Agent 的关键。这门课可能启发一批用 Agent 做自动化视觉内容创作的产品——从自动生成营销素材到 AI 辅助电影分镜

原文链接

🎯 值得关注