Google I/O 2026 刷屏——Gemini 3.5 Flash 性能碾压自家 3.1 Pro、Gemini Omni 做 any2any 世界模型、Antigravity 2.0 正面硬刚 Codex。与此同时开源社区疯狂输出:Codex 增强插件、开源版 Claude Design、PaddleOCR 打通 HuggingFace 生态、端侧 TTS 模型跑167倍实时速度,今天的主题是「开源工具集体爆发 + Google 全力反扑」。
Google I/O 2026 刷屏——Gemini 3.5 Flash 性能碾压自家 3.1 Pro、Gemini Omni 做 any2any 世界模型、Antigravity 2.0 正面硬刚 Codex。与此同时开源社区疯狂输出:Codex 增强插件、开源版 Claude Design、PaddleOCR 打通 HuggingFace 生态、端侧 TTS 模型跑167倍实时速度,今天的主题是「开源工具集体爆发 + Google 全力反扑」。
增强/魔改 Codex 客户端的开源插件,即使你用 API 登录也能解锁 Computer Use、Goal 指令、Chrome 风格顶部 Tab、任务完成声音提醒等功能
克隆仓库后,把安装指令直接发给你的 Codex Agent:「Inspect & install this for me: https://github.com/b-nnett/codex-plusplus, tell me where you install it and send me the local path for me to add new tweaks.」Codex 会自动完成检查、安装和配置。安装后你可以:1)在 API 登录模式下使用 Computer Use 功能(原本仅限订阅用户);2)添加自定义 Goal 指令引导 Agent 行为;3)切换界面为 Chrome 顶部 Tab 布局;4)设置任务开始/完成的提示音。是重度 Codex 用户的必装增强包。
这是社区首次系统性地 Hack Codex 客户端,把官方限制的功能通过插件方式解锁出来。顶部 Tab 的多会话管理方案也很有争议——宝玉指出这可能带来内存占用问题,但这种「浏览器式」的 Agent App 交互确实是新方向
140 套现成设计体系的开源设计工具,可搭配 Codex、Claude Code、Cursor Agent 让 AI 自动完成 UI 设计、生成页面、测试交互、迭代修改
1)安装后选择一个 CLI Agent(推荐 Codex 或 Claude Code);2)打开 Open Design,告诉 Agent 你想做什么设计(比如「做一个 SaaS 登录页」);3)Agent 会在 Open Design 工作台里自动选择设计流程、填写 brief、生成页面、检查文件、测试交互;4)你可以直接丢一个参考网站 URL,它自动复刻风格。整个过程几乎不需要碰命令行,所有操作在可视化工作台完成。比单买 Claude Design $200/月划算太多。
这可能是目前最强的开源设计 Agent 方案。Tom Huang 团队实现了「人负责表达需求和判断方向,Agent 负责执行和迭代」的协作模式——设计从一次性生成变成了人+Agent 在同一环境里持续迭代的工作流。140 套设计体系覆盖了市面上几乎所有主流设计风格
上传一张图片即可生成千万级面数的 3D 资产,一键下载 obj/fbx/glb 源文件和贴图,直接导入 Blender/Maya/Unity 继续编辑
访问 Rodin 官网,上传任意产品图、角色图或概念图,等待几秒即可生成 3D 模型。下载格式包括 obj、fbx、glb 等主流 3D 格式,贴图资源也会一并打包。导入到 3D 软件后可以继续精修。向阳乔木体验后对比几年前在字节做 3D 虚拟人要协调建模师、绑骨师、贴图师的流程,感慨现在一张图就搞定。
Rodin Gen-2.5 号称全球首款实现千万级面数的 3D 生成模型。从图片到可直接用于生产环境的 3D 资产,这直接砍掉了传统 3D 建模的大量重复劳动。对独立开发者和小团队来说,3D 内容创作的门槛被大幅拉低
PaddleOCR 最新版支持 Transformers 作为推理后端,PP-OCRv5 和 PaddleOCR-VL 1.5 模型现在可以直接在 HuggingFace 上用,无需 PaddlePaddle 框架
pip install paddleocr 后,现在可以选择用 Transformers backend 推理。PP-OCRv5 做标准文字识别,PaddleOCR-VL 1.5 做视觉语言级别的文档理解。最重要的是模型直接托管在 HuggingFace Hub,可以用熟悉的 transformers 接口加载,不需要装 PaddlePaddle 全家桶。对于已有的 HuggingFace pipeline,切换成本极低。
PaddleOCR 一直是中文 OCR 的天花板,但之前绑定 PaddlePaddle 框架让很多开发者却步。这次打通 HuggingFace 生态意味着 PaddleOCR 终于融入了主流 ML 工具链——LLM 推理、模型微调、部署都变得简单。对于需要大量文档数字化、票据识别的场景,这是重大利好
完全本地运行的超快多语言 TTS 模型,ONNX Runtime 推理,6600 万参数,生成速度达到实时播放的 167 倍
下载模型通过 ONNX Runtime 在本地推理,支持多语言。适合集成到任何需要语音合成的应用里——因为它纯本地运行,零延迟、零成本、隐私安全。167 倍实时速度意味着生成 1 分钟语音只需要不到 0.4 秒。可在 MacBook 甚至移动设备上跑。
端侧 TTS 一直存在速度慢、音质差的问题。Supertonic 用仅 66M 参数做到了 167 倍实时速度,这在端侧 TTS 里是颠覆性的。结合 Gemma 4 等端侧 LLM,本地语音助手的产品体验将大幅提升——全离线、低延迟、免费
一套开源的 Tampermonkey 脚本,让微信、小红书、抖音网页版支持截图直接粘贴上传,外加 YouTube 字幕复制下载、小宇宙倍速调节
装好 Tampermonkey 浏览器插件后,在 GreasyFork 或直接从 GitHub 安装这些脚本。主要功能:1)微信/小红书/抖音网页版——截图后 Ctrl+V 直接粘贴上传图片(这些平台原生不支持粘贴);2)YouTube——一键复制/下载字幕,支持倍速调节,一键发送字幕到 ChatGPT 或 NotebookLM 处理;3)小宇宙网页版——倍速播放调整。全部即装即用,零配置。
2026 年了微信/小红书/抖音居然还不支持粘贴图片上传,这套脚本解决的就是这些「反人类」的产品设计。乔帮主出品质量有保证,一套脚本覆盖日常内容创作的多个痛点——截图分享、字幕处理、播客收听,搭配 Raycast AI 等工具能形成高效的内容创作工作流
开源 iOS/macOS 生图 App Draw Things 最新版开始支持 Flux.2,iPad 本地跑高质量文生图不再鸡肋
在 iPad 或 Mac App Store 下载 Draw Things,免费开源。加载 Flux.2 模型(首次需下载模型文件),然后就像用 Stable Diffusion 一样输入提示词生成图片。因为是本地推理,图片完全私密、无限生成、零费用。对新版 iPad Pro/Mac 的 Apple Silicon 优化得很好。
Draw Things 之前虽然支持 SD 系列模型但质量一般,Flux.2 是目前最强的开源文生图模型之一,这次集成让 iPad 从「随便玩玩」变成了可用的移动端 AI 生图工作站。对于需要随时随地快速出图的设计师和创作者来说,iPad + Draw Things + Flux.2 是一个很棒的组合
字节出品的 Mac 中文输入法,中英文混合输入、专业名词识别、语音+键盘联动,准确率和响应速度碾压竞品
下载安装后切换为豆包输入法,支持拼音、语音双模式。最大亮点是中英文混合输入——不需要切换输入法就能中英混打(比如「我刚用 Codex 跑了一个 Pipeline」不打乱码)。语音输入和键盘输入可以联动:说一段话自动转文字,然后键盘微调修改。歸藏用了几天表示「已经离不开了」,Orange 也发现语音+键盘联动能 1+1>2。
Mac 上一直没有好用的国产 AI 输入法(搜狗广告多、讯飞体验一般),豆包填补了这个空白。核心优势是 AI 驱动的上下文理解和专业名词识别——对技术写作、中英混排场景特别友好。字节把 AI 能力注入了最基础的人机交互环节
美团推出龙猫大模型,注册即送每天 5500 万 token 免费额度,适合做大量推理任务
注册美团龙猫大模型平台,即可免费使用每天 5500 万 token 的推理额度。适合批量文本处理、数据清洗、RAG 索引构建等 token 消耗量大的场景。API 兼容 OpenAI 格式,改个 endpoint 就能接入。
5500 万 token/天在免费额度里极其慷慨(对比 OpenAI 免费额度每月仅百万级),而且是日更的。这对个人开发者和学生来说可以覆盖几乎所有日常使用。美团此举可能是在 AI 领域卡位的信号
Intelligent Internet 开源的 Agent 协调内核,解决 Agent 之间无法移交任务、不能基于对方成果继续工作的问题
在你的 Agent 工作流中集成 CommonGround Kernel,不同 Agent 可以共享工作上下文、协调任务、互相交接。博客有详细的使用指南。如果你在搭建多 Agent 系统(比如一个 Agent 做调研、另一个做开发、再一个做测试),CommonGround 解决了它们之间的「记忆孤岛」问题。
多 Agent 协作是 2026 年 Agent 领域的核心挑战。目前主流的 Agent 框架(Codex、Claude Code、Cumora)各自为战,Agent 之间无法有效传递上下文。CommonGround 试图建立一个开放标准来解决这个问题,如果得到社区采纳,将是 Agent 生态的重要基础设施
Google 在 I/O 2026 发布 Gemini 3.5 Flash(性能超 Gemini 3.1 Pro 且更快更便宜)、Gemini Omni(any2any 原生多模态世界模型)、Antigravity 2.0(Agent-first 原生应用)、Gemini Spark(基于 Gemini 3.5 + Antigravity harness 的 Agent 产品)
Google 把过去半年的落后一口气追回来了。Gemini 3.5 Flash 在 Intelligence vs Speed 的 Pareto 前沿上把整个行业往前推了一大截——Intelligence Index 55 分,超过 Grok 4.3 和 Claude Sonnet 4。Gemini Omni 不是单纯的视频模型,而是音频/图像/视频/文本 any2any 的世界模型,Gorden Sun 实测后发现「错怪它了」。Antigravity 2.0 界面直接对标 Codex App,从「带 Agent Manager 的 IDE」走向「Agent-first 原生应用」。但 Nathan Clark 的吐槽也一针见血:Google 产品线太混乱,Gemini/Gemini Advanced/AI Pro/AI Ultra/Spark 傻傻分不清
Google 在模型能力上缩小了与 OpenAI/Anthropic 的差距,但产品矩阵的混乱仍是最大短板。Antigravity 能否挑战 Codex 尚不可知,但至少说明 Agent 原生应用的 UI 范式(侧边栏 + 对话 + 文件区)正在成为行业标准
据《华尔街日报》报道,OpenAI 正在准备在未来几天或几周内申请首次公开募股(IPO)
这将是 AI 行业有史以来规模最大的 IPO。OpenAI 从非营利到「有限盈利」再到 IPO,商业化路径已经完全清晰。上市将为 OpenAI 带来巨额资金,但也意味着每个季度的财报压力——这对前沿研究投入可能形成约束。同时,IPO 也意味着 OpenAI 核心技术能力和财务数据的全面公开,竞争对手将获得前所未有的情报
AI 行业估值体系将被 OpenAI IPO 重塑。巨头们(Google、Meta、微软)可能加大投入以应对上市后的 OpenAI 的资本优势。创业公司则面临选边站或差异化竞争的压力。资本市场可能迎来一波 AI 概念股热潮
两年前离开 OpenAI 启动 AI 教育项目 Eureka Labs 的 Andrej Karpathy,正式宣布加入 Anthropic,Eureka Labs 账号锁推,AI 教育之旅就此告一段落
Karpathy 是 AI 社区最具影响力的教育者之一,他的 Neural Networks: Zero to Hero 系列教程影响了一代 AI 从业者。Eureka Labs 两年来迟迟没有实质性产品推出,这次关停侧面说明「AI+教育」的商业化路径仍然不清晰。加入 Anthropic 后,Karpathy 可能会在 Agent 安全、对齐、可解释性等方向发力
Anthropic 得到了一位顶级研究者和教育者,品牌加成巨大。AI 教育领域失去了一位最有号召力的旗手——Karpathy 的课从来不只是教技术,而是建立思维范式。对国内做 AI 教育的人来说,这可能是「天花板信号」
Midjourney 创始人暗示他们被 Google TPU 坑了,如果回到过去会从第一天起全部使用 Nvidia GPU,使用 TPU 导致研究进度落后了大约一年
这是 Midjourney 创始人在被问及「为什么 Midjourney 进展不够快」时的坦诚回应。TPU 虽然在理论性能上不输 GPU,但实际适配成本、工具链成熟度、调试难度都远不如 Nvidia CUDA 生态。对于需要快速迭代的研究型团队,生态成熟度远比硬件理论算力重要
这个案例会成为「TPU vs GPU」争论的经典注脚。Google 要想让更多团队选用 TPU,仅靠硬件性能不够,必须在开发者工具和生态建设上大幅投入。Nvidia 的护城河又一次被验证——不是硬件本身,而是 CUDA 生态 + 社区惯性
Cerebras 在 GPT 5.3 Codex Spark 之后,再次为 Kimi K2.6(超过 1T 参数)提供高速推理平台。此前 Kimi K2.6 官方推理极慢,Groq 被 Nvidia 收购后也未跟进
Cerebras 正在成为超大规模模型的「高速推理专用平台」——不做基座模型,专门给别人的大模型做推理加速。Kimi K2.6 在官方平台上慢到几乎不可用,Cerebras 的介入让它变成了真正可用的产品。这对月之暗面(Kimi 母公司)来说是救命稻草
AI 推理市场正在形成新格局:大模型公司做训练和基座,Cerebras/Groq 等做推理加速。如果 Kimi K2.6 在 Cerebras 上体验良好,可能会吸引更多国内大模型公司选择 Cerebras 作为海外推理合作伙伴
Andrew Ng 与 Google Cloud 合作推出新课程——构建能生成图像和视频的 AI Agent,重点在于让 Agent 自我评估输出质量并迭代优化
这门课定位在「Agent + 视觉生成」的交汇处,相对冷门但前沿。核心理念是让 Agent 不仅生成内容,还能自我 critique 和改进——这是 Agent 从「工具」到「创作者」的关键跃迁。Katie Nguyen 主讲,免费短课程形式
Agent 自我评估和迭代能力是通向更高级自主 Agent 的关键。这门课可能启发一批用 Agent 做自动化视觉内容创作的产品——从自动生成营销素材到 AI 辅助电影分镜