Agent 基础设施大爆发:Google 开源分布式 Agent 框架 AX,Cursor 开源内部代码审计 Skills,飞书 Bridge 让 Claude Code 走进 IM —— 今天的节奏是"让 Agent 跑在生产线里"。
Agent 基础设施大爆发:Google 开源分布式 Agent 框架 AX,Cursor 开源内部代码审计 Skills,飞书 Bridge 让 Claude Code 走进 IM —— 今天的节奏是"让 Agent 跑在生产线里"。
网易有道开源了子曰4系列,包含多模态大模型和 TTS 语音克隆,主打跨语种不带口音——用你的声音说日语、英语,不串味儿。
https://github.com/netease-youdao/Confucius4-TTS ↗
打开 Gradio 在线 demo(confucius4-tts.youdao.com/gradio),上传一段你自己的中文录音,然后选择目标语言(日语/英语/韩语等),点击生成即可听到"你自己的声音"说外语,不带中国口音。如果想本地部署,去 HuggingFace 下载 Confucius4 多模态模型,或去 GitHub 克隆 Confucius4-TTS 仓库,按 README 搭建环境运行。27B 参数在单张消费级显卡上就能跑。
市面上 ElevenLabs 等语音克隆跨语种都会有"口音串味"问题——中文声音说日语带着中国腔。子曰4 专门解决了这个难题,在多专家 OPD 架构下做语种解耦。同时它还把翻译模型重练了一遍,解决了"脱靶"和"语种混出"两个机翻老毛病。开源+27B 参数+可本地部署,这在语音 AI 领域非常少见。
Google 开源了 AX,专门解决多 Agent 系统的状态管理、失败恢复、跨进程/跨集群调度协调问题——让 Agent 从"单机玩具"变成"分布式生产线"。
目前刚官宣开源,建议直接去 Google GitHub 组织(github.com/google)搜索 "ax" 或关注 Gorden_Sun 推文获取 repo 地址。核心思路是:当你需要多个 Agent 并行跑任务(比如一个爬数据、一个写代码、一个做测试),AX 负责它们之间的状态同步和故障恢复。拿到代码后,可以先跑它的 Quickstart 示例,理解 Agent 的调度模型,然后把自己的 Agent 接入它的编排框架。
当前大多数 Agent 框架(LangGraph、CrewAI 等)本质上是单机工作流,一旦 Agent 进程挂了就全丢了。AX 在基础设施层面解决了 Agent 的持久化状态和跨集群协调,这意味着生产环境的 Agent 系统终于有了"操作系统级"的保障。Google 出品+开源,标准制定意味浓厚。
Zara 开源的工具,让你本地的 Claude Code 直接作为飞书机器人运行——手机上用飞书就能跟 Claude Code 对话,完成复杂开发任务。
https://github.com/zarazhangrui/feishu-claude-code-bridge ↗
https://larkcommunity.feishu.cn/docx/OaRIdFIRFoLM3xxTmKwcetHqn5e ↗
克隆 GitHub 仓库,按文档配置飞书应用的 App ID 和 Secret,启动 Bridge 服务后,本机 Claude Code 就会作为一个飞书机器人上线。你在手机上打开飞书,找到这个机器人,直接发消息给它——"帮我查下这个 bug""重构这个函数""写个 Dockerfile"——它就像在终端里一样执行。支持群聊、私聊、多轮对话。配合归藏的 IM 连接 Skill,还能扩展到 Telegram、QQ、微信、Discord。
这解决了"不在电脑前想写代码"的真实痛点。Claude Code 本身只能在终端里用,飞书 Bridge 把它变成了随时随地可用的开发助手。而且它是开源、本地运行、数据不出你机器,比任何云端方案都安全。飞书作为国内最流行的 IM 之一,这个组合的传播潜力巨大。
ChatGPT 出了官方 PPT 插件,在侧边栏里像对话一样编辑幻灯片——改文字、换布局、生成配图,全部一句话完成。
打开 PowerPoint → 插入 → 加载项 → 搜索 "ChatGPT" → 安装插件。安装后在右侧会出现 ChatGPT 侧边栏。选中任意幻灯片,告诉它"把这页的文字改得更有说服力""根据这页内容生成一张配图""保持布局不变,把中文翻译成英文"——它直接在 PPT 里操作,不需要导出导入。实测效果跟 Claude(Opus 4.7)在同一水平,而且还能直接生成图片插入 PPT。
这是 ChatGPT 首次以官方插件形态进入 Office 生态,直接把"PPT 民工"的重复劳动自动化。侧边栏编辑体验远超"上传文件→AI处理→下载"的传统流程。能生成配图这个能力是差异化优势——Claude 和 Gemini 目前都没有。配合 GPT-5.5 的多模态理解,这种"所见即所得"的文档编辑正在成为新标准。
Cursor 团队公开了他们内部使用的代码审查工具集,包含一个叫 thermo-nuclear-code-quality-review 的严苛审查员 Skill——能在 PR 合并前识别出"能跑但让代码库变烂"的改动。
在 Cursor 中打开 Marketplace,搜索并安装 Cursor Team Kit。安装后你会获得一套 Skills,其中最核心的是 thermo-nuclear-code-quality-review。把它用在 PR review 流程中——提交代码前让它审查,它会按四条原则(可维护性>功能正确性、模式一致性、抽象层次、复杂度控制)给出意见。不同于 linter,它关注的是"代码品味"——比如"这个函数跟已有的 3 个函数做的是同一件事,应该合并""这个抽象多了一层没必要的中间层"。
Cursor 团队公开内部工作流是大新闻。这套 Skills 代表了 Cursor 对"AI 辅助代码审查"的最佳实践。不是简单的"找 bug",而是守护代码库的长期质量——这是所有工程团队的刚需。而且它在 Cursor Marketplace 可以直接装,零配置开箱即用。
一个在浏览器里就能用的 AI 图片编辑工作台,开源,无需安装,打开网页就能做图生图、编辑、处理。
访问推文中的链接打开 MuseUI 网页。这是一个纯前端应用,所有的 AI 处理通过 API 调用完成。你可以上传图片进行背景移除、风格转换、超分辨率放大、局部重绘等操作。因为是浏览器运行,可以部署到任何静态托管服务(Vercel/Netlify/GitHub Pages)上自用。开源意味着你可以 fork 代码,定制自己的工作流,接入自己的模型 API。
纯浏览器 AI 工具正在成为趋势——不需要安装、不依赖系统环境、跨平台一致。MuseUI 把"AI 图片工作台"这个概念做到了最轻量化,开源让它能被集成到任何产品中。对于经常处理图片的开发者,这是一个可以直接拿来做二次开发的基础设施。
一个新开源的跨平台音乐播放器,从手机到车机全平台支持,界面现代,可以自己部署。
访问推文中的链接获取 GitHub 仓库地址,clone 后按平台编译或直接下载 release 包。支持 Android、iOS、macOS、Windows 和车机系统。可以连接本地音乐库,也支持网络流媒体。因为是开源,可以自己魔改 UI、添加音效插件、接入自己的音乐源。部署到车机上尤其有意思——自己打造一个专属车载音乐系统。
市面上跨这么多平台(特别是含车机)的开源音乐播放器极少。Flutter/React Native 技术栈的可能性示范——一套代码跑通手机+电脑+车机。对喜欢 DIY 的音乐爱好者来说,这是一个拿到手就能改的好底子。
DeepSeek 宣布限时折扣变为永久定价,V4-Pro API 价格仅为同等水平模型的 1/3。
DeepSeek 的策略很清晰——用极致性价比锁死开发者生态。Flash 模型本身已经足够便宜,现在 V4-Pro 也降到位,对于个人开发者和中小团队来说几乎没有理由再选其他 API。这种"价格屠夫"策略在过去半年已经让 DeepSeek 在中文 AI 社区积累了惊人的人气,现在永久化意味着它要稳住这个基本盘。
对于整个 AI API 市场来说,DeepSeek 的定价锚点会迫使 OpenAI、Anthropic 进一步降价或推出更轻量的模型。对于开发者,这意味着"AI 成本不再是瓶颈",更多创意可以落地。但也要警惕:过低的价格可能让 API 服务质量在高峰期下降。
微软本周取消了内部 Claude Code 许可(token 计费太贵),Uber CTO 内部备忘录警告公司四个月内烧光了 2026 全年 AI 预算。
这两件事放在一起看意味深长。微软作为全球最大的云服务商都嫌 token 计费贵,说明大模型 API 的真实成本远比"包月 $20"表面价格高得多。Uber 的情况更说明问题——大型企业的 AI 用量一旦铺开,成本是指数级增长的。这预示着"按月订阅"的商业模式正在向"按 token 计费"回归,B2B 市场尤其如此。
短期看,企业会收紧 AI 预算,优先选择性价比最高的 API(利好 DeepSeek)。中期看,自建小模型/本地部署的需求会更旺盛,开源小模型将迎来第二波热潮。对创业公司来说,"AI 是免费流量"的红利窗口正在关闭,成本控制能力成为核心竞争力。
Anthropic 上个月启动的 Project Glasswing AI 网络安全合作项目,一个月内在合作伙伴的核心软件中扫描出超过一万条高危或关键漏洞,全部是真实生产环境中的发现。
这证明了 AI 在安全领域的巨大潜力——不是实验室模拟,是真刀真枪在生产环境里扫漏洞。一万条高危/关键漏洞意味着什么?意味着人类安全团队年复一年漏掉的问题,AI 一个月就全翻出来了。而且这不是 Anthropic 一家在玩——Google、微软都在推 AI 安全工具,整个软件供应链的安全审计正在被 AI 重构。
对于企业和开发者,这意味着安全审计从"半年一次"变成"持续实时",代码质量门槛会被拉高。对于安全行业,初级安全审计员的饭碗岌岌可危。反过来,攻防两端同时用 AI,攻击者也用 AI 找漏洞,防御者也用 AI 堵——军备竞赛加速。