📡 AI 资讯日报

2026-05-22
🔥 今日主线

OpenAI Codex 迎来一波重磅更新(Appshots 窗口上下文、Locked Use 锁屏工作),Stability AI 开源 Stable Audio 3 音乐生成模型,Google AI Studio 手机版预告上线——今天是「Agent 能力进化 + 创意工具开源」的双主场。

🛠️ Stable Audio 3

Stability AI 开源的音乐生成模型,能在 Mac 本地 59 倍实时速度跑,LoRA 微调不到 1 小时

https://huggingface.co/collections/stabilityai/stable-audio-3 ↗

https://huggingface.co/spaces/stabilityai/stable-audio-3 ↗

Small 和 Medium 版本已开源,可直接从 HuggingFace 下载模型权重。在 Mac 上(尤其 M 系列芯片)利用统一内存架构本地运行,M5 Pro 可达 59x realtime。安装方式:pip install stable-audio-tools,然后加载模型即可生成音乐。支持 LoRA 微调,官方称不到 1 小时即可完成个性化风格训练。Large 版本需通过 API 使用。另有在线 Demo 可在 HuggingFace Space 直接体验,无需本地部署。

本地运行的音乐生成模型一直受限于算力,Stable Audio 3 在 Apple Silicon 上做了深度优化,59x realtime 意味着生成一段 3 分钟音乐只需约 3 秒。相比云端 API(Suno/Udio),本地运行保护隐私、零延迟、无限调用,对音乐创作者和 AI 应用开发者都是巨大的效率提升。

原文链接
🛠️ Datasette Agent

Simon Willison 发布的对话式 AI 助手,用自然语言查询和分析 SQLite 数据库

https://agent.datasette.io ↗

https://github.com/simonw/datasette-agent ↗

直接访问 agent.datasette.io 进入在线 Demo,无需注册。上传或选择一个 SQLite 数据库,然后用自然语言提问——比如"这个表有多少行?""销售额最高的10个产品是什么?""画出月度趋势图"。它基于 Datasette 生态,支持插件扩展,可以添加自定义工具和功能。开发者可通过 pip install datasette-agent 本地部署,连接自己的数据库进行分析。

Simon Willison 是数据工具领域的权威人物,Datasette 本身就是极受欢迎的 SQLite 探索工具。这次加入 AI Agent 层,让非技术用户也能通过自然语言进行数据探索,同时保持 Datasette 一贯的简洁和可扩展性。插件机制意味着你可以接入企业内部数据库、API 等任何数据源。

原文链接
🛠️ Magic Slide

AI 驱动的在线 PPT 生成工具,转场和动画效果丝滑,审美在线

https://magicslide.show ↗

直接访问 magicslide.show 即可使用。输入主题或上传文档,AI 自动生成整份演示文稿,包含排版、配图和转场动画。支持联网搜索和多种 AI 模型(通过 PIPELLM 网关接入)。生成的内容可以在线编辑调整,转场效果流畅度接近专业设计师手作水平。工具由 Zara 团队启发开发,专注于解决日常 Slide 产出效率问题。

市面 PPT AI 工具虽多,但大多生成结果呆板、转场生硬。Magic Slide 的差异化在于「审美」和「丝滑转场」——这是目前很多 AI 演示工具做不到的。PIPELLM 网关的多模型接入也意味着不会受单一模型能力限制,可以选择最适合演示场景的模型。

原文链接
🛠️ Chrome DevTools for Agents 1.0

Chrome 官方发布,让 AI Agent 能像真实用户一样"看见"浏览器,进行验证和调试

https://developer.chrome.com/blog/devtools-for-agents-v1 ↗

三种接入方式任选——① MCP Server:标准协议连接 LLM 到 DevTools 调试能力,Agent 可获取 DOM、网络请求、控制台日志;② CLI:更省 Token 的方案,支持 Agent 将操作打包成脚本批量执行;③ Agent SDK:深度集成到自定义 Agent 框架。安装方式:npm install chrome-devtools-mcp 即可启动 MCP Server,配置到 Claude Code/Codex 等 Agent 工具的 MCP 列表中。Agent 能在真实浏览器中观察代码执行效果、截取页面状态、检查 CSS 布局、捕获性能数据。

这是 Web 开发 Agent 的基础设施级突破。以前 Agent 写前端代码是"盲写"——看不到渲染结果,只能靠用户反馈。Chrome DevTools for Agents 直接打通了 Agent 和浏览器的调试通道,Agent 可以自验证、自修复 UI 问题,接近人类开发者的开发体验。MCP 协议的采用使其能无缝接入所有主流 Agent 框架。

原文链接
🛠️ Tencent HY-MT2 翻译模型

腾讯开源的专用翻译模型,覆盖 1.8B 到 30B 多个尺寸,翻译质量比肩大参数通用 LLM

https://huggingface.co/collections/tencent/hy-mt2 ↗

访问 HuggingFace 合集页面,选择合适尺寸的模型(1.8B 适合本地轻量部署,30B 适合服务端高精度场景)。使用 transformers 库加载:from transformers import AutoModelForSeq2SeqLM, AutoTokenizer,然后 pip install 对应依赖即可。提供中英、英中等多语言翻译方向。小模型可在消费级 GPU 甚至 CPU 上运行,30B 模型需要约 60GB 显存。可配合 llama.cpp 等工具进行量化部署进一步降低门槛。

通用 LLM 做翻译成本高、速度慢,专用翻译模型一直是刚需。腾讯这次把 1.8B 到 30B 全尺寸开源,意味着从手机端到服务器端都有合适选择。小尺寸模型的翻译质量能比肩大模型,这在端侧应用(浏览器插件、本地翻译工具)场景下极具价值。

原文链接
🛠️ DeerFlow(字节跳动开源 SuperAgent 框架)

字节跳动开源的长时程 SuperAgent 框架,能稳定运行 35 小时并调用 1000+ 工具

https://github.com/bytedance/deerflow(GitHub ↗

克隆仓库后 pip install 依赖即可启动。框架定位为「SuperAgent harness」——不是简单的 Agent,而是能处理超长任务链、调用大量工具的企业级 Agent 框架。核心特性包括长时程任务编排、工具调用管理、上下文窗口压缩、多步推理链。适合需要 Agent 连续工作数小时甚至数天的复杂场景(如代码库迁移、大规模数据分析、自动化测试)。配备了完善的监控和断点续传机制。

目前大部分 Agent 框架跑几分钟就上下文溢出或迷失方向。DeerFlow 的「35 小时稳定运行 + 1000 工具调用」指标是行业顶级水平,说明字节在长时程 Agent 后训练(RL)上投入巨大。这也是第一梯队大厂首次开源完整的 SuperAgent 框架,技术方案值得深入研究。

原文链接
🛠️ MemOS 2.0

开源 AI 记忆系统升级,「执行即学习」让 Agent 从每一次操作中积累经验

https://github.com/mem0ai/memos(GitHub ↗

pip install memos 安装,配置本地或云端存储后端。核心功能「执行即学习」:Agent 每次通过 MemOS 执行操作(调用工具、读写文件、查询数据),系统自动将操作过程、结果和上下文存入记忆图谱,下次遇到类似任务时直接复用经验。不再是传统 RAG 的「存聊天→语义检索」,而是结构化的「行动-结果」记忆链路。支持 Local Plugin 2.0 模式,完全离线运行,数据不离开本地。

AI 记不住上次怎么做的,这是目前 Agent 最大的痛点。MemOS 2.0 的「执行即学习」理念直击要害——不是被动记录对话,而是主动从操作中提取经验。9.3K GitHub Stars 说明社区高度认可这个方向。如果每个 Agent 都能从自己的操作历史中学习,Agent 的生产力将发生质变。

原文链接
🛠️ MarkEdit

免费开源的 macOS 原生 Markdown 编辑器,仅 4MB,流畅处理百万行文档

https://github.com/MarkEdit-app/MarkEdit(GitHub ↗

从 GitHub Releases 下载最新版 .dmg 安装,或在 Mac App Store 搜索 MarkEdit。启动后直接打开/新建 .md 文件即可编辑。支持实时预览、语法高亮、行号显示。体积仅 4MB(对比 Typora ~200MB、Obsidian ~300MB),启动秒开,编辑大文件不卡顿。基于原生 AppKit 构建,完全遵循 macOS 设计规范,支持系统级快捷键、暗色模式、触控栏等。可替代系统自带 TextEdit 作为默认 Markdown 编辑器。

Mac 上的 Markdown 编辑器普遍臃肿——Typora 收费且 Electron 架构,Obsidian 功能强大但重。MarkEdit 反其道而行,用原生 AppKit 打造了一个「TextEdit for Markdown」,4MB 体积却能流畅编辑百万行文档。开源免费,代码质量高,是非常难得的 macOS 精品小工具。

原文链接
📡 Karpathy 加入 Anthropic 做预训练

Andrej Karpathy 宣布加入 Anthropic,负责预训练方向

Karpathy 是全世界最有资格判断「模型还能不能继续进化」的人之一——他从 OpenAI 创始成员到 Tesla Autopilot 负责人,再到教育者,现在重新回到实验室做预训练。这个选择本身就是一个信号:Scaling Law 远未到头,模型能力的下一跳还在实验室里等待被挖出来。他的加入对 Anthropic 的模型研发管线是重大利好,也意味着 Claude 下一代模型可能有质的飞跃。

打脸了「AI 到瓶颈了,接下来只做应用」的论调。顶级人才回流预训练,说明 2026 年的模型军备竞赛不仅没有降温,反而在加码。

原文链接
📡 OpenAI 内部模型自主解决 80 年数学难题

OpenAI 未公开的内部推理模型自主解决了 Erdős 1946 年提出的平面单位距离问题

这个模型并非专门为数学训练,而是通用推理模型。125 页 chain of thought 中,它从代数数论拉了一套工具去解离散几何问题——这个跨领域连接是人类数学家 80 年没想到的。这说明顶级推理模型的「创造力」正在超越人类专家的跨领域迁移能力,不仅仅是「超强计算器」。

AI 在数学推理上的突破不再是刷竞赛题,而是真正解决开放问题。这将对科学研究范式产生深远影响——AI 可能成为发现新定理、新方法的「合作者」而非工具。

原文链接
📡 AI 补贴时代终结,按 Token 计费成默认

微软因 Token 成本「难以承受」取消内部 Claude Code 部署;Uber CTO 内部备忘录警告四个月烧光全年 AI 预算

AI 服务的包月定价模式正在被按 Token 计费取代。这意味着使用 AI 的成本从「固定支出」变成了「可变支出」——用得越多越贵。对企业和开发者来说,如何优化 Token 消耗(选择小模型、缓存、Prompt 压缩)将成为核心能力。

可能加速小型开源模型的采用——与其付天价 Token 费给闭源 API,不如本地部署一个 7B 模型。同时也催生了 Token 成本管理工具和优化方法论的市场需求。

原文链接
📡 Google AI Studio 手机版预告 + Workspace 深度整合

Google AI Studio iOS 版已上架 App Store(非国区,7月1日正式上线),同时宣布深度整合 Google Docs/Sheets/Gmail 等 Workspace 生态

Google 在 AI 开发工具的移动化和生态整合上同时发力。手机版 AI Studio 让开发者能在手机上 vibe coding 和测试 Android 应用;Workspace 整合意味着 Agent 可以直接读写你的文档、邮件、表格,真正成为「AI 秘书」。无需信用卡即可发布前两个应用到 Cloud Run。

这对 OpenAI 和 Anthropic 的开发者生态构成直接竞争。Google 利用 Workspace 的存量用户优势,构建了一个从开发到部署再到日常使用的完整 AI 闭环。

原文链接

🎯 值得关注