📡 AI 资讯日报

2026-06-06
🔥 今日主线

AI 工具从「Coding」全面转向「Working」——Kimi Work 发布办公Agent集群,Codex 打通 iOS 开发闭环,Cursor 支持浏览器端 UI 标注。同时开源社区迎来 html-video(HTML→视频)、Kaku(AI终端)、Magenta RealTime 2(实时音乐生成)三个高星项目。

🛠️ html-video — HTML 一键生成视频

把 HTML/CSS/JS 动画渲染成 MP4 视频的开源工具,不到24小时破1000 Star

https://github.com/nexu-io/html-video ↗

`git clone https://github.com/nexu-io/html-video` 克隆仓库,安装依赖后在浏览器打开 HTML 页面即可渲染导出视频。支持 Trae CLI 命令行调用,可嵌入 CI/CD 流水线自动生成产品 Demo 视频。已有社区贡献者接入 Trae AI 实现自然语言生成视频效果。你可以用它给开源项目做 Release 视频、产品介绍动画,或者把 Notion/飞书里的数据可视化一键导出为可传播的视频片段。

填补了「代码→视频」的工具链空白。传统做产品 Demo 需要录屏+剪辑,html-video 直接从源码渲染,画质无损、可编程、可批量。技术栈基于现代 Web API(Canvas/WebCodecs),输出质量远超录屏方案。nexu-io 团队的 Open Design 生态布局清晰,这个项目是其「Coding Video」方向的第一块砖。

原文链接
🛠️ Kaku — 专为 AI 编程打造的 macOS 终端

一个快速、开箱即用、开源无账号的 macOS 终端,内置 AI 编程能力

http://kaku.fun ↗

访问 http://kaku.fun 下载 macOS 客户端,安装后直接打开即可使用。内置了针对 AI 编程优化的终端体验,无需注册账号。支持多标签页、分屏、命令补全等现代终端特性,并且与主流 AI Coding Agent(Claude Code、Codex、Cursor)深度适配。对习惯在终端里用 AI 写代码的开发者来说,Kaku 省去了 iTerm2 + tmux + AI 插件的组合配置成本。

作者 Tw93 是前端/工具领域的知名开源作者(Mole、Kami 等项目),Kaku 延续了其一贯的「极简但好用」的设计哲学。在 Warp 等商业终端走向订阅制收费的背景下,一个完全开源免费、专为 AI 编程场景优化的终端显得尤为珍贵。网站也刚刚重建,体验大幅提升。

原文链接
🛠️ Google Magenta RealTime 2 — 200ms 实时音乐生成

谷歌开源实时音乐模型,延迟仅200ms,有2.4B和230M两个尺寸

https://huggingface.co/google/magenta-realtime-2 ↗

访问 HuggingFace 模型页下载权重,使用 Transformers 加载即可。2.4B 模型质量更高适合离线使用,230M 模型更适合实时交互场景。支持文本描述和音频两种输入方式,输出为纯音乐(无人生)。可以用文字描述想要的风格(如「欢快的爵士钢琴」),模型在 200ms 内就会生成对应的音乐片段。本地部署推荐用 230M 版本,消费级 GPU 即可实时推理。

200ms 延迟是实时音乐生成的关键里程碑——低于这个阈值,人类感知不到延迟,音乐交互体验接近真实乐器。上一代 Magenta 的延迟在秒级,只能做离线生成。这次直接压缩到 200ms,意味着实时音乐交互应用(如 AI 伴奏、游戏动态配乐、直播 BGM)真正有了落地的技术基础。

原文链接
🛠️ Kimi Work — 最多调度300个Agent的办公套件

Kimi 从 Coding 延伸到办公场景,集成金融/科研/法律专业数据库,¥99/月起

https://kimi.com/zh-cn/products/kimi-work ↗

访问 Kimi 官网下载桌面客户端(macOS/Windows),登录后选择 Moderato 及以上会员(¥99/月)。核心能力:上传上百页的招股书/财报/论文,Kimi Work 会调度多个 Agent 并行分析,一次性输出研报+PPT+Excel。最多可同时调度 300 个 Agent,适合处理大规模文档分析任务。小互实测分析了 SpaceX 招股书,效果详尽。目前 Beta 版偶有长任务中断,需要手动让它继续。

这是国内首个将 Agent 集群能力从 Coding 扩展到 Office 的产品。之前 Kimi Code 主打编程,Kimi Work 把同样的多 Agent 协作架构搬到了金融、法律、科研场景,打通了 Wind/Bloomberg 级别的专业数据库。月之暗面的产品节奏极快——从 Kimi Chat 到 Kimi Code 到 Kimi Work,一年走完了海外产品两年的路。

原文链接
🛠️ PlanningBench — 腾讯混元开源 LLM 真实规划能力评测框架

腾讯混元+人大联合开源,30+真实世界规划任务,覆盖调度/生产/旅行/资源分配/应急响应

https://github.com/Tencent-Hunyuan/PlanningBench ↗

`git clone` 仓库后安装依赖,数据集托管在 HuggingFace(huggingface.co/datasets/tencent/PlanningBench),论文在 arxiv.org/abs/2605.20873。框架包含 30+ 真实规划任务,每个任务有清晰的成功标准和全自动验证机制。你可以用它评测任意 LLM 的真实规划能力——不是推理题的规划,而是「安排10辆卡车在5个城市间最优配送」这种真实运筹问题。目前主流模型在 PlanningBench 上的表现和人类差距仍然很大。

大模型从卷推理(Math/Code)转向卷规划(Planning)是 2026 下半年的明确趋势。PlanningBench 是第一个把「真实世界规划」做成标准化 benchmark 的开源项目——任务来自生产调度、应急响应等实际场景,不是合成数据。这比 MMLU 之类的选择题更能反映模型的真实智能水平。腾讯混元这次开源得很彻底:论文+代码+数据集全开放。

原文链接
🛠️ Winxvideo AI 二十周年限免 — 视频压缩+AI画质提升

Windows/macOS 本地视频处理工具限时免费,AI 提升画质、防抖、压缩三合一

https://appinn.com/winxvideo-ai-2606/ ↗

访问小众软件文章页获取限免激活码,下载安装 Winxvideo AI。核心功能:① AI 超分辨率提升视频画质(480p→1080p/4K);② AI 防抖稳定手持拍摄素材;③ GPU 加速视频压缩(H.265/H.264)。全本地处理,不上传云端,适合处理个人隐私视频。限免活动截至日期不明确,建议尽快领取。

市面大多数 AI 视频增强工具都需要上传云端(如 Topaz Video AI 虽强但贵且重),Winxvideo 主打本地处理+轻量。二十周年版限免是实打实的福利——正常售价 $39.95/年,这次直接白送。对于需要批量处理老旧视频、VHS 转数字、运动相机防抖的用户来说是刚需工具。

原文链接
🛠️ OpenAI Codex iOS Build 官方插件 — 在 Codex 里直接开发和预览 iOS App

Codex 新增面向 SwiftUI 的 iOS 开发插件,热重载+模拟器预览,不用切 Xcode

更新 Codex 到最新版本,在设置中启用「Build iOS Apps」官方插件。使用时在 Codex 对话中说 "build an iOS app",Agent 会自动创建 SwiftUI 项目。核心体验:① Codex 内直接打开 SwiftUI 实时预览(类似 Xcode Canvas);② 代码编辑后自动热重载,无需重新编译;③ 减少了在 Codex 和 Xcode/模拟器之间来回切换的摩擦。底层通过 Swift Package Manager 和 xcodebuild 自动化,对开发者透明。

Codex 正在从「代码生成器」变成「全栈开发环境」。这个插件补齐了 iOS 这一大块——之前 Codex 做 iOS 开发需要手动复制代码到 Xcode 跑模拟器,现在闭环了。加上已有的 Codex Sites(Web 建站),Codex 覆盖了 Web + iOS 两大平台。方向清晰:让 Agent 直接吃掉 IDE。

原文链接
🛠️ 顶级严师提示词 — AI 追问到底直到你真正学会

一个超级严厉的 AI 教师提示词,每阶段必须确认你彻底掌握才会进入下一阶段

https://x.com/xiaohu/status/2062902972649222311) ↗

复制提示词到 ChatGPT/Claude/DeepSeek 中,告诉它你想学习什么知识。AI 会像一个严格的私教:每讲完一个概念,必须出题验证你是否真正理解;答错或不完整就反复追问、换角度解释,直到确认你吃透为止。不会一口气讲完,而是分阶段递进。适合用来攻克难懂的技术概念(如 RAG 原理、Transformer 注意力机制、Rust 所有权模型)。

这个提示词解决了 AI 教学的经典问题——学生以为自己懂了但实际没懂(illusion of competence)。通过强制追问+验证机制,把 AI 从「信息播报员」变成「苏格拉底式导师」。提示词设计巧妙,利用了 LLM 的 role-play 能力来模拟严格的教学场景。

原文链接
📡 Anthropic 发布 AI 递归自我改进报告 — 一边警示危险一边提交招股书

Anthropic 发布研究报告称 AI 已开始被用于开发下一代 AI(递归自我改进),呼吁行业放缓研发进度。但同一周 Anthropic 刚刚提交了招股书。

报告本身技术内容扎实——Claude 系列模型在 Anthropic 内部已被广泛用于写训练代码、设计架构、调试模型。但呼吁「大家一起放缓」却不提自己先停,显得言行不一。多位数码博主直接嘲讽「A 社的思维模式很离谱」。

无论动机如何,这份报告可能成为监管机构要求 AI 公司增加安全审计的依据。但短期内不会改变任何公司的研发节奏——毕竟 OpenAI、Google、Meta 都在全速推进。

原文链接
📡 ChatGPT Dreaming V3 — 从「记笔记」到「自主回忆」

OpenAI 发布 ChatGPT 记忆系统 Dreaming V3,后台异步生成记忆,自动提炼修正,目前对美国 Plus/Pro 用户开放。

Dreaming V3 是记忆系统的第三代:V1 手动保存 → V2 对话关联 → V3 自主回忆。模型会在后台异步分析用户的历史对话,自动提炼重要信息、修正过时记忆。这是 ChatGPT 从「无状态工具」向「个性化助手」演进的关键一步。但部分用户反馈记忆功能有时反而带来困扰。

个性化记忆是 Agent 的必备能力——没有记忆的 Agent 每次对话都从零开始。OpenAI 通过 Dreaming 系统在规模化记忆上取得突破,将为后续的 Operator/Deep Research 等 Agent 产品提供长期记忆基础设施。

原文链接
📡 Airbnb 创始人组建 AI Lab 专攻 UI/设计模型

Airbnb 创始人 Brian Chesky 正在筹备一个 AI Lab,专门构建 UI 和设计领域的模型。社区反应积极——Airbnb 的设计品味在业内有口皆碑。

这是设计×AI 领域的一个重要信号。目前 AI 建站工具(V0、Lovable、bolt.new)的审美仍远不及专业设计师,Airbnb 如果能将其设计 DNA 注入模型训练,可能大幅提升 AI 生成界面的品质上限。

如果 Airbnb 的设计模型开源或提供 API,将直接冲击 Figma AI、Canva AI 等现有设计 AI 工具。更重要的是,非设计师出身的开发者将能借助 AI 产出 Airbnb 级别的 UI。

原文链接
📡 WWDC 2026 前瞻:AI Agent 将上架 App Store

据 The Information 报道,Apple 计划在 6月8日 WWDC keynote 上宣布 AI Agent 应用可上架 App Store,新版 Siri 将具备 agentic 能力。

Apple 的 agent 策略和 OpenAI/Google 不同——不是自己做最强的 Agent,而是做 Agent 的分发平台(App Store)。这与 Apple 在音乐(iTunes)、应用(App Store)上的一贯策略一致:做平台不做内容。

对开发者来说,Agent App Store 意味着新的分发渠道和变现模式。对用户来说,Siri 可能从一个「设置闹钟」的工具升级为能调用多个第三方 Agent 的编排中心。

原文链接

🎯 值得关注