📡 AI 资讯日报

2026-06-30
🔥 今日主线

今天最值得上手的方向有两个:一是“把现有 AI agent 变成更能落地的工作流工具”,包括云端 agent 编排、移动端远程操控、长任务 harness,以及把视频/PPT 直接变成可交付内容;二是文档与知识表达工具明显在升温,既有面向 Agent 的排版系统,也有更轻量的在线演示分享站。

🛠️ Google agents-cli

Google 开源的一套 CLI + skills 组合,让本地编码助手更容易在 Google Cloud 上创建、评估和部署 AI agents。

https://github.com/google/agents-cli ↗

先进入 GitHub 仓库阅读 README,再按仓库提供的安装方式准备环境。证据包里给到的仓库描述明确写着它是“turn any coding assistant into an expert at creating, evaluating, and deploying AI agents on Google Cloud”,项目主语言是 Python,最近一次更新在 6 月 30 日,星标约 3.6k。实际动手时,适合先把它当成“给现有 Agent 加一层 Google Cloud 工作流能力”的工具:先看示例 skill 和命令结构,确认你的本地编码 Agent 能读取 skill,再从最小场景开始,例如创建一个测试 agent、跑评估、再尝试部署到云端,而不是一上来就接生产项目。

这不是又一个从零写 Agent 的框架,而是把“云端 Agent 的构建、评估、部署知识”打包成 CLI 与 skills,思路很贴近现在的 Agent 实战。外部证据显示它已拿到约 3.6k GitHub stars,说明开发者关注度不低;更重要的是,它把“给 Agent 一套可执行文档/技能包”这件事做成了产品形态,方向很值得盯。

原文链接
🛠️ Kami

一个把 AI 生成内容排成“能直接交付”的文档/幻灯/报告设计系统与模板工具。

https://github.com/tw93/Kami ↗

先去 GitHub 仓库看 README 里的 Showcase 和 Install 部分。外部页面明确给了多种成品示例,包括 Resume、Equity Report、Slides、One-Pager、Changelog、Portfolio,并且 README 直接写了安装入口:Codex 插件市场可用 `codex plugin marketplace upgrade kami` 和 `codex plugin add kami@kami`,也支持通用 agents 通过 `~/.agents/` 方式接入。实际体验建议先挑一个最短路径:例如先用它生成一页产品 brief 或几页 slides,再观察模板对字体、留白、配色和图表风格的约束效果;如果你平时会让 Claude/Codex 生成文档,这类约束式模板最容易立刻见效。

README 里写得很清楚,Kami 的核心不是“再造一个编辑器”,而是给 AI 输出增加一套稳定设计约束,让每次生成不再漂移成灰扑扑、版式不一致的默认文档。证据包显示仓库约 9.3k stars,更新很新;再结合 README 展示的跨语言、多模板 PDF 样例,它更像是面向 Agent 时代的“文档外观层”。

原文链接
🛠️ 视频转步骤文档生成器(video-to-doc-stepfun)

把操作视频自动转成带截图、带文字说明的步骤操作文档,可输出 Markdown 和 PDF。

https://github.com/lxfater/video-to-doc-stepfun ↗

这个仓库的 README 信息比较完整,适合直接照着试。它说明了默认是“字幕驱动”模式:先用 Whisper 提取带时间戳字幕,再由 AI 根据字幕识别操作步骤;也支持更贵的“上传视频给 AI 看画面”的增强模式。开始前先确保本机有 `ffmpeg` 和 `whisper`,再配置 `.env` 里的 StepFun API Key。随后可以先用一段自己录的产品操作视频做最小实验:跑命令生成字幕、截图、`steps.json`、`operation_guide.md` 和 `operation_guide.pdf`。如果你不想走命令行,README 还给了 FastAPI + React 的 Web 方案,前端默认访问 `http://127.0.0.1:5173`。

它把“录屏教程 → 可编辑文档”这条常见但麻烦的链路串起来了,而且 README 明确给出了产物结构、参数说明和 Web API。虽然仓库还很新、星标不高,但功能闭环完整,特别适合拿来做 SOP、客服帮助文档和产品 onboarding。对经常录教程的人来说,这种工具的节省时间是立竿见影的。

原文链接
🛠️ 乔木 PPT 共享站

一个在线分享与全屏展示 PPT/Keynote/PDF/HTML 演示稿的轻量站点,目标是让你不用带电脑也能放映内容。

https://ppt.qiaomu.ai ↗

这个项目虽然没有公开代码,但站点和推文都给了足够的可验证信息。首页写明可在线阅读文稿,目前可浏览 11 份示例内容;推文则明确说支持上传 keynote、pdf、pptx、html ppt,并转换成全屏演示用的在线文稿。实际体验最直接的方式就是先打开站点看现成 deck,例如“哲学是什么:一场追问之旅”,页面显示它是 20 页、30.1MB 的 PPTX 文稿。若你要自己用,应该先注册、上传一份现成演示稿,再测试它在手机、平板、投屏场景下的阅读和翻页体验,重点看是否真能替代临时带电脑演讲的需求。

这类工具的价值不在复杂技术,而在很具体的使用场景。首页已经能看到不少真实中文 deck,说明作者不是只做了 landing page。再结合推文里“上传后成为全屏演示 PPT”的定位,它更像一个面向个人讲者/知识博主的轻量 Slideshare 替代品,门槛低,容易马上上手验证。

原文链接
🛠️ Cursor for iOS

Cursor 推出的 iOS 客户端,可在手机上启动云端 agent,或远程控制电脑上的 agent。

https://cursor.com/changelog/ios-mobile-app ↗

官方 changelog 和博客都给了很具体的入口。当前它处于 public beta,且“all paid plans”可用;安装入口直接指向 App Store。上手路径很清楚:打开 app 后选择一个 repo,像桌面端一样启动 cloud agent;也可以用 Remote Control 接管正在你电脑上运行的 agent,从手机继续发指令。官方还提到可以开启“保持电脑唤醒”的设置,确保人离开桌面时本机仍可被远程访问。实际使用时,最适合先拿一个短任务试,例如修一个小 bug、看 agent 运行日志、审 diff、再在手机上发 follow-up 指令,最后直接合并 PR。

这不是单纯把聊天框搬上手机,而是把“agent 工作流”搬上手机。官方博客明确提到它支持查看 demos、screenshots、logs 和 diffs,还能推送任务完成、需要输入、等待 review 的通知;另外 7 月 5 日前在移动端跑 Composer 2.5 还有 75% 折扣。对高频使用 AI 编程的人来说,这意味着很多等待型任务终于能在碎片时间里推进。

原文链接
📡 Meta Brain2Qwerty:非侵入式脑信号转文字继续推进

Meta 论文页面显示,Brain2Qwerty 可在不做开颅手术的前提下,用 EEG/MEG 脑信号解码句子级文本。

这条更适合放行业动态而不是“可立刻上手”,因为普通人并不能直接试玩,但研究进展本身很强。Meta 官方论文页写得很具体:在 35 名健康受试者上,MEG 条件下平均字符错误率 32%,EEG 为 67%,最佳参与者可到 19% CER,并能正确解码训练集外的一些句子。推文里流传的“61% 词准确率、最佳 78%”属于传播口径,但核心方向一致:非侵入式方案正在逼近更实用的句子级解码。

如果这条路线继续成立,未来最大的意义不是“读心”噱头,而是给失语、失动患者提供更安全的沟通接口。产业层面上,它也会推动脑机接口从单纯硬件竞赛,转向“传感器 + 解码模型 + 数据闭环”的系统能力竞争。

原文链接
📡 Zenith:长时任务 Agent Harness 开始卷“控制层”

Intelligent Internet 发布 Zenith,主打让 Agent 在长周期任务中不那么容易“过早宣布完成”。

Zenith 的价值不在某个单点模型,而在 orchestration。GitHub README 把问题定义得很直接:长任务失败的主因常常不是做不动,而是太早停。它的做法是让 orchestrator 在每一轮读取任务状态后,动态决定要不要派 worker、tester、复用 skill、重规划或停止。README 还给出了 FrontierSWE 与 ablation 的结果表,把“重复找 gap、可修订计划、独立验证、停止纪律”这些控制机制摆到台面上讨论,这比单纯比模型分数更有启发。

这说明 Agent 竞争正在从“底模谁更强”逐渐外溢到“控制器谁更会管任务”。对做企业落地和复杂自动化的人来说,今后可复制的优势,可能越来越来自任务编排、验证环和停止条件,而不是只押注某家模型升级。

原文链接

🎯 值得关注