今天最值得上手的是一批“把 AI 真正变成工作流”的工具:一边是面向开发者的 Agent IDE、网页媒体嗅探器、自动录屏 CLI,另一边是把影像日记、微信群约时间这类日常动作做得更顺手的小工具。 同时,大厂动态也在继续推高多模态与垂直场景的门槛:Google 把更便宜更快的图像/视频模型推到开发入口,Anthropic 则开始把科学研究工作台产品化。
今天最值得上手的是一批“把 AI 真正变成工作流”的工具:一边是面向开发者的 Agent IDE、网页媒体嗅探器、自动录屏 CLI,另一边是把影像日记、微信群约时间这类日常动作做得更顺手的小工具。 同时,大厂动态也在继续推高多模态与垂直场景的门槛:Google 把更便宜更快的图像/视频模型推到开发入口,Anthropic 则开始把科学研究工作台产品化。
一个面向 AI coding agent 的开源 ADE,可把 Claude Code、Codex、OpenCode、Pi 等并排跑在隔离 worktree 里。
最短路径是先去官网的下载页安装桌面版,支持 macOS、Windows 和 Linux;如果你本来就在用 Claude Code、Codex 或 OpenCode,装好后直接把现有 CLI 接进来即可,不需要换订阅体系。根据官网和 GitHub README,它的核心玩法是先为一个仓库开多个隔离 worktree,然后把同一任务分别交给不同 agent 并排运行,再在内置 diff 视图里比较结果、挑一个合并。进一步还能用内置 Chromium 做 Design Mode,点页面元素把 HTML/CSS 和截图送进 prompt;如果你经常离开工位,还可以配合手机 companion app 查看 agent 状态和追发指令。
这不是单纯“套壳终端”。GitHub README 明确把它定位成 “Run Codex, ClaudeCode, OpenCode or Pi side-by-side — each in its own worktree”,并且仓库已有约 7.9k stars。官网和 README 同时强调 worktree、原生终端分屏、Design Mode、SSH worktrees、移动端 companion,这说明它想解决的是多 agent 并行协作的整套环境,而不是只做一个聊天框。
一个免费开源的浏览器扩展,不开 F12 也能抓取网页上的视频、音频和图片资源。
这个工具的入口非常直接。按作者在小众软件帖子里的说明,先从 Chrome 商店、Edge 商店或 Firefox 扩展商店安装 FlowPick,然后打开任意带媒体资源的网页,点击浏览器工具栏中的 FlowPick 图标,弹窗会列出当前页面检测到的视频、音频和图片。你可以先预览再下载,也能对图片做批量勾选操作。帖子还写明它支持常规网页视频、流媒体 M3U8、音频文件和整页图片扫描,并提供基础格式转换、本地端合并流媒体、多线程下载和多清晰度选择。适合先拿公开课程页面、播客页面或图文页试一遍,看看它能不能替代手动找网络请求的流程。
作者把它做成了“点击图标-预览-下载”三步流,而且明确强调本地端处理流媒体合并、不收集与追踪数据。相比很多只能抓单一视频链接的扩展,FlowPick 在帖子里给出的能力更完整:M3U8/MPD、图片批量打包、实时预览、自定义嗅探规则都已经覆盖,实用性很强。
OpenClaw 的官方移动 companion,可把你的本地 AI 助手接到手机上做聊天、语音、审批和设备联动。
官方给的上手路径很清楚:先在电脑上搭好 OpenClaw Gateway,再打开 iPhone 或 Android App,用二维码或 setup code 配对。配对后,手机端可以直接聊天、开 realtime/background Talk mode、接收 agent 的 action approvals,还能把别的 App 里的文字、链接、图片分享到 OpenClaw。App Store 页面还写明可以按需开启摄像头、定位、照片、通讯录、日历、提醒事项等权限,所以最适合的试玩方式不是空聊,而是先做一个具体闭环:例如把一条链接分享进去、让它整理内容,再在手机上审批某个动作,感受“个人 agent 节点”这条链路是否顺手。
OpenClaw 官网主站还在主推“从 WhatsApp、Telegram 等聊天入口驱动个人 AI”,而 App Store 页面则进一步把手机定义为 secure node。它不是普通聊天壳,而是把审批、分享、设备能力和本地优先控制权都塞进了 companion app;另外 App Store 页面显示开发者声明“不收集任何数据”,对注重隐私的用户是明显加分项。
一款 AI 驱动的影像日记 App,用照片和一句话整理情绪、事件与生活习惯。
根据作者在小众软件论坛的介绍,Dayflower 的基本用法是每天丢一张照片,再顺手写一句话。应用会结合照片中的时间、地点、场景信息,以及这句描述,帮你整理当时发生了什么、你的情绪走向,甚至长期归纳生活习惯。它还会提取照片主色,生成一片“花瓣”,把持续记录过的片段累成一棵可视化的树,后续再汇总成一本可翻阅的人生之书。作者还强调“无注册登录,无服务器,隐私至上”,并提供 Google Play 下载,所以最值得试的方式是拿过去几天的真实照片连续记录,观察它的整理是否真能比传统日记少负担。
很多 AI 日记产品停留在“帮你润色一句话”,但这个项目把图像、元数据、可视化和长期归档连到了一起。尤其“无服务器”的设定,让它更像一款重视个人记忆资产归属的本地型记录工具,而不是靠云端堆功能的内容 App。
一个给微信群熟人局用的多人约时间微信小程序,用热力图方式找共同空闲时间。
作者给的场景非常明确,就是解决微信群里“周六行不行、晚上呢、你们定我尽量来”这种来回拉扯。实际用法是微信内搜索“约个时间OK”,由发起人创建活动、设置候选日期和时间范围,再把小程序卡片转发到群里;参与者进入后在时间格子上标出自己的空闲,最后大家查看共同空闲时间再回到群里拍板。它的思路接近 When2meet / Doodle,但刻意保持轻量——只做收集阶段,不把所有讨论和确认都搬进产品里。第一次体验最适合拿一次聚餐、桌游、运动局或小组 meeting 来试。
它没有试图做成“大而全的协同平台”,而是只切微信群里一个高频又烦人的小动作。作者明确写出“更贴近微信群”的定位,这比国外协调工具简单搬运到中文场景更实在;对熟人社交、小团队临时协同来说,这种只解决一个痛点的小程序往往更容易用起来。
Simon Willison 的 shot-scraper 新增视频录制能力,可用 YAML storyboard 录制 Web 应用演示。
如果你已经会一点命令行,这个工具很值得直接动手。shot-scraper 官网说明它是一个“taking screenshots, recording video demos and scraping sites using JavaScript”的 CLI,而 Simon 的更新帖提到新增了 `shot-scraper video`,可以通过 storyboard YAML 录制 Web 应用演示。也就是说,你可以先写一个 YAML,描述打开哪个页面、点击什么、停留多久、执行哪些步骤,再让命令行自动跑出一段演示视频。对于开发者,最简单的试玩方式是拿自己刚做完的一个网页功能,录一个 onboarding 或 changelog demo;对于内容创作者,也可以把它当成“可编排的产品演示录屏器”。
这类工具的价值不在“能录屏”,而在“能脚本化录屏”。官网已经把 `video` 列为一级命令,Simon 的博客还专门提到这次是为“you or your coding agent”设计的 YAML storyboards,这意味着未来它很适合和 agent 工作流结合:功能做完后,顺手自动产出演示视频和验证素材。
Google Cloud 宣布 Nano Banana 2 Lite 正式可用、Gemini Omni Flash 进入 public preview,并开放 Agent Platform、AI Studio/API 等入口。
这次更新的重点不是“又发两个模型”,而是把多模态生产链路拆成更实用的两段:Nano Banana 2 Lite 负责 4 秒级快速出图和低成本编辑,Gemini Omni Flash 负责更高价值的视频生成与对话式编辑。Google Cloud 博文还明确写出 Omni Flash 支持文本、图片、视频混合输入,能做角色替换、补物体、重打光,并标出视频输出价格为每秒 0.10 美元;Nano Banana 2 Lite 则强调更快、更便宜、更适合高并发场景。对开发者来说,这意味着“先出静帧,再扩成视频”的流水线已经越来越标准化。
这会继续压低图像和视频生成的实验门槛,尤其适合做广告变体、社媒内容、产品演示和 agent 内部自动配图。更关键的是,Google 已经把文档、Colab、Prompt guide、Agent Skills 一起摆上桌,说明它不是停留在展示层,而是在抢开发工作流入口。
Anthropic 发布面向科学研究者的 Claude Science,定位为可在本地、Linux、SSH 或 HPC 环境运行的 AI workbench。
Anthropic 官方文章把它描述成“像 Jupyter Notebook 一样”的科学研究工作台,但更进一步:它整合常见科研工具与包,能产出可审计 artifact,支持通过 SSH 或 HPC login node 连接实验室已有算力,还预置 60 多个面向基因组学、单细胞、蛋白组学、结构生物学、化学信息学等方向的 skills 和 connectors。更重要的是,文中强调 reviewer agent 会检查引用和计算、标记并修正错误。这说明 Anthropic 正在把“科研助手”从聊天式问答推向有工作流、有审计链、有算力调度的产品层。
如果这条路线成立,未来科研场景会最先出现一批真正依赖 agent 的垂直工作台,而不仅是把通用模型套在论文检索外面。对 AI 产品圈来说,这也释放出明确信号:通用 coding workbench 之后,下一轮高价值入口很可能是强行业约束、强可追溯、强工具链整合的专业工作台。