今天最值得关注的是“可运行的 Agent 基础设施”集中出现:从 Vercel 的 Agent Harness、Claude Agent SDK 额度、ZCode 客户端,到 Agent 悬赏市场和多 Agent 治理框架,开发者正在把 AI 从聊天窗口推向真实执行、评测、付费和交付闭环。另一条主线是低门槛工具爆发:RAG 压缩索引、App 评论分析、AI 写作/剧本/小说工具、视觉检测和 Lottie 动画生成,都已经有网页、GitHub 或客户端下载入口,可以今天就上手。
今天最值得关注的是“可运行的 Agent 基础设施”集中出现:从 Vercel 的 Agent Harness、Claude Agent SDK 额度、ZCode 客户端,到 Agent 悬赏市场和多 Agent 治理框架,开发者正在把 AI 从聊天窗口推向真实执行、评测、付费和交付闭环。另一条主线是低门槛工具爆发:RAG 压缩索引、App 评论分析、AI 写作/剧本/小说工具、视觉检测和 Lottie 动画生成,都已经有网页、GitHub 或客户端下载入口,可以今天就上手。
Vercel Labs 的 json-render 示例,把 Coding Agent 的执行过程渲染成结构化 UI,而不是只返回 Markdown。
进入 GitHub 仓库后先阅读 examples/harness-chat 目录的 README 和 package 配置,按仓库说明安装依赖并启动示例。它的核心玩法不是让 Agent 直接吐一大段文字,而是让 Agent 输出受约束的 JSON UI 规格,前端把步骤、Diff、终端输出、测试结果、图表等渲染为组件。你可以先跑通默认 demo,再把自己的 Claude Code、Codex 或 Pi 调用封装进相同 harness,把“执行命令—修改代码—运行测试—展示结果”的过程变成可审计的产品界面。
Coding Agent 真正进入生产后,瓶颈不是“能不能写代码”,而是人如何理解、验证和回滚它做了什么。Generative UI 把 Agent 行为从文本流升级成可交互的状态机,方便做权限控制、测试证据展示和多人协作审查,是 Agent 产品化的重要基础设施。
tw93 开源的 AI 写作排版工具,面向简历、报告和多语言内容润色。
打开 GitHub 仓库查看安装和运行说明,适合先从示例或本地开发模式跑起。把已有的简历、周报、项目报告或中英文草稿导入后,让 Kami 在改写前做事实检查,再把内容压缩成两页以内的整洁版式。它强调“写得好,也要看起来刚好”,因此不要只把它当文本润色器,可以用它做最终交付前的版面统一:标题层级、段落长度、语言切换和简洁视觉风格都交给工具处理。
很多 AI 写作工具停留在生成文字,真正影响交付质量的是事实一致性、篇幅控制和视觉呈现。Kami 选择把写作、检查、排版和多语言放在一个轻量系统里,适合个人开发者、求职者和知识工作者把 AI 输出变成可提交材料。
一个把笔记本电脑变成大规模 RAG 搜索系统的项目,宣称用比传统方案少 97% 的存储索引百万级文档。
先从原推进入项目主页或仓库,确认当前支持的安装方式、向量模型和文档格式。上手时建议不要一开始导入全部资料,而是先选一个 1GB 以内的 PDF、Markdown 或网页归档目录,建立索引后测试关键词搜索和自然语言问答的召回质量。它的卖点是基于图的 selective recomputation:不是把所有向量和中间结果都永久堆在磁盘上,而是在检索时选择性重算,从而节省存储。验证时要比较三件事:索引体积、检索延迟、答案是否漏掉关键文档。
个人知识库和企业文档 RAG 最大痛点之一是“索引比原文还占空间”,尤其在本地电脑或 NAS 上不划算。LEANN 如果能在准确率接近传统方案的同时大幅压缩存储,会让离线知识库、代码库问答和私有资料检索更容易普及。
输入任意 App 名称,自动抓取 App Store 用户评价并用 LLM 分析成产品经理可用洞察。
最简单的方式是直接打开在线体验站 appreview.qiaomu.ai,输入一个 App 名称,选择市场或榜单来源后生成评价分析。免费预设每天限查 3 个 App,适合先试自己产品、竞品和榜单头部产品。想长期使用可以访问 GitHub 仓库自部署:配置 App Store 数据抓取、LLM API Key 和分析提示词后,把评论按版本、国家、评分和时间聚合,输出用户痛点、功能请求、负面原因和可执行改进建议。
App 评论里有大量真实需求,但人工读评论成本高、噪音大。这个工具把“抓取—清洗—归类—洞察”串成产品工作流,尤其适合独立开发者和小团队低成本做竞品研究,不需要先购买昂贵的数据分析平台。
一个 all-in-one 的 Claude、Codex 本地代理网关,支持 OAuth 登录、日志计费、隐私过滤和缓存预警。
从小众软件发现频道进入项目介绍页,查看作者提供的仓库、安装包或部署命令。它适合放在本机或内网服务器上,作为 Claude Code、Codex、OpenClaw 等编码工具的统一出口。部署后先配置上游模型账号或 OAuth 登录,再把本地 CLI 的 API Base URL 指向这个网关,逐项打开日志、计费统计、隐私过滤和缓存预警。建议先用一个测试项目验证:敏感文件是否被过滤、请求量是否记录、失败请求是否能定位。
AI 编码工具越来越多,账号、额度、日志和隐私策略分散在不同客户端里,很难管理。统一代理网关能把个人或团队的模型调用变成可观测、可限流、可审计的基础设施,是重度 AI Coding 用户非常实用的“中间层”。
一个把一句想法扩展成可拍摄剧本的 Skill 工作流。
打开小众软件文章后,按文中给出的 Skill 内容或模板导入到支持 Skills 的 Agent 环境,例如 Claude、Hermes 或其他可保存系统提示词的工具。使用时不要只给“写一个短剧”这种泛需求,而要给主题、人物、时长、平台风格、预算限制和禁忌。Skill 会把想法拆成故事核心、人物关系、场景、冲突、分镜或对白。第一次生成后重点检查“能不能拍”:场景数量是否过多、道具是否现实、对白是否符合人物,再让 Agent 迭代成最终拍摄稿。
视频创作者最难的是从灵感走到可执行脚本,普通 LLM 容易写出文学化但拍不了的内容。剧本锻造把创作流程结构化,强调拍摄约束和落地性,适合短视频、广告、课程和自媒体脚本生产。
一个视觉检测模型,用自然语言描述就在图里精确框出目标,还支持样例检索。
直接打开 perceptron.inc/demo 上传一张图片,先用简单查询测试,例如“找出所有杯子”“圈出可能挡住门的物体”。进阶玩法有三种:不指定标签时让它全量盘点图片中的人、物和杂物;给一组自然语言目标,让模型逐类框选;上传几张样例图让它寻找相似目标,并用反例排除干扰。建议用真实复杂场景测试,比如仓库货架、桌面杂物、工厂照片,而不是只用单物体图片。
传统目标检测需要预定义类别和标注训练,开放词汇检测虽然进步很快,但对“需要物理推理或上下文判断”的目标仍不稳定。Agentic Detection 把语言理解、视觉定位和交互式查询结合起来,降低了非技术用户做视觉检测的门槛。
Diffusion Studio 的 Lottie 生成项目,让 Agent 根据文字或数据生成可嵌入的 Lottie 动画。
打开 GitHub 仓库后按 README 安装依赖,先运行示例生成一个基础文字动画。Lottie 本质是 JSON 动画格式,适合网页和 App 轻量播放;这个项目的玩法是让 Agent 生成动画结构,而不是让设计师手工调关键帧。你可以从简单提示开始,例如“生成一个数字从 0 增长到 100 的进度动画”,再尝试输入真实数据,让 Agent 生成柱状、折线或状态变化动画。生成后用 Lottie 预览器检查体积、帧率和兼容性。
AI 生成图片和视频已经很多,但产品界面真正常用的是可控、轻量、可交互的动效。Text-to-Lottie 把自然语言和结构化动画连接起来,适合开发者不依赖设计工具快速做 Loading、引导页、数据可视化和营销动效。
智谱推出的类 Codex 客户端,支持 Windows、Mac,疑似可免费使用 GLM 5.2。
访问 zcode.z.ai/cn 下载对应系统版本,Mac 用户注意区分 Intel 和 Apple Silicon,Linux 版本需要按页面提示加入内测群。安装后用 Google 或页面支持的账号登录,创建或打开一个本地代码项目,先让它执行小任务:解释项目结构、修复一个 lint 错误、补一个测试。因为它定位类似 Codex 客户端,建议重点观察三点:是否能真实读写文件、是否能运行命令、是否有清晰的 Diff 审查和回滚机制。
AI 编码客户端正在从命令行走向桌面化和多模型化。ZCode 如果能以低成本接入 GLM 5.2,并覆盖 Windows/Mac/Linux,会给国内开发者一个更容易上手的 Codex/Claude Code 替代方案,也会推动本土模型进入真实工程工作流。
一个用 AI 写长篇小说的本地工具,面向长文本创作和小说项目管理。
从小众软件项目页查看下载地址、仓库或运行说明,优先在本地创建一个测试小说项目。使用时先输入世界观、主角设定、章节目标和写作风格,不要直接让它“写一本小说”。长篇创作关键是连续性,所以要重点测试角色卡、情节线、章节大纲和前文记忆是否能被工具保存并复用。建议先生成 3 章,每章后人工修改关键设定,再让工具继续续写,看它是否能遵守修改后的事实。
长篇小说不是一次性生成问题,而是记忆、结构、人物一致性和版本管理问题。本地工具如果把这些流程封装好,会比普通聊天窗口更适合严肃创作者,同时保护未发布作品不被上传到第三方平台。
一个 AI 版“猪八戒”悬赏任务市场,让外部开发者部署的 Agent 自动接单、完成任务并获得赏金。
打开 clawhunt.store 注册账号后,可以先作为需求方发布一个小任务,例如优化数据库查询、写一个 Skill、生成工作流或修复脚本,设置明确验收标准和赏金。另一种玩法是作为 Agent 开发者接入平台:填写 Agent 名称、能力描述、使用模型和 Webhook 地址,通过能力测试和审核后让平台派单。建议第一步先围观现有任务和社区,理解任务格式、验收规则和支付方式,再把自己的 Agent 接入,避免因为能力描述过泛导致接到无法完成的任务。
Agent 商业化的关键不是 demo,而是任务分发、验收、支付和声誉系统。ClawHunt 试图把 AI Agent 从“工具”变成“可交易劳动力”,如果闭环跑通,会催生大量垂直 Agent,例如 SEO、数据分析、代码修复、自动运营等。
免费开源的 32 页材料,系统梳理 Loop Engineering 的概念来源和最佳实践。
进入 GitHub 仓库下载 PDF 或阅读 Markdown 版本,建议按“概念—争议—最佳实践—案例”的顺序读。读的时候不要把 Loop Engineering 当新名词崇拜,而是结合自己的 Agent 使用流程做对照:输入如何被拆解,反馈如何进入下一轮,人工检查点在哪里,哪些环节可以自动化。读完后可以把其中方法改写成团队提示词或项目 Skill,用在需求澄清、实验记录、评审复盘和自动化迭代中。
AI 圈新词很多,但 Loop Engineering 指向的是一个真实问题:如何让 AI、人和环境形成可持续反馈回路,而不是一次性提示词。开源材料如果能把来源、反对意见和实践边界讲清楚,比碎片化观点更适合团队内部培训。
微信发布开发者接入微信 AI 生态的官方指引,给小程序和微信生态开发者提供 AI 能力入口。
打开微信官方文档,先确认你的主体、小程序类型和接口权限是否满足接入要求。上手路径建议是:创建一个测试小程序,按指引开通 AI 相关能力,阅读接口鉴权、调用额度、内容安全和审核要求,再做一个最小 demo,例如智能客服、商品推荐、表单自动填写或内容生成。不要直接上生产业务,先用灰度环境测试响应速度、敏感词拦截、日志留存和用户授权提示。
国内大量真实用户和交易场景都在微信里,AI 能力一旦成为官方生态接口,会让小程序从“页面工具”升级为“智能服务入口”。这对本地生活、电商、教育、客服和企业微信协同都有直接影响。
AMD 推出 Mac mini 大小的本地 AI 开发平台,128GB 统一内存,宣称可本地运行最高 2000 亿参数模型。
先阅读 AMD 官方页面确认具体型号、内存、NPU/GPU 算力和支持框架。它不是普通云 API,而是面向本地部署的大模型开发机;上手时应关注预装环境是否包含常见推理框架、模型管理和示例。拿到设备后可以按官方 demo 从小模型开始,再尝试 GPT OSS 120B、Qwen、GLM 等量化模型,记录首次出 token 时间、吞吐、温度、功耗和上下文长度。若用于生产,还要验证驱动、容器和远程访问稳定性。
本地 AI 的价值在隐私、低延迟和可控成本,但过去高显存设备要么贵、要么难配置。AMD 把统一内存和预装模型环境做成小型开发平台,是对 NVIDIA DGX Spark 和 Mac Studio 路线的直接挑战。
Mac 工具 Mole 1.7 更新,加入 Apple Silicon 风扇控制、摄像头/麦克风隐私警报、AI 编码保持唤醒等功能。
访问 mole.fit 下载 Mac 版,安装后先授予必要的系统权限,例如辅助功能、通知、摄像头/麦克风状态读取和电源管理。AI 编码用户可以重点打开“保持唤醒”功能,避免 Claude Code、Codex 或本地模型长任务时电脑睡眠;再配置摄像头/麦克风隐私警报,监控后台应用是否调用设备。Apple Silicon 用户可以测试风扇控制和系统状态面板,但要保守设置,避免为了安静牺牲散热。
AI Coding 让电脑出现大量长时间后台任务,传统 Mac 小工具没有专门考虑“跑 Agent、跑模型、跑测试”的场景。Mole 把隐私、唤醒、风扇和系统监控结合起来,对重度本地 AI 开发者很实用。
乔木的 AI 音乐站更新多首 Suno 生成歌曲,展示组合创新带来的新听觉体验。
https://music.qiaomu.ai/track/ghostty-1aea ↗
直接打开三首歌曲链接试听,重点听风格融合、歌词结构、人声质感和编曲层次。想复刻玩法,可以把每首歌当作 prompt 研究样本:记录它像哪几种风格组合,哪里有 AI 痕迹,哪些段落适合短视频或产品宣传。再回到 Suno 或其他 AI 音乐工具,用“风格组合 + 情绪 + 场景 + 结构”的方式生成自己的版本,而不是只输入一句泛泛的“生成一首电子歌”。
AI 音乐的实用价值正在从“能不能生成歌”转向“能不能做出明确风格和用途”。这些在线样本可以帮助创作者理解 AI 在风格拼接、氛围塑造和短内容配乐上的能力边界。
Anthropic 从 6 月 15 日起为 Agent SDK、Claude Code 的 claude -p、GitHub Actions 集成和第三方 Agent App 提供订阅专用使用额度,Pro 用户约 $20,Max 5x 约 $100。
这相当于 Anthropic 在“禁止第三方消耗订阅额度”和“完全转 API 计费”之间做了折中:个人订阅仍可驱动 Agent 工作流,但用独立额度隔离成本。对开发者来说,claude -p 非交互模式、Agent SDK 脚本、Pi、OpenClaw、Hermes 等工具的可用性明显提升,不必每次都直接走昂贵 API。
短期会刺激 Claude 生态的 Agent 工具增长,尤其是个人开发者和小团队的自动化脚本。长期看,平台仍在摸索订阅、API、第三方客户端之间的成本边界,未来额度、模型、上下文长度和身份验证都可能继续调整。
Addy Osmani 讨论 Agentic Code Review,指出 AI 让代码产出提高约 4 倍,但实际交付价值只增加约 10%,多出来的是待验证代码。
AI 编码把“写代码”成本大幅压低后,工程瓶颈转移到审查、测试、理解和信任。团队如果只追求生成速度,会得到更多 PR、更大 Diff 和更多隐性维护成本;真正有杠杆的是自动化审查、风险分级、测试生成和架构一致性检查。
代码审查工具、Agent 评测、CI 中的安全/质量门禁会成为下一波基础设施机会。企业采购 AI Coding 工具时,也会从“能写多少代码”转向“能否证明代码可靠、可维护、符合团队规范”。
Cua 与 Snorkel AI 发布 Cua-Bench,首个公开数据集聚焦 KiCad,包含 25 道由执业电气工程师编写并复核的电子设计任务。
Computer Use 评测如果只停留在网页点击和简单办公软件,无法代表专业工作。KiCad 任务要求模型理解电路、元件、约束和软件操作,从“改电容值”到“搭建双运放电路”,更接近真实白领/工程师工作流。它能暴露模型在长任务规划、视觉定位、领域知识和错误恢复上的短板。
这类基准会推动 Agent 从通用桌面操作走向垂直专业软件,未来 CAD、EDA、财务、医学影像、数据分析软件都可能出现类似评测。模型厂商和 Agent 公司需要证明自己不只是会点按钮,而是能完成专业任务。
Anthropic 更新隐私条款,Claude 免费版、Pro 和 Max 用户在特定情况下可能被要求进行年龄或身份验证,政策涉及验证数据收集。
这说明前沿模型服务正在面对合规、出口管制、年龄限制和滥用治理压力。身份验证不一定会覆盖所有用户,但一旦触发,可能涉及证件、自拍或第三方验证服务。对依赖 Claude 的个人和工具开发者而言,账号可用性不再只是订阅问题,还包括地区、身份和任务类型。
短期会增加部分用户的使用摩擦,推动多模型备份和本地模型替代。长期看,AI 服务会像金融、支付和云服务一样逐步引入更强的 KYC/风控机制,第三方客户端也必须处理验证、隐私说明和用户数据边界。
原阿里千问大模型负责人林俊旸创立的 AI 实验室完成首轮融资,红杉和高榕据称各出资 1 亿美元,腾讯跟投 2000 万美元,投后估值约 20 亿美元。
模型人才和训练经验仍然是资本追逐的核心资产。即便基础模型竞争进入高投入阶段,顶级团队一旦具备从预训练到产品化的履历,仍能获得巨额早期融资。这也反映国内大模型创业从“讲故事”进入“抢人、抢算力、抢生态”的阶段。
国内模型赛道会继续分化:头部新团队获得资本和算力,腰部公司更难独立训练前沿模型,可能转向垂直应用、Agent 工具或企业交付。对大厂来说,核心模型人才流动也会成为战略风险。
Cloudflare 通过吸纳 Ensemble AI 团队成员,继续加强机器学习基础设施和效率方向投入。
Cloudflare 的优势在全球网络、边缘计算、安全和开发者平台,AI 基础设施天然需要低延迟分发、推理路由、缓存、安全过滤和可观测性。吸收 ML 基础设施团队,说明它不只是卖 CDN,而是在为“AI 请求经过 Cloudflare”构建更深能力。
未来开发者可能在 Cloudflare Workers、AI Gateway、边缘推理和安全策略中获得更完整的一站式 AI 部署体验。云厂商、CDN 和模型平台的边界会继续模糊,基础设施竞争会从算力扩展到网络与治理层。
Databricks 推出 Omnigent,定位为 meta-harness,解决多个 Agent 的组合、治理和协作问题。
当单个 coding agent、数据 agent 或业务 agent 被大量部署后,企业真正头痛的是谁来协调它们、如何分配权限、怎样追踪责任、如何防止相互冲突。Databricks 从 5000+ 工程师使用 coding agent 和对外交付 Genie 等实践中抽象出 meta-harness,说明 AgentOps 正在从“单 Agent 能力”上移到“组织级编排”。
企业 AI 平台会需要类似 Kubernetes/工作流引擎的 Agent 管理层,包含任务路由、审计、评测、权限、记忆和成本控制。数据平台厂商如果能掌握这一层,会在企业 AI 落地中获得更高控制点。
Dimillian 总结 Codex Mobile 心智模型:手机不是缩小版终端,而是远程开发机的控制中心。
移动端做 AI 编程的关键不是在手机上跑编译,而是让手机负责启动、引导、审查和组织任务,真实执行仍在 Mac、Windows 或 devbox 上完成。这种模式把碎片时间变成工程管理入口:排队任务、查看 Diff、批准测试、合并 PR,而不是在小屏幕敲代码。
AI Coding 会改变开发者设备分工,桌面负责执行,手机负责决策和审查。未来 GitHub、Linear、Slack、Codex/Claude Code 客户端可能进一步融合,移动端工程协作会从通知工具升级为 Agent 控制台。