今天最值得亲手试的方向,依然是“能直接装进工作流”的小工具和技能包:从端口查看、漫画拼图、文档排版,到可复用的 agent skills,都在把 AI 从概念拉回到可操作的桌面与工程场景。另一条线则是重度 agent 基础设施继续升级,Apodex、Qwen-AgentWorld 这类项目都在往“可验证、可自演化、可复现”的方向推进。
今天最值得亲手试的方向,依然是“能直接装进工作流”的小工具和技能包:从端口查看、漫画拼图、文档排版,到可复用的 agent skills,都在把 AI 从概念拉回到可操作的桌面与工程场景。另一条线则是重度 agent 基础设施继续升级,Apodex、Qwen-AgentWorld 这类项目都在往“可验证、可自演化、可复现”的方向推进。
一个放在菜单栏里的 macOS 工具,专门查看本机上每个 dev server / 端口到底被谁占着。
先到官网直接下载 `Ports-1.5.dmg`,拖进应用程序后打开即可。启动后它会常驻菜单栏,你可以一眼看到本机 localhost 上正在监听的端口、对应进程以及开发服务器状态;遇到 Vibe Coding 时不知道哪个端口占用、哪个服务没关、哪些本地服务重复启动,直接从菜单栏点开排查,再按界面里显示的进程信息去终止或切换端口,就能快速恢复开发环境。这个工具不需要复杂配置,核心就是“装上就能看、看完就能处理”。
它把最烦人的本地开发排障动作压缩成菜单栏级别的即时查看,特别适合频繁起多个服务、经常撞端口的前端/全栈开发者。相比每次都 `lsof`、`ps` 再手动筛,Ports 更像一个持续在线的本地监控面板,能直接降低调试摩擦。
一个面向文档、幻灯片、简历、长文与落地页的 AI 设计系统/技能包,目标是让 AI 直接产出“像成品”的版式。
先从 GitHub 仓库进入,直接看 README 和示例输出;如果你在 Claude Code 或支持插件市场的环境里,可以按仓库说明通过插件市场安装,文档里给了 `codex plugin marketplace upgrade kami` 和 `codex plugin add kami@kami` 这一类入口。装好后,挑一个模板场景先试最容易验证的类型,比如 one-pager、resume 或 changelog,再让模型按 Kami 的模板约束生成整页内容;如果你已经在 Claude Desktop 或其他支持 `~/.agents/` 的环境里,也可以按仓库的安装说明把它接进去。它的关键不是“让 AI 多写一点”,而是先把布局、字体、色板和模板约束固定住,再让模型填内容。
Kami 代表的是“约束优先”的 AI 内容生产方式。它不是让模型自由发挥,而是把文档设计拆成稳定的系统语言,减少每次生成都跑偏的概率。对需要高频出报告、提案、宣传页、简历的人来说,这种可复用的模板化约束非常实用。
一个纯浏览器端的漫画拼贴工具,把多张漫画图拼成一张长图,方便一次性分享。
直接打开在线版就能用,不需要注册;进入后按页面提示把多张图片拖进去,接着调整网格、间距、背景和导出样式,最后一键导出大图即可。如果你想本地玩,论坛页也给了标准流程:`git clone` 仓库、`npm install`、`npm run dev`。它最适合把散图变成一张完整大图,再发到社交平台或保存为完整阅读页,整个过程完全在浏览器里完成,门槛很低。
它把“拼图发图”这个高频小需求做成了零安装、纯前端、即时可用的工具,技术栈也很现代:Astro、Svelte、Tailwind、Canvas 2D、PWA。对经常发漫画、截图合集、分镜图的人来说,这种工具很容易立刻提升体验。
一个主打“自我演化”和可验证推理的重度 research agent 体系,提供 web app、API 平台和开源评测/训练 harness。
如果只是想先体验,先从官网进入 Web App,看它对“Self-Evolving Heavy-Duty Solver”的演示和产品定位;如果想复现或动手跑评测,可以进 `AgentHarness` 仓库,按 README 里提到的流程配置环境变量:`OPENAI_BASE_URL`、`OPENAI_API_KEY`、`OPENAI_MODEL`、`SERPER_API_KEY`、`JINA_API_KEY`、`E2B_API_KEY`,再把模型服务接到 SGLang 或兼容的 OpenAI API 端点上。官网和博客强调的是 ReAct agent、异步子代理、验证团队、全局 verifier 这条路线,所以更适合按“先看产品,再看 harness,再看 benchmark”顺序上手。
Apodex 把“搜索 + 工具调用 + 证据验证”当成一个系统问题来做,而不是单轮模型能力问题。它的 heavy-duty mode 强调多代理并行、交叉审查和证据审计,代表的是一种更接近研究工作流的 agent 架构,尤其适合高不确定性的深度调研任务。
Qwen 发布的语言世界模型项目,主打模拟 agent 环境并预测下一状态,覆盖 MCP、Search、Terminal、SWE、Android、Web、OS 七个领域。
先看 GitHub README 或官方 blog 的 demo 入口,想要直接试的话优先点博客里的 interactive demo;如果想下载模型或复现实验,仓库里已经给出 Hugging Face / ModelScope 集合和下载提示,也提到了 `huggingface download`、`git clone`、`SGLANG_USE_MODELSCOPE=true`、`VLLM_USE_MODELSCOPE=true` 这些启动线索。最适合的上手方式是先体验 demo 感受“世界模型如何模拟环境”,再决定是否把模型拉到本地或服务端跑更重的实验。
它不是传统意义上“教 agent 怎么操作”的模型,而是把环境建模本身当成训练目标,试图让模型学会预测终端输出、网页变化和代码执行后的状态变化。这种思路如果成立,对 agent 可靠性、规划和仿真训练都会很有价值。
一套面向真实工程场景的可组合 AI skills,重点解决“对齐、术语、测试、调试”这些实际痛点。
最直接的方式是按仓库说明执行 `npx skills@latest add mattpocock/skills`,安装时注意选择 `/setup-matt-pocock-skills`,然后在自己的 agent 里运行这一步初始化。初始化后它会问你用什么 issue tracker、有哪些 triage 标签、文档存哪儿;接着你就能按场景选择具体 skill,比如需要澄清需求时用 grilling 类技能,需要共享领域语言时用 docs 类技能。这个仓库的价值在于,把 agent 使用过程拆成一个个小动作,而不是让你一次性把整个流程交给模型。
它代表的是一种很务实的 agent 方法论:技能要小、要可拼装、要能控制流程,而不是把一切交给大而全的自动化框架。对工程团队来说,这种方式更容易试错、替换和渐进采用。
《图解 Skill》官方配套仓库,汇集了技能安装指南、写作工作流模板、完整 skills 和示例材料。
直接进入仓库先看 README 和 `skill-templates/`、`skills/` 两个目录,里面已经把可直接复制的写作技能模板、完整技能和示例内容分门别类整理好了。如果你本身就在折腾 Claude Code、Claude Desktop、VS Code 或其他 agent 环境,可以优先看仓库里的安装指南和附录,再挑一个模板把它复制到自己的技能目录里试跑。这个仓库比较适合当“技能样板间”,用来理解技能怎么组织、怎么安装、怎么更新。
它把“技能是怎么写、怎么装、怎么维护”的整个链路都收拢到了一个官方配套仓库里,尤其适合想搭建自己技能库的人。相比只看概念文章,这类 repo 更容易直接照着做。
OpenAI 被多条推文提到已开始设计并制造自研 AI 芯片,目标是为 ChatGPT、Codex、API 和未来代理型产品提供推理算力。
这说明大模型竞争已经继续往基础设施和推理成本下沉。单靠模型参数优势已经不够,谁能把推理成本、能效、部署规模和供应链一起控制住,谁就更有可能把产品利润和交付稳定性握在手里。自研芯片并不只是“秀肌肉”,更像是被成本曲线和算力供给逼出来的系统性动作。
如果这条路线推进顺利,模型厂商和云厂商之间的边界会进一步模糊,未来竞争可能不只是比模型效果,还要比芯片、编译栈、集群调度和单位请求成本。对开发者而言,产品定价、响应速度和可用额度也可能随之变化。
字节跳动新模型 SeedMusic 1.0 Preview 被推文提到可“一句话生成完整歌曲”,耗时大约 2-3 分钟。
这类生成式音乐模型的体验门槛已经从“能不能生成”进入到“生成效果是否稳定、风格是否可控、是否足够快”。如果预览版就能做到较完整的歌曲结构,后续更关键的就会变成音质、版权、商用接口和创作可控性,而不只是演示效果。
音乐生成会继续从玩法走向生产力工具,广告、短视频、游戏和内容创业团队都可能更频繁地把它放进工作流。真正的分水岭会是是否能形成稳定 API、可控版权和更低的创作成本。