Agent编排和工作流成为绝对主角:Sandcastle用TS脚本多Agent协同、Claude Code Dynamic Workflows进入Codex、微软SkillOpt把SKILL.md变成可训练对象——Agent不再单打独斗。同时Google发布可暂停数天的长运行Agent框架ADK,Agent基础设施进入新阶段。
Agent编排和工作流成为绝对主角:Sandcastle用TS脚本多Agent协同、Claude Code Dynamic Workflows进入Codex、微软SkillOpt把SKILL.md变成可训练对象——Agent不再单打独斗。同时Google发布可暂停数天的长运行Agent框架ADK,Agent基础设施进入新阶段。
用TypeScript脚本编排Codex、Claude Code、Cursor、GitHub Copilot等多个Agent在同一个Workflow中协作完成复杂任务,支持在虚拟机中运行。
Sandcastle是Matt开发的Agent编排框架,核心思路是用TypeScript定义Workflow,让不同Agent各司其职。比如你可以让Codex负责代码生成、Claude Code做审查、Cursor处理前端UI,全部在沙箱虚拟机中执行。安装方式需关注作者@dotey后续发布的仓库链接。安装后编写.ts工作流脚本,定义各Agent的任务和交接逻辑,一键运行即可实现多Agent流水线协作。
这解决了当前碎片化的Agent生态痛点——每个人都在用多个Agent,但缺乏统一编排层。Sandcastle把"集众家之长"变成了工程化实践,虚拟机沙箱执行保证了安全隔离,TypeScript脚本让工作流可版本控制、可复用。
开启后Codex不间断截图你的屏幕,累积巨量上下文,AI回答越来越懂你,越用越顺手。
在Codex中启用Chronicle功能后,AI会持续捕获屏幕画面作为上下文。与手动复制粘贴不同,Chronicle自动建立"视觉记忆",你在做什么项目、用什么工具、遇到什么问题,AI全知道。回答问题更个性化,不再需要每次解释背景。对于长期项目尤其有效——第二天的对话里AI还记得昨天你在调试的那个bug。
这可能是Codex最低调但最实用的功能。当前AI助手的最大痛点是"失忆"——每次对话都是新的开始。Chronicle用截屏流解决了巨量上下文问题,让Agent真正"看见"你在做什么,而不是依赖你手动描述。这是从copilot到真正搭档的关键一步。
Step 3.7 Flash模型正式加入mlx-vlm,4bit量化版本在128G Apple Silicon上跑出53+ tokens/s,视觉理解+文本生成全跑通。
前提是拥有一台Apple Silicon Mac(M系列芯片)。安装mlx-vlm:`pip install mlx-vlm`,然后下载Step 3.7 Flash的MLX转换版模型文件(作者Ivan Fioravanti已提供转换),使用4bit量化格式。在Mac Studio上实测,32K上下文窗口下生成速度53 tokens/s以上。支持图片输入做视觉理解,文本输出做对话。完全本地运行,无需联网。
Apple Silicon正在成为AI推理的性价比之王。Step 3.7 Flash是Step系列中最快的模型,加上mlx-vlm的MLX优化,能在消费级硬件上跑出接近云端的体验。128G统一内存可加载大模型+长上下文,这是NVIDIA消费卡做不到的。
一段提示词+GPT Image 2生成所有图片,Cursor写代码,做出了一个完整的文字恋爱游戏,开源可玩。
打开在线地址即可开始游戏——这是一个浏览器端运行的文字恋爱游戏,所有角色立绘和场景图由GPT Image 2生成,代码由Cursor完成。可以Fork GitHub仓库,修改剧情和角色,替换图片素材,生成你自己的恋爱游戏。整个项目展示了AI全栈开发的范式:图片用GPT生成、代码用AI写、部署在GitHub Pages。
这是AI全栈开发的最佳demo——一个人+AI完成了原本需要美术+程序员+编剧团队的完整游戏。GPT Image 2生成的角色一致性相当好,Cursor处理了游戏逻辑和UI,GitHub Pages零成本部署。从想法到可玩产品,零门槛。
Google官方Agent开发工具包,支持构建可暂停数天、存活重启、不丢失上下文的长运行AI Agent。
大多数Agent教程只做到无状态demo就结束了。Google ADK针对生产环境设计:Agent可以运行数周,中途暂停保存状态,服务器重启后无缝恢复,上下文不丢失。代码和教程在官方链接中,包含完整的持久化、状态管理、断点恢复示例。用Python即可上手。
这是Agent从demo走向生产的关键基础设施。现实中的Agent任务(代码审查周期、数据分析项目、客户支持工单)往往跨越多天,当前框架几乎都假设Agent是"一次性"的。Google ADK解决了Agent持久化这个被忽视的核心问题,对构建企业级Agent应用至关重要。
微软将SKILL.md转变为可训练对象,优化器模型通过Agent执行反馈循环自动改进技能文档,让Agent提示词越跑越好。
传统SKILL.md是手写或一次性生成的静态文档。SkillOpt引入独立的优化器模型,输入Agent rollout数据(Agent执行任务的实际表现),自动分析哪些指令有效、哪些造成了困惑,然后重写优化SKILL.md。这形成了一个反馈闭环:Agent执行→记录表现→SkillOpt优化→更好的SKILL.md→Agent表现提升。
这是提示词工程的范式转变——从"人工调优"变成"机器学习优化"。这解决了SKILL.md维护中最痛苦的问题:技能文档随时间退化、无法验证效果、优化依赖直觉。SkillOpt把这个问题变成了可量化的优化任务。
Google将Project IDX升级为Firebase Studio,内置AI编码辅助、多语言支持、直接集成Firebase生态,完全免费。
直接访问Firebase Studio网页版,无需安装任何本地环境。支持Node.js、Python、Go、Java等多语言,内置AI代码补全和对话助手,直接连接Firebase的数据库、认证、部署等服务。对比Cursor的付费模式,Firebase Studio对个人开发者完全免费。
这是Google在AI IDE战争中打出的免费牌。Project IDX原本是实验项目,升级为Firebase Studio后整合了完整的AI+云服务生态。对个人开发者和学生而言,免费+全栈+AI是杀手级组合。
StackBlitz用WebContainer技术在浏览器里跑完整Node.js环境,输入描述直接生成全栈应用,零配置。
打开bolt.new,输入你想要构建的应用描述(支持中文),AI自动生成完整的前后端代码。WebContainer技术在浏览器沙箱中运行真实的Node.js运行时,可以安装npm包、运行数据库操作、启动开发服务器。生成的应用可以直接部署到Netlify/Cloudflare,或导出代码到本地继续开发。
bolt.new是"prompt-to-app"领域的标杆产品。WebContainer让浏览器变成一个完整的开发环境,不需要安装Node、不需要配置环境变量、不需要处理系统兼容性。对非程序员而言,这是最低门槛的"想法→应用"路径。
歸藏为AI Agent写的社交媒体卡片生成Skill,冲到GitHub本周新建项目Star排名第一。
这是一个供AI Agent(Codex/Claude Code等)使用的Skill,让Agent能自动生成社交媒体分享卡片(OG Image)。在支持的Agent中导入该Skill后,只需告诉Agent"为这篇文章生成社交卡片",它会自动设计布局、配色、排版,输出标准尺寸的社交分享图。完全由Agent驱动,无需手动操作设计工具。
这个项目爆火说明AI Agent的"技能市场"正在形成。Skill是Agent的扩展模块,好的Skill能让Agent瞬间获得新能力。歸藏的这个Skill证明了:为Agent写Skill可以帮助成千上万的用户,比做一个独立App的影响力更大。
用规则引擎自动化文件分类整理,告别手动整理杂乱文件夹。
Windows平台下载安装后,配置整理规则——例如"*.pdf文件→文档文件夹"、"图片创建时间>2024→归档文件夹"、"文件名包含'发票'→财务文件夹"。规则引擎支持多重条件组合,可以按扩展名、创建日期、文件大小、文件名关键词等维度自动分类搬运。一次配置,之后新下载的文件自动归位。
Windows至今缺少像Hazel(macOS)那样好用的自动整理工具。归所填补了这个空缺,规则引擎提供了比简单文件过滤更强的灵活性。对于下载文件夹常年杂乱、桌面堆满临时文件的用户来说,这是解放生产力的利器。
手机扫码后用豆包语音引擎将语音转文字,实时输入到电脑上。
电脑上打开PhoneMic网页,手机扫码连接,手机端调用豆包语音识别引擎,说话后文字实时出现在电脑输入框。不需要蓝牙、不需要数据线,纯网页+扫码。支持中文和多种语言,识别准确率高于系统自带语音输入。
解决了电脑语音输入的老大难问题——大多数电脑麦克风收音差、环境噪音大。用手机当高灵敏度麦克风+豆包引擎的高精度识别,把手机变成了专业级语音输入外设,成本为零。
用Rust/mlx-c重写的pibot,集成本地STT/TTS和多模态LLM,全部本地运行无Python依赖。
pibot现在使用parakeet做语音识别(STT)、qwen3-tts做语音合成(TTS)、Qwen 3.6多模态模型做理解(通过llama.cpp)。所有推理引擎基于Rust/mlx-c从Python移植过来,完全零Python依赖。在Apple Silicon Mac上编译运行,获得一个完全本地、隐私安全、能看能听能说的AI助手。
零Python依赖意味着更小的体积、更快的启动、更少的依赖冲突。Rust重写让pibot在生产环境中更可靠。而且本地STT+TTS+多模态LLM的全栈方案,对隐私敏感场景(医疗、法律、企业)极有价值。
宾夕法尼亚大学沃顿商学院统计与数据科学系正教授苏炜杰(北大数院出身)正式加入OpenAI,同时兼任宾大机器学习研究中心联合主任。
苏炜杰是统计机器学习领域的顶尖学者,他在高维统计、深度学习理论方面的研究直接影响了大模型训练方法论。OpenAI此次挖角延续了从学术界吸收顶级理论人才的策略——在模型能力趋于平台期的当下,理论突破比工程优化更稀缺。这也是继Karpathy、Sutskever之后又一重磅学界→工业界迁移。
OpenAI正在构建一个"理论+工程+产品"的铁三角。苏炜杰的加入将强化OpenAI在模型训练理论、可解释性、可靠性方面的基础研究能力,这对下一步的AGI safety和模型可控性至关重要。
Anthropic发布Claude Opus 4.8,并引入Dynamic Workflows动态工作流机制。但中文社区反馈两极分化——有人觉得升级不大甚至变笨了,有人账号莫名变成未注册状态。
Opus 4.8的Dynamic Workflows是Agent编排能力的重要更新,但用户感知不强——因为大多数人只用单轮对话。反响分化反映了能力展示与用户体验之间的鸿沟:底层能力的进步不一定能转化为立即可感知的体验提升。另外账号问题影响了部分用户的测试体验。
Anthropic在新模型发布节奏上明显加快,但与OpenAI的差距仍然存在。Dynamic Workflows的方向是对的——Agent化是不可逆的趋势——但如何让用户感知到这些底层进步是Anthropic的挑战。
AI芯片创业公司Groq据报道正在融资6.5亿美元,专注推理专用芯片路线,与NVIDIA的通用GPU路线差异化竞争。
在NVIDIA 200亿美元收购案之后,Groq的这轮高额融资说明资本市场看好推理专用芯片这一赛道。目前AI计算市场大头被NVIDIA占据,但推理侧的延迟、成本、能效比是NVIDIA GPU的短板。Groq的LPU(语言处理单元)专为Transformer推理优化,延迟极低。
推理芯片专业化将加速AI应用的部署成本下降。中国对Groq这类推理专用芯片的关注度远低于对NVIDIA/AMD的关注,这是一个信息差。推理芯片可能重塑AI基础设施格局,让更多中小企业用得起高质量AI推理。
小米MiMo团队罗福莉分享技术博客,MiMo V2.5系列API价格大幅下调,背后是将推理系统彻底重构为Hybrid Sliding Window架构。用户实测120万token只花了3块多。
小米的定价策略极为激进,120万token仅3元+的价格几乎是大厂API的1/10。Hybrid Sliding Window架构是降本的关键技术——通过动态窗口管理减少KV缓存开销,大幅提升推理吞吐量。小米走的是"极致性价比"路线,对其他国产模型API形成降价压力。
MiMo V2.5的定价可能引发国产AI模型的又一轮价格战。对于个人开发者和中小团队,超低API价格降低了AI应用的门槛。但模型质量是否能与价格匹配仍需验证。