📡 AI 资讯日报

🛠️ Sandcastle — Agent多军种联合作战平台

一句话

用TypeScript脚本编排Codex、Claude Code、Cursor、GitHub Copilot等多个Agent在同一个Workflow中协作完成复杂任务，支持在虚拟机中运行。

怎么玩

Sandcastle是Matt开发的Agent编排框架，核心思路是用TypeScript定义Workflow，让不同Agent各司其职。比如你可以让Codex负责代码生成、Claude Code做审查、Cursor处理前端UI，全部在沙箱虚拟机中执行。安装方式需关注作者@dotey后续发布的仓库链接。安装后编写.ts工作流脚本，定义各Agent的任务和交接逻辑，一键运行即可实现多Agent流水线协作。

为什么值得关注

这解决了当前碎片化的Agent生态痛点——每个人都在用多个Agent，但缺乏统一编排层。Sandcastle把"集众家之长"变成了工程化实践，虚拟机沙箱执行保证了安全隔离，TypeScript脚本让工作流可版本控制、可复用。

应用场景

复杂全栈项目：Codex写后端+Claude Code审查+Cursor调前端，流水线自动化
多模型对比评测：同一个任务发给多个Agent，对比输出质量

原文链接

@dotey 查看原文 ↗

🛠️ Codex Chronicle — 让AI拥有"屏幕记忆"

一句话

开启后Codex不间断截图你的屏幕，累积巨量上下文，AI回答越来越懂你，越用越顺手。

怎么玩

在Codex中启用Chronicle功能后，AI会持续捕获屏幕画面作为上下文。与手动复制粘贴不同，Chronicle自动建立"视觉记忆"，你在做什么项目、用什么工具、遇到什么问题，AI全知道。回答问题更个性化，不再需要每次解释背景。对于长期项目尤其有效——第二天的对话里AI还记得昨天你在调试的那个bug。

为什么值得关注

这可能是Codex最低调但最实用的功能。当前AI助手的最大痛点是"失忆"——每次对话都是新的开始。Chronicle用截屏流解决了巨量上下文问题，让Agent真正"看见"你在做什么，而不是依赖你手动描述。这是从copilot到真正搭档的关键一步。

应用场景

长期开发项目：AI记得整个项目上下文，调试不再需要重复解释
设计/UI工作流：AI直接看到你的设计稿，反馈更加精准

原文链接

@lxfater 查看原文 ↗

🛠️ mlx-vlm + Step 3.7 Flash — Apple Silicon本地多模态推理

一句话

Step 3.7 Flash模型正式加入mlx-vlm，4bit量化版本在128G Apple Silicon上跑出53+ tokens/s，视觉理解+文本生成全跑通。

链接

https://github.com/Blaizzy/mlx-vlm（mlx-vlm项目主页） ↗

怎么玩

前提是拥有一台Apple Silicon Mac（M系列芯片）。安装mlx-vlm：`pip install mlx-vlm`，然后下载Step 3.7 Flash的MLX转换版模型文件（作者Ivan Fioravanti已提供转换），使用4bit量化格式。在Mac Studio上实测，32K上下文窗口下生成速度53 tokens/s以上。支持图片输入做视觉理解，文本输出做对话。完全本地运行，无需联网。

为什么值得关注

Apple Silicon正在成为AI推理的性价比之王。Step 3.7 Flash是Step系列中最快的模型，加上mlx-vlm的MLX优化，能在消费级硬件上跑出接近云端的体验。128G统一内存可加载大模型+长上下文，这是NVIDIA消费卡做不到的。

应用场景

隐私敏感场景：本地处理文档、发票、证件等包含敏感信息的图片
离线多模态AI助手：飞机上、无网络环境下也能用视觉AI

原文链接

@berryxia 查看原文 ↗

🛠️ Starlight Promise — 用Cursor+GPT Image 2一键生成的文字恋爱游戏

一句话

一段提示词+GPT Image 2生成所有图片，Cursor写代码，做出了一个完整的文字恋爱游戏，开源可玩。

链接

https://gordensun.github.io/starlight-promise/ ↗

https://github.com/GordenSun/starlight-promise ↗

怎么玩

打开在线地址即可开始游戏——这是一个浏览器端运行的文字恋爱游戏，所有角色立绘和场景图由GPT Image 2生成，代码由Cursor完成。可以Fork GitHub仓库，修改剧情和角色，替换图片素材，生成你自己的恋爱游戏。整个项目展示了AI全栈开发的范式：图片用GPT生成、代码用AI写、部署在GitHub Pages。

为什么值得关注

这是AI全栈开发的最佳demo——一个人+AI完成了原本需要美术+程序员+编剧团队的完整游戏。GPT Image 2生成的角色一致性相当好，Cursor处理了游戏逻辑和UI，GitHub Pages零成本部署。从想法到可玩产品，零门槛。

应用场景

独立游戏开发：快速原型验证玩法创意
AI教育：向非程序员展示AI全栈开发的全过程

原文链接

@Gorden_Sun 查看原文 ↗

🛠️ Google ADK（Agent Development Kit）— 能暂停数天的长运行Agent

一句话

Google官方Agent开发工具包，支持构建可暂停数天、存活重启、不丢失上下文的长运行AI Agent。

链接

https://goo.gle/4uGa8QL（含完整代码+教程） ↗

怎么玩

大多数Agent教程只做到无状态demo就结束了。Google ADK针对生产环境设计：Agent可以运行数周，中途暂停保存状态，服务器重启后无缝恢复，上下文不丢失。代码和教程在官方链接中，包含完整的持久化、状态管理、断点恢复示例。用Python即可上手。

为什么值得关注

这是Agent从demo走向生产的关键基础设施。现实中的Agent任务（代码审查周期、数据分析项目、客户支持工单）往往跨越多天，当前框架几乎都假设Agent是"一次性"的。Google ADK解决了Agent持久化这个被忽视的核心问题，对构建企业级Agent应用至关重要。

应用场景

长期代码审查Agent：跨多天的PR审查流程不丢失上下文
持续数据监控Agent：数周运行的数据管道，自动从断点恢复

原文链接

@googledevs 查看原文 ↗

🛠️ SkillOpt（微软）— 自动优化你的Agent技能文档

一句话

微软将SKILL.md转变为可训练对象，优化器模型通过Agent执行反馈循环自动改进技能文档，让Agent提示词越跑越好。

怎么玩

传统SKILL.md是手写或一次性生成的静态文档。SkillOpt引入独立的优化器模型，输入Agent rollout数据（Agent执行任务的实际表现），自动分析哪些指令有效、哪些造成了困惑，然后重写优化SKILL.md。这形成了一个反馈闭环：Agent执行→记录表现→SkillOpt优化→更好的SKILL.md→Agent表现提升。

为什么值得关注

这是提示词工程的范式转变——从"人工调优"变成"机器学习优化"。这解决了SKILL.md维护中最痛苦的问题：技能文档随时间退化、无法验证效果、优化依赖直觉。SkillOpt把这个问题变成了可量化的优化任务。

应用场景

Agent技能库维护：自动迭代优化你的Agent技能文档
企业Agent部署：大规模Agent技能质量管理，不再依赖个体工程师调参

原文链接

@Sumanth_077 查看原文 ↗

🛠️ Firebase Studio（Google）— 完全免费的AI全栈开发工作区

一句话

Google将Project IDX升级为Firebase Studio，内置AI编码辅助、多语言支持、直接集成Firebase生态，完全免费。

链接

https://idx.google.com/ ↗

怎么玩

直接访问Firebase Studio网页版，无需安装任何本地环境。支持Node.js、Python、Go、Java等多语言，内置AI代码补全和对话助手，直接连接Firebase的数据库、认证、部署等服务。对比Cursor的付费模式，Firebase Studio对个人开发者完全免费。

为什么值得关注

这是Google在AI IDE战争中打出的免费牌。Project IDX原本是实验项目，升级为Firebase Studio后整合了完整的AI+云服务生态。对个人开发者和学生而言，免费+全栈+AI是杀手级组合。

应用场景

个人项目快速原型：从零到部署一条龙
教学/学习场景：学生无需配置环境即可开始全栈开发

原文链接

@seclink 查看原文 ↗

🛠️ Bolt.new — 浏览器内全栈开发，无需本地环境

一句话

StackBlitz用WebContainer技术在浏览器里跑完整Node.js环境，输入描述直接生成全栈应用，零配置。

链接

https://bolt.new ↗

怎么玩

打开bolt.new，输入你想要构建的应用描述（支持中文），AI自动生成完整的前后端代码。WebContainer技术在浏览器沙箱中运行真实的Node.js运行时，可以安装npm包、运行数据库操作、启动开发服务器。生成的应用可以直接部署到Netlify/Cloudflare，或导出代码到本地继续开发。

为什么值得关注

bolt.new是"prompt-to-app"领域的标杆产品。WebContainer让浏览器变成一个完整的开发环境，不需要安装Node、不需要配置环境变量、不需要处理系统兼容性。对非程序员而言，这是最低门槛的"想法→应用"路径。

应用场景

非技术人员做原型：产品经理/设计师直接生成可交互的应用原型
快速验证创业想法：1小时内从idea到可演示的MVP

原文链接

@seclink 查看原文 ↗

🛠️ guizang-social-card-skill — GitHub本周Star第一的Agent技能

一句话

歸藏为AI Agent写的社交媒体卡片生成Skill，冲到GitHub本周新建项目Star排名第一。

怎么玩

这是一个供AI Agent（Codex/Claude Code等）使用的Skill，让Agent能自动生成社交媒体分享卡片（OG Image）。在支持的Agent中导入该Skill后，只需告诉Agent"为这篇文章生成社交卡片"，它会自动设计布局、配色、排版，输出标准尺寸的社交分享图。完全由Agent驱动，无需手动操作设计工具。

为什么值得关注

这个项目爆火说明AI Agent的"技能市场"正在形成。Skill是Agent的扩展模块，好的Skill能让Agent瞬间获得新能力。歸藏的这个Skill证明了：为Agent写Skill可以帮助成千上万的用户，比做一个独立App的影响力更大。

应用场景

博客/公众号作者：每篇文章自动生成社交分享图
内容团队：标准化品牌视觉，Agent批量生成统一风格的卡片

原文链接

@op7418 查看原文 ↗

🛠️ 归所（FinalPlace）— 基于规则引擎的文件自动整理

一句话

用规则引擎自动化文件分类整理，告别手动整理杂乱文件夹。

链接

https://t.co/9gy8vHiRfU） ↗

怎么玩

Windows平台下载安装后，配置整理规则——例如"*.pdf文件→文档文件夹"、"图片创建时间>2024→归档文件夹"、"文件名包含'发票'→财务文件夹"。规则引擎支持多重条件组合，可以按扩展名、创建日期、文件大小、文件名关键词等维度自动分类搬运。一次配置，之后新下载的文件自动归位。

为什么值得关注

Windows至今缺少像Hazel（macOS）那样好用的自动整理工具。归所填补了这个空缺，规则引擎提供了比简单文件过滤更强的灵活性。对于下载文件夹常年杂乱、桌面堆满临时文件的用户来说，这是解放生产力的利器。

应用场景

下载文件夹自动清理：下载完自动分类到项目/文档/软件目录
照片整理：按日期+地点自动归入对应相册文件夹

原文链接

@appinn 查看原文 ↗

🛠️ PhoneMic — 手机当电脑麦克风，用豆包语音输入

一句话

手机扫码后用豆包语音引擎将语音转文字，实时输入到电脑上。

链接

https://t.co/PpqT7x0Q7V） ↗

怎么玩

电脑上打开PhoneMic网页，手机扫码连接，手机端调用豆包语音识别引擎，说话后文字实时出现在电脑输入框。不需要蓝牙、不需要数据线，纯网页+扫码。支持中文和多种语言，识别准确率高于系统自带语音输入。

为什么值得关注

解决了电脑语音输入的老大难问题——大多数电脑麦克风收音差、环境噪音大。用手机当高灵敏度麦克风+豆包引擎的高精度识别，把手机变成了专业级语音输入外设，成本为零。

应用场景

长文写作：说话比打字快3倍，适合初稿输出
会议记录：手机放桌上收音，文字实时显示在电脑上

原文链接

@appinn 查看原文 ↗

🛠️ pibot — 完全本地运行的多模态AI助手，零Python依赖

一句话

用Rust/mlx-c重写的pibot，集成本地STT/TTS和多模态LLM，全部本地运行无Python依赖。

怎么玩

pibot现在使用parakeet做语音识别（STT）、qwen3-tts做语音合成（TTS）、Qwen 3.6多模态模型做理解（通过llama.cpp）。所有推理引擎基于Rust/mlx-c从Python移植过来，完全零Python依赖。在Apple Silicon Mac上编译运行，获得一个完全本地、隐私安全、能看能听能说的AI助手。

为什么值得关注

零Python依赖意味着更小的体积、更快的启动、更少的依赖冲突。Rust重写让pibot在生产环境中更可靠。而且本地STT+TTS+多模态LLM的全栈方案，对隐私敏感场景（医疗、法律、企业）极有价值。

应用场景

本地智能家居中枢：完全断网的语音+视觉AI助手
嵌入式设备集成：小体积、低依赖使其适合运行在树莓派等边缘设备

原文链接

@badlogicgames 查看原文 ↗

📡 北大苏炜杰加入OpenAI

事件

宾夕法尼亚大学沃顿商学院统计与数据科学系正教授苏炜杰（北大数院出身）正式加入OpenAI，同时兼任宾大机器学习研究中心联合主任。

解读

苏炜杰是统计机器学习领域的顶尖学者，他在高维统计、深度学习理论方面的研究直接影响了大模型训练方法论。OpenAI此次挖角延续了从学术界吸收顶级理论人才的策略——在模型能力趋于平台期的当下，理论突破比工程优化更稀缺。这也是继Karpathy、Sutskever之后又一重磅学界→工业界迁移。

影响评估

OpenAI正在构建一个"理论+工程+产品"的铁三角。苏炜杰的加入将强化OpenAI在模型训练理论、可解释性、可靠性方面的基础研究能力，这对下一步的AGI safety和模型可控性至关重要。

原文链接

@yuyy614893671 查看原文 ↗

📡 Claude Opus 4.8 + Dynamic Workflows发布

事件

Anthropic发布Claude Opus 4.8，并引入Dynamic Workflows动态工作流机制。但中文社区反馈两极分化——有人觉得升级不大甚至变笨了，有人账号莫名变成未注册状态。

解读

Opus 4.8的Dynamic Workflows是Agent编排能力的重要更新，但用户感知不强——因为大多数人只用单轮对话。反响分化反映了能力展示与用户体验之间的鸿沟：底层能力的进步不一定能转化为立即可感知的体验提升。另外账号问题影响了部分用户的测试体验。

影响评估

Anthropic在新模型发布节奏上明显加快，但与OpenAI的差距仍然存在。Dynamic Workflows的方向是对的——Agent化是不可逆的趋势——但如何让用户感知到这些底层进步是Anthropic的挑战。

原文链接

@shao__meng 查看原文 ↗

📡 Groq融资6.5亿美元，AI推理芯片赛道升温

事件

AI芯片创业公司Groq据报道正在融资6.5亿美元，专注推理专用芯片路线，与NVIDIA的通用GPU路线差异化竞争。

解读

在NVIDIA 200亿美元收购案之后，Groq的这轮高额融资说明资本市场看好推理专用芯片这一赛道。目前AI计算市场大头被NVIDIA占据，但推理侧的延迟、成本、能效比是NVIDIA GPU的短板。Groq的LPU（语言处理单元）专为Transformer推理优化，延迟极低。

影响评估

推理芯片专业化将加速AI应用的部署成本下降。中国对Groq这类推理专用芯片的关注度远低于对NVIDIA/AMD的关注，这是一个信息差。推理芯片可能重塑AI基础设施格局，让更多中小企业用得起高质量AI推理。

原文链接

@seclink 查看原文 ↗

📡 小米MiMo V2.5 API大降价

事件

小米MiMo团队罗福莉分享技术博客，MiMo V2.5系列API价格大幅下调，背后是将推理系统彻底重构为Hybrid Sliding Window架构。用户实测120万token只花了3块多。

解读

小米的定价策略极为激进，120万token仅3元+的价格几乎是大厂API的1/10。Hybrid Sliding Window架构是降本的关键技术——通过动态窗口管理减少KV缓存开销，大幅提升推理吞吐量。小米走的是"极致性价比"路线，对其他国产模型API形成降价压力。

影响评估

MiMo V2.5的定价可能引发国产AI模型的又一轮价格战。对于个人开发者和中小团队，超低API价格降低了AI应用的门槛。但模型质量是否能与价格匹配仍需验证。

原文链接

@berryxia 查看原文 ↗ @SylvainGariel 查看原文 ↗ @elliotchen100 查看原文 ↗ @berryxia 查看原文 ↗ @berryxia 查看原文 ↗ @appinn 查看原文 ↗ @op7418 查看原文 ↗ @shao__meng 查看原文 ↗ @seclink 查看原文 ↗ @appinn 查看原文 ↗ @appinn 查看原文 ↗

🎯 值得关注

ESMFold2：Meta开源蛋白质折叠模型，11亿结构vs AlphaFold3的2亿，不使用MSA达到SOTA →
MemTrace/MemTraceBench：浙大张宁豫团队的Agent记忆系统评测基准，可追踪、诊断、优化memory →
Anthropic Prompting 101：官方25分钟提示词工程课程，从语气到XML结构到Few-shot全覆盖 →
Grok-building-0.1支持X AI API：百万Token输入$1/输出$2，性价比突出 →
微软公开45年前DOS源码：一摞打印纸的代码考古，历史价值拉满 →
即览（iOS）：歸藏做的HTML/Markdown预览App即将发布测试 →
Salesforce工程Agent化转型：从Copilot到Agentic Engineering的完整经验 →
PopShort AI / Mangaka.app：AI短剧工厂、文字转完整漫画，海外成熟中国空白 →
体育视频比分屏蔽油猴脚本：看回放视频时隐藏比分避免剧透 →
Android ADB客户端App：手机上管理安卓设备，开源 →