📡 AI 资讯日报

🛠️ StemDeck —— 开源音乐分轨神器

一句话

扔一首YouTube歌进去，直接拆成6条独立音轨（人声、鼓、贝斯、吉他、钢琴、其他），本地运行不上传不花钱。

怎么玩

Clone GitHub仓库后本地安装依赖，启动后会得到一个接近DAW的界面。把YouTube链接贴进去，模型自动下载音频并跑Demucs分离。分离完每条音轨可独立播放、静音、调音量，甚至导出分轨文件。全程本地跑，不需要注册账号，歌曲不会上传到任何服务器。适合做remix、扒谱、提取伴奏。

为什么值得关注

以前音乐分轨需要付费软件（如iZotope RX）或上传到云端处理，StemDeck把Meta开源的Demucs模型包装成了开箱即用的桌面工具，还带类DAW交互界面，对音乐爱好者和内容创作者来说是降维打击。

应用场景

提取歌曲伴奏用于翻唱或视频BGM
扒谱学习——单独听吉他/贝斯/钢琴轨

原文链接

@XAMTO_AI 查看原文 ↗

🛠️ NVIDIA Cosmos 3 —— 物理世界AI模型开源

一句话

英伟达开源适用于物理世界的AI模型，统一物理推理、视频生成、动作生成，实现「理解→预测→行动」闭环。

链接

https://huggingface.co/nvidia/Cosmos3-Super ↗

怎么玩

HuggingFace直接下载8B或32B模型权重，支持三种模式：文本→图像、视频→视频、动作+视频→视频。同时开源了6个数据集用于微调。可以在配有足够显存的GPU上本地推理，也支持HuggingFace Inference API在线试用。模型能理解物理规律——比如预测物体碰撞后的运动轨迹、根据文本描述生成物理上合理的视频。

为什么值得关注

这是目前少数将「世界模型」概念落地的开源项目。Cosmos 3不只是生成视频，而是试图理解物理规律。对机器人、自动驾驶、仿真训练等领域有直接价值，8B版本降低了使用门槛。

应用场景

机器人仿真训练——生成带物理约束的虚拟环境
视频预测——根据当前帧预测后续运动轨迹

原文链接

@Gorden_Sun 查看原文 ↗

🛠️ MiniMax M3 —— 1M上下文+原生多模态

一句话

MiniMax发布大版本升级M3，标配100万token超长上下文、MSA稀疏注意力架构、原生多模态。

链接

https://platform.minimax.io（API试用） ↗

怎么玩

访问MiniMax平台注册获取API Key，通过Chat接口或Playground直接体验1M上下文——可以塞进整本小说、完整代码库或超长对话历史。原生多模态支持图片、视频、桌面操作输入。有博主实测用一张游戏截图+文字需求做了一个「飞剑对决手势控制双人游戏」，M3从理解视觉风格到拆解workflow到生成代码全程没翻车。每天有免费额度可试用。

为什么值得关注

1M上下文+原生多模态+Agentic能力三合一，在国产模型中是首个。MSA稀疏注意力架构让超长上下文不拖慢推理，体感与GPT-5.5在部分agent任务上可打。配合Claude Code workflow使用效果尤其好。

应用场景

超长文档/代码库的全文理解和分析
多模态Agent——截图→理解→执行→编码的自动化流水线

原文链接

@op7418 查看原文 ↗

🛠️ KwaiKeye VL 2.0-30B-A3B —— 快手开源多模态小钢炮

一句话

总参数30B、激活仅3B的视觉语言模型，Apache 2.0完全开源，用DeepSeek Sparse Attention实现256K上下文。

链接

https://huggingface.co/KwaiKeye（HuggingFace搜索KwaiKeye） ↗

怎么玩

HuggingFace直接下载模型，3B激活参数意味着消费级显卡（RTX 3060/4060的8GB显存即可）就能跑。支持图片、视频输入，视频理解尤其亮眼——喂的帧数越多准确率反而稳步上升。可以用transformers库加载，几行Python代码就能做图文问答、视频摘要。Apache 2.0协议，商用无忧。

为什么值得关注

3B激活参数的MoE架构，在极小显存占用下实现了接近更大模型的多模态理解能力。视频理解随帧数增加不降反升这一点非常反直觉，说明其注意力机制设计有独到之处。快手-Kwai体系的开源诚意越来越足。

应用场景

视频内容自动摘要和标签提取
边缘设备上的多模态理解（手机、IoT）

原文链接

@berryxia 查看原文 ↗

🛠️ Gemini Omni 数字人 —— 三步克隆你自己

一句话

Google Gemini Omni上线数字头像功能，外貌+声音双重克隆，三步创建你的数字分身。

怎么玩

打开Gemini应用，找到Digital Avatar入口。第一步：对着摄像头拍一段短视频或上传几张照片，Gemini会重建你的面部3D模型。第二步：朗读一段指定文本，克隆你的声音特征。第三步：生成！你的数字分身可以替代你参加视频会议、录制课程、做多语言口播（声音克隆后会保留你的语气特征）。目前功能已全面上线，免费用户也有基础额度。

为什么值得关注

Google把数字人制作的门槛压到了「三步+手机」这个级别。相比HeyGen等付费工具，Gemini Omni免费可用且深度集成在Gemini生态里。这可能是数字人走向大众化的转折点。

应用场景

多语言视频口播——用你的脸+声音讲外语
异步视频会议——让数字分身替你参加

原文链接

@berryxia 查看原文 ↗

🛠️ CodePilot 0.55.0 —— Codex当引擎的开源客户端

一句话

CodePilot重构版发布，UI全面升级，支持将Codex作为Agent引擎，可自定义模型。

链接

https://github.com（搜 ↗

怎么玩

下载预览版客户端（0.55.0-preview.5），配置Codex API Key或自定义模型Endpoint。UI整体重构后操作更流畅，支持多模型切换。可以把Codex当后端Agent引擎，也可以接入自己的模型。目前是测试版本未正式推送，可能有bug，适合尝鲜。特别适合不想用命令行的AI编程用户。

为什么值得关注

Codex的Agent能力公认很强，但终端操作有门槛。CodePilot提供了类Cursor的GUI体验，同时保留了Codex的强大Agent引擎。UI重构后交互更友好，填补了「GUI + Codex Agent」的生态位。

应用场景

不习惯命令行的开发者用GUI操作Codex Agent
在自有模型和Codex之间灵活切换

原文链接

@op7418 查看原文 ↗

🛠️ 蚂蚁百灵 —— 每日50万token免费薅

一句话

蚂蚁集团百灵大模型开放试用，每天免费50万token，单次支持5万token上下文。

链接

https://chat.ant-ling.com/open ↗

怎么玩

直接打开网页版，注册登录即可用。每天自动赠送50万token额度，每次对话最多消耗5万token，相当于每天能免费用10次长对话。支持文本对话、代码生成、文档分析等基础能力。蚂蚁自研模型，中文理解自然不错。适合作为日常AI助手的备用/补充方案，或批量处理中文文档。

为什么值得关注

日送50万token在免费试用中算很大方，对比很多平台只给几万token。蚂蚁在金融、政务领域有大量真实场景数据，模型在专业领域的中文理解可能优于通用模型。

应用场景

中文长文档的批量摘要和分析
日常编码问答和辅助（免费额度够用）

原文链接

@seclink 查看原文 ↗

📡 Anthropic秘密提交IPO申请

事件

Anthropic已向SEC秘密提交S-1注册声明草案，IPO进入实质性阶段，预计审查通过后公开招股书。

解读

OpenAI刚宣布放弃IPO转向「长期社会企业」架构不到一周，Anthropic反手就提交了上市文件。两家顶级AI实验室在资本路径上走向了完全相反的方向——一个退回非营利安全港，一个冲刺公开市场。这背后反映的是对AI商业化节奏和治理模式的根本分歧：OpenAI认为上市会迫使其追求短期利润而牺牲安全，Anthropic则认为公开市场的透明度和资本支持反而有利于负责任的AI发展。

影响评估

如果Anthropic成功上市，将成为首个登陆公开市场的顶级AI实验室，为整个行业的估值和融资建立标杆。同时也会让更多AI初创公司看到IPO的可能性，可能引发一波AI上市潮。但散户投资者需要面对AI公司「高投入、长回报周期」的现实。

原文链接

@MinLiBuilds 查看原文 ↗

📡 NVIDIA RTX Spark + 微软AI PC：本地跑120B模型

事件

NVIDIA发布RTX Spark超级芯片，1 PFLOPS算力+128GB统一内存，与微软深度合作为Windows构建原生Agent运行环境，秋季上市。

解读

这是NVIDIA从云端AI算力向个人端侧AI计算的战略延伸。RTX Spark不只是给笔记本加一块GPU，而是在ARM架构上集成RTX 5070级GPU和最高128GB统一内存，目标是在本地跑120B参数的大模型。与微软的合作意味着Windows将内置Agent运行时——你的PC自己就是一个AI Agent主机。

影响评估

本地AI推理的「去云端化」趋势加速。如果消费级AI PC能跑120B模型，很多现在依赖API调用的场景（代码Agent、个人助理、隐私敏感任务）都可以本地完成。对OpenAI/Anthropic的API收入模式是潜在威胁，对苹果的Apple Intelligence也是竞争压力。

原文链接

@Gorden_Sun 查看原文 ↗

📡 硅谷新宠：AI FDE（前沿部署工程师）

事件

Andrew Ng撰文指出AI FDE正成为硅谷最热门的新职位——驻场到客户组织内部，帮助定制和落地Agent工作流。OpenAI和Anthropic已开始组建FDE团队。

解读

这很像Palantir当年的FDE模式复活——不再是卖API让客户自己摸索，而是派工程师驻场深度集成。区别在于，Palantir的FDE做数据集成，AI FDE做Agent工作流定制。但吴恩达同时指出，长期来看企业内部AI Engineer的规模会远超厂商派驻的FDE，最有价值的是能搭应用的通才型AI工程师。

影响评估

FDE的兴起说明企业级AI落地远比「调用API」复杂，需要深度理解客户业务逻辑才能把Agent用起来。这会催生一个新的服务生态——AI咨询+系统集成，但人力成本极高，只有大客户能承受。

原文链接

@AndrewYNg 查看原文 ↗ @xiaohu 查看原文 ↗ @antigravity 查看原文 ↗ @appinn 查看原文 ↗ @appinn 查看原文 ↗ @CoderJeffLee 查看原文 ↗ @lxfater 查看原文 ↗

🎯 值得关注

Agentic OS手机演示：OpenAI Hack Night上团队展示「即时生成UI」的AI手机系统，不调用任何APP →
Google Antigravity科学工作台：集成Alpha模型+30个科学数据库，蛋白质分析几分钟完成 →
HuggingFace AI Agent词汇表：Agent领域术语速查手册，适合新人入门 →
rbtodo：国人开发的轻量级Electron桌面待办应用，公测版v1.0.1 →
CharacterArc弧光：AI小说创作桌面应用，开发者自荐 →
Agent Skills已达160万：开源Agent Skill数量井喷，泥沙俱下 →
铁锤人推荐AI编程6件套：豆包输入法/Paste/CleanShot/Obsidian Web等 →