📡 AI 资讯日报

2026-06-02
🔥 今日主线

开源模型密集轰炸——NVIDIA Cosmos 3物理世界模型、快手KwaiKeye VL 2.0多模态、MiniMax M3三连发,外加StemDeck这种让人眼前一亮的音频工具,今天全是能动手玩的。

🛠️ StemDeck —— 开源音乐分轨神器

扔一首YouTube歌进去,直接拆成6条独立音轨(人声、鼓、贝斯、吉他、钢琴、其他),本地运行不上传不花钱。

Clone GitHub仓库后本地安装依赖,启动后会得到一个接近DAW的界面。把YouTube链接贴进去,模型自动下载音频并跑Demucs分离。分离完每条音轨可独立播放、静音、调音量,甚至导出分轨文件。全程本地跑,不需要注册账号,歌曲不会上传到任何服务器。适合做remix、扒谱、提取伴奏。

以前音乐分轨需要付费软件(如iZotope RX)或上传到云端处理,StemDeck把Meta开源的Demucs模型包装成了开箱即用的桌面工具,还带类DAW交互界面,对音乐爱好者和内容创作者来说是降维打击。

原文链接
🛠️ NVIDIA Cosmos 3 —— 物理世界AI模型开源

英伟达开源适用于物理世界的AI模型,统一物理推理、视频生成、动作生成,实现「理解→预测→行动」闭环。

https://huggingface.co/nvidia/Cosmos3-Super ↗

HuggingFace直接下载8B或32B模型权重,支持三种模式:文本→图像、视频→视频、动作+视频→视频。同时开源了6个数据集用于微调。可以在配有足够显存的GPU上本地推理,也支持HuggingFace Inference API在线试用。模型能理解物理规律——比如预测物体碰撞后的运动轨迹、根据文本描述生成物理上合理的视频。

这是目前少数将「世界模型」概念落地的开源项目。Cosmos 3不只是生成视频,而是试图理解物理规律。对机器人、自动驾驶、仿真训练等领域有直接价值,8B版本降低了使用门槛。

原文链接
🛠️ MiniMax M3 —— 1M上下文+原生多模态

MiniMax发布大版本升级M3,标配100万token超长上下文、MSA稀疏注意力架构、原生多模态。

https://platform.minimax.io(API试用) ↗

访问MiniMax平台注册获取API Key,通过Chat接口或Playground直接体验1M上下文——可以塞进整本小说、完整代码库或超长对话历史。原生多模态支持图片、视频、桌面操作输入。有博主实测用一张游戏截图+文字需求做了一个「飞剑对决手势控制双人游戏」,M3从理解视觉风格到拆解workflow到生成代码全程没翻车。每天有免费额度可试用。

1M上下文+原生多模态+Agentic能力三合一,在国产模型中是首个。MSA稀疏注意力架构让超长上下文不拖慢推理,体感与GPT-5.5在部分agent任务上可打。配合Claude Code workflow使用效果尤其好。

原文链接
🛠️ KwaiKeye VL 2.0-30B-A3B —— 快手开源多模态小钢炮

总参数30B、激活仅3B的视觉语言模型,Apache 2.0完全开源,用DeepSeek Sparse Attention实现256K上下文。

https://huggingface.co/KwaiKeye(HuggingFace搜索KwaiKeye) ↗

HuggingFace直接下载模型,3B激活参数意味着消费级显卡(RTX 3060/4060的8GB显存即可)就能跑。支持图片、视频输入,视频理解尤其亮眼——喂的帧数越多准确率反而稳步上升。可以用transformers库加载,几行Python代码就能做图文问答、视频摘要。Apache 2.0协议,商用无忧。

3B激活参数的MoE架构,在极小显存占用下实现了接近更大模型的多模态理解能力。视频理解随帧数增加不降反升这一点非常反直觉,说明其注意力机制设计有独到之处。快手-Kwai体系的开源诚意越来越足。

原文链接
🛠️ Gemini Omni 数字人 —— 三步克隆你自己

Google Gemini Omni上线数字头像功能,外貌+声音双重克隆,三步创建你的数字分身。

打开Gemini应用,找到Digital Avatar入口。第一步:对着摄像头拍一段短视频或上传几张照片,Gemini会重建你的面部3D模型。第二步:朗读一段指定文本,克隆你的声音特征。第三步:生成!你的数字分身可以替代你参加视频会议、录制课程、做多语言口播(声音克隆后会保留你的语气特征)。目前功能已全面上线,免费用户也有基础额度。

Google把数字人制作的门槛压到了「三步+手机」这个级别。相比HeyGen等付费工具,Gemini Omni免费可用且深度集成在Gemini生态里。这可能是数字人走向大众化的转折点。

原文链接
🛠️ CodePilot 0.55.0 —— Codex当引擎的开源客户端

CodePilot重构版发布,UI全面升级,支持将Codex作为Agent引擎,可自定义模型。

https://github.com(搜 ↗

下载预览版客户端(0.55.0-preview.5),配置Codex API Key或自定义模型Endpoint。UI整体重构后操作更流畅,支持多模型切换。可以把Codex当后端Agent引擎,也可以接入自己的模型。目前是测试版本未正式推送,可能有bug,适合尝鲜。特别适合不想用命令行的AI编程用户。

Codex的Agent能力公认很强,但终端操作有门槛。CodePilot提供了类Cursor的GUI体验,同时保留了Codex的强大Agent引擎。UI重构后交互更友好,填补了「GUI + Codex Agent」的生态位。

原文链接
🛠️ 蚂蚁百灵 —— 每日50万token免费薅

蚂蚁集团百灵大模型开放试用,每天免费50万token,单次支持5万token上下文。

https://chat.ant-ling.com/open ↗

直接打开网页版,注册登录即可用。每天自动赠送50万token额度,每次对话最多消耗5万token,相当于每天能免费用10次长对话。支持文本对话、代码生成、文档分析等基础能力。蚂蚁自研模型,中文理解自然不错。适合作为日常AI助手的备用/补充方案,或批量处理中文文档。

日送50万token在免费试用中算很大方,对比很多平台只给几万token。蚂蚁在金融、政务领域有大量真实场景数据,模型在专业领域的中文理解可能优于通用模型。

原文链接
📡 Anthropic秘密提交IPO申请

Anthropic已向SEC秘密提交S-1注册声明草案,IPO进入实质性阶段,预计审查通过后公开招股书。

OpenAI刚宣布放弃IPO转向「长期社会企业」架构不到一周,Anthropic反手就提交了上市文件。两家顶级AI实验室在资本路径上走向了完全相反的方向——一个退回非营利安全港,一个冲刺公开市场。这背后反映的是对AI商业化节奏和治理模式的根本分歧:OpenAI认为上市会迫使其追求短期利润而牺牲安全,Anthropic则认为公开市场的透明度和资本支持反而有利于负责任的AI发展。

如果Anthropic成功上市,将成为首个登陆公开市场的顶级AI实验室,为整个行业的估值和融资建立标杆。同时也会让更多AI初创公司看到IPO的可能性,可能引发一波AI上市潮。但散户投资者需要面对AI公司「高投入、长回报周期」的现实。

原文链接
📡 NVIDIA RTX Spark + 微软AI PC:本地跑120B模型

NVIDIA发布RTX Spark超级芯片,1 PFLOPS算力+128GB统一内存,与微软深度合作为Windows构建原生Agent运行环境,秋季上市。

这是NVIDIA从云端AI算力向个人端侧AI计算的战略延伸。RTX Spark不只是给笔记本加一块GPU,而是在ARM架构上集成RTX 5070级GPU和最高128GB统一内存,目标是在本地跑120B参数的大模型。与微软的合作意味着Windows将内置Agent运行时——你的PC自己就是一个AI Agent主机。

本地AI推理的「去云端化」趋势加速。如果消费级AI PC能跑120B模型,很多现在依赖API调用的场景(代码Agent、个人助理、隐私敏感任务)都可以本地完成。对OpenAI/Anthropic的API收入模式是潜在威胁,对苹果的Apple Intelligence也是竞争压力。

原文链接
📡 硅谷新宠:AI FDE(前沿部署工程师)

Andrew Ng撰文指出AI FDE正成为硅谷最热门的新职位——驻场到客户组织内部,帮助定制和落地Agent工作流。OpenAI和Anthropic已开始组建FDE团队。

这很像Palantir当年的FDE模式复活——不再是卖API让客户自己摸索,而是派工程师驻场深度集成。区别在于,Palantir的FDE做数据集成,AI FDE做Agent工作流定制。但吴恩达同时指出,长期来看企业内部AI Engineer的规模会远超厂商派驻的FDE,最有价值的是能搭应用的通才型AI工程师。

FDE的兴起说明企业级AI落地远比「调用API」复杂,需要深度理解客户业务逻辑才能把Agent用起来。这会催生一个新的服务生态——AI咨询+系统集成,但人力成本极高,只有大客户能承受。

原文链接

🎯 值得关注