📡 AI 资讯日报

🛠️ NVIDIA LongLive 2.0

一句话

NVIDIA 开源全球首个端到端 4-bit 超长视频生成基础设施，训练推理全流程打通，5B 参数模型跑出 45.7 FPS。

链接

https://nvlabs.github.io/LongLive/LongLive2 ↗

https://huggingface.co/papers/2605.18739 ↗

怎么玩

直接 git clone 仓库，README 包含完整安装和推理脚本。支持真实视频训练、few-step 蒸馏、多 shot 训练/推理、序列并行和 NVFP4 量化。Demo 页面可直接在线体验超长视频生成效果，上传图片或文本即可生成连贯长视频。如果你有 GPU（建议 24GB+），本地跑 5B 模型体验 FP4 量化带来的极速推理。

为什么值得关注

FP4 量化是视频生成领域的重大突破——把超长视频生成的硬件门槛直接砍到消费级。45.7 FPS 意味着实时生成成为可能，这是第一个真正"可部署"的超长视频生成方案。端到端训练+推理全开源，对视频生成社区的影响可能不亚于 SD 之于图像生成。

应用场景

超长视频内容生成（教程、虚拟主播、产品演示）
实时视频推理和编辑管线

原文链接

@berryxia 查看原文 ↗

🛠️ Cerebras 高速推理 Kimi K2.6

一句话

Cerebras 为超过 1T 参数的 Kimi K2.6 部署高速推理，告别官方推理龟速时代。

链接

https://cerebras.ai ↗

怎么玩

访问 Cerebras 推理平台（cerebras.ai/inference），在模型列表中选择 Kimi K2.6 即可使用。Cerebras 以其晶圆级芯片 WSE-3 提供远超 GPU 集群的推理吞吐，尤其适合长上下文和复杂推理任务。如果你之前因为 Groq（已被 Nvidia 收购）停止跟进主流模型而苦恼，现在有了新的高速入口。可直接通过 REST API 或平台 Playground 调用，对比官方 API 的速度提升非常直观。

为什么值得关注

Groq 被收购后 Kimi 系列一直缺高速推理，Cerebras 填补了空白。K2.6 是超过 1T 参数的超大模型，推理速度一直是瓶颈——Cerebras 的晶圆级芯片在这种场景下优势巨大。这也是 Cerebras 继 GPT 5.3 Codex Spark 之后的又一次大模型高速推理落地。

应用场景

需要高速响应的 AI Agent 后端推理
长上下文复杂推理的实时应用

原文链接

@shao__meng 查看原文 ↗

🛠️ Google Gemini Omni Flash（世界模型初代）

一句话

Google DeepMind 发布视频生成+编辑模型，真正理解物理规律、历史文化和故事逻辑——不只是"生成视频"，是"世界模型"的雏形。

怎么玩

Google AI Plus/Pro/Ultra 订阅用户可直接在 AI Studio 中使用 Omni Flash。支持文本/图片/视频混合输入生成视频，也支持视频编辑（替换元素、改变场景）。生成 10 秒视频仅需约 2 分钟。操作方式：在 AI Studio 选择 Gemini Omni Flash 模型，输入多模态 prompt（可同时上传图片和文本描述），模型理解物理规律后生成符合真实世界逻辑的视频。也可在 Flow 平台直接体验。

为什么值得关注

Omni 的核心差异不是"生成更好看的视频"——而是具备物理推理能力。它能理解重力、碰撞、光影变化，结合 Gemini 的历史/科学/文化知识生成有逻辑的视频内容。这不再是一个"视频版 Midjourney"，而是向 AGI 世界模型迈出的实质性一步。负面评价也有（分镜编排不如 Sora 2，编辑能力弱于 SeeDance 2.0），但"理解世界"这个方向本身是里程碑式的。

应用场景

需要物理一致性的视频预演和仿真
结合文化/历史知识的教育内容生成

原文链接

@berryxia 查看原文 ↗

🛠️ Google Gemini 3.5 Flash

一句话

效果逼近 GPT 5.5，价格仅 1/3，Agentic 和多模态能力更强——可能是目前性价比最高的旗舰级 API 模型。

链接

https://aistudio.google.com ↗

https://ai.google.dev ↗

怎么玩

API 定价 $1.50/$9.00 per 1M token（输入/输出），缓存输入仅 $0.15，上下文窗口 1M token。Google AI Studio 可直接免费试用（有速率限制）。相比 3.1 Pro 效果大幅提升，Agentic 能力（工具调用、多步推理）和视觉理解显著增强。如果你是 API 用户，可直接替换现有模型端点测试效果。Google 表示将大量用于自家产品，说明对稳定性有足够信心。

为什么值得关注

Gemini 3.5 Flash 的定价策略非常激进——$1.50 的输入价格对标的是 GPT 5.5 的性能区间，而后者要贵 3 倍。1M token 的上下文窗口意味着可以塞入整本书。缓存价格 $0.15 对高频重复调用的场景极度友好。如果效果真如基准所示接近 GPT 5.5，这会改写 API 市场的价格锚点。

应用场景

大批量文档分析和 RAG 替代方案
需要高频 API 调用的 Agent 工作流（性价比极高）

原文链接

@oran_ge 查看原文 ↗

🛠️ OpenAI Symphony（多 Agent 编排框架）

一句话

OpenAI 开源多 Agent 编排框架 Symphony，用项目管理工具（如 Issue Tracker）作为控制面板协调多个 Coding Agent 协同工作。

怎么玩

Symphony 的设计理念是"用任务系统而非代码编排 Agent"——你在 Issue Tracker 中创建任务、分配优先级、设定依赖关系，Symphony 自动调度多个 Coding Agent 并行/串行执行。这意味着非程序员也可以通过类似 Jira/Trello 的界面管理 AI 开发团队。开源意味着可以自定义 Agent 类型、任务编排逻辑和集成任意 Issue 系统。

为什么值得关注

从"人管理 Agent"到"Agent 管理 Agent"的范式转变。Symphony 用 Project Management 范式取代了代码编排，降低了多 Agent 协作的门槛。InfoQ 已报道，国内 AI 社区关注度很高。结合 Codex 的 Goals 模式（work→check→continue），Symphony 可能是 OpenAI 多 Agent 战略的核心拼图。

应用场景

复杂软件项目的多 Agent 自动化开发
非技术人员通过任务面板管理 AI 开发团队

原文链接

@seclink 查看原文 ↗

🛠️ Cloudflare Agents SDK + Durable Objects 免费

一句话

Cloudflare Workers 免费计划现已支持 Durable Objects，零成本构建有状态的 AI Agent，搭配 Agents SDK 开箱即用。

链接

https://developers.cloudflare.com/agents/ ↗

怎么玩

注册 Cloudflare 账号（免费），在 Workers 控制台创建新 Worker，启用 Durable Objects（现已在 Free 计划中可用，无需绑卡）。安装 Agents SDK（npm install @cloudflare/agents），使用官方模板快速搭建 AI Agent——包括对话历史管理、状态持久化、工具调用等。本质上是零成本的 Serverless AI Agent 后端，非常适合个人项目和原型验证。

为什么值得关注

有状态是 AI Agent 的核心需求（记忆、上下文、会话），而之前 Durable Objects 需要付费计划。免费开放意味着个人开发者可以零成本构建生产级 AI Agent 后端。Cloudflare 的全球边缘网络延迟极低，对实时 AI 应用非常友好。结合 Workers AI 甚至可以全链路零成本（推理+状态+部署）。

应用场景

零成本部署个人 AI Agent 后端
全球低延迟的实时 AI 应用原型

原文链接

@seclink 查看原文 ↗

🛠️ Cola × Codex 打通

一句话

Cola 新增 Codex 登录功能和自定义 API Key（GPT/Claude），Codex 用户可直接用现有套餐驱动 Cola。

怎么玩

更新 Cola 到最新版，在设置中选择"Codex 登录"即可用 OpenAI Codex 账号登录，套餐中的 Token 配额直接用于 Cola 的 Agent 功能。或者填入自己的 OpenAI/Anthropic API Key 使用 GPT 或 Claude。Cola 本身是一个轻量级 AI Agent 工具，Codex 的"太多用不完"的用户现在有了新的消费出口——在 Cola 里跑自动化任务、文件处理、代码辅助等，不浪费 Codex 配额。

为什么值得关注

工具互通是好文明。Codex 用户有了更多消费场景，Cola 用户多了模型选择。这种"拆墙"式的产品设计比各自封闭造车更符合用户利益。支持多模型 Key 也让 Cola 从单模型依赖中解放出来。

应用场景

Codex 套餐用户扩展 Agent 使用场景
多模型灵活切换的日常 AI 工作流

原文链接

@oran_ge 查看原文 ↗

🛠️ Open Design 支持 Grok Build（现已支持 17 个 Agent Runtime）

一句话

Open Design 设计到代码工具新增 Grok Build 支持，累计支持 17 个本地 Coding Agent runtime，覆盖主流全平台。

链接

https://opendesign.ai ↗

怎么玩

在 Open Design 中完成设计稿后，选择导出目标为 Grok Build / Claude Code / Codex CLI / Gemini CLI / Cursor Agent / Hermes / Kimi CLI 等任一支持的 runtime，直接生成可运行的代码项目。Open Design 负责从设计到代码规范的转换，Agent runtime 负责执行。支持的前端框架包括 React、Vue、Next.js 等。

为什么值得关注

17 个 Agent runtime 的全覆盖意味着 Open Design 正在成为"设计→代码"的通用中间层。无论你用哪个 Agent，设计产出都能无缝对接。对团队来说，这意味着可以用统一的设计规范驱动不同的 AI 开发工具。

应用场景

设计师直接通过 Open Design 输出可运行的代码项目
团队用统一设计规范驱动多个 AI Agent 并行开发

原文链接

@tuturetom 查看原文 ↗

📡 Andrej Karpathy 加入 Anthropic

事件

前 OpenAI 创始团队成员、Tesla AI 前总监 Andrej Karpathy 官宣加入 Anthropic，重返一线 R&D 工作。

解读

Karpathy 是 AI 教育领域最具影响力的人物之一，他的加入对 Anthropic 的公众形象和研发实力都是巨大利好。他明确表示"仍对教育充满热情，会在适当时候恢复"，但也坦承"LLM 前沿未来几年将特别具有塑造性"——暗示 Anthropic 可能有更大的模型计划。加上之前爆出的 Stainless 收购（控制 SDK 生成管道），Anthropic 正在系统性地布局从协议标准（MCP）到工具链到人才的全栈竞争力。

影响评估

Anthropic 对 OpenAI 的人才虹吸效应持续增强。Karpathy 的加入可能吸引更多顶级研究者选择 Anthropic。短期内他的公开教程会减少（遗憾），但 Anthropic 的模型能力可能迎来质的提升。对普通用户来说，Claude 系列模型未来的进步值得期待。

原文链接

@karpathy 查看原文 ↗

📡 Cursor Composer 2.5 发布

事件

Cursor 发布 Composer 2.5，仍基于 Kimi K2.5，同时与 SpaceXAI 合作，使用 Colossus 2 算力训练，正在从零训练一个算力规模 10 倍以上的全新模型。

解读

Cursor 绑定 Kimi 系列模型的策略依然坚定。Elon Musk 亲自发帖证实合作细节和 Colossus 2 算力投入，说明 SpaceXAI 与 Cursor 的合作关系比外界想象的更深。正在训练的"算力规模 10 倍以上全新模型"是最大看点——如果成功，可能改变 Coding Agent 的底层模型格局。

影响评估

Cursor 用户将直接受益于模型迭代。Composer 2.5 的性能提升加上未来更大算力模型的前景，让 Cursor 在 Coding Agent 赛道的竞争力持续加强。对 Kimi 系列模型的长期绑定也意味着 Cursor 的用户体验将深度依赖 Kimi 的进步速度。

原文链接

@shao__meng 查看原文 ↗