Google I/O 2026 发布 Gemini Intelligence 系统级AI、Googlebook 笔记本;OpenAI Codex 升级 Computer Use 成为桌面Agent;Claude Code 发布 Agent View 多Agent面板和 /goal 功能;宇树发布 GD01 载人机甲——AI从软件全面向硬件和系统层渗透。
Google I/O 2026 发布 Gemini Intelligence 系统级AI、Googlebook 笔记本;OpenAI Codex 升级 Computer Use 成为桌面Agent;Claude Code 发布 Agent View 多Agent面板和 /goal 功能;宇树发布 GD01 载人机甲——AI从软件全面向硬件和系统层渗透。
Google 在 I/O 2026 上发布 Gemini Intelligence,将 Gemini 从聊天机器人升级为 Android 的系统级AI大脑。手机、浏览器、电脑、汽车、手表、XR眼镜共用一个AI大脑,共享上下文。同时发布 Googlebook——第一款专为 Gemini 设计的笔记本,融合 Android + ChromeOS。Gemini 甚至被嵌入鼠标指针(AI Pointer),用户用手势+语音+自然简写直接指挥AI,无需切换App。还推出"创建你的小组件"功能,通过提示词即时生成自定义Widget。
这是 Google 对"下一代操作系统"的定义宣言。过去 Android 是"App + 系统",现在变成"AI 理解层 + 系统"。核心突破在于三点:一是跨设备上下文共享(手机上看到的内容在眼镜上无缝继续),二是主动型AI(设备"先你一步"完成事务而非被动等指令),三是AI Pointer 把交互从"打开App→操作"简化为"指哪打哪"。这不是简单地把聊天机器人塞进系统,而是重新定义了人机交互范式——从用户主动操作转变为AI主动理解+执行。与 Apple Intelligence 相比,Google 的优势在于搜索+地图+Gmail等服务的海量数据可以给AI提供上下文。
对行业而言,这标志着操作系统从"工具平台"向"智能助手"的根本转型,Microsoft 和 Apple 都会被迫加速类似布局。对开发者来说,传统App开发模式面临颠覆——不再需要为每个功能设计UI,而是让AI理解用户意图后自动调用服务。对普通用户而言,手机使用方式将从"主动搜索App操作"变为"AI主动推送+语音/手势指挥",学习成本大幅降低。风险在于隐私——所有屏幕内容被AI持续分析需要极高的信任门槛。
OpenAI 开发者关系负责人 Romain Huet 和 Codex Computer Use 主导者 AriX 对谈,重点讨论了 Computer Use 带来的变化。Codex 通过 Computer Use 能力,不再局限于编写代码,而是可以操作整个桌面环境——浏览器、文件管理器、终端等。同时 Codex 还发布了 OpenAI Developers 插件,把 API Key 管理、Agents SDK、Apps SDK 打包进一个会话。
Computer Use 是 AI Agent 从"文本工具"走向"数字员工"的关键一步。传统的编程Agent只能读写代码文件,而 Computer Use 让Agent拥有了与人类相同的GUI操作能力。这意味着Agent可以完成"打开浏览器→登录系统→下载报表→填入Excel→发送邮件"这样的跨应用工作流。与 Anthropic 的 Computer Use 不同,OpenAI 的方案更侧重于开发者工具链的整合——通过插件系统把开发全流程统一在Codex内部。从技术演进看,这是 Browser Use、RPA 等技术的AI原生升级版。
对行业来说,RPA厂商(UiPath、Automation Anywhere)面临直接冲击——AI Agent 比传统RPA更灵活、不需要规则配置。对开发者而言,这意味着从"写代码自动化"到"指挥AI自动化"的范式转变。对普通用户,未来可能不再需要学习各种软件的操作方法,直接用自然语言告诉AI想做什么。
Claude Code 发布 Agent View 面板,将散落在不同终端Tab的多Agent会话收拢到统一视图,用户一眼看出哪些Agent在等回复、哪些在干活、哪些已完成。同时上线 /goal 命令,设置完成条件后Claude会持续工作直到目标达成——默认用 Haiku 做裁判判断目标是否完成。Claude Opus 4.7 "Fast Mode" 也上线了,2.5x速度提升。
Agent View 解决的是多Agent协作中的"认知过载"问题。当用户同时启动多个Claude Code实例处理不同任务时,在终端Tab间来回切换非常低效。Agent View 本质上是一个"Agent项目管理器"。/goal 功能则解决了Agent的"自动停止"问题——以前Agent完成一个子任务就可能停下来,现在有裁判模型持续评估"是否达成最终目标"。用Haiku做裁判是精妙的成本控制——不需要昂贵的大模型来判断任务完成度。Fast Mode 的2.5x提速表明 Anthropic 在推理优化上有了实质性突破。
对开发者来说,这标志着从"人驱动编码"到"人设定目标、AI自主执行"的转变。对竞品(Cursor、Windsurf等)形成压力——多Agent管理能力成为新的竞争维度。Fast Mode 让高频使用场景的体验接近实时代码补全。
Meta 发布由 Muse Spark 驱动的 Meta AI Voice Conversations,支持实时全双工语音对话,可以打断、换话题、边聊边生成图、拉内容。还支持实时视觉——相机对准物体直接提问。即将上线 Ray-Ban Meta 眼镜。
Meta 在实时多模态AI上的投入终于有了产品级成果。Muse Spark 的核心能力是同时处理语音输入、语音输出和视觉理解,延迟控制在可对话级别。与 GPT-4o 的语音模式相比,Meta的优势在于硬件载体(Ray-Ban眼镜)的普及度——已经有数百万用户拥有硬件基础。从技术路线看,Meta选择了"端侧+云端混合"方案,部分处理在眼镜端完成降低延迟。
对行业来说,这加速了"AI可穿戴设备"品类的成熟。对 Google 和 Apple 形成差异化竞争——Meta走的是眼镜路线而非手机路线。对开发者而言,Ray-Ban Meta 可能成为新的应用分发平台。
宇树(Unitree)发布 GD01 载人变形机甲,起售价390万人民币。有人评论说大疆新无人机能吊600kg,GD01刚好500kg,"组合起来就是环太平洋那个经典镜头"。
宇树从四足机器人进化到载人机甲,标志着中国机器人公司开始进入"科幻级"产品阶段。390万的定价说明这不是消费级产品,而是面向B端(影视、展览、军事)的高端装备。从技术栈看,涉及双足/多足平衡控制、人机工程、力反馈等多个前沿领域。与波士顿动力的Atlas相比,宇树走的是更快商业化的路线。
对机器人行业来说,这展示了中国公司在"硬核机器人"领域的快速追赶能力。390万的定价虽然限制了市场,但为后续消费级产品建立了技术储备和品牌形象。
Mira Murati(前OpenAI CTO)创办的公司发布了实时交互模型,全双工仅200毫秒延迟,多模态(文本+音频+视频),276B MoE版本。在 FD-bench v1.5 评分上显著高于 GPT-realtime-2.0。同时有后台模型异步处理深度任务。
Mira 的创业公司选择了"实时交互"这个高壁垒赛道作为切入点。276B MoE 参数量的选择很聪明——用混合专家架构在保持大模型能力的同时降低推理成本。200ms延迟意味着可以做到真正的自然对话体验。后台模型异步处理深度任务的设计解决了实时模型的"深度思考"问题——简单问题即时回答,复杂问题后台处理后推送结果。这是对 OpenAI GPT-realtime 的直接挑战。
对行业来说,又一个重量级选手进入实时AI赛道,与 OpenAI、Google、Meta 形成四方竞争。对开发者而言,多了一个高能力的实时AI API选择。
Anthropic 正式上线 Claude for Legal 仓库,包含12个针对具体法律岗位的插件和超过20个连接行业常用软件的MCP连接器。覆盖公司法务、并购律所、隐私和AI合规等多个法律领域。Claude Platform 也正式上线 AWS,与 Bedrock 并行存在。
这是AI公司深入垂直行业的标志性事件。法律行业的核心壁垒是专业术语、法规复杂度和文书规范——Claude for Legal 通过专用插件+MCP连接器的组合解决了这些问题。12个插件对应12个法律岗位意味着Anthropic做了非常细致的工作流拆解。20+MCP连接器说明他们打通了律师日常使用的软件(Westlaw、LexisNexis等)。AWS上的独立部署则是为了满足法律行业对数据安全和合规的严格要求。
对法律行业来说,这可能是"AI取代初级律师"从预言变成现实的转折点。对其他AI公司来说,垂直行业深度适配成为新的竞争策略——通用AI不够了,需要行业专用版本。
菲尔兹奖得主 Gowers 亲测 ChatGPT 5.5 Pro,在一小时内独立完成了一项加法数论中的研究成果,具有原创全新思路,无需人类数学指导。
这是AI在纯数学领域的里程碑事件。菲尔兹奖是数学界的最高荣誉,Gowers的背书极具分量。"原创全新思路"是关键——这意味着AI不是在复现已知证明方法,而是真正产生了新的数学洞察。从技术演进看,这标志着LLM从"知识检索+模式匹配"升级到了"创造性推理"。对数学研究范式的影响可能类似于计算器对算术的影响——数学家的工作重心将从计算和验证转向提出问题和评估方向。
对学术行业来说,这可能改变数学研究的协作模式——人类提出大方向,AI负责探索具体路径。对AI行业来说,这证明了大模型在需要深度推理的领域可以达到专家级水平。
Jina 发布 Jina-embeddings-v5-omni,首个支持 text + image + audio + video 的统一 Embedding 模型。两个尺寸:Small(1.57B,1024维,32K上下文)和标准版。同时宣布原生支持 MLX 框架(Apple Silicon)。
多模态统一Embedding是一个被低估但极其重要的基础设施。传统方案中,文本用文本Embedding、图片用图片Embedding,跨模态检索需要复杂的对齐方案。v5-omni 用一个模型统一处理四种模态,意味着"以图搜文"、"以音搜视频"等跨模态检索变得原生支持。原生MLX支持也值得注意——这意味着在Mac上运行Jina模型将大幅加速,对Apple Silicon用户来说是重大利好。1.57B的小尺寸让它在端侧部署成为可能。
对向量数据库和搜索行业来说,多模态Embedding将成为标配。对开发者而言,大大简化了多模态检索系统的构建复杂度。
Anthropic 正式推出 Skills 系统——Skills 是技能、领域知识、工作流的总称,相当于"怎么干好一件事的说明书"。Claude for Legal 中的 NDA 审查就是一个 Skill。同时 Perplexity 公开了内部工程文档《设计、优化和维护 Agent Skills》,详细描述了他们的 Skill 工程实践。社区也在积极建设——开源的 HeavySkill 论文提出让多个AI独立思考后再综合,提升回答质量。
Skills 是 AI Agent 从"通用工具"走向"专业助手"的关键桥梁。当前AI的核心问题是"什么都会一点但什么都不精"——Skills 通过注入领域知识和工作流来解决这个问题。Anthropic 的做法是把 Skills 做成可复用的标准件(类似npm包),Claude Code 支持 npx skills add 安装。Perplexity 的文档揭示了 Skills 工程的真正难点:不是写一个提示词,而是在100个具体场景中不断修正,直到覆盖所有失败模式。社区方面,HeavySkill 的"并行独立推理+综合"模式是对单Agent推理局限性的有力回应。
Skills 生态可能成为AI公司的核心竞争壁垒——谁拥有最多高质量的垂直领域Skills,谁就能吸引最多的专业用户。这类似于App Store对iPhone的意义。
昆仑万维董事长方汉每月消耗20-30亿Token,他朋友一天就消耗20-30亿。@seclink 估算全国1000万程序员,每天Token需求量达1000万亿,产能供不应求。Karpathy指出AI coding账单90%花在了不必要的context上。Amazon内部出现"tokenmaxxing"——员工刷AI用量数据应付KPI(要求80%开发者每周使用AI工具)。
Token经济正在成为AI行业的核心矛盾。供给侧:算力产能跟不上指数级增长的需求,2026年的"算力荒"比2023年更严重。需求侧:大部分Token消耗是浪费的——Karpathy的90%浪费论揭示了当前AI编程工具的上下文管理非常粗放。Amazon的tokenmaxxing则暴露了大厂AI推广中的形式主义问题。Token计价模型的根本矛盾在于:AI越强大(需要越多context),单次使用成本越高,但用户期望的是越强大越便宜。
对AI基础设施公司来说,推理算力将在未来2-3年持续紧缺,相关硬件和优化技术公司受益。对开发者来说,学会"高效使用AI"(而不是浪费Token)将成为重要技能。
吴恩达公开发声反对"AI导致大规模失业"的说法,认为这是"不负责任的恐慌故事"。他指出美国失业率稳在4.3%,工程师招聘市场依旧火爆,每波技术浪潮最终创造的新岗位远比消灭的多。也有反对声音认为这是AI行业的PR。
这场争论的核心不是"AI会不会取代工作"(答案显然是"会取代部分工作"),而是"净就业效应是正还是负"。吴恩达的观点有历史数据支撑——每一波技术革命确实都创造了更多岗位。但反对者的担忧也有道理——AI的替代速度可能远超历史上的技术革命。更务实的视角是:短期内AI不会导致大规模失业,但会加速技能贬值和职业转型,那些拒绝学习AI工具的人确实面临淘汰风险。
这场争论会持续很久,但实际行动比争论更重要——学习使用AI工具的人不会失业,抵制AI工具的人可能真的会。
Browser Use 推出 BuxFather,在 Telegram 里直接 Spin up agent,无需注册付费,24/7自主运行+自改进+stealth browser。几下点击就有完整电脑+浏览器环境。
这代表了AI Agent"即用即走"的趋势——用户不需要安装任何软件,在Telegram里发条消息就能启动一个拥有完整浏览器环境的AI Agent。降低了使用门槛,对非技术用户特别友好。Stealth browser(反检测浏览器)的集成说明这些Agent可以处理需要登录的场景。
如果这种模式成功,Telegram/微信等聊天平台可能成为AI Agent的主要分发渠道。
@fankaishuoai 系列讨论了AI商业化的实战经验:给传统企业做AI不能"流程再造"(必死),要找具体痛点用智能体解决让他们有获得感;北上广深互联网公司最难打(信息对称);智能体工作流搭建已从稀缺技能变成普通技能,竞争焦点从"谁能做"转到"谁能卖"。
这是AI行业的"祛魅时刻"。一年前会搭智能体工作流的人是稀缺的,现在这变成了普通技能。真实的AI商业化比技术演示要难得多——客户不关心你用什么框架,他们关心的是能不能解决痛点。从技术驱动的"我能做什么"转向需求驱动的"客户需要什么",是AI从业者的必修课。
预示着AI行业进入"去泡沫化"阶段——技术能力不再是护城河,行业理解和销售能力才是。
@yetone 评价豆包语音输入法做得很好——句子修复好、不用静音系统音量,唯一问题是识别不了Kitty Terminal。@op7418 指出移动端语音输入必须带全键盘,桌面端最好与输入法解耦——Typeless犯了前一个错误,豆包犯了后一个。Codex App 也可当Typeless用,开启全局快捷键后任意位置语音输入。
语音输入法正成为AI落地的重要入口。核心设计矛盾在于:移动端需要"语音+键盘一体化"(因为屏幕小,切换成本高),桌面端需要"语音独立于输入法"(因为已有物理键盘)。豆包和Typeless各踩了一个坑。Codex的语音输入功能则展示了另一种思路——把语音输入做进编程工具,成为开发者的辅助。
语音输入法的AI化正在重新定义"输入效率"——打字速度不再是瓶颈,思考和表达才是。
@AlchainHust 总结了张小珺对姚顺宇(去年从Anthropic跳到Google DeepMind,参与Claude 3.7/4.5和Gemini 3)的4小时访谈。要点包括:Google禁止员工用Claude、Gemini内部有多个竞争团队、大模型训练中的各种内部视角。
这类一线研究员的访谈信息密度极高,揭示了顶级AI公司的内部运作——跨公司人才流动(Anthropic→Google)正在加速技术扩散。Google禁止员工用Claude说明竞争白热化到了"信息隔离"的程度。
这类访谈正在成为AI行业"开源情报"的重要来源,加速了行业信息透明化。
@MinLiBuilds 分享实战经验:Opus 4.7 搞不定、Codex gpt5.5 也没搞定的问题,最终通过合理分配任务——明确简单的任务交给1T小模型、复杂任务交给大模型——解决了。@dotey 分享了智能体工作流搭建不值钱、值钱的是解决业务问题的观点。
AI编程领域正在出现"模型分层"的实用策略——不是所有任务都需要最贵的模型。简单任务用小模型(快速+便宜),复杂任务用大模型(深度+准确)。这种"混合模型策略"是Token优化和效率提升的关键实践。
预示着AI编程工具将从"单模型"走向"多模型编排",智能路由成为新的技术方向。
@turingou 分享了做实时语音项目的启发:带深度思考的实时语音SOTA模型是未来人机交互最重要的入口,各种智能音箱可能会以崭新形态回归C端市场。
实时语音AI正在经历"否定之否定"——第一代智能音箱(Alexa、小爱)因为理解能力太弱被市场否定,但新一代基于大模型的实时语音(200ms延迟+深度理解)可能让这个品类重获新生。关键差异在于:第一代是"指令式",第二代是"对话式"。
智能音箱2.0可能成为AI时代的重要硬件品类。