📡 AI 资讯日报

2026-06-04
🔥 今日主线

Google 发布 Gemma 4 12B 开源多模态模型,16GB 笔记本就能跑全模态 AI,同时推出 AI Edge Gallery 桌面应用打通端侧 Agent 工作流。Codex 则发布角色插件体系,正式从编程工具走向「通用智能体」。

🛠️ Gemma 4 12B 开源多模态模型

Google 发布的无编码器架构开源多模态模型,文字/图像/音频/视频四路输入直通同一个 Transformer,16GB 内存笔记本即可本地运行。

https://huggingface.co/collections/google/gemma-4 ↗

https://developers.google.com/edge/gallery ↗

从 HuggingFace 下载模型权重(GGUF 格式),用 llama.cpp 或 Ollama 本地加载。或者直接下载 Google AI Edge Gallery 桌面应用(macOS 版已上线),应用内置沙盒 Python 环境,聊天中能写代码执行并画图;Eloquent 子应用支持语音交互,对着电脑说话即可完成文本编辑。底层用 LiteRT-LM 将 Gemma 4 推理压缩到消费级硬件可承载的范围。Mac 用户推荐直接使用 MLX 框架版本,推理速度通常比通用版本快 10-20%。

这是首个将「无编码器统一多模态架构」做到 12B 规模且能在消费级 GPU/内存上跑的模型。去掉了传统的图像/音频编码器,四模态直接进 Transformer,架构极其简洁。对端侧 AI 生态是里程碑式事件,意味着打开笔记本就能做全模态 Agent 工作流,不需要联网或付费 API。

原文链接
🛠️ OpenSquilla — AI Agent 路由框架

国内团队用 Python 重写的 AI Agent 编排框架,解决模型不听话、费 Token、安全风险三大痛点,100 次对话省 100 万 Token。

https://github.com/opensquilla/opensquilla ↗

克隆仓库后 pip install,启动后浏览器打开 http://127.0.0.1:18791/control/ 进入控制面板。支持 OpenRouter、OpenAI、Anthropic、DeepSeek 等 20+ 提供商,推荐用 OpenRouter 一个 key 调多模型。核心功能:智能模型路由(简单任务切便宜模型)、安全沙箱(不可信指令直接拒绝、高风险工具调扔进受限沙箱跑)、规则强制执行(不再出现模型忽略 system prompt 的情况)。

解决了一个真实痛点——模型在 Agent 场景下经常不听话、乱烧 Token、安全边界模糊。路由机制能让简单任务用便宜模型、复杂任务切强模型,实测 100 次对话省百万 Token。安全设计也用心,敏感环境变量不会泄漏到子进程。

原文链接
🛠️ Devin Desktop(原 Windsurf 重生)

Cognition 收购 Windsurf 一年后,将「IDE + 自主 Agent」合并为 Devin Desktop,一个桌面应用管理 AI Agent 的全流程开发。

https://devin.ai/blog/windsurf-is-now-devin-desktop ↗

从 devin.ai 下载 Devin Desktop 桌面应用,安装后用 Devin 账号登录。核心变化:原 Windsurf IDE 变成了 Devin 的桌面客户端,支持 Agent 管理、代码编辑、任务编排一体化。配套 Devin Cloud 可实现远程任务调度。如果你之前用 Windsurf,升级后直接迁移,产品线已合并且免费层保留。

这是「IDE + Agent」合并的标志性产品,说明 AI 编程工具正在从「补全」进化为「自主执行」。Cognition 把 Devin 的自主 Agent 能力和 Windsurf 的编辑器体验缝合在一起,形成「One Devin, every surface」策略。

原文链接
🛠️ Mole 1.6.2 — Mac 小伴侣工具

Tw93 开发的 Mac 菜单栏效率工具,新增屏幕常亮、隐私警报、清洁屏幕、软件检查等功能。

https://mole.fit ↗

从 mole.fit 下载安装,菜单栏常驻。新功能:保持屏幕常亮(不让 Mac 休眠)、隐私警报(菜单栏显示相机/麦克风使用状态)、清洁屏幕(锁定输入方便擦拭显示屏)、软件检查(检查 App 更新)。本次更新包含 222 个提交、新增 50,084 行代码,最大改进是让 Mac 使用体验「更平静」。

小而美的工具哲学——不做大而全,只做菜单栏里真正有用的那几件事。Tw93 作为知名开源作者(妙言、Pake 等),这次更新在细节打磨上下了大功夫,尤其是隐私警报和屏幕清洁这种不起眼但高频的场景。

原文链接
🛠️ WhatCable — Type-C 数据线检测工具

macOS 小工具,插上线就告诉你这条 Type-C 线支持什么协议、传输速率、充电功率。

https://appinn.com/whatcable/ ↗

下载 WhatCable macOS 应用,运行后用 Type-C 线连接设备,工具自动读取线缆的 e-Marker 芯片信息,显示支持的标准(USB 2.0/3.0/4.0/Thunderbolt)、最大传输速度、最高充电功率。从此不再猜手里这根线能不能跑 4K 显示器或 100W 充电。

Type-C 接口统一了物理形态但协议极度碎片化——同一条线可能只支持 USB 2.0 数据传输却支持 100W 充电。这个小工具解决了「线缆盲盒」问题,对经常倒腾外设的硬核用户是刚需。

原文链接
🛠️ RenamerX — 本地 AI 文件重命名

用本地 AI 模型自动分析和重命名混乱的文件,批量整理成清晰、可搜索的规范文件名。

下载 RenamerX,选择一个文件夹,工具用本地 AI 分析文件内容(支持图片、文档等),自动生成描述性文件名。例如「IMG_4872.jpg」变成「2024-深圳团建合影.jpg」。完全本地运行,文件不会上传到云端,隐私安全。

AI 落地最实用的场景之一——文件管理。不需要手动整理上千张照片或文档,本地 AI 逐个分析内容并重命名。完全离线运行也避免了隐私顾虑。

原文链接
🛠️ rssume — AI 自动翻译和摘要 RSS 订阅

开源工具,用 AI 自动翻译你的 RSS 订阅外文内容并生成摘要,打破语言壁垒。

克隆仓库,配置你的 RSS 源列表和 AI API key(支持 OpenAI/DeepSeek 等),设置定时任务后自动抓取新文章,调用 AI 翻译成中文并提取摘要。输出支持多种格式,可推送到 Telegram/飞书/邮件。

信息获取的效率工具。如果你订阅了很多英文技术博客但没时间逐篇读,这个工具帮你把「英文长文 → 中文摘要」的流程全自动化,只关注真正重要的内容。

原文链接
🛠️ codex-reset-watchdog — Codex 额度重置监控

监控 OpenAI Codex 的额度重置消息,第一时间自动切 fast 模型消耗额度,避免浪费。

https://github.com/thinkingjimmy/codex-reset-watchdog ↗

将安装指令复制发给 Codex,它会自动静默安装并启用 watchdog。功能:监控 Codex 的重置通知,当额度即将重置时自动切换到 fast 模型快速消耗剩余额度,避免月底清零浪费。全程自动运行,无需人工干预。

Codex 的月度额度不累积,月底清零是一种隐性浪费。这个小工具把「薅羊毛」自动化了,一条安装指令就能永久解决。实用且玩心十足。

原文链接
📡 Codex 角色插件体系发布:从编程工具到通用智能体

OpenAI 发布 Codex 角色插件、标注编辑(Annotations)和 Sites 三大能力,覆盖数据分析、设计、销售、产品设计、股权投资、投行 6 个岗位。

Codex 正式越过「编程工具」边界,通过预配置的角色插件(角色 × 工具 × prompt 模板)让非程序员也能直接使用。标注编辑功能可以局部修改文档/Excel/PPT 而非重新生成全文,Sites 则让企业版用户生成可分享的网页 URL。这标志着 OpenAI 对 Codex 的定位从「代码助手」转向「通用工作智能体」。

Agent 产品的竞争维度正在从「代码能力强不强」升级为「能不能覆盖非程序员的工作流」。Codex 的角色插件本质是 GPTs 的继承者——当年 GPT Store 的愿景正以 Codex 为载体回归。对企业市场,这意味着 AI Agent 的采购决策将从工程团队扩展到全公司。

原文链接
📡 Uber 设定每人每月 $1500 AI 编码工具预算上限

据报道 Uber 对每个员工每个 AI 编码工具设定了每月 $1500 的上限,暗示企业认为这些工具提供的价值已经达到可量化阶段。

$1500/月/人是相当高的预算——够订阅 Codex Pro、Claude Code、Cursor 全套。这说明 Uber 内部对 AI 编码工具的 ROI 有正面评估,但也在防止无限制使用带来的成本失控。把预算写到制度层面,意味着 AI 编码工具已被视为和 IDE license、云资源一样的标准生产资料。

当大企业开始给 AI Agent 制定预算标准时,整个行业的定价锚点就出现了。未来 SaaS 化的 AI 编码工具可能会围绕 $500-$1500/人/月这个区间定价。也暗示企业在推进「必须用 AI 提效」的制度化建设。

原文链接
📡 微软发布 7 个 Mai 系列模型:2 LLM + 2 图像 + 2 语音 + 1 识别

微软发布 Building a Hillclimbing Machine 系列共 7 个模型,均为二流水平且未开源,但企业可在 Azure 上微调。

微软的模型策略是一贯的「不是最强但最好用」——模型本身不需要赢 benchmark,但在 Azure 生态里可以一键微调、部署、集成现有企业工作流。这是典型的平台思维:模型是引流品,真正卖的是 Azure 的算力和企业服务。

对创业公司影响不大(没人会因为微软发布模型而切换),但对 Azure 存量企业客户是一个信号:不用跳槽去其他平台也能获得最新的模型能力。微软在「自研模型 + 托管开源模型 + OpenAI」三条线并行推进。

原文链接

🎯 值得关注