OpenAI Codex 连发大招(Python SDK + 一句话建站),GitHub Copilot 转向 Token 计费引发开发者震动,微软同步禁止员工用 Claude Code。工具箱生态进入「编程Agent可编程化」新阶段。
OpenAI Codex 连发大招(Python SDK + 一句话建站),GitHub Copilot 转向 Token 计费引发开发者震动,微软同步禁止员工用 Claude Code。工具箱生态进入「编程Agent可编程化」新阶段。
用 pip 一行安装,就能在 Python 代码里操控 Codex Agent——启动线程、流式进度、传图片、控制沙箱权限。
在终端执行 `pip install openai-codex` 安装,然后在 Python 脚本中导入 `from openai_codex import CodexClient`。创建 client 实例后可以 launch 一个新 turn,实时 stream 返回的 progress token,随时 resume 之前的 session,还能传入图片让 Codex 分析。最关键的是可以复用你已有的 Codex 登录态,不需要额外配置 API key。这意味着你可以在自己的自动化流程、数据分析 pipeline、甚至 CI/CD 中嵌入顶级编程 Agent。
这是 Coding Agent 从「命令行对话工具」到「可编程基础设施」的质变。之前你只能手动在终端跟 Codex 交互,现在它可以作为你代码的一个函数调用。结合 sandbox 权限精细控制,可以做很多之前不敢让 Agent 做的事——比如批量处理多个 repo、自动化 code review、定时跑测试修复。
OpenAI Codex 企业版新增 `@site` 命令,一句话描述就能生成完整网站,还能生成可分享链接让别人查看。
确保已安装最新版 Codex CLI 并有企业版订阅。在 Codex 对话中输入 `@site 做一个{你的描述}`,例如「做一个极简风格的开发者个人主页,深色模式,包含项目展示和时间线」。Codex 会自动完成设计+前端代码+部署,生成一个可公开访问的 URL。你把这个链接分享给别人就能直接查看成品网站。比 Anthropic 的 Design 更进一步——包设计还包网站生成部署一条龙。
这标志着 AI 编程工具从「帮你写代码」进化到「帮你交付产品」。Anthropic 的 Claude 还在帮你画设计稿,OpenAI 已经把设计→代码→部署全链路打通。对非技术人员的价值尤其大,产品经理/设计师现在也能自己出可用的网站原型了。
Apple Silicon 上的本地模型推理框架大更新,加入推测性解码,支持 Gemma 4、Qwen MTP、DeepSeek V4 MTP,token 生成速度大幅提升。
在 Mac 上 `pip install mlx-vlm` 安装最新版。v0.6.0 新增了 speculative decoding 支持——对 Gemma 4 用 EAGLE3 + DFlash、Qwen 用 MTP、DeepSeek V4 用 MTP 加速。实测 token 生成速度提升明显,等待时间大幅缩短。支持从桌面到移动端(iPhone/iPad),可以把 Mac 变成真正的本地 Agent 运行时,所有推理都在本地完成,数据不出设备。
本地推理的「最后一公里」正在被打通。之前本地跑大模型最大的痛点是慢,v0.6.0 的推测性解码直接解决了这个问题。而且 MLX 是 Apple 官方支持的框架,对 Apple Silicon 的优化深度是其他框架无法比的。这意味着一台 M4 MacBook Pro 就能跑出不逊于云端 API 的推理体验。
英伟达开源了针对 AI Agent Skill 的安全扫描工具,能检测恶意代码注入、后门等安全风险。
克隆仓库后在 Agent 的 skills 目录下运行扫描。工具会检查 skill 文件中是否包含可疑的命令注入、文件操作、网络请求等危险模式。特别针对 Claude Code settings.json 注入、VS Code tasks.json 注入、MCP 配置篡改等已知攻击向量有专项检测。建议所有重度使用 Agent Skill 的开发者都跑一遍——尤其是用过第三方 Skill 或从网上下载过 Skill 模板的。
Skill 安全是当前 AI Agent 生态最大的盲区。大家都在疯狂写 Skill、分享 Skill,但几乎没人做安全审计。恶意 Skill 可以在你的 Claude Code settings.json 里注入 SessionStart hook,在你每次启动时执行任意代码。英伟达此举填补了一个关键空白,也暗示物理 AI Agent 领域的供应链安全将是下一个焦点。
Tripo 开源了 TripoSplat,把 2D 图片变成 3D 高斯泼溅模型,在线可试,GitHub 可下。
有两种方式。方式一:直接打开 HuggingFace Space 链接,上传一张物体图片(推荐简单物体如杯子、椅子、玩具),点击生成,几秒后就能得到一个可旋转查看的 3D 高斯泼溅模型。方式二:克隆 GitHub 仓库,按 README 配置环境,在本地运行推理。目前对简单物体效果不错,人物面部会有模糊,适合做快速 3D 原型和资产预览。
3D 高斯泼溅是 2024-2026 年最热的 3D 重建技术,比 NeRF 更快、渲染更实时。Tripo 把这个能力开源并做成在线 Demo,把「2D→3D」的门槛降到了拖拽上传的程度。而且 Tripo 背靠 VAST,是 3D AIGC 赛道头部玩家,开源质量有保障。
字节跳动开源 Bernini,一个模型同时支持文生视频、图生视频、视频编辑,输入文本/图片/视频都能出视频。
访问 HuggingFace 模型页面,可以在线试用或下载模型权重本地部署。支持三种输入模式:纯文本 prompt 生成视频、上传图片+文本描述生成/编辑视频、上传视频+文本指令编辑视频。虽然生成画面质量一般(类似小 Seedance),但「一个模型做所有事」的统一架构思路值得关注。本地部署需要一定 GPU 显存,建议在 HuggingFace Space 上直接体验。
目前的视频生成工具通常「生成」和「编辑」是两套模型/两套流程。Bernini 用一个模型统一了这两件事,架构上更优雅,也意味着「先用文字生成初版 → 再用指令精细编辑」的迭代工作流可以跑在同一个模型里,不需要切换工具。字节在视频 AI 上的投入和开源诚意都值得肯定。
开源 Chrome 扩展,给任何网页上的视频(直播/网课/无字幕视频)实时叠加 AI 字幕。
在 Chrome 浏览器中安装 DualPiP 扩展。打开任意带有视频的网页(B站、YouTube、直播平台、在线课程网站),扩展会自动检测视频并弹出字幕叠加层。支持实时语音识别转字幕,对没有字幕的直播和网课特别实用。v1.7 版本改进了识别精度和延迟,字幕几乎跟语音同步。完全本地处理,不上传音频。
这是「小而美」工具的典范——解决了一个非常具体的痛点。很多人看英文直播/网课时因为语速快或口音问题跟不上,这个工具直接给所有网页视频加了一层实时字幕。开源意味着不会被商业公司收购后关停,用户可以自己维护。
GitHub Copilot 从按请求计费改为按 Token 计费,用户反馈成本暴增 10-50 倍;同时微软内部禁止员工使用 Claude Code,原因是 AI 成本已超过人工成本。
Copilot 之前按请求计费存在「套利漏洞」——用户用其他 Agent 制定计划,然后用 Copilot 一次性执行,一个请求背后消耗几千万 token。转向 Token 计费堵住了这个漏洞,但也让重度用户叫苦不迭。微软禁 Claude Code 的举动释放了一个信号:大厂内部的 AI 工具成本已经到了「不可持续」的程度,就算效果更好的 Claude Code 也要被砍。
Token 计费将成为行业标准,Coding Agent 的「成本控制」上升为核心竞争力。能提供高质量但低 Token 消耗的方案(如本地推理、fork 复用上下文)会更有优势。对个人开发者来说,Copilot 不再是「无脑开」的便宜选择了。
Anthropic 开始准备 IPO,同时中国 AI 公司 MiniMax 和智谱也提交了上市申请,开始上市辅导。
大洋两岸的 AI 公司几乎同时冲向资本市场。Anthropic IPO 将进一步验证「AI 模型公司能否独立盈利」,而 MiniMax 和智谱冲击 A 股/科创板则说明中国 AI 公司在经历技术突破后,现在到了向资本市场证明商业价值的阶段。值得注意的是 Anthropic 的 Claude Opus 4.7/4.8 近期表现不佳,IPO 前这段产品停滞期是否会影响估值值得关注。
AI 行业进入「上市潮」,标志着从技术探索期进入商业化验证期。对开发者而言,模型公司的上市意味着产品节奏可能从「快速迭代抢用户」转向「稳定盈利保股价」,模型更新速度可能放缓。
OpenAI 官方数据,Codex 每周活跃用户已超 500 万,比 2 月桌面 App 刚上线时增长了 6 倍多。
这不是单纯的用户增长数字,关键是「这些人在用 Codex 干什么」——从推文配图来看,Codex 正在从「程序员写代码的工具」变成「所有人的 AI 工作台」。非技术用户用 @site 建站、用生图、用 Skill 做设计,这些场景的增长可能远超纯编程场景。
500 万周活意味着 Coding Agent 已经进入主流。它的竞争对手不再是 VS Code 插件,而是整个 SaaS 生态——当用户可以一句话建站,Wix/Squarespace 的价值就被削弱了。
苹果宣布 WWDC26 将于北京时间 6 月 9 日凌晨 1 点举行,发布了新视觉设计和官方壁纸。
WWDC26 是苹果在 AI 时代的第三次开发者大会。在 Vision Pro 销售不及预期、Apple Intelligence 仍在追赶的背景下,今年的重点是「AI 如何深度融入苹果生态」。预计会有 Siri 大升级、Xcode AI 增强、以及更多 on-device AI 能力。
苹果的 AI 策略对开发者生态有决定性影响——如果 Xcode 大幅增强 AI 能力(类似 Cursor),iOS/macOS 开发的工作流将发生根本性变化。同时 on-device AI 的推进意味着更强大的本地 Agent 运行环境。