📡 AI 资讯日报

🛠️ 盛唐长安 — Three.js 3D互动世界（开源）

一句话

用Three.js渲染的盛唐长安城3D互动世界，接入Agora实时语音互动小游戏，浏览器打开即玩

链接

https://github.com/andyhuo520/tang-changan ↗

https://andyhuo520.github.io/tang-changan/ ↗

怎么玩

直接浏览器打开在线地址即可进入3D长安城场景，支持键盘/鼠标自由漫游。项目附带Agora Skills集成（https://github.com/AgoraIO/skills），可以在场景内与其他人实时语音互动、玩小游戏。开发者花了2周+800美元Token费用，完全开源在GitHub。适合文旅项目参考、Three.js学习、或直接fork二次开发。本地运行：git clone后npm install && npm run dev 即可。

为什么值得关注

这是AI辅助开发的标杆案例——用AI Coding（推测是Claude Code或Codex）从零搭建完整3D互动应用，证明了AI不仅能写CRUD，还能搞定Three.js这种复杂3D场景的几何、光照、材质、交互逻辑。对文旅/教育/展览行业有直接落地价值。

应用场景

文旅景区虚拟导览/线上博物馆
Three.js 3D项目学习参考与二次开发

原文链接

@berryxia 查看原文 ↗

🛠️ 豆包输入法 Mac 正式版

一句话

字节旗下免费语音输入法Mac版正式发布，目前语音输入准确率最高的免费选择

链接

https://shurufa.doubao.com/pc ↗

怎么玩

访问官网下载Mac版安装包，安装后在系统设置中启用豆包输入法。核心亮点是语音输入——在任何文本输入框按快捷键启动语音，直接说话即可实时转文字，中文准确率极高且完全免费。也支持拼音输入、智能联想等常规功能。适合经常需要长文输入、会议记录、或者拼音打字慢的用户。

为什么值得关注

在讯飞等竞品开始收费的背景下，豆包输入法以免费+高准确率直接「杀死比赛」。字节用AI语音能力做输入法，既展示了技术实力，也是获取用户文本数据的入口，这个产品策略非常精准。

应用场景

长文写作/会议记录语音转文字
替代付费语音输入方案

原文链接

@lxfater 查看原文 ↗

🛠️ Liquid AI LFM2.5-8B-A1B — 笔记本跑本地Agent

一句话

8B MoE模型仅激活1.5B参数，128K上下文，工具调用和多步Agent能力接近4倍参数模型，单台笔记本就能跑

链接

https://x.com/berryxia/status/2060396915532218457（Liquid ↗

怎么玩

从Liquid AI官网或HuggingFace下载LFM2.5-8B-A1B模型权重，使用llama.cpp或Ollama加载运行（GGUF格式）。单台MacBook/M1即可流畅推理。重点测试它的工具调用（function calling）和多步Agent能力——给它一个需要多步推理+调用外部工具的任务（如「查天气→判断是否需要带伞→写提醒」），对比同量级模型的表现。38T tokens训练+大规模RL让它在这个体量下表现异常出色。

为什么值得关注

打破了「本地Agent必须等大参数模型」的刻板印象。1.5B active参数能做到4倍参数模型的事，意味着本地Agent的硬件门槛大幅降低。对隐私敏感场景（企业内网、个人助手）是重大利好。

应用场景

离线/隐私优先的本地AI助手
低成本Agent原型开发与测试

原文链接

@berryxia 查看原文 ↗ @berryxia 查看原文 ↗

🛠️ Science Superpowers — AI科研Agent技能包

一句话

基于Superpowers框架优化的科研版Agent Skills，内置完整科研流程（文献检索→实验设计→数据分析→论文辅助）

链接

https://github.com/K-Dense-AI/science-superpowers ↗

怎么玩

git clone仓库后在Claude Code或Hermes中加载Skills。它预置了科研工作流：能自动检索Arxiv最新论文→提取关键方法→设计对照实验→分析实验数据→辅助撰写论文段落。适合研究生/科研人员快速搭建自己的AI科研助手。可以搭配OpenBMB刚发布的UltraData数据栈做训练数据准备。

为什么值得关注

Agent Skills生态正在从「通用编码」向「垂直领域」分化，科研是第一批被深耕的场景。这个项目把科研方法论编码成了Agent可执行的workflow，让AI不只是「帮你查论文」而是「帮你做科研」。

应用场景

研究生搭建个人AI科研助手
实验室批量文献综述与实验设计

原文链接

@Gorden_Sun 查看原文 ↗

🛠️ 11Labs Dubbing v2 — AI配音克隆声音

一句话

把一种语言配音转成另一种语言，克隆原声+保留语气情绪+保持音频时长不变，免费试用1分钟

链接

https://elevenlabs.io/app/dubbing ↗

怎么玩

访问链接注册/登录11Labs账号，上传一段外语视频或音频（如英文演讲），选择目标语言（如中文），Dubbing v2会自动：识别语音→翻译→用克隆的原声朗读目标语言，且口型和时长对齐。免费额度1分钟。对比之前的Index TTS2，这个在情绪保留和时长对齐上更优。适合做视频本地化、多语言课程配音。

为什么值得关注

配音质量的关键不是「像不像原声」而是「情绪和节奏对不对」。Dubbing v2在保留原配音的语气（激动/平静/疑问）和时长对齐这两个维度上做到了新高度，让AI配音从「能用」跨越到「不违和」。

应用场景

视频/播客多语言本地化
在线课程自动生成多语言版本

原文链接

@Gorden_Sun 查看原文 ↗

🛠️ Grok Build CLI — xAI官方命令行工具

一句话

X Premium+订阅者可安装，curl一键安装，支持CLI中生成图片，Cursor中已可用Grok Build 0.1

链接

https://x.ai/cli/install.sh ↗

怎么玩

前提是订阅X Premium+（约$22/月）。终端运行上述curl命令安装CLI，然后可在命令行中让Grok生成图片、辅助编码。Grok Build 0.1已集成到Cursor中（Settings→Models→Grok Build），可在Cursor里直接用Grok写代码。注意目前video_gen接口实测还不稳定，也不能直接读X帖子。适合想尝鲜xAI生态的开发者。

为什么值得关注

xAI正在快速补全开发者工具链——从API到CLI到IDE集成，节奏极快。虽然目前还打不过Codex和Claude Code，但「能在CLI生成图片」是个差异化能力，而且X平台数据是独有优势。

应用场景

尝鲜xAI生态工具链
CLI中快速生成配图

原文链接

@vista8 查看原文 ↗

🛠️ PaddleOCR-VL — 复杂文档OCR开源方案

一句话

百度的PaddleOCR-VL模型，专攻金融合同/法律文件/研究报告中公式、表格、印章、稀有字符的识别

怎么玩

pip install paddleocr-vl（或从PaddlePaddle GitHub克隆），输入包含复杂排版的PDF或扫描件图片，模型会输出结构化文本+表格+公式LaTeX。相比传统OCR，它在印章覆盖文字、手写公式、中英混排、生僻字等场景下误识别率大幅降低。结合LLM做后续信息提取效果更佳。

为什么值得关注

OCR的瓶颈从来不是「识别干净的文字」而是「识别脏的/复杂的文档」，PaddleOCR-VL正是瞄准了这个真实痛点。对于法律、金融、档案数字化等行业的RAG应用，文档理解质量直接取决于OCR质量。

应用场景

法律合同/金融报表自动数字化
历史档案/古籍OCR与知识提取

原文链接

@berryxia 查看原文 ↗

🛠️ Claude Code Dynamic Workflows — 数百子Agent并行

一句话

Claude Code重大更新，Agent自己当项目经理，单次会话启动数十到数百个并行subagent完成超大规模任务

怎么玩

在Claude Code中给一个超大规模任务，比如「审查整个代码库的安全漏洞并逐一生成修复PR」或「调研100篇论文并生成综述报告」。Claude Code会自动生成编排脚本，并发启动subagent分工执行，最后汇总结果。Bun Zig→Rust迁移是官方标杆案例。注意Token消耗会很大，建议先在小范围测试。

为什么值得关注

这是AI Coding从「工具」到「基础设施」的质变。以前Agent帮你写代码，现在Agent帮你管项目。数百子Agent并行意味着「一个人+AI」的输出可以匹敌一个工程团队，软件开发的组织形态正在被改写。

应用场景

大型代码库安全审计/重构
批量调研报告自动生成

原文链接

@shao__meng 查看原文 ↗

📡 Anthropic H轮650亿美元融资 + Opus 4.8同步发布

事件

Anthropic官宣H轮650亿美元融资当天同步发布Opus 4.8 + Dynamic Workflows + mid-conversation system messages API

解读

这波操作是教科书级的融资PR——在Google I/O后、自家融资公布日放出产品大招，把行业注意力从竞争对手拉回自己身上。Opus 4.8虽被部分用户评价为「小更新甚至负更新」，但Dynamic Workflows（数百并行subagent）和mid-conversation system messages（Agent开发者的刚需）才是真正有长期价值的能力。Anthropic的战略清晰：不做最聪明的模型，做最能干活的Agent平台。

影响评估

650亿估值让Anthropic稳坐AI第二把交椅，但竞争压力巨大——OpenAI的Codex Computer Use登陆Windows正在侵蚀Agent市场，xAI的Grok Build也在快速追赶。2026下半年的AI编码Agent之战才刚刚开始。

原文链接

@shao__meng 查看原文 ↗

📡 OpenAI Codex Computer Use 登陆 Windows

事件

OpenAI宣布Codex的Computer Use功能正式支持Windows，同时手机App可远程监控和审批电脑上跑着的Codex任务

解读

4月首发macOS版，不到两个月就覆盖Windows，OpenAI的工程速度惊人。Computer Use让AI像人一样看屏幕、点鼠标、打字，这意味着Codex不只是写代码的工具，而是通用的桌面自动化Agent。手机远程控制更是杀手功能——你可以在外面用手机审批Codex在电脑上的操作，真正实现「AI干活、人类监督」。

影响评估

Codex和Claude Code的竞争从「谁写代码更好」升级为「谁能操控更多软件」。Windows生态的用户基数巨大，这次覆盖可能成为Codex弯道超车的关键一步。

原文链接

@dotey 查看原文 ↗

📡 Cursor 开发者习惯报告：AI Coding改变开发形态

事件

Cursor发布开发者报告，头部用户AI代码产出远超中位数且差距扩大，input/output token ratio大幅上升，缓存变得极其重要

解读

核心发现：AI写代码前「读」得越来越多——理解代码库和任务消耗的token远超生成代码的token。这意味着Prompt Caching和上下文工程才是AI Coding的成本核心，而不是生成速度。头部用户和普通用户的差距还在拉大，说明「会不会用AI工具」正在成为新的开发者分水岭。

影响评估

AI Coding工具竞争的下半场是「上下文理解」——谁的模型能更高效地理解大型代码库、谁的缓存策略更聪明，谁就能胜出。

原文链接