Anthropic H轮650亿美元融资当天同步发布Opus 4.8 + Dynamic Workflows,编码Agent从「单兵作战」正式进入「数百子Agent并行」时代;同时OpenAI Codex Computer Use登陆Windows,两大AI编码巨头同日亮剑。
Anthropic H轮650亿美元融资当天同步发布Opus 4.8 + Dynamic Workflows,编码Agent从「单兵作战」正式进入「数百子Agent并行」时代;同时OpenAI Codex Computer Use登陆Windows,两大AI编码巨头同日亮剑。
用Three.js渲染的盛唐长安城3D互动世界,接入Agora实时语音互动小游戏,浏览器打开即玩
直接浏览器打开在线地址即可进入3D长安城场景,支持键盘/鼠标自由漫游。项目附带Agora Skills集成(https://github.com/AgoraIO/skills),可以在场景内与其他人实时语音互动、玩小游戏。开发者花了2周+800美元Token费用,完全开源在GitHub。适合文旅项目参考、Three.js学习、或直接fork二次开发。本地运行:git clone后npm install && npm run dev 即可。
这是AI辅助开发的标杆案例——用AI Coding(推测是Claude Code或Codex)从零搭建完整3D互动应用,证明了AI不仅能写CRUD,还能搞定Three.js这种复杂3D场景的几何、光照、材质、交互逻辑。对文旅/教育/展览行业有直接落地价值。
字节旗下免费语音输入法Mac版正式发布,目前语音输入准确率最高的免费选择
访问官网下载Mac版安装包,安装后在系统设置中启用豆包输入法。核心亮点是语音输入——在任何文本输入框按快捷键启动语音,直接说话即可实时转文字,中文准确率极高且完全免费。也支持拼音输入、智能联想等常规功能。适合经常需要长文输入、会议记录、或者拼音打字慢的用户。
在讯飞等竞品开始收费的背景下,豆包输入法以免费+高准确率直接「杀死比赛」。字节用AI语音能力做输入法,既展示了技术实力,也是获取用户文本数据的入口,这个产品策略非常精准。
8B MoE模型仅激活1.5B参数,128K上下文,工具调用和多步Agent能力接近4倍参数模型,单台笔记本就能跑
从Liquid AI官网或HuggingFace下载LFM2.5-8B-A1B模型权重,使用llama.cpp或Ollama加载运行(GGUF格式)。单台MacBook/M1即可流畅推理。重点测试它的工具调用(function calling)和多步Agent能力——给它一个需要多步推理+调用外部工具的任务(如「查天气→判断是否需要带伞→写提醒」),对比同量级模型的表现。38T tokens训练+大规模RL让它在这个体量下表现异常出色。
打破了「本地Agent必须等大参数模型」的刻板印象。1.5B active参数能做到4倍参数模型的事,意味着本地Agent的硬件门槛大幅降低。对隐私敏感场景(企业内网、个人助手)是重大利好。
基于Superpowers框架优化的科研版Agent Skills,内置完整科研流程(文献检索→实验设计→数据分析→论文辅助)
git clone仓库后在Claude Code或Hermes中加载Skills。它预置了科研工作流:能自动检索Arxiv最新论文→提取关键方法→设计对照实验→分析实验数据→辅助撰写论文段落。适合研究生/科研人员快速搭建自己的AI科研助手。可以搭配OpenBMB刚发布的UltraData数据栈做训练数据准备。
Agent Skills生态正在从「通用编码」向「垂直领域」分化,科研是第一批被深耕的场景。这个项目把科研方法论编码成了Agent可执行的workflow,让AI不只是「帮你查论文」而是「帮你做科研」。
把一种语言配音转成另一种语言,克隆原声+保留语气情绪+保持音频时长不变,免费试用1分钟
访问链接注册/登录11Labs账号,上传一段外语视频或音频(如英文演讲),选择目标语言(如中文),Dubbing v2会自动:识别语音→翻译→用克隆的原声朗读目标语言,且口型和时长对齐。免费额度1分钟。对比之前的Index TTS2,这个在情绪保留和时长对齐上更优。适合做视频本地化、多语言课程配音。
配音质量的关键不是「像不像原声」而是「情绪和节奏对不对」。Dubbing v2在保留原配音的语气(激动/平静/疑问)和时长对齐这两个维度上做到了新高度,让AI配音从「能用」跨越到「不违和」。
X Premium+订阅者可安装,curl一键安装,支持CLI中生成图片,Cursor中已可用Grok Build 0.1
前提是订阅X Premium+(约$22/月)。终端运行上述curl命令安装CLI,然后可在命令行中让Grok生成图片、辅助编码。Grok Build 0.1已集成到Cursor中(Settings→Models→Grok Build),可在Cursor里直接用Grok写代码。注意目前video_gen接口实测还不稳定,也不能直接读X帖子。适合想尝鲜xAI生态的开发者。
xAI正在快速补全开发者工具链——从API到CLI到IDE集成,节奏极快。虽然目前还打不过Codex和Claude Code,但「能在CLI生成图片」是个差异化能力,而且X平台数据是独有优势。
百度的PaddleOCR-VL模型,专攻金融合同/法律文件/研究报告中公式、表格、印章、稀有字符的识别
pip install paddleocr-vl(或从PaddlePaddle GitHub克隆),输入包含复杂排版的PDF或扫描件图片,模型会输出结构化文本+表格+公式LaTeX。相比传统OCR,它在印章覆盖文字、手写公式、中英混排、生僻字等场景下误识别率大幅降低。结合LLM做后续信息提取效果更佳。
OCR的瓶颈从来不是「识别干净的文字」而是「识别脏的/复杂的文档」,PaddleOCR-VL正是瞄准了这个真实痛点。对于法律、金融、档案数字化等行业的RAG应用,文档理解质量直接取决于OCR质量。
Claude Code重大更新,Agent自己当项目经理,单次会话启动数十到数百个并行subagent完成超大规模任务
在Claude Code中给一个超大规模任务,比如「审查整个代码库的安全漏洞并逐一生成修复PR」或「调研100篇论文并生成综述报告」。Claude Code会自动生成编排脚本,并发启动subagent分工执行,最后汇总结果。Bun Zig→Rust迁移是官方标杆案例。注意Token消耗会很大,建议先在小范围测试。
这是AI Coding从「工具」到「基础设施」的质变。以前Agent帮你写代码,现在Agent帮你管项目。数百子Agent并行意味着「一个人+AI」的输出可以匹敌一个工程团队,软件开发的组织形态正在被改写。
Anthropic官宣H轮650亿美元融资当天同步发布Opus 4.8 + Dynamic Workflows + mid-conversation system messages API
这波操作是教科书级的融资PR——在Google I/O后、自家融资公布日放出产品大招,把行业注意力从竞争对手拉回自己身上。Opus 4.8虽被部分用户评价为「小更新甚至负更新」,但Dynamic Workflows(数百并行subagent)和mid-conversation system messages(Agent开发者的刚需)才是真正有长期价值的能力。Anthropic的战略清晰:不做最聪明的模型,做最能干活的Agent平台。
650亿估值让Anthropic稳坐AI第二把交椅,但竞争压力巨大——OpenAI的Codex Computer Use登陆Windows正在侵蚀Agent市场,xAI的Grok Build也在快速追赶。2026下半年的AI编码Agent之战才刚刚开始。
OpenAI宣布Codex的Computer Use功能正式支持Windows,同时手机App可远程监控和审批电脑上跑着的Codex任务
4月首发macOS版,不到两个月就覆盖Windows,OpenAI的工程速度惊人。Computer Use让AI像人一样看屏幕、点鼠标、打字,这意味着Codex不只是写代码的工具,而是通用的桌面自动化Agent。手机远程控制更是杀手功能——你可以在外面用手机审批Codex在电脑上的操作,真正实现「AI干活、人类监督」。
Codex和Claude Code的竞争从「谁写代码更好」升级为「谁能操控更多软件」。Windows生态的用户基数巨大,这次覆盖可能成为Codex弯道超车的关键一步。
Cursor发布开发者报告,头部用户AI代码产出远超中位数且差距扩大,input/output token ratio大幅上升,缓存变得极其重要
核心发现:AI写代码前「读」得越来越多——理解代码库和任务消耗的token远超生成代码的token。这意味着Prompt Caching和上下文工程才是AI Coding的成本核心,而不是生成速度。头部用户和普通用户的差距还在拉大,说明「会不会用AI工具」正在成为新的开发者分水岭。
AI Coding工具竞争的下半场是「上下文理解」——谁的模型能更高效地理解大型代码库、谁的缓存策略更聪明,谁就能胜出。