开源视频创作工具迎来「HTML即视频」范式变革,html-video 3万行代码将Agent原生视频创作门槛拉到零;同时谷歌Gemma 4、Ideogram 4、NVIDIA Nemotron-3 三大开源模型齐发,端侧多模态时代加速到来。
开源视频创作工具迎来「HTML即视频」范式变革,html-video 3万行代码将Agent原生视频创作门槛拉到零;同时谷歌Gemma 4、Ideogram 4、NVIDIA Nemotron-3 三大开源模型齐发,端侧多模态时代加速到来。
开源视频创作框架,Agent通过写HTML就能做出产品宣传片、知识解说视频,支持20+模板、MP4导出,接入Claude Code/Codex/Cursor等主流Agent。
git clone项目后在本地安装依赖,启动CLI或Web Studio界面。选择内置的20多套视频风格模板(产品宣传、知识解说等),Agent会自动生成对应的HTML页面,分页编辑后一键导出MP4。已接入Minimax配音配乐,支持通过frames.md定义视频运动规范、design.md定义视觉风格。本地Coding Agent直接通过CLI命令即可调用——在Claude Code或Codex里说"用html-video做一个产品介绍视频"就行。
这是视频创作范式的根本转变——传统视频工具(剪映/PR)依赖时间轴拖拽,html-video用声明式HTML+CSS+JS定义画面,Agent完全可以自主编写和迭代。站在HyperFrames和Remotion的肩膀上,项目仅3天就完成3万行代码,展现了Agent-native工具的爆发力。对于开发者来说,批量生成视频、A/B测试不同版本变得极其高效。
谷歌开源12B参数多模态模型,支持文本+图片+音频输入,本地可运行,采用MTP草稿加速推理。
直接访问HuggingFace下载GGUF量化版(推荐Q4_K_M),用llama.cpp或Ollama本地加载:ollama pull gemma4:12b 然后 ollama run gemma4:12b。也可以上传图片或音频让模型分析。12B大小在16GB内存的MacBook上就能跑,推理速度使用MTP加速后可比同尺寸模型快2-3倍。
12B这个尺寸卡在「本地可跑」和「能力不差」的甜蜜点。原生多模态意味着不需要额外插件就能处理图片和音频,对比Llama等纯文本模型是降维打击。Google这次开源+商用友好许可的组合拳,明显是要抢Llama的生态位。
9.3B参数开源图片模型,审美在线,英文文字渲染完美,基于Qwen语言模型,本地可跑。
HuggingFace下载模型权重,搭配ComfyUI或diffusers加载。在ComfyUI里搜索Ideogram 4工作流模板,调整提示词即可生成。9.3B参数在24GB显存的GPU上可以跑FP16版,Mac用户可用MLX或GGUF量化版。官方也提供在线体验:https://ideogram.ai 直接注册就能试用。
图片模型的两大痛点——审美和文字渲染——Ideogram 4同时解决了。审美方面击败了Flux和SD3.5,文字渲染仅次于闭源的Banana和GPT Image 2。开源意味着可以微调、LoRA、ControlNet全套组合拳,这是闭源API永远给不了的。
将AI做设计的门槛从「需要CLI+API Key+模型配置」降到浏览器打开即用,实现真正的设计平权。
直接访问在线版本或克隆仓库本地运行。不需要配置本地CLI、API key、模型——浏览器打开就能让AI帮你设计网页、UI界面、海报等。选择设计类型,描述需求,Agent自动生成设计稿,支持实时预览和迭代修改。0.9.0版本核心是把技术门槛全部封装掉,让非技术用户也能用AI做设计。
从「给early adopter的玩具」到「人人可用的工具」的质变。之前的AI设计工具都卡在环境配置这一步——大多数人还没开始设计就被劝退了。Open Design 0.9.0把这件事做成了开箱即用,这是设计师和非技术用户的ChatGPT时刻。
LM Studio发布iOS版,可以在iPhone上本地运行大模型,离线、隐私、免费。
App Store下载LM Studio,首次启动会引导下载模型(推荐选择1-3B的小模型如Qwen2.5-1.5B或Phi-3-mini)。下载完成后直接对话,完全离线运行。iPhone 15 Pro以上机型体验更流畅(更多RAM+更强NPU)。模型管理界面可以直接搜索HuggingFace上的GGUF模型一键下载。
这是「端侧AI」真正走进普通消费者的标志。之前手机跑大模型要么需要技术背景(llama.cpp命令行),要么效果太差。LM Studio用App化体验+GGUF生态把门槛降到普通用户可接受的水平。iPhone的ANE神经网络引擎做推理能效比远超GPU,长时间对话不烫手。
开源Agent框架,给每个请求按难度打分分四档派发模型,在6月15日Anthropic订阅Token停用前提供省钱方案。
克隆仓库后配置多个模型API Key(如Claude/DeepSeek/GPT/Haiku),设置四档难度阈值。Agent收到任务后自动评估复杂度:简单任务(如"格式化这段代码")路由到便宜模型,复杂任务(如"重构整个模块")路由到最强模型。可以自定义评分规则和模型映射,支持添加任意OpenAI兼容API。
6月15日Anthropic所有订阅套餐Token将被禁止第三方使用,大量依赖Claude订阅的Agent工具面临断供。OpenSquilla的「按难度路由」思路比一刀切换便宜模型聪明得多——简单任务确实不需要SOTA模型,省下的Token用在刀刃上。这个策略也是Anthropic自己正在推的方向。
AI视频生成平台正式上线,支持HappyHorse和Seedance 2.0等模型,人类用户和Agent都能调用,输入想法或参考图即可生成视频。
访问官网注册账号,在AI视频模块输入文字描述或上传参考图/参考视频。选择模型(HappyHorse适合创意类、Seedance 2.0适合写实类),设置时长和风格参数,一键生成。Agent也可以通过API调用——在Claude Code等工具中描述想要的视频,Agent自动调用ListenHub生成。目前提供免费试用额度。
ListenHub区分于其他视频生成平台的核心是「同时服务人类和Agent」的设计。提供标准化的API让Agent调用,意味着视频生成可以嵌入自动化工作流——比如每天自动生成新闻视频摘要、产品更新演示视频。多模型聚合也避免了单模型审美疲劳。
无AI、不联网的iOS工具,专注解决手机上Markdown和HTML格式AI产出物的预览问题,TestFlight 8000名额开放。
TestFlight安装后,从Claude Code/Codex等工具导出的Markdown或HTML文件,通过分享菜单发送到即览即可渲染预览。支持代码高亮、表格、LaTeX公式等Markdown扩展语法。完全离线——不会上传任何内容到服务器,适合预览含敏感信息的AI产出。也可直接粘贴剪贴板内容快速预览。
AI工具产出大量Markdown/HTML但手机端一直缺好用的预览工具——iOS Files预览Markdown不支持扩展语法,Safari打开本地HTML经常样式丢失。归藏做的这个小工具精准解决了这个缝隙需求,离线+隐私的设计也打消了用户对数据上传的顾虑。
完成重构的正式版,支持Claude Code/Native/OpenAI Codex三引擎切换,上下文用量可视化,修复大量macOS/Windows问题。
下载安装后配置API Key(支持多个服务商),在设置中选择执行引擎——Claude Code适合复杂重构、Native引擎适合快速编辑、Codex适合iOS/Apple生态开发。新版的上下文用量可视化能实时看到Token消耗和剩余额度。macOS用户注意:这版修复了视觉渲染和托盘图标问题,体验大幅提升。
多引擎架构是这个工具的核心差异化——不同引擎擅长的场景不同,一键切换比手动换工具高效。上下文用量可视化也解决了Agent编程「不知不觉烧光Token」的痛点。歸藏作为独立开发者把产品迭代到这个完成度,说明AI编程工具的独立开发者赛道依然有空间。
尤雨溪创立的VoidZero(Vite/Vitest/Rolldown/Oxc背后的公司)正式加入Cloudflare,所有项目保持MIT开源,团队继续领导开发。
这不是普通的收购——VoidZero手握JS生态最核心的基础设施(Vite是npm下载量最高的构建工具),Cloudflare的Workers平台本身就是Vite的重度用户。收购后Vite+将在Cloudflare边缘运行时上获得原生级优化,JS全栈开发的「本地→边缘」部署路径将被彻底打通。尤雨溪从Vue到Vite再到VoidZero,完成了个体开发者→框架作者→生态基础设施构建者的三级跳。
Vite系工具链将获得Cloudflare的全球CDN和边缘计算资源加持,npm生态的构建/测试/部署体验可能在未来1-2年发生质变。对Next.js生态构成直接竞争——Vite+边缘原生的组合比Next.js+Vercel的绑定更开放。
OpenAI发布ChatGPT记忆合成系统Dreaming V3,从"用户主动说记住"进化到"后台自动提炼整合更新记忆",解决跨年时间尺度的记忆陈旧性和准确性问题。
这是ChatGPT从「会话工具」到「长期伴侣」的关键一步。旧版Saved Memories需要用户手动触发("记住这个"),Dreaming V3变成全自动后台进程——AI会主动从你的聊天历史中发现模式、更新认知。技术上看,核心挑战是记忆冲突解决(你三年前说喜欢Python但现在主力用Rust,AI需要更新而非叠加)和隐私边界(自动记忆引发用户对"AI知道太多"的恐惧)。
个性化AI的竞争从「更好的单次回答」升级到「更懂你的长期记忆」。Apple Intelligence、Google Gemini必然会跟进类似能力。但隐私争议也会随之升级——自动记忆意味着AI有了你的"数字日记",数据控制权将成为监管焦点。
6月15日起Anthropic所有订阅套餐的Token将被禁止第三方使用,全部转为API计费。Claude订阅的"无限用"时代终结。
这是一场酝酿已久的商业模式切换。Anthropic要上市必须证明盈利——订阅模式下开发者通过Agent SDK、claude -p等方式大量消耗Token,对Anthropic是纯成本。转API计费后,最受冲击的是依赖Claude订阅的独立开发者和开源Agent工具(如feishu-claude-code-bridge)。但对Anthropic本身,这是从「补贴增长」到「商业变现」的成人礼。
短期会有一批Agent工具被迫重构后端(要么涨价要么换模型),Claude Code的性价比优势缩小。中长期推动模型路由技术(如OpenSquilla)和本地模型方案(如LM Studio)的加速普及。
Codex新增Build iOS Apps插件,可以在内置浏览器中实时预览iOS App和SwiftUI组件,无需Xcode和Simulator。
这是Codex从「代码编辑器」升级为「完整开发环境」的关键一步。之前做iOS开发必须切到Xcode跑模拟器,现在Codex内闭环了编辑→预览→调试的完整循环。SwiftUI预览的实时热更新体验甚至优于Xcode。这对独立开发者尤其友好——不需要买Mac也能在Codex(基于浏览器)里做iOS开发。
Xcode的价值被进一步削弱——Apple会如何回应?要么大幅升级Xcode的AI能力,要么对第三方iOS开发工具设限。长期看,Apple可能被迫开放更多iOS开发工具链。