AI日报:阿里正式认领HappyHorse视频大模型,CEO挂帅成立技术委员会

0 评论 3254 浏览 0 收藏 14 分钟

大家好,我是老曹。这周我实际体验了几个新出的AI工具,发现确实比之前的顺手不少——昨天刷新闻的时候注意到中国AI大模型的Token调用量已经连续五周超越美国了,这个趋势挺有意思的。另外智元那边把四足机器人业务分拆出去,阿里也认领了之前匿名屠榜的视频大模型HappyHorse。今天简单说几条真正4月10-11日发生的值得关注的动态,往下看吧。

1. 智谱GLM-5.1开源发布:编程能力首次超越GPT-5.4和Claude Opus 4.6

核心内容:智谱发布GLM-5.1,采用744B参数MoE架构(每次激活40B),在SWE-Bench Pro编程基准上首次超越GPT-5.4和Claude Opus 4.6。采用MIT许可证,支持完全自托管免费商用。这是开源模型首次在核心编程能力上超越主流闭源旗舰。

点评:开源模型第一次在编程这个硬核场景里干翻了闭源旗舰,MIT许可证还允许免费商用——这对中小开发团队来说是个大福利,不用再被OpenAI和Anthropic的定价绑架了。

2. 字节跳动扣子COZE 2.5发布:Agent配备真实云电脑和云手机

核心内容:扣子COZE 2.5推出Agent World生态系统,为每个Agent配备真实云电脑和云手机,可运行代码、安装软件,支持异步长期记忆系统与专属邮箱身份,还有独立任务日历与文件云盘,支持7×24小时后台自主运转。定位从”AI助手”向”数字员工”跨越。

点评:这个概念挺超前的——给每个Agent配一台完整的云电脑,让它真的能像员工一样干活。不过实际体验还得看延迟和稳定性,毕竟云电脑的性能和本地还是没法比。

3. 智元机器人发布GO-2:弥合语义-运动鸿沟的具身基座大模型

核心内容:智元机器人推出Genie Operator-2(GO-2),在上一代GO-1基础上大幅进化,重点解决机器人系统中长期存在的语义-运动鸿沟问题,让机器人更好地理解自然语言指令并转化为精确的物理动作。

点评:GO-2解决的是具身智能最头疼的问题——听懂了但做不对。如果这个鸿沟真能弥合,家用机器人离实用化就不远了。

4. Cursor推出全新AI Agent体验:从IDE进化为全自动化软件工程系统

核心内容:Cursor从”AI原生IDE”进化为”全自动化软件工程系统”,支持多智能体协作、全链路代码库任务执行,直接对标OpenAI Codex和Claude Code。

点评:Cursor这波进化挺有野心——不再只是帮你写代码的编辑器,而是要包办整个软件工程流程。实际用起来能不能真的替代人工评审和测试,还得观察。

5. 腾讯云QClaw V2上线:支持多Agent并行协作

核心内容:腾讯云QClaw V2大版本上线,支持同时拉起最多3个Agent并行工作,可把复杂长任务拆解并行处理。每个Agent可设置独立的性格、口吻与专业能力,优化了工具调用链路和上下文管理能力。

点评:单Agent处理复杂任务容易”顾此失彼”,多Agent协作是个正确的方向。腾讯这次更新把多Agent编排做进了产品里,对开发者来说省心不少。

6. 阿里正式认领HappyHorse视频大模型,CEO挂帅成立技术委员会

核心内容:阿里巴巴正式认领此前匿名屠榜的HappyHorse视频大模型(由ATH旗下创新事业部研发),并宣布AI组织架构重大调整:CEO吴泳铭亲自挂帅成立集团技术委员会,升级通义事业部,加速AI建设。这是阿里在AI领域的又一次重要布局。

点评:阿里终于认领了HappyHorse,之前匿名屠榜的做法确实吊足了胃口。CEO亲自挂帅技术委员会,说明阿里要把AI提到战略最高优先级了。

7. 智元机器人分拆四足业务成立智元酷拓,目标2030年营收100亿

核心内容:智元机器人分拆四足机器人业务为独立子公司”智元酷拓”,COO邱恒透露2026年目标营收5亿元,2030年目标出货30万台、营收100亿元(海外占比超35%)。分拆原因是为避免被人形机器人业务”阴影”掩盖,让四足业务独立发展。

点评:智元这招挺聪明的——四足和双足机器人面向的是完全不同的市场,分拆后各自能更灵活。2030年100亿的目标不算保守,说明对四足机器人市场很有信心。

8. 微软开源Agent Governance Toolkit:覆盖OWASP Agentic AI Top 10

核心内容:微软开源Agent Governance Toolkit,包含Agent OS(策略拦截)、Agent Mesh(加密身份)、Agent Runtime(权限沙箱)、Agent SRE(可靠性工程)、Agent Compliance(合规自动化)五大模块,全面覆盖OWASP Agentic AI Top 10风险。

点评:Agent安全问题终于有了系统性的解决方案。微软这套工具包把Agent可能遇到的安全风险都覆盖到了,以后做Agent产品可以直接参考这个框架。

9. AI炒菜机器人成为川菜”大厨”,3分钟完成麻婆豆腐

核心内容:四川熊喵大师科技有限公司发布数字菜谱AI系统”Mer宝·AI”,展示炒菜机器人3分钟完成麻婆豆腐制作。苏泊尔、九阳等品牌也已推出家用炒菜机器人,AI正在进入家庭厨房场景。

点评:炒菜机器人这个赛道有点意思——中餐的”火候”和”手感”一直被认为是AI难以替代的,但现在看来技术正在突破。3分钟一道麻婆豆腐,效率确实高。

10. 字节跳动发布Seeduplex:原生全双工端到端语音大模型

核心内容:字节Seed团队发布Seeduplex,基于”边听边说”框架实现真正全双工交互。误回复率和误打断率降低一半,判停延迟降低约250ms,打断响应延迟缩短约300ms。已在豆包App全量上线,服务上亿用户。

点评:语音交互的流畅度一直是痛点,Seeduplex这个延迟优化做得很到位。已经在豆包上全量上线了,说明技术成熟度高,可以大规模商用。

11. Anthropic暂停OpenClaw开发者对Claude的访问权限

核心内容:Anthropic已暂停开源工具OpenClaw开发者Steinberger对其Claude AI模型的访问权限,该开发者在测试API兼容性时遭遇封禁。此事发生在OpenClaw用户面临Claude定价策略调整的一周后。

点评:Anthropic这波操作有点强硬——OpenClaw作为开源工具给开发者提供了便利,但显然动了Anthropic的蛋糕。平台方和第三方工具之间的博弈还会继续。

12. CISA警告:Langflow框架遭CVE-9.8级漏洞攻击

核心内容:美国网络安全和基础设施安全局(CISA)警告Langflow框架存在CVE-2026-33017漏洞,CVSS评分9.8级未认证远程代码执行。影响1.8.1及以下版本,从公告到利用代码出现仅20小时,联邦机构需在4月8日前完成修补。

点评:9.8级漏洞+20小时就出现利用代码,这个响应窗口期太短了。用Langflow的开发者得赶紧升级,否则就是裸奔。

13. OpenAI CEO奥特曼住宅遭袭:20岁男子投掷燃烧弹被捕

核心内容:一名20岁男子因涉嫌向OpenAI首席执行官萨姆·奥特曼位于旧金山的住宅投掷莫洛托夫鸡尾酒(燃烧弹)而被捕。该事件发生于周五清晨,该男子还在OpenAI总部外发出威胁言论。

点评:AI行业的争议已经从技术层面蔓延到人身安全了。奥特曼作为行业标杆人物,成为极端分子的目标,说明AI发展速度和社会接受度之间的鸿沟在拉大。

14. OpenAI披露ChatGPT搜索在欧盟月活用户数,面临DSA监管审查

核心内容:OpenAI正式公布ChatGPT搜索功能在欧盟地区的平均月活跃用户数量,响应欧盟《数字服务法案》(DSA)监管要求。这一披露可能使OpenAI面临更严格的合规审查。

点评:欧盟DSA监管越来越严,OpenAI不得不披露用户数据。这对其他AI公司也是个信号——进入欧盟市场,合规成本会越来越高。

15. AI生成假视频造谣被拘6天,标注”AI生成”也不能免责

核心内容:央视新闻报道称,发布AI生成假视频即便标注”AI生成”也不能免责。今年3月8日,四川射洪网民廖某为博取流量,利用AI技术生成”重庆立交桥倒塌”的虚假视频,被公安机关依法行政拘留6天。

点评:这个案例给所有用AI生成内容的人提了个醒——标注了来源不代表能免责,造谣就是造谣,不管是不是AI生成的。监管态度很明确:技术中立,但使用者有责任。

16. DeepTutor发布:香港大学推出的智能体原生个性化学习助手

核心内容:香港大学数据科学实验室(HKUDS)推出DeepTutor开源项目,定位为”智能体原生的个性化学习助手”,利用AI智能体技术提供定制化学习支持与辅导。这是AI在教育领域的深度应用尝试。

点评:教育+AI这个组合一直被看好,但落地效果参差不齐。DeepTutor走”智能体原生”路线,可能会比传统的AI辅导工具更有优势。

17. NousResearch发布Hermes Agent:与用户共同成长的智能体

核心内容:NousResearch推出Hermes Agent开源项目,核心理念是”与你一同成长的智能体”,作为Hermes系列模型的延伸,通过持续交互实现智能体的进化与能力提升。

点评:”共同成长”这个概念在AI Agent领域挺新鲜——大多数Agent是一次性的,Hermes想做的是可积累、可进化的长期关系。

18. Archon发布:首个开源AI编程测试基准构建器

核心内容:Archon是首个专门用于AI编程的开源测试基准构建器,解决AI编程结果难以预测的问题,通过标准化测试基准使AI生成代码过程变得可确定且可重复。

点评:AI编程最大的痛点就是”不确定性”——同样的prompt每次输出可能不一样。Archon想通过标准化测试来解决这个问题,思路是对的。

19. VoxCPM2发布:无需分词器的多语言语音生成新技术

核心内容:OpenBMB发布VoxCPM2,创新的无需分词器(Tokenizer-free)文本转语音模型,专注于多语言语音生成、创意声音设计及高保真语音克隆,消除传统分词器限制,提供更自然的语音合成方案。

点评:去掉分词器这个思路挺大胆——传统TTS pipeline里分词器是标配,但也确实带来了一些artifact。VoxCPM2如果能绕过分词器直接生成,语音质量可能会更自然。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!