AI Agent 评测新危机:Claude Skills范式让 Prompt 变成动态加载的“幽灵” Claude Skills的革命性架构正在颠覆传统Agent开发范式,它将静态的长文本Prompt转变为按需加载的动态知识库。这项创新虽然提升了Token效率和专业度,却让传统评测体系陷入困境——当约束规则分散在数百个隐形文件中,评测人员将如何应对这场‘黑箱’危机?本文将深入解析动态上下文带来的工程挑战,并探索新一代AI质量保障方法论。 托马斯.轰炸机 Agent开发AI评测Claude
AI,个人随笔 给大模型排名!两个博士一年干出17亿美金AI独角兽 当传统AI评测体系陷入刷榜困境,LMArena用匿名对战模式重构了大模型评估逻辑。这个由两位博士创立的平台通过数千万次用户投票,将模型能力评判权交还给真实使用场景。从免费竞技场到年化收入3000万美元的B端服务,其估值飙升至17亿美元的背后,是行业对动态评估体系的迫切需求。 硅基观察Pro AI评测LMArena产品策略
AI,个人随笔 如何做Agent评测 在大语言模型主导的AI时代,如何确保Agent应用层的稳定输出成为关键命题。本文系统拆解Agent评测体系的构建逻辑,从过程指标与结果指标的双重视角,揭示如何通过标准化测试收敛概率模型的不确定性。更包含评测集构建、自动化评测实施等实战方法论,为AI产品落地提供可复用的质量保障方案。 诸葛铁铁 AgentAI评测LLM