Anthropic 研究发现用户将 AI 智能体会话时长延长了一倍
Anthropic 于周一发布了一项研究,分析了人类与 AI 智能体在实际应用中的协作方式,该公司称这是首次对 Claude Code 及其公共 API 在真实部署中自主性如何演变进行的大规模实证研究。
这项基于数百万次人机交互的研究发现,用户正在逐步延长允许 AI 智能体独立工作的时长。在第 99.9 百分位数上,Claude Code 运行时间最长的会话在三个月内几乎翻了一倍,从不到 25 分钟增长到超过 45 分钟。这种增长在各个模型版本发布期间平稳进行,表明信任是通过使用经验建立的,而不仅仅是通过模型升级。
用户如何调整信任度
一项核心发现涉及监督与经验之间不断变化的关系。在大约 750 次会话后,超过 40% 的用户会完全自动批准 Claude 的操作。然而矛盾的是,经验丰富的用户也会更频繁地中断代理——从新手用户约 5% 的回合上升到资深用户的 9%。
研究表明,这反映了从逐个操作审批向有针对性监控的转变。Anthropic 在其分析中写道:"经验丰富的用户从批准单个代理操作转向在需要时进行监控和干预。"
也许更引人注目的发现是,Claude Code 在复杂任务中主动暂停请求澄清的频率是人类中断它的两倍多。Anthropic 强调这种自我暂停行为——它称之为"不确定性识别"——是一项关键的安全功能。
风险较低,但应用边界不断拓展
研究发现,大约73%的工具交互涉及某种形式的人工监督,而只有0.8%的智能体操作是不可逆的。软件工程在应用场景中占据主导地位,约占所有智能体驱动的工具调用的一半。
然而,研究指出,智能体正越来越多地部署在更高风险的领域,包括网络安全、金融、医疗保健和生产系统。虽然大多数应用仍属于低风险范畴,但这些新兴应用场景拓展了Anthropic所称的"风险与自主性的前沿地带"。
呼吁加强部署后监控
该公司认为,其研究发现使得实施严格监管要求的理由变得更加复杂。"那些规定特定交互模式的监管要求,比如要求人工批准每一个操作,会造成使用摩擦,但未必能带来安全效益,"研究报告指出。
Anthropic 的核心结论是,自主性是"由模型、用户和产品共同构建的"——这意味着仅凭部署前的评估无法全面表征自主性。该公司呼吁业界投资建设部署后监控基础设施,以应对智能体能力的持续扩展。