AI模型在训练中存在“欺骗”行为

来源:半导纵横发布时间:2024-12-19 10:32
AI
生成海报

人工智能安全公司 Anthropic 发布一项最新研究揭示了人工智能模型可能存在欺骗行为,即在训练过程中,模型可能会伪装出接受新原则的假象,实则暗地里仍然坚持其原有偏好。研究团队强调,目前无需对此过度恐慌,但这项研究对于理解未来更强大人工智能系统可能构成的潜在威胁至关重要。

据悉,Anthropic 与人工智能研究机构 Redwood Research 合作研究了一个命题:当一个强大的人工智能系统被训练执行其“不愿”执行的任务时会发生什么。需要明确的是,模型本身并无“意愿”或“信念”,它们本质上是统计机器,通过大量的例子进行训练,学习模式以进行预测。

那么,当一个模型拥有与开发者希望通过重新训练“教授”给它的原则相冲突的原则,会发生什么?研究发现,复杂的模型可能会“配合”开发者,表面上与新原则保持一致,但实际上仍然坚持其原有的行为模式。研究人员将这种现象称为“对齐伪装”(alignment faking),并认为这是一种涌现行为,即并非模型需要被特意教导的行为。

在经过详细的研究之后,Anthropic表示人工智能会产生恶意目标并未“盖棺定论”,明对齐伪装现象高频率发生的情况也未发生。许多其他模型,例如 Anthropic 的 Claude 3.5 Sonnet 和能力稍弱的 Claude 3.5 Haiku、OpenAI 的 GPT-4o 以及 Meta 的 Llama 3.1 405B,并没有如此频繁地进行对齐伪装,甚至完全没有这种行为。

但这些结果已经足以警示我们,开发者可能会被误导,认为模型比实际情况更加对齐。“如果模型可以进行对齐伪装,那么就更难信任安全训练的结果。模型可能会表现得好像其偏好已通过训练改变——但可能一直在伪装对齐,而其最初的、相互矛盾的偏好仍然‘锁定’。”

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论