教会 Claude why | Anthropic🌐 链接: | 卡圈|免费AI|羊毛|白嫖

10 hours ago

教会 Claude why | Anthropic

🌐 链接: https://linux.do/t/topic/2137814

🔍 关键词: #api

🏷️ 分组: LinuxDo论坛

🕒 时间: 2026-05-09 08:53:09

LINUX DO

教会 Claude why | Anthropic

在这篇文章中，我们将讨论我们对阵容训练所做的一些更新。我们从这项工作中学到了四个主要教训：错位行为可以通过对评估分布的直接训练来抑制------但这种对齐可能无法很好地泛化出分布（OOD）。针对与评估非常相似的提示进行培训可以显著降低勒索率，但并未改善我们公开的自动对齐评估的表现。不过，也可以进行原则性对齐训练，将OOD（职能）进行推广。例如，关于克劳德宪法的文件和关于人工智能表现出色的虚构故事，尽管在我们所有的阵营评估中都极度不值班，但都提升了阵营率。仅仅训练期望行为的表现往往不够。相反，…