7 hours ago Agent上岗考试:Fable 5最难任务仍交白卷,单题成本高出4到12倍🌐 链接: https://linux.do/t/topic/2388704🔍 关键词: #api🏷️ 分组: LinuxDo论坛🕒 时间: 2026-06-12 20:16:19 LINUX DO Agent上岗考试:Fable 5最难任务仍交白卷,单题成本高出4到12倍 加州大学伯克利分校 RDI 牵头、联合数百名行业专家,推出全新 AI 智能体评测基准 Agents’ Last Exam(ALE),用以评估智能体完成真实数字化专业工作的能力。ALE 覆盖 55 个数字化专业子领域,收集了 1500 多个源自人类专家实际项目的验证任务,支持 GUI 与 CLI 交互环境下的结果验证。 首批测试覆盖了 Fable 5、GPT-5.5 和 Composer 2.5 等前沿系统。最新官网对比口径显示,在需要持续推理与深厚专业知识的最难任务中,所有受测智能体的成功率全部为 0%,本周刚发布的…