a day ago 【SNSE Bench】DeepSeek V4 Flash 倒数第二?🌐 链接: https://linux.do/t/topic/2352573🔍 关键词: #api🏷️ 分组: LinuxDo论坛🕒 时间: 2026-06-09 16:52:16 LINUX DO 【SNSE Bench】DeepSeek V4 Flash 倒数第二? 结论:DeepSeek-V4-Flash 出现了严重的 overthinking。 使用 DeepSeek 官方 API 测试,思考强度为 Max。 可以看到,在 12 道题目中,V4-Flash 只在 5 道题目中输出了代码,在剩余的 7 道题目中思维链全部超过了 128k 上限被截断。相比之下,在 V4 尚未发布时网页端的灰测模型都获得了 141 分,发布后的快速模式获得了 215 分——网页端的这两个模型至少面对题目能正常地输出一份代码,且有一定可能获得部分分数。 由于这种严重的 overthinking,V4…