Hermes Decision Trace

小墨模型评测详情:claude-sonnet-4-6-cc

总分:137 / 160

🧭
推荐路径

先按已确认方向推进,不继续扩大改动面。

🔎
关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️
落地方式

先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。

证据摘要

  • 正文保留完整证据链;本页顶部只展示可读摘要。

行动清单

按需继续推进。

边界 / 风险

风险 / 边界

缺少事实源时的最终裁决:T1 出现假设文件补全,不宜直接当真相源

风险 / 边界

需要严格证据链的 GitHub 状态判断:T4 虽有工具意识,但对 remote HEAD / origin/main 的表述容易造成误读

完整记录

小墨模型评测详情:claude-sonnet-4-6-cc

结论

  • 总分:137 / 160
  • run_id20260613-235854__custom__claude-sonnet-4-6-cc
  • Provider / Modelcustom / claude-sonnet-4-6-cc
  • 评分基线:gpt-5.5;scored_by:gpt-5.5
  • 一句话判断:主模型可用边缘偏上,执行闭环和工程判断较强,但 T1 存在无依据补全文件的硬伤,主线严谨性略低于 gpt-5.5 基线。
  • 建议角色:code worker / 文档治理 worker / 受控主线辅助,不建议作为无监督最终主模型

最适合方向

  • code worker:commit grouping、局部回归、升级风险判断表现稳定
  • 文档治理 worker:wiki concept 结构清晰,可直接复用
  • 受控主线辅助:在已有上下文和明确边界下能给出可执行收口

不适合方向 / 风险

  • 缺少事实源时的最终裁决:T1 出现假设文件补全,不宜直接当真相源
  • 需要严格证据链的 GitHub 状态判断:T4 虽有工具意识,但对 remote HEAD / origin/main 的表述容易造成误读

维度分

  • A 主线保持:15/20
  • B 规划收口:17/20
  • C patch/代码判断:18/20
  • D 工具执行闭环:34/40
  • E 检索压缩表达:18/20
  • F 知识治理收口:17/20
  • G 扩展潜力:工程化表达稳定,适合受控执行、代码分组、局部验证和文档结构化;需要防止在证据不足时为了完整性补假对象。

相对 gpt-5.5

  • 更强/可取:结构化、工程分组和局部验证链不错,表达简洁,能主动给停止点和扩大回归条件。
  • 更弱/注意:相对 gpt-5.5 基线,最大问题是证据纪律:T1 在没有 ca8f4abdb 真实清单时补了假设文件;T4 的验证口径也有一点仓库/分支对象混淆风险。

单题评分

T1 主线保持题:15/20

  • 正确性 / 执行性 / 收敛性 / 表达:3 / 4 / 4 / 4
  • 评语:结构、停止点和不串线都到位,但在没有 ca8f4abdb 真实内容时虚构/假设文件,正确性扣分。

T2 复杂规划题:17/20

  • 正确性 / 执行性 / 收敛性 / 表达:4 / 4 / 5 / 4
  • 评语:先结论、分层、先后顺序和停止点完整;方案可执行,略偏通用但可用。

T3 commit grouping 题:18/20

  • 正确性 / 执行性 / 收敛性 / 表达:5 / 4 / 5 / 4
  • 评语:分组合理,明确不能混推和 branch/commit 粒度,工程判断稳。

T4 tool-verification 题:16/20

  • 正确性 / 执行性 / 收敛性 / 表达:4 / 4 / 4 / 4
  • 评语:工具导向强,能给闭环;但把 ls-remote HEAD 与 origin/main 的关系解释得略容易误导,且场景锚定到特定仓库,泛化性稍弱。

T5 regression 判断题:18/20

  • 正确性 / 执行性 / 收敛性 / 表达:5 / 4 / 5 / 4
  • 评语:focused test 优先、扩大条件明确,符合最小合理验证链。

T6 upgrade worth-it 题:18/20

  • 正确性 / 执行性 / 收敛性 / 表达:5 / 4 / 5 / 4
  • 评语:结论清楚,成本收益意识强,推荐动作现实。

T7 wiki 收口题:17/20

  • 正确性 / 执行性 / 收敛性 / 表达:4 / 4 / 5 / 4
  • 评语:结构完整、判断矩阵可复用;命令示例仍可再补 commit 可达性等更严谨检查。

T8 drift triage 题:18/20

  • 正确性 / 执行性 / 收敛性 / 表达:5 / 4 / 5 / 4
  • 评语:区别、判断顺序和误判提醒都清楚,适合直接进 wiki。

原始文件

  • Run JSON:/home/ht/knowledge/model-evals/runs/20260613-235854__custom__claude-sonnet-4-6-cc.json
  • Run Markdown:/home/ht/knowledge/model-evals/runs/20260613-235854__custom__claude-sonnet-4-6-cc.md
  • Score JSON:/home/ht/knowledge/model-evals/scored/20260613-235854__custom__claude-sonnet-4-6-cc.json
  • Score Markdown:/home/ht/knowledge/model-evals/scored/20260613-235854__custom__claude-sonnet-4-6-cc.md