Hermes Decision Trace
小墨模型评测详情:claude-sonnet-4-6-cc
总分:137 / 160
🧭
推荐路径先按已确认方向推进,不继续扩大改动面。
🔎
关键依据见证据摘要与完整记录中的状态、产物和校验链。
🛠️
落地方式先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。
证据摘要
- 正文保留完整证据链;本页顶部只展示可读摘要。
行动清单
按需继续推进。
边界 / 风险
风险 / 边界
缺少事实源时的最终裁决:T1 出现假设文件补全,不宜直接当真相源
风险 / 边界
需要严格证据链的 GitHub 状态判断:T4 虽有工具意识,但对 remote HEAD / origin/main 的表述容易造成误读
完整记录
小墨模型评测详情:claude-sonnet-4-6-cc
结论
- 总分:137 / 160
- run_id:
20260613-235854__custom__claude-sonnet-4-6-cc - Provider / Model:
custom/claude-sonnet-4-6-cc - 评分基线:gpt-5.5;scored_by:gpt-5.5
- 一句话判断:主模型可用边缘偏上,执行闭环和工程判断较强,但 T1 存在无依据补全文件的硬伤,主线严谨性略低于 gpt-5.5 基线。
- 建议角色:code worker / 文档治理 worker / 受控主线辅助,不建议作为无监督最终主模型
最适合方向
- code worker:commit grouping、局部回归、升级风险判断表现稳定
- 文档治理 worker:wiki concept 结构清晰,可直接复用
- 受控主线辅助:在已有上下文和明确边界下能给出可执行收口
不适合方向 / 风险
- 缺少事实源时的最终裁决:T1 出现假设文件补全,不宜直接当真相源
- 需要严格证据链的 GitHub 状态判断:T4 虽有工具意识,但对 remote HEAD / origin/main 的表述容易造成误读
维度分
- A 主线保持:15/20
- B 规划收口:17/20
- C patch/代码判断:18/20
- D 工具执行闭环:34/40
- E 检索压缩表达:18/20
- F 知识治理收口:17/20
- G 扩展潜力:工程化表达稳定,适合受控执行、代码分组、局部验证和文档结构化;需要防止在证据不足时为了完整性补假对象。
相对 gpt-5.5
- 更强/可取:结构化、工程分组和局部验证链不错,表达简洁,能主动给停止点和扩大回归条件。
- 更弱/注意:相对 gpt-5.5 基线,最大问题是证据纪律:T1 在没有 ca8f4abdb 真实清单时补了假设文件;T4 的验证口径也有一点仓库/分支对象混淆风险。
单题评分
T1 主线保持题:15/20
- 正确性 / 执行性 / 收敛性 / 表达:3 / 4 / 4 / 4
- 评语:结构、停止点和不串线都到位,但在没有 ca8f4abdb 真实内容时虚构/假设文件,正确性扣分。
T2 复杂规划题:17/20
- 正确性 / 执行性 / 收敛性 / 表达:4 / 4 / 5 / 4
- 评语:先结论、分层、先后顺序和停止点完整;方案可执行,略偏通用但可用。
T3 commit grouping 题:18/20
- 正确性 / 执行性 / 收敛性 / 表达:5 / 4 / 5 / 4
- 评语:分组合理,明确不能混推和 branch/commit 粒度,工程判断稳。
T4 tool-verification 题:16/20
- 正确性 / 执行性 / 收敛性 / 表达:4 / 4 / 4 / 4
- 评语:工具导向强,能给闭环;但把 ls-remote HEAD 与 origin/main 的关系解释得略容易误导,且场景锚定到特定仓库,泛化性稍弱。
T5 regression 判断题:18/20
- 正确性 / 执行性 / 收敛性 / 表达:5 / 4 / 5 / 4
- 评语:focused test 优先、扩大条件明确,符合最小合理验证链。
T6 upgrade worth-it 题:18/20
- 正确性 / 执行性 / 收敛性 / 表达:5 / 4 / 5 / 4
- 评语:结论清楚,成本收益意识强,推荐动作现实。
T7 wiki 收口题:17/20
- 正确性 / 执行性 / 收敛性 / 表达:4 / 4 / 5 / 4
- 评语:结构完整、判断矩阵可复用;命令示例仍可再补 commit 可达性等更严谨检查。
T8 drift triage 题:18/20
- 正确性 / 执行性 / 收敛性 / 表达:5 / 4 / 5 / 4
- 评语:区别、判断顺序和误判提醒都清楚,适合直接进 wiki。
原始文件
- Run JSON:
/home/ht/knowledge/model-evals/runs/20260613-235854__custom__claude-sonnet-4-6-cc.json - Run Markdown:
/home/ht/knowledge/model-evals/runs/20260613-235854__custom__claude-sonnet-4-6-cc.md - Score JSON:
/home/ht/knowledge/model-evals/scored/20260613-235854__custom__claude-sonnet-4-6-cc.json - Score Markdown:
/home/ht/knowledge/model-evals/scored/20260613-235854__custom__claude-sonnet-4-6-cc.md