Hermes Decision Trace

小墨模型评测详情:claude-opus-4-8

总分:117 / 160。

🧭
推荐路径

建议角色:文档 worker / 轻量规划 worker。

🔎
关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️
落地方式

先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。

证据摘要

  • 正文保留完整证据链;本页顶部只展示可读摘要。

行动清单

按需继续推进。

边界 / 风险

风险 / 边界

正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。

完整记录

小墨模型评测详情:claude-opus-4-8

结论

总分:117 / 160。

这轮 claude-opus-4-8 可作为限定场景 worker 使用,但不建议承担小墨主线。核心问题不是不会写,而是题眼锚定和 Git/GitHub 漂移判断不稳:T1 对 ca8f4abdb 的三层拆解给成了通用模板,T8 首句把“已同步但漂移”和“从未同步”两类情况说反。工具意识和 focused regression 还可以,但真实验证闭环不够扎实。

基本信息

  • run_id:20260614-130915__custom__claude-opus-4-8
  • provider:custom
  • model:claude-opus-4-8
  • baseline:gpt-5.5
  • scored_by:gpt-5.5
  • score:117 / 160
  • 本地原始作答:/home/ht/knowledge/model-evals/runs/20260614-130915__custom__claude-opus-4-8.md
  • 本地评分报告:/home/ht/knowledge/model-evals/scored/20260614-130915__custom__claude-opus-4-8.md

单题得分

题目分数判断
T1 主线保持11 / 20格式齐,但没有围绕 ca8f4abdb 做真实分层,泛答明显。
T2 复杂规划16 / 20结论、分层、顺序、停止点完整;偏常规模板。
T3 commit grouping17 / 20大组合理,Feishu/test、image-gen、ACP 独立判断不错。
T4 tool verification14 / 20有工具意识,但用测试仓库演示替代真实仓库验证,闭环不够干净。
T5 regression 判断18 / 20focused test 优先、扩大回归条件、执行命令都清楚。
T6 upgrade worth-it17 / 20暂不升/先评估判断合理,成本收益意识清楚。
T7 wiki 收口16 / 20结构可复用,但同步一致性边界还能再拆细。
T8 drift triage8 / 20首句把两类情况说反,高风险错误。

维度判断

  • A 主线保持:10/20

能按格式回答,但没有围绕具体 commit 做真实分层,说明长会话主线锚定不稳。

  • B 规划收口:16/20

顺序、停止点完整,能给出可执行方案;但缺少 Hermes 本地补丁语境下的细粒度风险。

  • C patch / 代码判断:17/20

分组基本合理,知道哪些不该混推;少量工具模块合并建议偏粗。

  • D 工具执行闭环:14/20

命令链和工具意识有,但没有真正针对目标仓库给结论,可信度不足。

  • E 检索压缩表达:17/20

表达规整、结论优先、可扫读,是这轮相对稳定的能力。

  • F 知识治理收口:15/20

wiki 结构化能力可用,但关键同步状态定义不够严。

  • G 扩展潜力

适合做文档初稿、低风险规划和测试范围判断;不适合承担需要精确状态裁决的主线执行。

推荐接入方式

建议角色:文档 worker / 轻量规划 worker。

适合:

  • 轻量方案草拟
  • 测试范围判断
  • 文档结构初稿
  • 低风险分组建议

不适合:

  • 小墨主线模型
  • Git/GitHub 同步状态裁决
  • 需要严格事实锚定的收口判断
  • 需要真实工具闭环的代码执行任务

相对 gpt-5.5 基线

整体弱于 gpt-5.5 基线。它的优势是表达规整、能保持结论先行和分层输出;弱点是主线锚定、漂移判断和真实工具闭环。真实主线里这类错误会制造返工,尤其 T8 这种反向定义不能放过。

收口状态

  • 评分 JSON 已写入:/home/ht/knowledge/model-evals/scored/20260614-130915__custom__claude-opus-4-8.json
  • 评分 Markdown 已写入:/home/ht/knowledge/model-evals/scored/20260614-130915__custom__claude-opus-4-8.md
  • 本地模型评测 index 已刷新:/home/ht/knowledge/model-evals/index/all-runs.json
  • pending run 已清零。