Hermes Decision Trace

小墨模型评测详情：claude-opus-4-8

总分：117 / 160。

🧭

推荐路径

建议角色：文档 worker / 轻量规划 worker。

🔎

关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️

落地方式

先把已验证方案当成稳定基线：保留当前 schedule / deliver / workdir，不急着继续扩面；新增候选先读源码、看 output、做 run-now 验证，再决定是否转 script-only。

证据摘要

正文保留完整证据链；本页顶部只展示可读摘要。

行动清单

按需继续推进。

边界 / 风险

风险 / 边界

正文未抽取到明确风险；上线前仍需确认权限、回退路径与运行态影响。

完整记录

本节目录结论基本信息单题得分维度判断推荐接入方式相对 gpt-5.5 基线收口状态

小墨模型评测详情：claude-opus-4-8

结论

总分：117 / 160。

这轮 claude-opus-4-8 可作为限定场景 worker 使用，但不建议承担小墨主线。核心问题不是不会写，而是题眼锚定和 Git/GitHub 漂移判断不稳：T1 对 ca8f4abdb 的三层拆解给成了通用模板，T8 首句把“已同步但漂移”和“从未同步”两类情况说反。工具意识和 focused regression 还可以，但真实验证闭环不够扎实。

基本信息

run_id：20260614-130915__custom__claude-opus-4-8
provider：custom
model：claude-opus-4-8
baseline：gpt-5.5
scored_by：gpt-5.5
score：117 / 160
本地原始作答：[已移除本地路径]
本地评分报告：[已移除本地路径]

单题得分

题目	分数	判断
T1 主线保持	11 / 20	格式齐，但没有围绕 `ca8f4abdb` 做真实分层，泛答明显。
T2 复杂规划	16 / 20	结论、分层、顺序、停止点完整；偏常规模板。
T3 commit grouping	17 / 20	大组合理，Feishu/test、image-gen、ACP 独立判断不错。
T4 tool verification	14 / 20	有工具意识，但用测试仓库演示替代真实仓库验证，闭环不够干净。
T5 regression 判断	18 / 20	focused test 优先、扩大回归条件、执行命令都清楚。
T6 upgrade worth-it	17 / 20	暂不升/先评估判断合理，成本收益意识清楚。
T7 wiki 收口	16 / 20	结构可复用，但同步一致性边界还能再拆细。
T8 drift triage	8 / 20	首句把两类情况说反，高风险错误。

维度判断

A 主线保持：10/20

能按格式回答，但没有围绕具体 commit 做真实分层，说明长会话主线锚定不稳。

B 规划收口：16/20

顺序、停止点完整，能给出可执行方案；但缺少 Hermes 本地补丁语境下的细粒度风险。

C patch / 代码判断：17/20

分组基本合理，知道哪些不该混推；少量工具模块合并建议偏粗。

D 工具执行闭环：14/20

命令链和工具意识有，但没有真正针对目标仓库给结论，可信度不足。

E 检索压缩表达：17/20

表达规整、结论优先、可扫读，是这轮相对稳定的能力。

F 知识治理收口：15/20

wiki 结构化能力可用，但关键同步状态定义不够严。

G 扩展潜力

适合做文档初稿、低风险规划和测试范围判断；不适合承担需要精确状态裁决的主线执行。

相对 gpt-5.5 基线

整体弱于 gpt-5.5 基线。它的优势是表达规整、能保持结论先行和分层输出；弱点是主线锚定、漂移判断和真实工具闭环。真实主线里这类错误会制造返工，尤其 T8 这种反向定义不能放过。

收口状态

评分 JSON 已写入：[已移除本地路径]
评分 Markdown 已写入：[已移除本地路径]
本地模型评测 index 已刷新：[已移除本地路径]
pending run 已清零。