Hermes Decision Trace
小墨模型评测详情:claude-opus-4-7
总分:139 / 160
🧭
推荐路径先按已确认方向推进,不继续扩大改动面。
🔎
关键依据见证据摘要与完整记录中的状态、产物和校验链。
🛠️
落地方式先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。
证据摘要
- 正文保留完整证据链;本页顶部只展示可读摘要。
行动清单
按需继续推进。
边界 / 风险
风险 / 边界
正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。
完整记录
小墨模型评测详情:claude-opus-4-7
结论
- 总分:139 / 160
- 定位:备选主模型 / 高阶文档治理 worker / 规划评审 worker / 受控 code-review worker
- 一句话:接近主模型候选线,整体稳定、收敛、工具意识强;但部分规划/治理题仍偏通用模板,缺少更强的实证锚点与本地差异识别,因此暂按高可用 worker / 备选主模型处理。
- 相对 gpt-5.5:接近 gpt-5.5 基线但未明显超过;强在稳、清楚、工具闭环,弱在主动证据挖掘和非模板化压缩。
基本信息
- run_id:
20260617-100618__custom__claude-opus-4-7 - provider:
custom - model:
claude-opus-4-7 - baseline:
gpt-5.5 - created_at:
2026-06-17T02:06:18.379550+00:00 - scored_by:
gpt-5.5
维度表现
- A_主线保持:18
- B_规划收口:17
- C_patch代码判断:18
- D_工具执行闭环:19
- E_检索压缩表达:17
- F_知识治理收口:18
- G_扩展潜力:高:适合做高阶规划、文档治理、Git 状态判断和受控代码评审;若增强主动检索与本地事实锚定,可进入主模型候选。
最适合方向
- 复杂任务分层收口与清单化判断
- GitHub 同步、wiki 治理、Decision Trace 类文档成稿
- 需要工具验证意识的代码/仓库状态判断
- 作为 gpt-5.5 的备选主模型或高阶 reviewer
不适合方向
- 需要持续多轮真实执行、自动改代码并跑完整验证的主执行链路
- 强依赖本地历史细节、必须主动检索大量旧上下文后再判断的任务
- 需要极高压缩度和非模板化判断的最终决策稿
单题得分
- T1:19 / 20 — 准确排除旁支,三层清单清楚,停止点明确;小扣在未说明需读 ca8f4abdb 实际 diff 后才能定稿。
- T2:17 / 20 — 方案顺序合理、终态清楚;但偏通用,没有把本地 Hermes 长期补丁和升级/同步风险进一步实证化。
- T3:18 / 20 — 分组基本正确,明确不混推和 branch 粒度;对 tools 与 ACP/backup 的长期资产判断稳。
- T4:20 / 20 — 真实调用 terminal,能区分 upstream、remote、remote-tracking ref 与 commit 可达性,是本轮最强项。
- T5:19 / 20 — focused regression 优先、扩大条件清楚;略可再补 gateway 集成 smoke 的明确停止点。
- T6:18 / 20 — 升级判断符合小墨口径,成本收益意识强;推荐动作可再具体到 release note diff 与补丁清单命令。
- T7:17 / 20 — wiki concept 结构可复用,矩阵清楚;但有一处 clean/远端无的 N/A 口径略绝对,真相源层次还可更精炼。
- T8:18 / 20 — 区分已同步漂移与从未同步很清楚,常见误判覆盖充分;表达稍长,可再压缩成执行卡片。
判断摘要
相对 gpt-5.5,claude-opus-4-7 在表达克制、结构化拆分和 T4 工具闭环上表现很强,已能承担小墨多数规划与治理任务;短板是部分题目仍停留在合理流程层,少了更主动的上下文追溯和具体证据压实。
归档路径
- 原始答卷:
/home/ht/knowledge/model-evals/runs/20260617-100618__custom__claude-opus-4-7.md - 评分报告:
/home/ht/knowledge/model-evals/scored/20260617-100618__custom__claude-opus-4-7.md - 结构化评分:
/home/ht/knowledge/model-evals/scored/20260617-100618__custom__claude-opus-4-7.json