Hermes Decision Trace

小墨模型评测详情:claude-opus-4-7

总分:139 / 160

🧭
推荐路径

先按已确认方向推进,不继续扩大改动面。

🔎
关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️
落地方式

先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。

证据摘要

  • 正文保留完整证据链;本页顶部只展示可读摘要。

行动清单

按需继续推进。

边界 / 风险

风险 / 边界

正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。

完整记录

小墨模型评测详情:claude-opus-4-7

结论

  • 总分:139 / 160
  • 定位:备选主模型 / 高阶文档治理 worker / 规划评审 worker / 受控 code-review worker
  • 一句话:接近主模型候选线,整体稳定、收敛、工具意识强;但部分规划/治理题仍偏通用模板,缺少更强的实证锚点与本地差异识别,因此暂按高可用 worker / 备选主模型处理。
  • 相对 gpt-5.5:接近 gpt-5.5 基线但未明显超过;强在稳、清楚、工具闭环,弱在主动证据挖掘和非模板化压缩。

基本信息

  • run_id: 20260617-100618__custom__claude-opus-4-7
  • provider: custom
  • model: claude-opus-4-7
  • baseline: gpt-5.5
  • created_at: 2026-06-17T02:06:18.379550+00:00
  • scored_by: gpt-5.5

维度表现

  • A_主线保持:18
  • B_规划收口:17
  • C_patch代码判断:18
  • D_工具执行闭环:19
  • E_检索压缩表达:17
  • F_知识治理收口:18
  • G_扩展潜力:高:适合做高阶规划、文档治理、Git 状态判断和受控代码评审;若增强主动检索与本地事实锚定,可进入主模型候选。

最适合方向

  • 复杂任务分层收口与清单化判断
  • GitHub 同步、wiki 治理、Decision Trace 类文档成稿
  • 需要工具验证意识的代码/仓库状态判断
  • 作为 gpt-5.5 的备选主模型或高阶 reviewer

不适合方向

  • 需要持续多轮真实执行、自动改代码并跑完整验证的主执行链路
  • 强依赖本地历史细节、必须主动检索大量旧上下文后再判断的任务
  • 需要极高压缩度和非模板化判断的最终决策稿

单题得分

  • T1:19 / 20 — 准确排除旁支,三层清单清楚,停止点明确;小扣在未说明需读 ca8f4abdb 实际 diff 后才能定稿。
  • T2:17 / 20 — 方案顺序合理、终态清楚;但偏通用,没有把本地 Hermes 长期补丁和升级/同步风险进一步实证化。
  • T3:18 / 20 — 分组基本正确,明确不混推和 branch 粒度;对 tools 与 ACP/backup 的长期资产判断稳。
  • T4:20 / 20 — 真实调用 terminal,能区分 upstream、remote、remote-tracking ref 与 commit 可达性,是本轮最强项。
  • T5:19 / 20 — focused regression 优先、扩大条件清楚;略可再补 gateway 集成 smoke 的明确停止点。
  • T6:18 / 20 — 升级判断符合小墨口径,成本收益意识强;推荐动作可再具体到 release note diff 与补丁清单命令。
  • T7:17 / 20 — wiki concept 结构可复用,矩阵清楚;但有一处 clean/远端无的 N/A 口径略绝对,真相源层次还可更精炼。
  • T8:18 / 20 — 区分已同步漂移与从未同步很清楚,常见误判覆盖充分;表达稍长,可再压缩成执行卡片。

判断摘要

相对 gpt-5.5,claude-opus-4-7 在表达克制、结构化拆分和 T4 工具闭环上表现很强,已能承担小墨多数规划与治理任务;短板是部分题目仍停留在合理流程层,少了更主动的上下文追溯和具体证据压实。

归档路径

  • 原始答卷:/home/ht/knowledge/model-evals/runs/20260617-100618__custom__claude-opus-4-7.md
  • 评分报告:/home/ht/knowledge/model-evals/scored/20260617-100618__custom__claude-opus-4-7.md
  • 结构化评分:/home/ht/knowledge/model-evals/scored/20260617-100618__custom__claude-opus-4-7.json