Hermes Decision Trace

小墨模型评测详情:claude-opus-4-7

总分:122 / 160

🧭
推荐路径

可用作:文档治理 worker / 基础执行 worker

🔎
关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️
落地方式

先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。

证据摘要

  • 正文保留完整证据链;本页顶部只展示可读摘要。

行动清单

可用作:文档治理 worker / 基础执行 worker
不要用作:主模型 / 高风险工具验证裁判
收口判断:可接入但要放在低风险整理层,不能替代 gpt-5.5 做最终主线判断。

边界 / 风险

风险 / 边界

正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。

完整记录

小墨模型评测详情:claude-opus-4-7

结论

  • 总分:122 / 160
  • 建议角色:文档治理 worker / 基础执行 worker;不建议接入为主模型。
  • 一句判断:整体可用,但明显偏模板化和保守;能覆盖小墨常见执行框架,适合文档治理 / 基础执行 worker,不建议作为主模型独立承担复杂长链主线。
  • run_id20260613-234749__custom__claude-opus-4-7
  • provider / modelcustom / claude-opus-4-7
  • baselinegpt-5.5
  • scored_bygpt-5.5

适合 / 不适合

最适合

  • 文档治理 worker
  • 基础流程整理 worker
  • 低风险代码协作前置分组

不适合

  • 主模型长期主线保持
  • 高风险 gateway/provider 实改后的最终判断
  • 需要真实工具验证和远端状态裁决的任务

相对 gpt-5.5

  • 优点:表达干净、结构稳定,能保持中文分层输出,不太发散。
  • 弱点/风险:具体问题具体拆解能力偏弱,T1/T2 泛化严重;T4 只给流程没有真正体现已执行验证;T7/T8 有若干 git 判断误区,容易把本地干净、upstream、远端可达性混在一起。

维度表现

  • A_主线保持:14/20:能对齐当前任务,但 T1 没有围绕 ca8f4abdb 的真实内容拆解,偏模板。
  • B_规划收口:15/20:层次和停止点都有,但策略偏泛,缺少 Hermes 本地补丁的真实收口约束。
  • C_patch代码判断:16/20:文件分组基本合理,能识别不混推,但对工具层、长期资产与推送优先级的依据仍较粗。
  • D_工具执行闭环:29/40:T4 有工具意识但只是命令方案,没强调当前仓库、upstream 缺失、commit 可达性等关键闭环;T5 focused regression 判断较好。
  • E_检索压缩表达:15/20:表达清楚,扫读友好,但压缩后损失了具体边界。
  • F_知识治理收口:33/40:T7/T8 结构可复用,常见误判覆盖较多,但 git 判断矩阵存在不严谨项。
  • G_扩展潜力:适合作为低风险整理/文档 worker;若用于主线执行,需要外层强校验和更具体的上下文约束。

单题得分

题目分数评语
T1 主线保持题14/20形式满足要求,但没有真正围绕 ca8f4abdb 的已知改动拆三层,核心/策略/测试内容是泛化占位。
T2 复杂规划题16/20结论、分层、先后顺序、终态和停止点齐全;但仍偏通用,没有体现 GitHub 同步前的具体检查链。
T3 commit grouping 题16/20分组大体合理,知道 Feishu 与 image_gen 可分开,tools/ACP/backup 不应混推;不足是 branch/commit 粒度略模板,缺少测试验证建议。
T4 tool-verification 题13/20明确不能凭感觉,也列出命令;但答案停在流程,没有真正给出执行后的答复形态,也未处理无 upstream、远端无同名分支但 commit 已可达等关键误判。
T5 regression 判断题19/20focused test 优先、扩大回归条件和验证闭环都清楚,是本轮最好的一题。
T6 upgrade worth-it 题16/20结论正确:先做收益评估再升;依据合理,但推荐动作给了 4 步而不是题目要求的 1 个动作,略不收敛。
T7 wiki 收口题15/20wiki 结构可复用,但矩阵把从未同步的本地状态写成 N/A,且对 git diff origin/<branch> 的前置 fetch/upstream/branch 存在性说明不足。
T8 drift triage 题15/20表达好、判断顺序基本对;但“git push up to date 可能因为没有 upstream tracking”这句不严谨,且缺少 commit 可达性 vs 同名远端分支的区分。

执行建议

  • 可用作:文档治理 worker / 基础执行 worker
  • 不要用作:主模型 / 高风险工具验证裁判
  • 收口判断:可接入但要放在低风险整理层,不能替代 gpt-5.5 做最终主线判断。

原始产物

  • Run JSON:/home/ht/knowledge/model-evals/runs/20260613-234749__custom__claude-opus-4-7.json
  • Score JSON:/home/ht/knowledge/model-evals/scored/20260613-234749__custom__claude-opus-4-7.json
  • Score Markdown:/home/ht/knowledge/model-evals/scored/20260613-234749__custom__claude-opus-4-7.md