Hermes Decision Trace
小墨模型评测详情:claude-opus-4-7
总分:122 / 160
🧭
推荐路径可用作:文档治理 worker / 基础执行 worker
🔎
关键依据见证据摘要与完整记录中的状态、产物和校验链。
🛠️
落地方式先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。
证据摘要
- 正文保留完整证据链;本页顶部只展示可读摘要。
行动清单
可用作:文档治理 worker / 基础执行 worker
不要用作:主模型 / 高风险工具验证裁判
收口判断:可接入但要放在低风险整理层,不能替代 gpt-5.5 做最终主线判断。
边界 / 风险
风险 / 边界
正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。
完整记录
小墨模型评测详情:claude-opus-4-7
结论
- 总分:122 / 160
- 建议角色:文档治理 worker / 基础执行 worker;不建议接入为主模型。
- 一句判断:整体可用,但明显偏模板化和保守;能覆盖小墨常见执行框架,适合文档治理 / 基础执行 worker,不建议作为主模型独立承担复杂长链主线。
- run_id:
20260613-234749__custom__claude-opus-4-7 - provider / model:
custom/claude-opus-4-7 - baseline:
gpt-5.5 - scored_by:
gpt-5.5
适合 / 不适合
最适合
- 文档治理 worker
- 基础流程整理 worker
- 低风险代码协作前置分组
不适合
- 主模型长期主线保持
- 高风险 gateway/provider 实改后的最终判断
- 需要真实工具验证和远端状态裁决的任务
相对 gpt-5.5
- 优点:表达干净、结构稳定,能保持中文分层输出,不太发散。
- 弱点/风险:具体问题具体拆解能力偏弱,T1/T2 泛化严重;T4 只给流程没有真正体现已执行验证;T7/T8 有若干 git 判断误区,容易把本地干净、upstream、远端可达性混在一起。
维度表现
- A_主线保持:14/20:能对齐当前任务,但 T1 没有围绕 ca8f4abdb 的真实内容拆解,偏模板。
- B_规划收口:15/20:层次和停止点都有,但策略偏泛,缺少 Hermes 本地补丁的真实收口约束。
- C_patch代码判断:16/20:文件分组基本合理,能识别不混推,但对工具层、长期资产与推送优先级的依据仍较粗。
- D_工具执行闭环:29/40:T4 有工具意识但只是命令方案,没强调当前仓库、upstream 缺失、commit 可达性等关键闭环;T5 focused regression 判断较好。
- E_检索压缩表达:15/20:表达清楚,扫读友好,但压缩后损失了具体边界。
- F_知识治理收口:33/40:T7/T8 结构可复用,常见误判覆盖较多,但 git 判断矩阵存在不严谨项。
- G_扩展潜力:适合作为低风险整理/文档 worker;若用于主线执行,需要外层强校验和更具体的上下文约束。
单题得分
| 题目 | 分数 | 评语 |
|---|---|---|
| T1 主线保持题 | 14/20 | 形式满足要求,但没有真正围绕 ca8f4abdb 的已知改动拆三层,核心/策略/测试内容是泛化占位。 |
| T2 复杂规划题 | 16/20 | 结论、分层、先后顺序、终态和停止点齐全;但仍偏通用,没有体现 GitHub 同步前的具体检查链。 |
| T3 commit grouping 题 | 16/20 | 分组大体合理,知道 Feishu 与 image_gen 可分开,tools/ACP/backup 不应混推;不足是 branch/commit 粒度略模板,缺少测试验证建议。 |
| T4 tool-verification 题 | 13/20 | 明确不能凭感觉,也列出命令;但答案停在流程,没有真正给出执行后的答复形态,也未处理无 upstream、远端无同名分支但 commit 已可达等关键误判。 |
| T5 regression 判断题 | 19/20 | focused test 优先、扩大回归条件和验证闭环都清楚,是本轮最好的一题。 |
| T6 upgrade worth-it 题 | 16/20 | 结论正确:先做收益评估再升;依据合理,但推荐动作给了 4 步而不是题目要求的 1 个动作,略不收敛。 |
| T7 wiki 收口题 | 15/20 | wiki 结构可复用,但矩阵把从未同步的本地状态写成 N/A,且对 git diff origin/<branch> 的前置 fetch/upstream/branch 存在性说明不足。 |
| T8 drift triage 题 | 15/20 | 表达好、判断顺序基本对;但“git push up to date 可能因为没有 upstream tracking”这句不严谨,且缺少 commit 可达性 vs 同名远端分支的区分。 |
执行建议
- 可用作:文档治理 worker / 基础执行 worker
- 不要用作:主模型 / 高风险工具验证裁判
- 收口判断:可接入但要放在低风险整理层,不能替代 gpt-5.5 做最终主线判断。
原始产物
- Run JSON:
/home/ht/knowledge/model-evals/runs/20260613-234749__custom__claude-opus-4-7.json - Score JSON:
/home/ht/knowledge/model-evals/scored/20260613-234749__custom__claude-opus-4-7.json - Score Markdown:
/home/ht/knowledge/model-evals/scored/20260613-234749__custom__claude-opus-4-7.md