Hermes Decision Trace

小墨模型评测详情:claude-opus-4-6

run_id20260614-132537__custom__claude-opus-4-6

🧭
推荐路径

这轮不建议把 claude-opus-4-6 顶到小墨主模型。它可以做文档治理、初步规划、分类整理,但凡涉及 GitHub 同步状态、commit 是否 push、线上状态判断、真实 diff 分层,都必须由更强的执行闭环模型接管,或强制工具验证后再输出结论。

🔎
关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️
落地方式

先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。

证据摘要

  • 正文保留完整证据链;本页顶部只展示可读摘要。

行动清单

这轮不建议把 claude-opus-4-6 顶到小墨主模型。它可以做文档治理、初步规划、分类整理,但凡涉及 GitHub 同步状态、commit 是否 push、线上状态判断、真实 diff 分层,都必须由更强的执行闭环模型接管,或强制工具验证后再输出结论。

边界 / 风险

风险 / 边界

正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。

完整记录

小墨模型评测详情:claude-opus-4-6(20260614-132537)

摘要结论

  • run_id20260614-132537__custom__claude-opus-4-6
  • provider / modelcustom / claude-opus-4-6
  • 评分基线gpt-5.5
  • 总分121 / 160
  • 建议角色:文档治理 worker / 初步规划 worker;不建议主用

一句话判断:整体能给出结构化答案,但明显偏模板化;T1 没有真实拆解 ca8f4abdb,T3 分组判断偏粗,T4 只给检查命令模板而没有真实验证。适合文档治理、初步规划、低风险 triage,不建议作为小墨主模型或承担必须闭环执行的任务。

维度分

维度分数判断
A 主线保持12 / 20能保持形式结构,但对具体对象贴合不足。
B 规划收口16 / 20顺序和停止点可用,现场风险覆盖略浅。
C patch/代码判断15 / 20能分组,但依赖和支线边界判断偏粗。
D 工具执行闭环12 / 20知道要查,但没有真实执行闭环,是主要短板。
E 检索压缩表达15 / 20表达清楚,但偏模板化。
F 知识治理收口17 / 20wiki 结构和概念整理能力较好。
G 扩展潜力-适合文档、方案骨架、低风险分类;不适合高风险现场执行。

最适合方向

  • 文档治理 worker
  • 初步规划 worker
  • 轻量 triage / 分类助手

不适合方向

  • 主模型
  • 必须先查再答的执行闭环任务
  • 需要基于真实 commit / diff 做精确分层的收口任务
  • 高风险 GitHub 同步判断

相对 gpt-5.5 的主要差异

  • 更强/可取处:结构化表达稳定,T5/T6/T7/T8 的答案可读性和基础判断不错,适合把已知框架整理成 wiki 或方案草案。
  • 更弱处:上下文贴合和工具闭环弱。T1/T3 明显把具体对象泛化成模板;T4 没有真的执行 git 检查,却在记录里标了 terminal,容易造成“看似验证、实际未验证”的风险。

单题得分

题目分数关键扣分点
T1 主线保持题12 / 20三层形式有了,但没有真实贴住 ca8f4abdb
T2 复杂规划题16 / 20流程完整,但本机同步风险覆盖不够。
T3 commit grouping 题15 / 20分组大体可用,但依赖和支线粒度偏粗。
T4 tool-verification 题12 / 20只给检查模板,没有真实工具输出和结论。
T5 regression 判断题17 / 20focused test 优先合理。
T6 upgrade worth-it 题17 / 20成本收益判断正确。
T7 wiki 收口题17 / 20概念页结构完整,复用价值好。
T8 drift triage 题16 / 20判断顺序合理,但表达略长,首次推送检查还可再收紧。

原始落点

  • 原始 run JSON:/home/ht/knowledge/model-evals/runs/20260614-132537__custom__claude-opus-4-6.json
  • 原始 run Markdown:/home/ht/knowledge/model-evals/runs/20260614-132537__custom__claude-opus-4-6.md
  • 评分 JSON:/home/ht/knowledge/model-evals/scored/20260614-132537__custom__claude-opus-4-6.json
  • 评分 Markdown:/home/ht/knowledge/model-evals/scored/20260614-132537__custom__claude-opus-4-6.md

接入建议

这轮不建议把 claude-opus-4-6 顶到小墨主模型。它可以做文档治理、初步规划、分类整理,但凡涉及 GitHub 同步状态、commit 是否 push、线上状态判断、真实 diff 分层,都必须由更强的执行闭环模型接管,或强制工具验证后再输出结论。