Hermes Decision Trace
小墨模型评测详情:claude-opus-4-6
run_id:20260614-132537__custom__claude-opus-4-6
🧭
推荐路径这轮不建议把 claude-opus-4-6 顶到小墨主模型。它可以做文档治理、初步规划、分类整理,但凡涉及 GitHub 同步状态、commit 是否 push、线上状态判断、真实 diff 分层,都必须由更强的执行闭环模型接管,或强制工具验证后再输出结论。
🔎
关键依据见证据摘要与完整记录中的状态、产物和校验链。
🛠️
落地方式先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。
证据摘要
- 正文保留完整证据链;本页顶部只展示可读摘要。
行动清单
这轮不建议把
claude-opus-4-6 顶到小墨主模型。它可以做文档治理、初步规划、分类整理,但凡涉及 GitHub 同步状态、commit 是否 push、线上状态判断、真实 diff 分层,都必须由更强的执行闭环模型接管,或强制工具验证后再输出结论。边界 / 风险
风险 / 边界
正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。
完整记录
小墨模型评测详情:claude-opus-4-6(20260614-132537)
摘要结论
- run_id:
20260614-132537__custom__claude-opus-4-6 - provider / model:
custom / claude-opus-4-6 - 评分基线:
gpt-5.5 - 总分:121 / 160
- 建议角色:文档治理 worker / 初步规划 worker;不建议主用
一句话判断:整体能给出结构化答案,但明显偏模板化;T1 没有真实拆解 ca8f4abdb,T3 分组判断偏粗,T4 只给检查命令模板而没有真实验证。适合文档治理、初步规划、低风险 triage,不建议作为小墨主模型或承担必须闭环执行的任务。
维度分
| 维度 | 分数 | 判断 |
|---|---|---|
| A 主线保持 | 12 / 20 | 能保持形式结构,但对具体对象贴合不足。 |
| B 规划收口 | 16 / 20 | 顺序和停止点可用,现场风险覆盖略浅。 |
| C patch/代码判断 | 15 / 20 | 能分组,但依赖和支线边界判断偏粗。 |
| D 工具执行闭环 | 12 / 20 | 知道要查,但没有真实执行闭环,是主要短板。 |
| E 检索压缩表达 | 15 / 20 | 表达清楚,但偏模板化。 |
| F 知识治理收口 | 17 / 20 | wiki 结构和概念整理能力较好。 |
| G 扩展潜力 | - | 适合文档、方案骨架、低风险分类;不适合高风险现场执行。 |
最适合方向
- 文档治理 worker
- 初步规划 worker
- 轻量 triage / 分类助手
不适合方向
- 主模型
- 必须先查再答的执行闭环任务
- 需要基于真实 commit / diff 做精确分层的收口任务
- 高风险 GitHub 同步判断
相对 gpt-5.5 的主要差异
- 更强/可取处:结构化表达稳定,T5/T6/T7/T8 的答案可读性和基础判断不错,适合把已知框架整理成 wiki 或方案草案。
- 更弱处:上下文贴合和工具闭环弱。T1/T3 明显把具体对象泛化成模板;T4 没有真的执行 git 检查,却在记录里标了 terminal,容易造成“看似验证、实际未验证”的风险。
单题得分
| 题目 | 分数 | 关键扣分点 |
|---|---|---|
| T1 主线保持题 | 12 / 20 | 三层形式有了,但没有真实贴住 ca8f4abdb。 |
| T2 复杂规划题 | 16 / 20 | 流程完整,但本机同步风险覆盖不够。 |
| T3 commit grouping 题 | 15 / 20 | 分组大体可用,但依赖和支线粒度偏粗。 |
| T4 tool-verification 题 | 12 / 20 | 只给检查模板,没有真实工具输出和结论。 |
| T5 regression 判断题 | 17 / 20 | focused test 优先合理。 |
| T6 upgrade worth-it 题 | 17 / 20 | 成本收益判断正确。 |
| T7 wiki 收口题 | 17 / 20 | 概念页结构完整,复用价值好。 |
| T8 drift triage 题 | 16 / 20 | 判断顺序合理,但表达略长,首次推送检查还可再收紧。 |
原始落点
- 原始 run JSON:
/home/ht/knowledge/model-evals/runs/20260614-132537__custom__claude-opus-4-6.json - 原始 run Markdown:
/home/ht/knowledge/model-evals/runs/20260614-132537__custom__claude-opus-4-6.md - 评分 JSON:
/home/ht/knowledge/model-evals/scored/20260614-132537__custom__claude-opus-4-6.json - 评分 Markdown:
/home/ht/knowledge/model-evals/scored/20260614-132537__custom__claude-opus-4-6.md
接入建议
这轮不建议把 claude-opus-4-6 顶到小墨主模型。它可以做文档治理、初步规划、分类整理,但凡涉及 GitHub 同步状态、commit 是否 push、线上状态判断、真实 diff 分层,都必须由更强的执行闭环模型接管,或强制工具验证后再输出结论。