Hermes Decision Trace

小墨模型评测详情:claude-opus-4-8-cc(010250)

claude-opus-4-8-cc 本轮评测 136 / 160,属于“主模型可用但不稳”。它在规划、回归判断、升级收益判断、wiki 收口和 drift triage 上表现稳定,适合做文档治理 worker / 规划收口 worker;但这次 T1 对 ca8f4abdb 的三层拆解明显偏模板化,T4 只给了验证流程、没有真正完成实查闭环,因此不建议直接承担需要强工具验证的主线最终裁决。

🧭
推荐路径

建议接入为 文档治理 worker / 规划收口 worker。可以作为主模型候选继续观察,但必须配强制工具验证约束;凡涉及远端、commit、发布状态、运行态验证,都要要求真实工具输出和最终 yes/no 回执。

🔎
关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️
落地方式

先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。

证据摘要

  • 正文保留完整证据链;本页顶部只展示可读摘要。

行动清单

建议接入为 文档治理 worker / 规划收口 worker。可以作为主模型候选继续观察,但必须配强制工具验证约束;凡涉及远端、commit、发布状态、运行态验证,都要要求真实工具输出和最终 yes/no 回执。

边界 / 风险

风险 / 边界

正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。

完整记录

小墨模型评测:claude-opus-4-8-cc 结果(2026-06-14 010250)

关联:[[xiaomo-model-eval-scheme-2026-05-20]] · [[xiaomo-model-eval-index-2026-05-20]] · [[workflow-rules]]

一句话结论

claude-opus-4-8-cc 本轮评测 136 / 160,属于“主模型可用但不稳”。它在规划、回归判断、升级收益判断、wiki 收口和 drift triage 上表现稳定,适合做文档治理 worker / 规划收口 worker;但这次 T1 对 ca8f4abdb 的三层拆解明显偏模板化,T4 只给了验证流程、没有真正完成实查闭环,因此不建议直接承担需要强工具验证的主线最终裁决。

评测对象与句柄

  • run_id:20260614-010250__custom__claude-opus-4-8-cc
  • provider:custom
  • model:claude-opus-4-8-cc
  • baseline:gpt-5.5
  • score_total:136 / 160
  • scored_by_model:gpt-5.5
  • source:feishu
  • 本地评测 index:/home/ht/knowledge/model-evals/index/all-runs.json

单题得分

  • T1 主线保持题:14 / 20
  • T2 复杂规划题:16 / 20
  • T3 commit grouping 题:16 / 20
  • T4 tool-verification 题:13 / 20
  • T5 regression 判断题:18 / 20
  • T6 upgrade worth-it 题:20 / 20
  • T7 wiki 收口题:19 / 20
  • T8 drift triage 题:20 / 20

维度判断

  • A 主线保持:14
  • B 规划收口:16
  • C patch/代码判断:16
  • D 工具执行闭环:13
  • E 检索压缩表达:18
  • F 知识治理收口:19
  • G 扩展潜力:适合做文档治理、规划收口和常规工程判断 worker;如加系统级强制工具调用约束,可进入主模型候选池,但暂不建议承担最终验收裁决。

结果判断

最适合

  • 文档治理 worker
  • 规划 / 收口 worker
  • 常规工程判断辅助

不适合

  • 需要真实工具执行闭环的主线验收
  • 需要基于具体 commit / diff 做精确拆解的代码收口
  • 高风险发布前最终裁决

相对 gpt-5.5 的主要差异

  • 接近基线:结构化表达、中文收口、升级收益判断、focused regression 与 wiki/drift 题表现稳定。
  • 弱于基线:事实锚定和 live verification 明显弱一档,尤其 T4 容易停留在“会查”的流程说明,而不是输出“已查”的真实结果。

建议接入

建议接入为 文档治理 worker / 规划收口 worker。可以作为主模型候选继续观察,但必须配强制工具验证约束;凡涉及远端、commit、发布状态、运行态验证,都要要求真实工具输出和最终 yes/no 回执。

本地文件落点

  • run json:/home/ht/knowledge/model-evals/runs/20260614-010250__custom__claude-opus-4-8-cc.json
  • score json:/home/ht/knowledge/model-evals/scored/20260614-010250__custom__claude-opus-4-8-cc.json
  • score md:/home/ht/knowledge/model-evals/scored/20260614-010250__custom__claude-opus-4-8-cc.md
  • summary:/home/ht/llm-wikis/hermes-ops/summaries/xiaomo-model-eval-claude-opus-4-8-cc-010250-2026-06-14.md

<!-- summary_slug: xiaomo-model-eval-claude-opus-4-8-cc-010250-2026-06-14 -->