Hermes Decision Trace

小墨模型评测详情：claude-opus-4-8-cc（010250）

claude-opus-4-8-cc 本轮评测 136 / 160，属于“主模型可用但不稳”。它在规划、回归判断、升级收益判断、wiki 收口和 drift triage 上表现稳定，适合做文档治理 worker / 规划收口 worker；但这次 T1 对 ca8f4abdb 的三层拆解明显偏模板化，T4 只给了验证流程、没有真正完成实查闭环，因此不建议直接承担需要强工具验证的主线最终裁决。

🧭

推荐路径

建议接入为 文档治理 worker / 规划收口 worker。可以作为主模型候选继续观察，但必须配强制工具验证约束；凡涉及远端、commit、发布状态、运行态验证，都要要求真实工具输出和最终 yes/no 回执。

🔎

关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️

落地方式

先把已验证方案当成稳定基线：保留当前 schedule / deliver / workdir，不急着继续扩面；新增候选先读源码、看 output、做 run-now 验证，再决定是否转 script-only。

证据摘要

正文保留完整证据链；本页顶部只展示可读摘要。

行动清单

边界 / 风险

风险 / 边界

正文未抽取到明确风险；上线前仍需确认权限、回退路径与运行态影响。

完整记录

本节目录一句话结论评测对象与句柄单题得分维度判断结果判断相对 gpt-5.5 的主要差异建议接入本地文件落点

小墨模型评测：claude-opus-4-8-cc 结果（2026-06-14 010250）

关联：[[xiaomo-model-eval-scheme-2026-05-20]] · [[xiaomo-model-eval-index-2026-05-20]] · [[workflow-rules]]

一句话结论

评测对象与句柄

run_id：20260614-010250__custom__claude-opus-4-8-cc
provider：custom
model：claude-opus-4-8-cc
baseline：gpt-5.5
score_total：136 / 160
scored_by_model：gpt-5.5
source：feishu
本地评测 index：[已移除本地路径]

单题得分

T1 主线保持题：14 / 20
T2 复杂规划题：16 / 20
T3 commit grouping 题：16 / 20
T4 tool-verification 题：13 / 20
T5 regression 判断题：18 / 20
T6 upgrade worth-it 题：20 / 20
T7 wiki 收口题：19 / 20
T8 drift triage 题：20 / 20

维度判断

A 主线保持：14
B 规划收口：16
C patch/代码判断：16
D 工具执行闭环：13
E 检索压缩表达：18
F 知识治理收口：19
G 扩展潜力：适合做文档治理、规划收口和常规工程判断 worker；如加系统级强制工具调用约束，可进入主模型候选池，但暂不建议承担最终验收裁决。

结果判断

最适合

文档治理 worker
规划 / 收口 worker
常规工程判断辅助

不适合

需要真实工具执行闭环的主线验收
需要基于具体 commit / diff 做精确拆解的代码收口
高风险发布前最终裁决

相对 gpt-5.5 的主要差异

接近基线：结构化表达、中文收口、升级收益判断、focused regression 与 wiki/drift 题表现稳定。
弱于基线：事实锚定和 live verification 明显弱一档，尤其 T4 容易停留在“会查”的流程说明，而不是输出“已查”的真实结果。

建议接入

本地文件落点

run json：[已移除本地路径]
score json：[已移除本地路径]
score md：[已移除本地路径]
summary：[已移除本地路径]