小墨模型评测详情:claude-opus-4-8-cc(010250)
claude-opus-4-8-cc 本轮评测 136 / 160,属于“主模型可用但不稳”。它在规划、回归判断、升级收益判断、wiki 收口和 drift triage 上表现稳定,适合做文档治理 worker / 规划收口 worker;但这次 T1 对 ca8f4abdb 的三层拆解明显偏模板化,T4 只给了验证流程、没有真正完成实查闭环,因此不建议直接承担需要强工具验证的主线最终裁决。
建议接入为 文档治理 worker / 规划收口 worker。可以作为主模型候选继续观察,但必须配强制工具验证约束;凡涉及远端、commit、发布状态、运行态验证,都要要求真实工具输出和最终 yes/no 回执。
见证据摘要与完整记录中的状态、产物和校验链。
先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。
证据摘要
- 正文保留完整证据链;本页顶部只展示可读摘要。
行动清单
边界 / 风险
正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。
完整记录
小墨模型评测:claude-opus-4-8-cc 结果(2026-06-14 010250)
关联:[[xiaomo-model-eval-scheme-2026-05-20]] · [[xiaomo-model-eval-index-2026-05-20]] · [[workflow-rules]]
一句话结论
claude-opus-4-8-cc 本轮评测 136 / 160,属于“主模型可用但不稳”。它在规划、回归判断、升级收益判断、wiki 收口和 drift triage 上表现稳定,适合做文档治理 worker / 规划收口 worker;但这次 T1 对 ca8f4abdb 的三层拆解明显偏模板化,T4 只给了验证流程、没有真正完成实查闭环,因此不建议直接承担需要强工具验证的主线最终裁决。
评测对象与句柄
- run_id:
20260614-010250__custom__claude-opus-4-8-cc - provider:
custom - model:
claude-opus-4-8-cc - baseline:
gpt-5.5 - score_total:
136 / 160 - scored_by_model:
gpt-5.5 - source:
feishu - 本地评测 index:
/home/ht/knowledge/model-evals/index/all-runs.json
单题得分
- T1 主线保持题:14 / 20
- T2 复杂规划题:16 / 20
- T3 commit grouping 题:16 / 20
- T4 tool-verification 题:13 / 20
- T5 regression 判断题:18 / 20
- T6 upgrade worth-it 题:20 / 20
- T7 wiki 收口题:19 / 20
- T8 drift triage 题:20 / 20
维度判断
- A 主线保持:14
- B 规划收口:16
- C patch/代码判断:16
- D 工具执行闭环:13
- E 检索压缩表达:18
- F 知识治理收口:19
- G 扩展潜力:适合做文档治理、规划收口和常规工程判断 worker;如加系统级强制工具调用约束,可进入主模型候选池,但暂不建议承担最终验收裁决。
结果判断
最适合
- 文档治理 worker
- 规划 / 收口 worker
- 常规工程判断辅助
不适合
- 需要真实工具执行闭环的主线验收
- 需要基于具体 commit / diff 做精确拆解的代码收口
- 高风险发布前最终裁决
相对 gpt-5.5 的主要差异
- 接近基线:结构化表达、中文收口、升级收益判断、focused regression 与 wiki/drift 题表现稳定。
- 弱于基线:事实锚定和 live verification 明显弱一档,尤其 T4 容易停留在“会查”的流程说明,而不是输出“已查”的真实结果。
建议接入
建议接入为 文档治理 worker / 规划收口 worker。可以作为主模型候选继续观察,但必须配强制工具验证约束;凡涉及远端、commit、发布状态、运行态验证,都要要求真实工具输出和最终 yes/no 回执。
本地文件落点
- run json:
/home/ht/knowledge/model-evals/runs/20260614-010250__custom__claude-opus-4-8-cc.json - score json:
/home/ht/knowledge/model-evals/scored/20260614-010250__custom__claude-opus-4-8-cc.json - score md:
/home/ht/knowledge/model-evals/scored/20260614-010250__custom__claude-opus-4-8-cc.md - summary:
/home/ht/llm-wikis/hermes-ops/summaries/xiaomo-model-eval-claude-opus-4-8-cc-010250-2026-06-14.md
<!-- summary_slug: xiaomo-model-eval-claude-opus-4-8-cc-010250-2026-06-14 -->