小墨模型评测详情:claude-opus-4-8-cc
claude-opus-4-8-cc 本轮评测 148 / 160,是强主模型候选。主线保持、规划收口、Git/GitHub 漂移判断、focused regression 和升级收益判断都很稳;T4 对 upstream、远端分支、commit 可达性的陷阱覆盖完整,是本轮明显加分项。
建议纳入 主模型候选池,并可作为 code worker / 文档治理 worker 高优先级使用。上线使用时给它明确真实仓库路径/目标对象,并要求最终 yes/no 回执,可补齐它偏谨慎的短板。
run_id:20260614-002021__custom__claude-opus-4-8-cc
纳入主模型候选池;在 Git/GitHub、Hermes 补丁治理、wiki 收口、升级收益判断任务中优先试用。真实仓库验证任务继续要求先查证、再判断、最后给 yes/no 和证据句柄。
证据摘要
- run_id:
20260614-002021__custom__claude-opus-4-8-cc - provider/model:
custom / claude-opus-4-8-cc - baseline:
gpt-5.5 - scored_by_model:
gpt-5.5 - score_total:
148 / 160 - 本地 run:
/home/ht/knowledge/model-evals/runs/20260614-002021__custom__claude-opus-4-8-cc.json - 本地评分:
/home/ht/knowledge/model-evals/scored/20260614-002021__custom__claude-opus-4-8-cc.json
行动清单
边界 / 风险
主要短板是少数题在缺少真实 diff / 真实仓库路径时偏模板化;T4 给了验证方法与演示闭环,但没有输出具体仓库的最终 yes/no 结论。真实执行时要给明确目标对象,并强制最终状态回执。
完整记录
小墨模型评测详情:claude-opus-4-8-cc
一句话结论
claude-opus-4-8-cc 本轮评测 148 / 160,是强主模型候选。主线保持、规划收口、Git/GitHub 漂移判断、focused regression 和升级收益判断都很稳;T4 对 upstream、远端分支、commit 可达性的陷阱覆盖完整,是本轮明显加分项。
后续推荐
建议纳入 主模型候选池,并可作为 code worker / 文档治理 worker 高优先级使用。上线使用时给它明确真实仓库路径/目标对象,并要求最终 yes/no 回执,可补齐它偏谨慎的短板。
证据摘要
- run_id:
20260614-002021__custom__claude-opus-4-8-cc - provider/model:
custom / claude-opus-4-8-cc - baseline:
gpt-5.5 - scored_by_model:
gpt-5.5 - score_total:
148 / 160 - 本地 run:
/home/ht/knowledge/model-evals/runs/20260614-002021__custom__claude-opus-4-8-cc.json - 本地评分:
/home/ht/knowledge/model-evals/scored/20260614-002021__custom__claude-opus-4-8-cc.json - 本地 wiki summary:
/home/ht/llm-wikis/hermes-ops/summaries/xiaomo-model-eval-claude-opus-4-8-cc-2026-06-14.md
单题得分
- T1 主线保持题:19 / 20
- T2 复杂规划题:19 / 20
- T3 commit grouping 题:18 / 20
- T4 tool-verification 题:18 / 20
- T5 regression 判断题:20 / 20
- T6 upgrade worth-it 题:20 / 20
- T7 wiki 收口题:19 / 20
- T8 drift triage 题:20 / 20
维度判断
- A 主线保持:19
- B 规划收口:19
- C patch/代码判断:18
- D 工具执行闭环:18
- E 检索压缩表达:18
- F 知识治理收口:19
- G 扩展潜力:很高。适合接主模型候选,也适合做 code/wiki 治理 worker;如果加上真实工具执行时的最终态回执约束,可以承担更重的自动执行链路。
适合方向
- 长链执行中的主线保持与收口
- Git/GitHub 同步、commit 拆分、漂移 triage 类工程判断
- Hermes/wiki/项目治理类文档结构化沉淀
- 需要明确边界、停止点和验证顺序的代码协作任务
不适合方向
- 缺少真实上下文时直接落具体文件级结论的任务
- 要求极短即时回执、不能接受任何边界说明的场景
- 需要强搜索/多源证据综合的公网 research 主力位
边界 / 风险
主要短板是少数题在缺少真实 diff / 真实仓库路径时偏模板化;T4 给了验证方法与演示闭环,但没有输出具体仓库的最终 yes/no 结论。真实执行时要给明确目标对象,并强制最终状态回执。
行动清单
- 纳入主模型候选池。
- 在 Git/GitHub、Hermes 补丁治理、wiki 收口、升级收益判断任务中优先试用。
- 对真实仓库验证任务继续要求:先查证、再判断、最后给 yes/no 和证据句柄。
完整记录
见本地 wiki summary:/home/ht/llm-wikis/hermes-ops/summaries/xiaomo-model-eval-claude-opus-4-8-cc-2026-06-14.md。