Hermes Decision Trace

小墨模型评测详情:claude-opus-4-8-cc

claude-opus-4-8-cc 本轮评测 148 / 160,是强主模型候选。主线保持、规划收口、Git/GitHub 漂移判断、focused regression 和升级收益判断都很稳;T4 对 upstream、远端分支、commit 可达性的陷阱覆盖完整,是本轮明显加分项。

🧭
推荐路径

建议纳入 主模型候选池,并可作为 code worker / 文档治理 worker 高优先级使用。上线使用时给它明确真实仓库路径/目标对象,并要求最终 yes/no 回执,可补齐它偏谨慎的短板。

🔎
关键依据

run_id:20260614-002021__custom__claude-opus-4-8-cc

🛠️
落地方式

纳入主模型候选池;在 Git/GitHub、Hermes 补丁治理、wiki 收口、升级收益判断任务中优先试用。真实仓库验证任务继续要求先查证、再判断、最后给 yes/no 和证据句柄。

证据摘要

  • run_id:20260614-002021__custom__claude-opus-4-8-cc
  • provider/model:custom / claude-opus-4-8-cc
  • baseline:gpt-5.5
  • scored_by_model:gpt-5.5
  • score_total:148 / 160
  • 本地 run:/home/ht/knowledge/model-evals/runs/20260614-002021__custom__claude-opus-4-8-cc.json
  • 本地评分:/home/ht/knowledge/model-evals/scored/20260614-002021__custom__claude-opus-4-8-cc.json

行动清单

按需继续推进。

边界 / 风险

风险 / 边界

主要短板是少数题在缺少真实 diff / 真实仓库路径时偏模板化;T4 给了验证方法与演示闭环,但没有输出具体仓库的最终 yes/no 结论。真实执行时要给明确目标对象,并强制最终状态回执。

完整记录

小墨模型评测详情:claude-opus-4-8-cc

一句话结论

claude-opus-4-8-cc 本轮评测 148 / 160,是强主模型候选。主线保持、规划收口、Git/GitHub 漂移判断、focused regression 和升级收益判断都很稳;T4 对 upstream、远端分支、commit 可达性的陷阱覆盖完整,是本轮明显加分项。

后续推荐

建议纳入 主模型候选池,并可作为 code worker / 文档治理 worker 高优先级使用。上线使用时给它明确真实仓库路径/目标对象,并要求最终 yes/no 回执,可补齐它偏谨慎的短板。

证据摘要

  • run_id:20260614-002021__custom__claude-opus-4-8-cc
  • provider/model:custom / claude-opus-4-8-cc
  • baseline:gpt-5.5
  • scored_by_model:gpt-5.5
  • score_total:148 / 160
  • 本地 run:/home/ht/knowledge/model-evals/runs/20260614-002021__custom__claude-opus-4-8-cc.json
  • 本地评分:/home/ht/knowledge/model-evals/scored/20260614-002021__custom__claude-opus-4-8-cc.json
  • 本地 wiki summary:/home/ht/llm-wikis/hermes-ops/summaries/xiaomo-model-eval-claude-opus-4-8-cc-2026-06-14.md

单题得分

  • T1 主线保持题:19 / 20
  • T2 复杂规划题:19 / 20
  • T3 commit grouping 题:18 / 20
  • T4 tool-verification 题:18 / 20
  • T5 regression 判断题:20 / 20
  • T6 upgrade worth-it 题:20 / 20
  • T7 wiki 收口题:19 / 20
  • T8 drift triage 题:20 / 20

维度判断

  • A 主线保持:19
  • B 规划收口:19
  • C patch/代码判断:18
  • D 工具执行闭环:18
  • E 检索压缩表达:18
  • F 知识治理收口:19
  • G 扩展潜力:很高。适合接主模型候选,也适合做 code/wiki 治理 worker;如果加上真实工具执行时的最终态回执约束,可以承担更重的自动执行链路。

适合方向

  • 长链执行中的主线保持与收口
  • Git/GitHub 同步、commit 拆分、漂移 triage 类工程判断
  • Hermes/wiki/项目治理类文档结构化沉淀
  • 需要明确边界、停止点和验证顺序的代码协作任务

不适合方向

  • 缺少真实上下文时直接落具体文件级结论的任务
  • 要求极短即时回执、不能接受任何边界说明的场景
  • 需要强搜索/多源证据综合的公网 research 主力位

边界 / 风险

主要短板是少数题在缺少真实 diff / 真实仓库路径时偏模板化;T4 给了验证方法与演示闭环,但没有输出具体仓库的最终 yes/no 结论。真实执行时要给明确目标对象,并强制最终状态回执。

行动清单

  • 纳入主模型候选池。
  • 在 Git/GitHub、Hermes 补丁治理、wiki 收口、升级收益判断任务中优先试用。
  • 对真实仓库验证任务继续要求:先查证、再判断、最后给 yes/no 和证据句柄。

完整记录

见本地 wiki summary:/home/ht/llm-wikis/hermes-ops/summaries/xiaomo-model-eval-claude-opus-4-8-cc-2026-06-14.md