Hermes Decision Trace

小墨模型评测详情：claude-opus-4-8-cc

claude-opus-4-8-cc 本轮评测 148 / 160，是强主模型候选。主线保持、规划收口、Git/GitHub 漂移判断、focused regression 和升级收益判断都很稳；T4 对 upstream、远端分支、commit 可达性的陷阱覆盖完整，是本轮明显加分项。

🧭

推荐路径

建议纳入 主模型候选池，并可作为 code worker / 文档治理 worker 高优先级使用。上线使用时给它明确真实仓库路径/目标对象，并要求最终 yes/no 回执，可补齐它偏谨慎的短板。

🔎

关键依据

run_id：20260614-002021__custom__claude-opus-4-8-cc

🛠️

落地方式

纳入主模型候选池；在 Git/GitHub、Hermes 补丁治理、wiki 收口、升级收益判断任务中优先试用。真实仓库验证任务继续要求先查证、再判断、最后给 yes/no 和证据句柄。

证据摘要

run_id：20260614-002021__custom__claude-opus-4-8-cc
provider/model：custom / claude-opus-4-8-cc
baseline：gpt-5.5
scored_by_model：gpt-5.5
score_total：148 / 160
本地 run：[已移除本地路径]
本地评分：[已移除本地路径]

行动清单

按需继续推进。

边界 / 风险

风险 / 边界

主要短板是少数题在缺少真实 diff / 真实仓库路径时偏模板化；T4 给了验证方法与演示闭环，但没有输出具体仓库的最终 yes/no 结论。真实执行时要给明确目标对象，并强制最终状态回执。

完整记录