Hermes Decision Trace

小墨模型评测详情：YT-GPT-5.4(high)

YT-GPT-5.4(high) 已达到小墨主线候选水位，适合承担日常主线、规划收口、文档治理和 Git 同步前判断；涉及 live state 的问题仍建议强制工具闭环。

🧭

推荐路径

建议角色：主模型候选 / 文档治理 worker。

🔎

关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️

落地方式

先把已验证方案当成稳定基线：保留当前 schedule / deliver / workdir，不急着继续扩面；新增候选先读源码、看 output、做 run-now 验证，再决定是否转 script-only。

证据摘要

建议角色：主模型候选 / 文档治理 worker。

适合：主线模型候选、文档治理 worker、Git 同步/升级决策辅助 worker、规划收口 worker。

不适合：无工具约束的 live state 判断、需要逐条命令证据复核的高风险发布/远端状态确认。

风险 / 边界

正文未抽取到明确风险；上线前仍需确认权限、回退路径与运行态影响。

YT-GPT-5.4(high) 已达到小墨主线候选水位，适合承担日常主线、规划收口、文档治理和 Git 同步前判断；涉及 live state 的问题仍建议强制工具闭环。

题目	得分	判断
T1 主线保持	19/20	准确排除旁支，三层与停止点完整
T2 复杂规划	19/20	分层、先后顺序、终态和停止点齐全
T3 commit grouping	18/20	分组合理，工具层边界还可更具体
T4 tool verification	17/20	口径正确，但具体命令/输出证据不够完整
T5 regression 判断	19/20	focused regression 优先，扩大条件明确
T6 upgrade worth-it	20/20	成本收益意识与推荐动作都稳
T7 wiki 收口	18/20	结构可复用，truth source/owner 可再补
T8 drift triage	19/20	区分准确，判断顺序可复用

总体接近 gpt-5.5 基线，表达和收口感够强；工具证据完整性略低于理想基线。实际接入时，对 live/tool-verification 类任务继续保留强制工具链即可。

run JSON: ~/knowledge/model-evals/runs/20260602-133638__custom__yt-gpt-5.4-high.json
score JSON: ~/knowledge/model-evals/scored/20260602-133638__custom__yt-gpt-5.4-high.json
score Markdown: ~/knowledge/model-evals/scored/20260602-133638__custom__yt-gpt-5.4-high.md