Hermes Decision Trace

小墨模型评测详情:YT-GPT-5.4(high)

YT-GPT-5.4(high) 已达到小墨主线候选水位,适合承担日常主线、规划收口、文档治理和 Git 同步前判断;涉及 live state 的问题仍建议强制工具闭环。

🧭
推荐路径

建议角色:主模型候选 / 文档治理 worker。

🔎
关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️
落地方式

先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。

证据摘要

  • 正文保留完整证据链;本页顶部只展示可读摘要。

行动清单

建议角色:主模型候选 / 文档治理 worker。
适合:主线模型候选、文档治理 worker、Git 同步/升级决策辅助 worker、规划收口 worker。
不适合:无工具约束的 live state 判断、需要逐条命令证据复核的高风险发布/远端状态确认。

边界 / 风险

风险 / 边界

正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。

完整记录

小墨模型评测详情:YT-GPT-5.4(high)

  • run_id: 20260602-133638__custom__yt-gpt-5.4-high
  • model: YT-GPT-5.4(high)
  • provider: custom
  • baseline: gpt-5.5
  • scored_by: gpt-5.5
  • total: 147 / 160
  • verdict: 可做主模型候选

一句话结论

YT-GPT-5.4(high) 已达到小墨主线候选水位,适合承担日常主线、规划收口、文档治理和 Git 同步前判断;涉及 live state 的问题仍建议强制工具闭环。

分数概览

题目得分判断
T1 主线保持19/20准确排除旁支,三层与停止点完整
T2 复杂规划19/20分层、先后顺序、终态和停止点齐全
T3 commit grouping18/20分组合理,工具层边界还可更具体
T4 tool verification17/20口径正确,但具体命令/输出证据不够完整
T5 regression 判断19/20focused regression 优先,扩大条件明确
T6 upgrade worth-it20/20成本收益意识与推荐动作都稳
T7 wiki 收口18/20结构可复用,truth source/owner 可再补
T8 drift triage19/20区分准确,判断顺序可复用

维度判断

  • A 主线保持:19/20。能准确锚定当前任务,不串到旁支,有明确停止点。
  • B 规划收口:19/20。先后顺序、分层和停止点都清楚,能直接拿去执行。
  • C patch/代码判断:18/20。commit/branch 粒度基本合理,能识别不该混推项;工具层边界可以再更硬一点。
  • D 工具执行闭环:17/20。知道不能凭感觉,能区分分支名 push 与 commit 可达性;但缺少具体命令/输出证据,闭环表达略弱。
  • E 检索压缩表达:19/20。表达紧凑,结论优先,噪音少。
  • F 知识治理收口:18/20。wiki concept 结构复用性强,分类清楚;可再补 truth source / owner / 更新规则。

建议接入

  • 建议角色:主模型候选 / 文档治理 worker。
  • 适合:主线模型候选、文档治理 worker、Git 同步/升级决策辅助 worker、规划收口 worker。
  • 不适合:无工具约束的 live state 判断、需要逐条命令证据复核的高风险发布/远端状态确认。

相对 gpt-5.5

总体接近 gpt-5.5 基线,表达和收口感够强;工具证据完整性略低于理想基线。实际接入时,对 live/tool-verification 类任务继续保留强制工具链即可。

原始落点

  • run JSON: ~/knowledge/model-evals/runs/20260602-133638__custom__yt-gpt-5.4-high.json
  • score JSON: ~/knowledge/model-evals/scored/20260602-133638__custom__yt-gpt-5.4-high.json
  • score Markdown: ~/knowledge/model-evals/scored/20260602-133638__custom__yt-gpt-5.4-high.md