Hermes Decision Trace
小墨模型评测详情:YT-GPT-5.4(high)
YT-GPT-5.4(high) 已达到小墨主线候选水位,适合承担日常主线、规划收口、文档治理和 Git 同步前判断;涉及 live state 的问题仍建议强制工具闭环。
🧭
推荐路径建议角色:主模型候选 / 文档治理 worker。
🔎
关键依据见证据摘要与完整记录中的状态、产物和校验链。
🛠️
落地方式先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。
证据摘要
- 正文保留完整证据链;本页顶部只展示可读摘要。
行动清单
建议角色:主模型候选 / 文档治理 worker。
适合:主线模型候选、文档治理 worker、Git 同步/升级决策辅助 worker、规划收口 worker。
不适合:无工具约束的 live state 判断、需要逐条命令证据复核的高风险发布/远端状态确认。
边界 / 风险
风险 / 边界
正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。
完整记录
小墨模型评测详情:YT-GPT-5.4(high)
- run_id:
20260602-133638__custom__yt-gpt-5.4-high - model:
YT-GPT-5.4(high) - provider:
custom - baseline:
gpt-5.5 - scored_by:
gpt-5.5 - total: 147 / 160
- verdict: 可做主模型候选
一句话结论
YT-GPT-5.4(high) 已达到小墨主线候选水位,适合承担日常主线、规划收口、文档治理和 Git 同步前判断;涉及 live state 的问题仍建议强制工具闭环。
分数概览
| 题目 | 得分 | 判断 |
|---|---|---|
| T1 主线保持 | 19/20 | 准确排除旁支,三层与停止点完整 |
| T2 复杂规划 | 19/20 | 分层、先后顺序、终态和停止点齐全 |
| T3 commit grouping | 18/20 | 分组合理,工具层边界还可更具体 |
| T4 tool verification | 17/20 | 口径正确,但具体命令/输出证据不够完整 |
| T5 regression 判断 | 19/20 | focused regression 优先,扩大条件明确 |
| T6 upgrade worth-it | 20/20 | 成本收益意识与推荐动作都稳 |
| T7 wiki 收口 | 18/20 | 结构可复用,truth source/owner 可再补 |
| T8 drift triage | 19/20 | 区分准确,判断顺序可复用 |
维度判断
- A 主线保持:19/20。能准确锚定当前任务,不串到旁支,有明确停止点。
- B 规划收口:19/20。先后顺序、分层和停止点都清楚,能直接拿去执行。
- C patch/代码判断:18/20。commit/branch 粒度基本合理,能识别不该混推项;工具层边界可以再更硬一点。
- D 工具执行闭环:17/20。知道不能凭感觉,能区分分支名 push 与 commit 可达性;但缺少具体命令/输出证据,闭环表达略弱。
- E 检索压缩表达:19/20。表达紧凑,结论优先,噪音少。
- F 知识治理收口:18/20。wiki concept 结构复用性强,分类清楚;可再补 truth source / owner / 更新规则。
建议接入
- 建议角色:主模型候选 / 文档治理 worker。
- 适合:主线模型候选、文档治理 worker、Git 同步/升级决策辅助 worker、规划收口 worker。
- 不适合:无工具约束的 live state 判断、需要逐条命令证据复核的高风险发布/远端状态确认。
相对 gpt-5.5
总体接近 gpt-5.5 基线,表达和收口感够强;工具证据完整性略低于理想基线。实际接入时,对 live/tool-verification 类任务继续保留强制工具链即可。
原始落点
- run JSON:
~/knowledge/model-evals/runs/20260602-133638__custom__yt-gpt-5.4-high.json - score JSON:
~/knowledge/model-evals/scored/20260602-133638__custom__yt-gpt-5.4-high.json - score Markdown:
~/knowledge/model-evals/scored/20260602-133638__custom__yt-gpt-5.4-high.md