Hermes Decision Trace

小墨模型评测详情：gpt-5.4-2026-03-05

gpt-5.4-2026-03-05 当前最好分 147/160，最新分 147/160，处于 A｜主模型候选。建议角色：主模型；也可兼任规划 / 治理 / 文档收口 worker。

HTML完整论证

Wiki可检索归档

Feishu短入口交付

🎯

核心结论

gpt-5.4-2026-03-05 当前最好分 147/160，最新分 147/160，处于 A｜主模型候选。建议角色：主模型；也可兼任规划 / 治理 / 文档收口 worker。

🧭

推荐路径

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。

🛡️

关键边界

本页是小墨场景评测，不等同于通用 benchmark。

关键判断

判断项	摘要
推荐方案	主模型；也可兼任规划 / 治理 / 文档收口 worker
关键依据	最新 run：`20260520-175546__custom__gpt-5.4-2026-03-05`
落地方式	如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。
风险边界	本页是小墨场景评测，不等同于通用 benchmark。

证据摘要

最新 run：20260520-175546__custom__gpt-5.4-2026-03-05证据点 1
最新 score JSON：/home/ht/knowledge/model-evals/scored/20260520-175546__custom__gpt-5.4-2026-03-05.json证据点 2
最新 run JSON：/home/ht/knowledge/model-evals/runs/20260520-175546__custom__gpt-5.4-2026-03-05.json证据点 3
横向总览页：<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>证据点 4

行动清单

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。

新 run 完成后，刷新本详情页和横向总览页。

若用于生产路由，应另写模型路由决策页，避免把单次评测分数直接等同于配置变更。

边界 / 风险

风险点

本页是小墨场景评测，不等同于通用 benchmark。

风险点

同名模型可能对应 provider alias 或后端版本漂移，结论需结合 run 时间线看。

风险点

对工具执行闭环要求高的任务，应优先看 T4 / live verification 表现。

完整记录

本节目录结论关键指标推荐使用方式分数轨迹最新 run 逐题表现维度表现与更高分模型对比证据路径下一步风险与边界

小墨模型评测详情：gpt-5.4-2026-03-05

结论

gpt-5.4-2026-03-05 当前最好分 147/160，最新分 147/160，处于 A｜主模型候选。建议角色：主模型；也可兼任规划 / 治理 / 文档收口 worker。

关键指标

模型：gpt-5.4-2026-03-05
Provider：custom
横向排名：#4 / 22
有效 run 数：1
最好分：147 / 160
最新分：147 / 160
平均分：147.0
梯队：A｜主模型候选
建议角色：主模型；也可兼任规划 / 治理 / 文档收口 worker

推荐使用方式

主模型；也可兼任规划 / 治理 / 文档收口 worker

代表判断：整体表现很强，主线保持、规划收口、升级判断、知识治理结构都在线，输出稳定而且收敛。相对 gpt-5.4 基线本身，这轮更像一次合格基线自检：没有明显短板，真正扣分主要在少数题目还可以再压缩半档，以及 T4 虽然真实调用了工具，但因为运行环境不是 git 仓库，最终没有形成带现场事实的完整结论句。

分数轨迹

20260520-175546__custom__gpt-5.4-2026-03-05：147 / 160；scored_by=gpt-5.4；2026-05-20T09:55:46.061947+00:00

最新 run 逐题表现

题目	标题	分数	评语
T1	T1	19	首句锚定准，三层结构完整，判断依据和停止点都齐，主线保持很稳。扣 1 分在于表达还能再压紧一点。
T2	T2	19	先结论、再分层、再顺序与停止点，方案可直接拿去用，收口意识很强。弱点只是略偏完整陈述，压缩度还能更狠。
T3	T3	18	分组合理，明确指出不能混推，也给了 commit/branch 粒度建议。保守拆成四组是稳的，但还能再进一步收紧成更少的 canonical grouping。
T4	T4	17	工具意识强，明确反对口头猜测，而且这轮确实真实调用了 git。扣分点不在思路，而在当前目录不是 git 仓库时，答案没有进一步把现场错误压成最终结论，所以闭环还差半步。
T5	T5	18	focused regression 优先、边界清楚、扩大回归条件明确，是很稳的工程判断。若再更短一点，会更像一线执行口径。
T6	T6	19	结论明确，成本收益意识强，推荐动作也对，完全符合升级评估题应有的收敛方式。
T7	T7	19	wiki concept 结构完整，分类口径、判断矩阵、操作建议都具备，复用性高。若再补一层真相源入口提示，会更扎实。
T8	T8	18	能稳定区分“已同步但漂移”和“从未同步”，判断顺序也对，误判提醒到位，适合做标准 triage 口径。

维度表现

维度	结果
A 主线保持	19
B 规划收口	19
C patch/代码判断	18
D 工具执行闭环	17
E 检索压缩表达	18
F 知识治理收口	19
G 扩展潜力	高。可以继续作为小墨主线基线模型，也适合承担规划、治理、文档收口、升级评估与 drift triage 这类需要稳定判断边界的任务。若要再往上抬，重点是把个别题目的表达再收紧半档，并在 live verification 场景里尽量把方法描述直接压成现场事实结论。

与更高分模型对比

gpt-5.5：最好 156/160，最新 155/160
gpt-5.4：最好 148/160，最新 148/160
YT-claude-4.7：最好 148/160，最新 148/160

证据路径

最新 run：20260520-175546__custom__gpt-5.4-2026-03-05
最新 score JSON：/home/ht/knowledge/model-evals/scored/20260520-175546__custom__gpt-5.4-2026-03-05.json
最新 run JSON：/home/ht/knowledge/model-evals/runs/20260520-175546__custom__gpt-5.4-2026-03-05.json
横向总览页：<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>

下一步

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。
新 run 完成后，刷新本详情页和横向总览页。
若用于生产路由，应另写模型路由决策页，避免把单次评测分数直接等同于配置变更。

风险与边界

本页是小墨场景评测，不等同于通用 benchmark。
同名模型可能对应 provider alias 或后端版本漂移，结论需结合 run 时间线看。
对工具执行闭环要求高的任务，应优先看 T4 / live verification 表现。