Hermes Decision Trace

小墨模型评测详情：gpt-5.5-xhigh

总分：153 / 160。

HTML完整论证

Wiki可检索归档

Feishu短入口交付

🎯

核心结论

总分：153 / 160。

🧭

推荐路径

gpt-5.5-xhigh 可以放在小墨主模型候选池里，优先承担长会话主线推进、工程治理收口、升级收益评估、GitHub 同步前拆包和 drift triage。它的优势不是“更会发散”，而是能把多线索压回一个可执行判断，并保留停止点。

🛡️

关键边界

不调用真实 executor；生产动作另走审批。

关键判断

判断项	摘要
推荐方案	`gpt-5.5-xhigh` 可以放在小墨主模型候选池里，优先承担长会话主线推进、工程治理收口、升级收益评估、GitHub 同步前拆包和 drift triage。它的优势不是“更会发散”，而是能把多线索压回一个可执行判断，并保留停止点。
关键依据	见完整记录中的评分依据、状态摘要和证据链。
落地方式	按行动清单推进，保持可回退。
风险边界	不跨执行边界；真实执行需另走审批。

证据摘要

由 Hermes 会话生成。证据点 1
如涉及外部事实，应在正文中保留来源或验证路径。证据点 2

行动清单

需要注意：涉及真实仓库状态、逐文件事实归因、远端同步状态时，仍必须保持 live tool verification；评分中的小扣分主要来自部分回答仍略泛化，没有完全绑定具体 diff/commit 证据。

边界 / 风险

风险点

未记录额外风险。

完整记录

本节目录结论维度表现最适合方向不适合方向相对 gpt-5.5 的主要差异单题评分明细使用建议原始文件

小墨模型评测详情：gpt-5.5-xhigh

本页记录 gpt-5.5-xhigh 在小墨固定 8 题评测集中的评分结果。当前归档口径：只写本地 wiki + Decision Trace HTML，不写飞书主库。

结论

总分：153 / 160。

主线保持、规划收口、工具验证和漂移判断都很稳，达到主模型候选水平；相对普通 gpt-5.5 主要提升在压缩度和执行边界感，但不是质变差距。

run_id：20260530-183727__custom__gpt-5.5-xhigh
provider：custom
model：gpt-5.5-xhigh
baseline：gpt-5.5
scored_by：gpt-5.5
scored_at：2026-05-30T10:47:48.080507+00:00
建议角色：主模型候选 / 高优先级执行主模型

维度表现

A 主线保持：19
B 规划收口：19
C patch/代码判断：19
D 工具执行闭环：20
E 检索压缩表达：19
F 知识治理收口：18
G 扩展潜力：很高。适合承担小墨主模型或高优先级执行模型；尤其适合把复杂历史线索压成可执行收口。

最适合方向

长会话主线推进与收口
本地补丁治理、GitHub 同步前拆包判断
运维/升级收益评估与验证链设计
wiki concept 沉淀与 drift triage

不适合方向

需要大量创造性发散、不要求收敛的内容生成
无工具权限却要求实时系统状态判断的场景

相对 gpt-5.5 的主要差异

更强：整体接近并略强于既有 gpt-5.5 基线口径，尤其是短句结论、边界收束、停止点意识和工具验证闭环更稳定。
更弱 / 约束：T1/T3/T7 仍有少量泛化表达，部分清单没有完全绑定真实 commit/diff 证据；在需要逐文件事实归因时仍必须配合 live tool 验证。

单题评分明细

题目	分数	正确性	执行性	收敛性	表达	扣分/判断
T1 主线保持题	19 / 20	5	5	4	5	首句锚定当前 ca8f4abdb，不被其他三条线带偏；三层结构完整，停止点明确。扣 1 分在于部分长期核心示例偏泛，未进一步贴合具体 commit 证据。
T2 复杂规划题	19 / 20	5	5	5	4	先结论、先后顺序、终态目标和停止点完整；能把同步前补丁治理拆成先推/后推/只记账。表达略长但仍可扫读。
T3 commit grouping 题	19 / 20	5	5	5	4	分组合理，明确哪些不能混推，能区分 Feishu、image provider、tools/MCP、ACP/backup 的生命周期。扣 1 分在于 tools/file 与 MCP 是否应强行同组还可进一步看 diff 后拆细。
T4 tool-verification 题	20 / 20	5	5	5	5	工具意识非常强，给出本地分支、upstream、远端分支、最近 commit、remote contains 的闭环，并能区分分支未 push 与 commit 已在远端存在。
T5 regression 判断题	19 / 20	5	5	5	4	focused regression 优先，扩大回归条件清楚，避免一上来全仓大回归。表达可再压短，但不影响执行。
T6 upgrade worth-it 题	20 / 20	5	5	5	5	直接给出“先做收益评估再升”，依据覆盖耦合面、本地补丁、当前稳定性，推荐动作可执行且符合本地升级偏好。
T7 wiki 收口题	18 / 20	4	5	4	5	concept 页结构、分类、矩阵和模板都可复用；扣分点是“真相源/证据层级”的治理口径还可以更强，例如明确 remote、PR、wiki/log 哪个为 authoritative source。
T8 drift triage 题	20 / 20	5	5	5	5	准确区分“已同步但漂移”和“从未同步”，判断顺序完整，常见误判覆盖 upstream/main、fork/local remote、untracked 资产等关键坑。

使用建议

原始文件

run JSON：/home/ht/knowledge/model-evals/runs/20260530-183727__custom__gpt-5.5-xhigh.json
run Markdown：/home/ht/knowledge/model-evals/runs/20260530-183727__custom__gpt-5.5-xhigh.md
score JSON：/home/ht/knowledge/model-evals/scored/20260530-183727__custom__gpt-5.5-xhigh.json
score Markdown：/home/ht/knowledge/model-evals/scored/20260530-183727__custom__gpt-5.5-xhigh.md