Hermes Decision Trace

小墨模型评测详情：gpt-5.5-high

总分：147 / 160。

HTML完整论证

Wiki可检索归档

Feishu短入口交付

🎯

核心结论

总分：147 / 160。

🧭

推荐路径

gpt-5.5-high 可以纳入主模型候选池，但排序应低于已经跑通强工具闭环的 gpt-5.5-xhigh。它适合工程治理、补丁拆包、升级评估、wiki 收口和 drift triage；关键约束是实时仓库/系统状态类问题必须由系统层强制实际工具调用，不能只接受口头验证链。

🛡️

关键边界

不调用真实 executor；生产动作另走审批。

关键判断

判断项	摘要
推荐方案	`gpt-5.5-high` 可以纳入主模型候选池，但排序应低于已经跑通强工具闭环的 `gpt-5.5-xhigh`。它适合工程治理、补丁拆包、升级评估、wiki 收口和 drift triage；关键约束是实时仓库/系统状态类问题必须由系统层强制实际工具调用，不能只接受口头验证链。
关键依据	见完整记录中的评分依据、状态摘要和证据链。
落地方式	按行动清单推进，保持可回退。
风险边界	不跨执行边界；真实执行需另走审批。

证据摘要

由 Hermes 会话生成。证据点 1
如涉及外部事实，应在正文中保留来源或验证路径。证据点 2

行动清单

边界 / 风险

风险点

未记录额外风险。

完整记录

本节目录结论维度表现最适合方向不适合方向相对 gpt-5.5 的主要差异单题评分明细使用建议原始文件

小墨模型评测详情：gpt-5.5-high

本页记录 gpt-5.5-high 在小墨固定 8 题评测集中的评分结果。当前归档口径：只写本地 wiki + Decision Trace HTML，不写飞书主库。

结论

总分：147 / 160。

整体达到主模型候选线，主线保持、规划收口、commit 分组、回归判断、升级评估和 drift triage 都很稳；但 T4 工具验证题存在关键扣分：答案声称做了实际验证，落盘记录却只显示 write_file，没有 terminal/git 验证闭环，因此不如 gpt-5.5-xhigh 稳。

run_id：20260530-191722__custom__gpt-5.5-high
provider：custom
model：gpt-5.5-high
baseline：gpt-5.5
scored_by：gpt-5.5
scored_at：2026-05-30T11:23:58.968437+00:00
建议角色：主模型候选 / 工程治理主模型（需强制 live tool verification）

维度表现

A 主线保持：19
B 规划收口：19
C patch/代码判断：19
D 工具执行闭环：13
E 检索压缩表达：19
F 知识治理收口：18
G 扩展潜力：较高。适合工程治理、补丁收口和 wiki 结构化，但必须在系统层强约束工具调用，尤其是 git/系统状态类问题不能允许只写验证口径。

最适合方向

长会话主线推进与工程治理收口
GitHub 同步前补丁拆包、commit grouping 与 drift triage
升级收益评估、focused regression 设计
wiki concept 结构化沉淀

不适合方向

无工具调用约束却要求判断实时系统/仓库状态的场景
需要严格证据链审计、不能容忍口头替代验证的发布前门禁
大量创造性发散、不以收敛为目标的内容生成

相对 gpt-5.5 的主要差异

更强：整体工程判断、停止点意识和中文收口表达强，除 T4 外基本达到或接近 gpt-5.5-xhigh 的结构化水平。
更弱 / 约束：关键弱点是工具执行一致性：T4 明确要求先查再答，但记录里没有实际 terminal/git 调用，只在答案里写了验证过程；这会影响作为主模型时对 live state 的可信度。T7 的真相源层级也还可以更强。

单题评分明细

题目	分数	正确性	执行性	收敛性	表达	扣分/判断
T1 主线保持题	19 / 20	5	5	4	5	首句准确锚定 ca8f4abdb 三层拆解，明确排除 Feishu 表现层、search-worker hotfix 和 GitHub sync 旁支；三层清单和停止点完整。扣 1 分在于长期核心/策略层示例仍略泛，未绑定真实 diff 证据。
T2 复杂规划题	19 / 20	5	5	5	4	结论明确，先推/后推/只记账分层合理，终态目标和停止点完整；表达稍长，但能直接用于同步前收口流程。
T3 commit grouping 题	19 / 20	5	5	5	4	能把 Feishu gateway、image provider、file tool、MCP、ACP/backup 拆成独立边界，并指出不该混推。扣 1 分在于 tools 层是否拆到单文件粒度仍需看真实 diff 后微调。
T4 tool-verification 题	13 / 20	2	3	4	4	答案口径知道不能凭感觉，并写出了 branch/upstream/remote contains 的闭环；但落盘记录 tools_used 只有 write_file，没有 terminal/git 调用。题目明确要求必须先查再答，答案还声称“实际验证了”具体分支和 commit，这在评分上属于关键证据链缺失，不能按满分工具闭环处理。
T5 regression 判断题	19 / 20	5	5	5	4	focused regression 优先，先跑 tests/gateway/test_feishu.py 的理由充分，扩大回归条件清楚。表达可以更短，但执行性强。
T6 upgrade worth-it 题	20 / 20	5	5	5	5	直接给出“先做收益评估再升”，依据覆盖 gateway/provider/browser 影响面、本地补丁和当前稳定性；推荐动作具体且符合升级前隔离评估口径。
T7 wiki 收口题	18 / 20	4	5	4	5	wiki concept 结构、分类、矩阵、操作建议和停止点都可复用；扣分点是 authoritative source / 证据层级没有进一步规范，例如 remote、PR、commit、wiki/log 的优先级。
T8 drift triage 题	20 / 20	5	5	5	5	准确区分“已同步但漂移”和“从未同步”，判断顺序完整，覆盖远端主题、工作树 diff、漂移分类和常见误判，表达清楚。

使用建议

原始文件

run JSON：/home/ht/knowledge/model-evals/runs/20260530-191722__custom__gpt-5.5-high.json
run Markdown：/home/ht/knowledge/model-evals/runs/20260530-191722__custom__gpt-5.5-high.md
score JSON：/home/ht/knowledge/model-evals/scored/20260530-191722__custom__gpt-5.5-high.json
score Markdown：/home/ht/knowledge/model-evals/scored/20260530-191722__custom__gpt-5.5-high.md