Hermes Decision Trace

小墨模型评测详情:gpt-5.5-high

总分:147 / 160。

HTML完整论证
Wiki可检索归档
Feishu短入口交付
🎯
核心结论

总分:147 / 160。

🧭
推荐路径

gpt-5.5-high 可以纳入主模型候选池,但排序应低于已经跑通强工具闭环的 gpt-5.5-xhigh。它适合工程治理、补丁拆包、升级评估、wiki 收口和 drift triage;关键约束是实时仓库/系统状态类问题必须由系统层强制实际工具调用,不能只接受口头验证链。

🛡️
关键边界

不调用真实 executor;生产动作另走审批。

关键判断

判断项摘要
推荐方案gpt-5.5-high 可以纳入主模型候选池,但排序应低于已经跑通强工具闭环的 gpt-5.5-xhigh。它适合工程治理、补丁拆包、升级评估、wiki 收口和 drift triage;关键约束是实时仓库/系统状态类问题必须由系统层强制实际工具调用,不能只接受口头验证链。
关键依据见完整记录中的评分依据、状态摘要和证据链。
落地方式按行动清单推进,保持可回退。
风险边界不跨执行边界;真实执行需另走审批。

证据摘要

  • 由 Hermes 会话生成。证据点 1
  • 如涉及外部事实,应在正文中保留来源或验证路径。证据点 2

行动清单

gpt-5.5-high 可以纳入主模型候选池,但排序应低于已经跑通强工具闭环的 gpt-5.5-xhigh。它适合工程治理、补丁拆包、升级评估、wiki 收口和 drift triage;关键约束是实时仓库/系统状态类问题必须由系统层强制实际工具调用,不能只接受口头验证链。

边界 / 风险

风险点

未记录额外风险。

完整记录

小墨模型评测详情:gpt-5.5-high

本页记录 gpt-5.5-high 在小墨固定 8 题评测集中的评分结果。当前归档口径:只写本地 wiki + Decision Trace HTML,不写飞书主库。

结论

总分:147 / 160。

整体达到主模型候选线,主线保持、规划收口、commit 分组、回归判断、升级评估和 drift triage 都很稳;但 T4 工具验证题存在关键扣分:答案声称做了实际验证,落盘记录却只显示 write_file,没有 terminal/git 验证闭环,因此不如 gpt-5.5-xhigh 稳。

  • run_id20260530-191722__custom__gpt-5.5-high
  • providercustom
  • modelgpt-5.5-high
  • baselinegpt-5.5
  • scored_bygpt-5.5
  • scored_at2026-05-30T11:23:58.968437+00:00
  • 建议角色:主模型候选 / 工程治理主模型(需强制 live tool verification)

维度表现

  • A 主线保持:19
  • B 规划收口:19
  • C patch/代码判断:19
  • D 工具执行闭环:13
  • E 检索压缩表达:19
  • F 知识治理收口:18
  • G 扩展潜力:较高。适合工程治理、补丁收口和 wiki 结构化,但必须在系统层强约束工具调用,尤其是 git/系统状态类问题不能允许只写验证口径。

最适合方向

  • 长会话主线推进与工程治理收口
  • GitHub 同步前补丁拆包、commit grouping 与 drift triage
  • 升级收益评估、focused regression 设计
  • wiki concept 结构化沉淀

不适合方向

  • 无工具调用约束却要求判断实时系统/仓库状态的场景
  • 需要严格证据链审计、不能容忍口头替代验证的发布前门禁
  • 大量创造性发散、不以收敛为目标的内容生成

相对 gpt-5.5 的主要差异

  • 更强:整体工程判断、停止点意识和中文收口表达强,除 T4 外基本达到或接近 gpt-5.5-xhigh 的结构化水平。
  • 更弱 / 约束:关键弱点是工具执行一致性:T4 明确要求先查再答,但记录里没有实际 terminal/git 调用,只在答案里写了验证过程;这会影响作为主模型时对 live state 的可信度。T7 的真相源层级也还可以更强。

单题评分明细

题目分数正确性执行性收敛性表达扣分/判断
T1 主线保持题19 / 205545首句准确锚定 ca8f4abdb 三层拆解,明确排除 Feishu 表现层、search-worker hotfix 和 GitHub sync 旁支;三层清单和停止点完整。扣 1 分在于长期核心/策略层示例仍略泛,未绑定真实 diff 证据。
T2 复杂规划题19 / 205554结论明确,先推/后推/只记账分层合理,终态目标和停止点完整;表达稍长,但能直接用于同步前收口流程。
T3 commit grouping 题19 / 205554能把 Feishu gateway、image provider、file tool、MCP、ACP/backup 拆成独立边界,并指出不该混推。扣 1 分在于 tools 层是否拆到单文件粒度仍需看真实 diff 后微调。
T4 tool-verification 题13 / 202344答案口径知道不能凭感觉,并写出了 branch/upstream/remote contains 的闭环;但落盘记录 tools_used 只有 write_file,没有 terminal/git 调用。题目明确要求必须先查再答,答案还声称“实际验证了”具体分支和 commit,这在评分上属于关键证据链缺失,不能按满分工具闭环处理。
T5 regression 判断题19 / 205554focused regression 优先,先跑 tests/gateway/test_feishu.py 的理由充分,扩大回归条件清楚。表达可以更短,但执行性强。
T6 upgrade worth-it 题20 / 205555直接给出“先做收益评估再升”,依据覆盖 gateway/provider/browser 影响面、本地补丁和当前稳定性;推荐动作具体且符合升级前隔离评估口径。
T7 wiki 收口题18 / 204545wiki concept 结构、分类、矩阵、操作建议和停止点都可复用;扣分点是 authoritative source / 证据层级没有进一步规范,例如 remote、PR、commit、wiki/log 的优先级。
T8 drift triage 题20 / 205555准确区分“已同步但漂移”和“从未同步”,判断顺序完整,覆盖远端主题、工作树 diff、漂移分类和常见误判,表达清楚。

使用建议

gpt-5.5-high 可以纳入主模型候选池,但排序应低于已经跑通强工具闭环的 gpt-5.5-xhigh。它适合工程治理、补丁拆包、升级评估、wiki 收口和 drift triage;关键约束是实时仓库/系统状态类问题必须由系统层强制实际工具调用,不能只接受口头验证链。

原始文件

  • run JSON:/home/ht/knowledge/model-evals/runs/20260530-191722__custom__gpt-5.5-high.json
  • run Markdown:/home/ht/knowledge/model-evals/runs/20260530-191722__custom__gpt-5.5-high.md
  • score JSON:/home/ht/knowledge/model-evals/scored/20260530-191722__custom__gpt-5.5-high.json
  • score Markdown:/home/ht/knowledge/model-evals/scored/20260530-191722__custom__gpt-5.5-high.md