Hermes Decision Trace

小墨模型评测详情:gpt-5.5-xhigh

总分:153 / 160。

HTML完整论证
Wiki可检索归档
Feishu短入口交付
🎯
核心结论

总分:153 / 160。

🧭
推荐路径

gpt-5.5-xhigh 可以放在小墨主模型候选池里,优先承担长会话主线推进、工程治理收口、升级收益评估、GitHub 同步前拆包和 drift triage。它的优势不是“更会发散”,而是能把多线索压回一个可执行判断,并保留停止点。

🛡️
关键边界

不调用真实 executor;生产动作另走审批。

关键判断

判断项摘要
推荐方案gpt-5.5-xhigh 可以放在小墨主模型候选池里,优先承担长会话主线推进、工程治理收口、升级收益评估、GitHub 同步前拆包和 drift triage。它的优势不是“更会发散”,而是能把多线索压回一个可执行判断,并保留停止点。
关键依据见完整记录中的评分依据、状态摘要和证据链。
落地方式按行动清单推进,保持可回退。
风险边界不跨执行边界;真实执行需另走审批。

证据摘要

  • 由 Hermes 会话生成。证据点 1
  • 如涉及外部事实,应在正文中保留来源或验证路径。证据点 2

行动清单

gpt-5.5-xhigh 可以放在小墨主模型候选池里,优先承担长会话主线推进、工程治理收口、升级收益评估、GitHub 同步前拆包和 drift triage。它的优势不是“更会发散”,而是能把多线索压回一个可执行判断,并保留停止点。
需要注意:涉及真实仓库状态、逐文件事实归因、远端同步状态时,仍必须保持 live tool verification;评分中的小扣分主要来自部分回答仍略泛化,没有完全绑定具体 diff/commit 证据。

边界 / 风险

风险点

未记录额外风险。

完整记录

小墨模型评测详情:gpt-5.5-xhigh

本页记录 gpt-5.5-xhigh 在小墨固定 8 题评测集中的评分结果。当前归档口径:只写本地 wiki + Decision Trace HTML,不写飞书主库。

结论

总分:153 / 160。

主线保持、规划收口、工具验证和漂移判断都很稳,达到主模型候选水平;相对普通 gpt-5.5 主要提升在压缩度和执行边界感,但不是质变差距。

  • run_id20260530-183727__custom__gpt-5.5-xhigh
  • providercustom
  • modelgpt-5.5-xhigh
  • baselinegpt-5.5
  • scored_bygpt-5.5
  • scored_at2026-05-30T10:47:48.080507+00:00
  • 建议角色:主模型候选 / 高优先级执行主模型

维度表现

  • A 主线保持:19
  • B 规划收口:19
  • C patch/代码判断:19
  • D 工具执行闭环:20
  • E 检索压缩表达:19
  • F 知识治理收口:18
  • G 扩展潜力:很高。适合承担小墨主模型或高优先级执行模型;尤其适合把复杂历史线索压成可执行收口。

最适合方向

  • 长会话主线推进与收口
  • 本地补丁治理、GitHub 同步前拆包判断
  • 运维/升级收益评估与验证链设计
  • wiki concept 沉淀与 drift triage

不适合方向

  • 需要大量创造性发散、不要求收敛的内容生成
  • 无工具权限却要求实时系统状态判断的场景

相对 gpt-5.5 的主要差异

  • 更强:整体接近并略强于既有 gpt-5.5 基线口径,尤其是短句结论、边界收束、停止点意识和工具验证闭环更稳定。
  • 更弱 / 约束:T1/T3/T7 仍有少量泛化表达,部分清单没有完全绑定真实 commit/diff 证据;在需要逐文件事实归因时仍必须配合 live tool 验证。

单题评分明细

题目分数正确性执行性收敛性表达扣分/判断
T1 主线保持题19 / 205545首句锚定当前 ca8f4abdb,不被其他三条线带偏;三层结构完整,停止点明确。扣 1 分在于部分长期核心示例偏泛,未进一步贴合具体 commit 证据。
T2 复杂规划题19 / 205554先结论、先后顺序、终态目标和停止点完整;能把同步前补丁治理拆成先推/后推/只记账。表达略长但仍可扫读。
T3 commit grouping 题19 / 205554分组合理,明确哪些不能混推,能区分 Feishu、image provider、tools/MCP、ACP/backup 的生命周期。扣 1 分在于 tools/file 与 MCP 是否应强行同组还可进一步看 diff 后拆细。
T4 tool-verification 题20 / 205555工具意识非常强,给出本地分支、upstream、远端分支、最近 commit、remote contains 的闭环,并能区分分支未 push 与 commit 已在远端存在。
T5 regression 判断题19 / 205554focused regression 优先,扩大回归条件清楚,避免一上来全仓大回归。表达可再压短,但不影响执行。
T6 upgrade worth-it 题20 / 205555直接给出“先做收益评估再升”,依据覆盖耦合面、本地补丁、当前稳定性,推荐动作可执行且符合本地升级偏好。
T7 wiki 收口题18 / 204545concept 页结构、分类、矩阵和模板都可复用;扣分点是“真相源/证据层级”的治理口径还可以更强,例如明确 remote、PR、wiki/log 哪个为 authoritative source。
T8 drift triage 题20 / 205555准确区分“已同步但漂移”和“从未同步”,判断顺序完整,常见误判覆盖 upstream/main、fork/local remote、untracked 资产等关键坑。

使用建议

gpt-5.5-xhigh 可以放在小墨主模型候选池里,优先承担长会话主线推进、工程治理收口、升级收益评估、GitHub 同步前拆包和 drift triage。它的优势不是“更会发散”,而是能把多线索压回一个可执行判断,并保留停止点。

需要注意:涉及真实仓库状态、逐文件事实归因、远端同步状态时,仍必须保持 live tool verification;评分中的小扣分主要来自部分回答仍略泛化,没有完全绑定具体 diff/commit 证据。

原始文件

  • run JSON:/home/ht/knowledge/model-evals/runs/20260530-183727__custom__gpt-5.5-xhigh.json
  • run Markdown:/home/ht/knowledge/model-evals/runs/20260530-183727__custom__gpt-5.5-xhigh.md
  • score JSON:/home/ht/knowledge/model-evals/scored/20260530-183727__custom__gpt-5.5-xhigh.json
  • score Markdown:/home/ht/knowledge/model-evals/scored/20260530-183727__custom__gpt-5.5-xhigh.md