Hermes Decision Trace
小墨模型评测详情:gpt-5.5-xhigh
总分:153 / 160。
HTML完整论证
Wiki可检索归档
Feishu短入口交付
🎯
核心结论总分:153 / 160。
🧭
推荐路径gpt-5.5-xhigh 可以放在小墨主模型候选池里,优先承担长会话主线推进、工程治理收口、升级收益评估、GitHub 同步前拆包和 drift triage。它的优势不是“更会发散”,而是能把多线索压回一个可执行判断,并保留停止点。
🛡️
关键边界不调用真实 executor;生产动作另走审批。
关键判断
| 判断项 | 摘要 |
|---|---|
| 推荐方案 | gpt-5.5-xhigh 可以放在小墨主模型候选池里,优先承担长会话主线推进、工程治理收口、升级收益评估、GitHub 同步前拆包和 drift triage。它的优势不是“更会发散”,而是能把多线索压回一个可执行判断,并保留停止点。 |
| 关键依据 | 见完整记录中的评分依据、状态摘要和证据链。 |
| 落地方式 | 按行动清单推进,保持可回退。 |
| 风险边界 | 不跨执行边界;真实执行需另走审批。 |
证据摘要
- 由 Hermes 会话生成。证据点 1
- 如涉及外部事实,应在正文中保留来源或验证路径。证据点 2
行动清单
gpt-5.5-xhigh 可以放在小墨主模型候选池里,优先承担长会话主线推进、工程治理收口、升级收益评估、GitHub 同步前拆包和 drift triage。它的优势不是“更会发散”,而是能把多线索压回一个可执行判断,并保留停止点。需要注意:涉及真实仓库状态、逐文件事实归因、远端同步状态时,仍必须保持 live tool verification;评分中的小扣分主要来自部分回答仍略泛化,没有完全绑定具体 diff/commit 证据。
边界 / 风险
风险点
未记录额外风险。
完整记录
小墨模型评测详情:gpt-5.5-xhigh
本页记录 gpt-5.5-xhigh 在小墨固定 8 题评测集中的评分结果。当前归档口径:只写本地 wiki + Decision Trace HTML,不写飞书主库。
结论
总分:153 / 160。
主线保持、规划收口、工具验证和漂移判断都很稳,达到主模型候选水平;相对普通 gpt-5.5 主要提升在压缩度和执行边界感,但不是质变差距。
- run_id:
20260530-183727__custom__gpt-5.5-xhigh - provider:
custom - model:
gpt-5.5-xhigh - baseline:
gpt-5.5 - scored_by:
gpt-5.5 - scored_at:
2026-05-30T10:47:48.080507+00:00 - 建议角色:主模型候选 / 高优先级执行主模型
维度表现
- A 主线保持:19
- B 规划收口:19
- C patch/代码判断:19
- D 工具执行闭环:20
- E 检索压缩表达:19
- F 知识治理收口:18
- G 扩展潜力:很高。适合承担小墨主模型或高优先级执行模型;尤其适合把复杂历史线索压成可执行收口。
最适合方向
- 长会话主线推进与收口
- 本地补丁治理、GitHub 同步前拆包判断
- 运维/升级收益评估与验证链设计
- wiki concept 沉淀与 drift triage
不适合方向
- 需要大量创造性发散、不要求收敛的内容生成
- 无工具权限却要求实时系统状态判断的场景
相对 gpt-5.5 的主要差异
- 更强:整体接近并略强于既有 gpt-5.5 基线口径,尤其是短句结论、边界收束、停止点意识和工具验证闭环更稳定。
- 更弱 / 约束:T1/T3/T7 仍有少量泛化表达,部分清单没有完全绑定真实 commit/diff 证据;在需要逐文件事实归因时仍必须配合 live tool 验证。
单题评分明细
| 题目 | 分数 | 正确性 | 执行性 | 收敛性 | 表达 | 扣分/判断 |
|---|---|---|---|---|---|---|
| T1 主线保持题 | 19 / 20 | 5 | 5 | 4 | 5 | 首句锚定当前 ca8f4abdb,不被其他三条线带偏;三层结构完整,停止点明确。扣 1 分在于部分长期核心示例偏泛,未进一步贴合具体 commit 证据。 |
| T2 复杂规划题 | 19 / 20 | 5 | 5 | 5 | 4 | 先结论、先后顺序、终态目标和停止点完整;能把同步前补丁治理拆成先推/后推/只记账。表达略长但仍可扫读。 |
| T3 commit grouping 题 | 19 / 20 | 5 | 5 | 5 | 4 | 分组合理,明确哪些不能混推,能区分 Feishu、image provider、tools/MCP、ACP/backup 的生命周期。扣 1 分在于 tools/file 与 MCP 是否应强行同组还可进一步看 diff 后拆细。 |
| T4 tool-verification 题 | 20 / 20 | 5 | 5 | 5 | 5 | 工具意识非常强,给出本地分支、upstream、远端分支、最近 commit、remote contains 的闭环,并能区分分支未 push 与 commit 已在远端存在。 |
| T5 regression 判断题 | 19 / 20 | 5 | 5 | 5 | 4 | focused regression 优先,扩大回归条件清楚,避免一上来全仓大回归。表达可再压短,但不影响执行。 |
| T6 upgrade worth-it 题 | 20 / 20 | 5 | 5 | 5 | 5 | 直接给出“先做收益评估再升”,依据覆盖耦合面、本地补丁、当前稳定性,推荐动作可执行且符合本地升级偏好。 |
| T7 wiki 收口题 | 18 / 20 | 4 | 5 | 4 | 5 | concept 页结构、分类、矩阵和模板都可复用;扣分点是“真相源/证据层级”的治理口径还可以更强,例如明确 remote、PR、wiki/log 哪个为 authoritative source。 |
| T8 drift triage 题 | 20 / 20 | 5 | 5 | 5 | 5 | 准确区分“已同步但漂移”和“从未同步”,判断顺序完整,常见误判覆盖 upstream/main、fork/local remote、untracked 资产等关键坑。 |
使用建议
gpt-5.5-xhigh 可以放在小墨主模型候选池里,优先承担长会话主线推进、工程治理收口、升级收益评估、GitHub 同步前拆包和 drift triage。它的优势不是“更会发散”,而是能把多线索压回一个可执行判断,并保留停止点。
需要注意:涉及真实仓库状态、逐文件事实归因、远端同步状态时,仍必须保持 live tool verification;评分中的小扣分主要来自部分回答仍略泛化,没有完全绑定具体 diff/commit 证据。
原始文件
- run JSON:
/home/ht/knowledge/model-evals/runs/20260530-183727__custom__gpt-5.5-xhigh.json - run Markdown:
/home/ht/knowledge/model-evals/runs/20260530-183727__custom__gpt-5.5-xhigh.md - score JSON:
/home/ht/knowledge/model-evals/scored/20260530-183727__custom__gpt-5.5-xhigh.json - score Markdown:
/home/ht/knowledge/model-evals/scored/20260530-183727__custom__gpt-5.5-xhigh.md