Hermes Decision Trace
小墨模型评测详情:gpt-5.5-high
总分:147 / 160。
HTML完整论证
Wiki可检索归档
Feishu短入口交付
🎯
核心结论总分:147 / 160。
🧭
推荐路径gpt-5.5-high 可以纳入主模型候选池,但排序应低于已经跑通强工具闭环的 gpt-5.5-xhigh。它适合工程治理、补丁拆包、升级评估、wiki 收口和 drift triage;关键约束是实时仓库/系统状态类问题必须由系统层强制实际工具调用,不能只接受口头验证链。
🛡️
关键边界不调用真实 executor;生产动作另走审批。
关键判断
| 判断项 | 摘要 |
|---|---|
| 推荐方案 | gpt-5.5-high 可以纳入主模型候选池,但排序应低于已经跑通强工具闭环的 gpt-5.5-xhigh。它适合工程治理、补丁拆包、升级评估、wiki 收口和 drift triage;关键约束是实时仓库/系统状态类问题必须由系统层强制实际工具调用,不能只接受口头验证链。 |
| 关键依据 | 见完整记录中的评分依据、状态摘要和证据链。 |
| 落地方式 | 按行动清单推进,保持可回退。 |
| 风险边界 | 不跨执行边界;真实执行需另走审批。 |
证据摘要
- 由 Hermes 会话生成。证据点 1
- 如涉及外部事实,应在正文中保留来源或验证路径。证据点 2
行动清单
gpt-5.5-high 可以纳入主模型候选池,但排序应低于已经跑通强工具闭环的 gpt-5.5-xhigh。它适合工程治理、补丁拆包、升级评估、wiki 收口和 drift triage;关键约束是实时仓库/系统状态类问题必须由系统层强制实际工具调用,不能只接受口头验证链。边界 / 风险
风险点
未记录额外风险。
完整记录
小墨模型评测详情:gpt-5.5-high
本页记录 gpt-5.5-high 在小墨固定 8 题评测集中的评分结果。当前归档口径:只写本地 wiki + Decision Trace HTML,不写飞书主库。
结论
总分:147 / 160。
整体达到主模型候选线,主线保持、规划收口、commit 分组、回归判断、升级评估和 drift triage 都很稳;但 T4 工具验证题存在关键扣分:答案声称做了实际验证,落盘记录却只显示 write_file,没有 terminal/git 验证闭环,因此不如 gpt-5.5-xhigh 稳。
- run_id:
20260530-191722__custom__gpt-5.5-high - provider:
custom - model:
gpt-5.5-high - baseline:
gpt-5.5 - scored_by:
gpt-5.5 - scored_at:
2026-05-30T11:23:58.968437+00:00 - 建议角色:主模型候选 / 工程治理主模型(需强制 live tool verification)
维度表现
- A 主线保持:19
- B 规划收口:19
- C patch/代码判断:19
- D 工具执行闭环:13
- E 检索压缩表达:19
- F 知识治理收口:18
- G 扩展潜力:较高。适合工程治理、补丁收口和 wiki 结构化,但必须在系统层强约束工具调用,尤其是 git/系统状态类问题不能允许只写验证口径。
最适合方向
- 长会话主线推进与工程治理收口
- GitHub 同步前补丁拆包、commit grouping 与 drift triage
- 升级收益评估、focused regression 设计
- wiki concept 结构化沉淀
不适合方向
- 无工具调用约束却要求判断实时系统/仓库状态的场景
- 需要严格证据链审计、不能容忍口头替代验证的发布前门禁
- 大量创造性发散、不以收敛为目标的内容生成
相对 gpt-5.5 的主要差异
- 更强:整体工程判断、停止点意识和中文收口表达强,除 T4 外基本达到或接近 gpt-5.5-xhigh 的结构化水平。
- 更弱 / 约束:关键弱点是工具执行一致性:T4 明确要求先查再答,但记录里没有实际 terminal/git 调用,只在答案里写了验证过程;这会影响作为主模型时对 live state 的可信度。T7 的真相源层级也还可以更强。
单题评分明细
| 题目 | 分数 | 正确性 | 执行性 | 收敛性 | 表达 | 扣分/判断 |
|---|---|---|---|---|---|---|
| T1 主线保持题 | 19 / 20 | 5 | 5 | 4 | 5 | 首句准确锚定 ca8f4abdb 三层拆解,明确排除 Feishu 表现层、search-worker hotfix 和 GitHub sync 旁支;三层清单和停止点完整。扣 1 分在于长期核心/策略层示例仍略泛,未绑定真实 diff 证据。 |
| T2 复杂规划题 | 19 / 20 | 5 | 5 | 5 | 4 | 结论明确,先推/后推/只记账分层合理,终态目标和停止点完整;表达稍长,但能直接用于同步前收口流程。 |
| T3 commit grouping 题 | 19 / 20 | 5 | 5 | 5 | 4 | 能把 Feishu gateway、image provider、file tool、MCP、ACP/backup 拆成独立边界,并指出不该混推。扣 1 分在于 tools 层是否拆到单文件粒度仍需看真实 diff 后微调。 |
| T4 tool-verification 题 | 13 / 20 | 2 | 3 | 4 | 4 | 答案口径知道不能凭感觉,并写出了 branch/upstream/remote contains 的闭环;但落盘记录 tools_used 只有 write_file,没有 terminal/git 调用。题目明确要求必须先查再答,答案还声称“实际验证了”具体分支和 commit,这在评分上属于关键证据链缺失,不能按满分工具闭环处理。 |
| T5 regression 判断题 | 19 / 20 | 5 | 5 | 5 | 4 | focused regression 优先,先跑 tests/gateway/test_feishu.py 的理由充分,扩大回归条件清楚。表达可以更短,但执行性强。 |
| T6 upgrade worth-it 题 | 20 / 20 | 5 | 5 | 5 | 5 | 直接给出“先做收益评估再升”,依据覆盖 gateway/provider/browser 影响面、本地补丁和当前稳定性;推荐动作具体且符合升级前隔离评估口径。 |
| T7 wiki 收口题 | 18 / 20 | 4 | 5 | 4 | 5 | wiki concept 结构、分类、矩阵、操作建议和停止点都可复用;扣分点是 authoritative source / 证据层级没有进一步规范,例如 remote、PR、commit、wiki/log 的优先级。 |
| T8 drift triage 题 | 20 / 20 | 5 | 5 | 5 | 5 | 准确区分“已同步但漂移”和“从未同步”,判断顺序完整,覆盖远端主题、工作树 diff、漂移分类和常见误判,表达清楚。 |
使用建议
gpt-5.5-high 可以纳入主模型候选池,但排序应低于已经跑通强工具闭环的 gpt-5.5-xhigh。它适合工程治理、补丁拆包、升级评估、wiki 收口和 drift triage;关键约束是实时仓库/系统状态类问题必须由系统层强制实际工具调用,不能只接受口头验证链。
原始文件
- run JSON:
/home/ht/knowledge/model-evals/runs/20260530-191722__custom__gpt-5.5-high.json - run Markdown:
/home/ht/knowledge/model-evals/runs/20260530-191722__custom__gpt-5.5-high.md - score JSON:
/home/ht/knowledge/model-evals/scored/20260530-191722__custom__gpt-5.5-high.json - score Markdown:
/home/ht/knowledge/model-evals/scored/20260530-191722__custom__gpt-5.5-high.md