Hermes Decision Trace

小墨模型评测详情:gpt-5.5

gpt-5.5 当前最好分 156/160,最新分 155/160,处于 S|主模型强候选。建议角色:主模型候选 / 复杂执行与治理主线。

HTML完整论证
Wiki可检索归档
Feishu短入口交付
🎯
核心结论

gpt-5.5 当前最好分 156/160,最新分 155/160,处于 S|主模型强候选。建议角色:主模型候选 / 复杂执行与治理主线。

🧭
推荐路径

如果该模型继续测试,优先追加新的 scored run,不覆盖旧 run。

🛡️
关键边界

本页是小墨场景评测,不等同于通用 benchmark。

关键判断

判断项摘要
推荐方案主模型候选 / 复杂执行与治理主线
关键依据最新 run:20260525-104100__custom__gpt-5.5
落地方式如果该模型继续测试,优先追加新的 scored run,不覆盖旧 run。
风险边界本页是小墨场景评测,不等同于通用 benchmark。

证据摘要

  • 最新 run:20260525-104100__custom__gpt-5.5证据点 1
  • 最新 score JSON:/home/ht/knowledge/model-evals/scored/20260525-104100__custom__gpt-5.5.json证据点 2
  • 最新 run JSON:/home/ht/knowledge/model-evals/runs/20260525-104100__custom__gpt-5.5.json证据点 3
  • 横向总览页:<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>证据点 4

行动清单

如果该模型继续测试,优先追加新的 scored run,不覆盖旧 run。
新 run 完成后,刷新本详情页和横向总览页。
若用于生产路由,应另写模型路由决策页,避免把单次评测分数直接等同于配置变更。

边界 / 风险

风险点

本页是小墨场景评测,不等同于通用 benchmark。

风险点

同名模型可能对应 provider alias 或后端版本漂移,结论需结合 run 时间线看。

风险点

对工具执行闭环要求高的任务,应优先看 T4 / live verification 表现。

完整记录

小墨模型评测详情:gpt-5.5

结论

gpt-5.5 当前最好分 156/160,最新分 155/160,处于 S|主模型强候选。建议角色:主模型候选 / 复杂执行与治理主线。

关键指标

  • 模型:gpt-5.5
  • Provider:custom
  • 横向排名:#1 / 22
  • 有效 run 数:4
  • 最好分:156 / 160
  • 最新分:155 / 160
  • 平均分:144.5
  • 梯队:S|主模型强候选
  • 建议角色:主模型候选 / 复杂执行与治理主线

推荐使用方式

主模型候选 / 复杂执行与治理主线

代表判断:明显达到主模型候选水平。主线保持、复杂规划、commit 分组、工具验证闭环和 drift 判断都很稳,整体比 gpt-5.4 基线更收敛、更少废话;主要注意点是少数题仍会基于历史上下文做合理外推,严格事实归因场景要继续强制先查证。

分数轨迹

  • 20260520-122842__custom__gpt-5.5:134 / 160;scored_by=gpt-5.5;2026-05-20T04:28:42.969970+00:00
  • 20260520-171535__custom__gpt-5.5:133 / 160;scored_by=gpt-5.4;2026-05-20T09:15:35.132097+00:00
  • 20260521-223037__custom__gpt-5.5:156 / 160;scored_by=gpt-5.5;2026-05-21T14:30:37.234694+00:00
  • 20260525-104100__custom__gpt-5.5:155 / 160;scored_by=gpt-5.4;2026-05-25T02:41:00.927669+00:00

最新 run 逐题表现

题目标题分数评语
T1主线保持题19
T2复杂规划题20
T3commit grouping 题20
T4tool-verification 题20
T5regression 判断题20
T6upgrade worth-it 题20
T7wiki 收口题19
T8drift triage 题18

维度表现

维度结果
A 主线保持19 / 20
B 规划收口20 / 20
C patch/代码判断40 / 40
D 工具执行闭环20 / 20
E 检索压缩表达18 / 20
F 知识治理收口19 / 20
G 扩展潜力扩展潜力高,适合承担主模型或高阶治理 worker;若作为默认主力,仍应保留事实题先查证的硬约束。

与更高分模型对比

  • 当前已在最高梯队。

证据路径

  • 最新 run:20260525-104100__custom__gpt-5.5
  • 最新 score JSON:/home/ht/knowledge/model-evals/scored/20260525-104100__custom__gpt-5.5.json
  • 最新 run JSON:/home/ht/knowledge/model-evals/runs/20260525-104100__custom__gpt-5.5.json
  • 横向总览页:<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>

下一步

  1. 如果该模型继续测试,优先追加新的 scored run,不覆盖旧 run。
  2. 新 run 完成后,刷新本详情页和横向总览页。
  3. 若用于生产路由,应另写模型路由决策页,避免把单次评测分数直接等同于配置变更。

风险与边界

  • 本页是小墨场景评测,不等同于通用 benchmark。
  • 同名模型可能对应 provider alias 或后端版本漂移,结论需结合 run 时间线看。
  • 对工具执行闭环要求高的任务,应优先看 T4 / live verification 表现。