Hermes Decision Trace

小墨模型评测横向归档(截至 2026-05-29)

截至 2026-05-29,本地有效 scored run 共 26 个,覆盖 22 个模型名。横向看,当前最值得进入主模型候选池的是 gpt-5.5gpt-5.4 / gpt-5.4-2026-03-05YT-claude-4.7;更适合作为强 worker 或限定 worker 的包括 Claude Sonnet/Opus、Qwen、Mimo、DeepSeek、SkyClaw 等;Gemini Flash/Pro Preview、Kimi/GLM 当前更适合轻量整理或文档辅助,不建议直接承担小墨主线。

HTML完整论证
Wiki可检索归档
Feishu短入口交付
🎯
核心结论

截至 2026-05-29,本地有效 scored run 共 26 个,覆盖 22 个模型名。横向看,当前最值得进入主模型候选池的是 gpt-5.5gpt-5.4 / gpt-5.4-2026-03-05YT-claude-4.7;更适合作为强 worker 或限定 worker 的包括 Claude Sonnet/Opus、Qwen、Mimo、DeepSeek、SkyClaw 等;Gemini Flash/Pro Preview、Kimi/GLM 当前更适合轻量整理或文档辅助,不建议直接承担小墨主线。

🧭
推荐路径

把本页作为 Decision Trace 横向归档入口;后续新模型打分后,重新生成同类横向页或追加新版本。

🛡️
关键边界

该评测是小墨场景 benchmark,不等价于通用学术 benchmark。

关键判断

判断项摘要
推荐方案GLM-5.1:最好 119/160,最新 119/160;文档治理 worker / 轻量规划总结 worker;不建议作为小墨主模型。
关键依据数据源:~/knowledge/model-evals/scored/*.json
落地方式把本页作为 Decision Trace 横向归档入口;后续新模型打分后,重新生成同类横向页或追加新版本。
风险边界该评测是小墨场景 benchmark,不等价于通用学术 benchmark。

证据摘要

  • 数据源:~/knowledge/model-evals/scored/*.json证据点 1
  • 排除项:test-modeltrash/ 下被用户判定无效或移出的 run。证据点 2
  • Wiki 辅助源:~/llm-wikis/hermes-ops/summaries/xiaomo-model-eval-*.mdhermes-ops/log.md证据点 3
  • 生成时间:2026-05-29 10:31:56证据点 4

行动清单

把本页作为 Decision Trace 横向归档入口;后续新模型打分后,重新生成同类横向页或追加新版本。
如果要把模型路由真正落到生产配置,应另开一页“模型路由策略决策”,不要把评测结果页直接当配置变更依据。
对 S/A 梯队再做一次真实工具链压测,尤其是 live verification、长任务收口和低噪音表达。

边界 / 风险

风险点

该评测是小墨场景 benchmark,不等价于通用学术 benchmark。

风险点

部分模型名来自 provider alias,可能对应不同后端版本;同名多 run 只代表当时链路状态。

风险点

评分基线以 gpt-5.4 为主,早期个别结果可能存在口径演进,需要看趋势而不是孤立分数。

完整记录

小墨模型评测横向归档(截至 2026-05-29)

结论

截至 2026-05-29,本地有效 scored run 共 26 个,覆盖 22 个模型名。横向看,当前最值得进入主模型候选池的是 gpt-5.5gpt-5.4 / gpt-5.4-2026-03-05YT-claude-4.7;更适合作为强 worker 或限定 worker 的包括 Claude Sonnet/Opus、Qwen、Mimo、DeepSeek、SkyClaw 等;Gemini Flash/Pro Preview、Kimi/GLM 当前更适合轻量整理或文档辅助,不建议直接承担小墨主线。

推荐分层

S|主模型强候选

  • gpt-5.5:最好 156/160,最新 155/160;主模型候选 / 复杂执行与治理主线。

A|主模型候选

  • gpt-5.4:最好 148/160,最新 148/160;主模型。
  • YT-claude-4.7:最好 148/160,最新 148/160;主模型。
  • gpt-5.4-2026-03-05:最好 147/160,最新 147/160;主模型;也可兼任规划 / 治理 / 文档收口 worker。

B|主线辅助 / 强 worker

  • gpt-5.4-mini:最好 134/160,最新 134/160;文档治理 / 收口 worker,或 research / planning worker;可承担主模型附近辅助任务,但不建议直接作为小墨主线第一主模型。
  • gpt-5.3-codex:最好 134/160,最新 134/160;code worker / research worker,不建议直接承担小墨主模型。
  • claude-sonnet-4-6:最好 134/160,最新 134/160;主模型 / 文档 worker / research worker;涉及高风险代码分组时需更强证据约束。
  • YT-claude-4.6:最好 134/160,最新 134/160;文档治理 worker、research/planning worker,也可承担主线附近的规划/收口任务;暂不建议直接作为小墨唯一主模型。
  • claude-opus-4-8:最好 133/160,最新 133/160;文档治理 worker / 规划收口 worker / 工程判断 worker;可作为主模型候选观察,但暂不建议独立承担高风险 live verification 主线。
  • ali-qwen-3.6:最好 132/160,最新 132/160;文档治理 worker / planning worker / research-support worker;可在强约束下辅助主线,但不建议单独做小墨主模型。
  • qwen3.7-max:最好 131/160,最新 131/160;文档治理 worker / 轻量规划 worker;不建议直接承担小墨主线执行。

C|限定 worker

  • mimo-v2.5-pro:最好 129/160,最新 129/160;文档治理 worker / 轻量规划 worker;不建议作为小墨主模型直接放权。
  • claude-opus-4-7-thinking:最好 129/160,最新 129/160;主模型候选 / research worker / 复杂文档治理与执行分析 worker;在需要极强主线约束和超高压缩度的默认主模型场景下,建议先并行观察后再决定是否顶到第一顺位。
  • claude-opus-4-7:最好 129/160,最新 129/160;文档治理 worker、research/planning worker,或主线附近的规划/收口执行位;暂不建议直接作为小墨唯一主模型。
  • skyclaw-v1:最好 126/160,最新 126/160;文档治理 worker / 规划辅助 worker / 限定场景 research worker;暂不建议主模型。
  • deepseek-v4-flash:最好 126/160,最新 126/160;建议接入为 research worker / 文档治理 worker;不建议单独承担主模型。
  • deepseek-v4-pro:最好 125/160,最新 125/160;文档 worker / research worker;主模型可用但不建议单独承担高风险长链执行。

D|轻量 / 不建议主线

  • GLM-5.1:最好 119/160,最新 119/160;文档治理 worker / 轻量规划总结 worker;不建议作为小墨主模型。
  • ali-kimi-k2.5:最好 118/160,最新 118/160;research worker / 文档治理 worker。
  • kimi-k2.6:最好 114/160,最新 114/160;文档治理 worker / 轻量整理 worker;不建议承担主线执行或高风险判定。
  • gemini-3.5-flash:最好 114/160,最新 114/160;文档治理 worker / research-support worker / 轻量方案草稿 worker;不建议作为小墨主模型,也不建议独立承担高风险执行链。
  • gemini-3.1-pro-preview:最好 106/160,最新 106/160;文档治理 worker / 轻量规划草稿 worker / 知识整理 worker;不建议作为小墨主模型,也不建议独立承担需要真实验证的执行链。

排名总表

#模型最好分最新分runs均分梯队建议角色
1gpt-5.51561554144.5S|主模型强候选主模型候选 / 复杂执行与治理主线
2gpt-5.41481482148.0A|主模型候选主模型
3YT-claude-4.71481481148.0A|主模型候选主模型
4gpt-5.4-2026-03-051471471147.0A|主模型候选主模型;也可兼任规划 / 治理 / 文档收口 worker
5gpt-5.4-mini1341341134.0B|主线辅助/强 worker文档治理 / 收口 worker,或 research / planning worker;可承担主模型附近辅助任务,但不建议直接作为小墨主线第一主模型
6gpt-5.3-codex1341341134.0B|主线辅助/强 workercode worker / research worker,不建议直接承担小墨主模型
7claude-sonnet-4-61341341134.0B|主线辅助/强 worker主模型 / 文档 worker / research worker;涉及高风险代码分组时需更强证据约束
8YT-claude-4.61341341134.0B|主线辅助/强 worker文档治理 worker、research/planning worker,也可承担主线附近的规划/收口任务;暂不建议直接作为小墨唯一主模型
9claude-opus-4-81331331133.0B|主线辅助/强 worker文档治理 worker / 规划收口 worker / 工程判断 worker;可作为主模型候选观察,但暂不建议独立承担高风险 live verification 主线
10ali-qwen-3.61321321132.0B|主线辅助/强 worker文档治理 worker / planning worker / research-support worker;可在强约束下辅助主线,但不建议单独做小墨主模型
11qwen3.7-max1311311131.0B|主线辅助/强 worker文档治理 worker / 轻量规划 worker;不建议直接承担小墨主线执行
12mimo-v2.5-pro1291291129.0C|限定 worker文档治理 worker / 轻量规划 worker;不建议作为小墨主模型直接放权
13claude-opus-4-7-thinking1291291129.0C|限定 worker主模型候选 / research worker / 复杂文档治理与执行分析 worker;在需要极强主线约束和超高压缩度的默认主模型场景下,建议先并行观察后再决定是否顶到第一顺位
14claude-opus-4-71291291129.0C|限定 worker文档治理 worker、research/planning worker,或主线附近的规划/收口执行位;暂不建议直接作为小墨唯一主模型
15skyclaw-v11261261126.0C|限定 worker文档治理 worker / 规划辅助 worker / 限定场景 research worker;暂不建议主模型
16deepseek-v4-flash1261261126.0C|限定 worker建议接入为 research worker / 文档治理 worker;不建议单独承担主模型
17deepseek-v4-pro1251251125.0C|限定 worker文档 worker / research worker;主模型可用但不建议单独承担高风险长链执行
18GLM-5.11191191119.0D|轻量/不建议主线文档治理 worker / 轻量规划总结 worker;不建议作为小墨主模型
19ali-kimi-k2.51181181118.0D|轻量/不建议主线research worker / 文档治理 worker
20kimi-k2.61141141114.0D|轻量/不建议主线文档治理 worker / 轻量整理 worker;不建议承担主线执行或高风险判定
21gemini-3.5-flash1141141114.0D|轻量/不建议主线文档治理 worker / research-support worker / 轻量方案草稿 worker;不建议作为小墨主模型,也不建议独立承担高风险执行链
22gemini-3.1-pro-preview1061061106.0D|轻量/不建议主线文档治理 worker / 轻量规划草稿 worker / 知识整理 worker;不建议作为小墨主模型,也不建议独立承担需要真实验证的执行链

关键判断

判断项结论
主模型优先级先看 gpt-5.5 最新高分 run,再看 gpt-5.4 基线与 YT-claude-4.7 的稳定性。
Worker 池Claude Sonnet/Opus、gpt-5.3-codex、Qwen、Mimo、DeepSeek Pro/Flash、SkyClaw 均有分工价值。
不宜直接主线Gemini 3.1/3.5、Kimi K2.6、GLM-5.1 分数与工具闭环不足,不适合单独接主线。
多 run 口径同模型多 run 不取简单平均作主结论;优先看最新 run 与最好 run,保留轨迹解释稳定性。

弱项聚合

按已能解析的 task total 聚合,平均分较低的题型更值得作为后续评测重点:

  • T4:平均 15.1/20
  • T1:平均 16.0/20
  • T3:平均 16.0/20
  • T7:平均 17.0/20
  • T2:平均 17.1/20
  • T8:平均 17.1/20
  • T5:平均 17.5/20
  • T6:平均 17.6/20

各模型详情

gpt-5.5

  • provider:custom
  • runs:4;分数轨迹:20260520-122842__custom__gpt-5.5=134;20260520-171535__custom__gpt-5.5=133;20260521-223037__custom__gpt-5.5=156;20260525-104100__custom__gpt-5.5=155
  • 最好分:156 / 160;最新分:155 / 160;均分:144.5
  • 梯队:S|主模型强候选
  • 建议角色:主模型候选 / 复杂执行与治理主线
  • 代表结论:明显达到主模型候选水平。主线保持、复杂规划、commit 分组、工具验证闭环和 drift 判断都很稳,整体比 gpt-5.4 基线更收敛、更少废话;主要注意点是少数题仍会基于历史上下文做合理外推,严格事实归因场景要继续强制先查证。

gpt-5.4

  • provider:custom
  • runs:2;分数轨迹:20260520-093327__custom__gpt-5.4=148;20260521-220230__custom__gpt-5.4=148
  • 最好分:148 / 160;最新分:148 / 160;均分:148.0
  • 梯队:A|主模型候选
  • 建议角色:主模型
  • 代表结论:达到主模型候选水平,强项在主线保持、收口判断和知识治理;短板主要是个别题目工具执行停留在计划表达,没有实际查证。

YT-claude-4.7

  • provider:custom
  • runs:1;分数轨迹:20260520-125942__custom__yt-claude-4.7=148
  • 最好分:148 / 160;最新分:148 / 160;均分:148.0
  • 梯队:A|主模型候选
  • 建议角色:主模型
  • 代表结论:可做主模型候选

gpt-5.4-2026-03-05

  • provider:custom
  • runs:1;分数轨迹:20260520-175546__custom__gpt-5.4-2026-03-05=147
  • 最好分:147 / 160;最新分:147 / 160;均分:147.0
  • 梯队:A|主模型候选
  • 建议角色:主模型;也可兼任规划 / 治理 / 文档收口 worker
  • 代表结论:整体表现很强,主线保持、规划收口、升级判断、知识治理结构都在线,输出稳定而且收敛。相对 gpt-5.4 基线本身,这轮更像一次合格基线自检:没有明显短板,真正扣分主要在少数题目还可以再压缩半档,以及 T4 虽然真实调用了工具,但因为运行环境不是 git 仓库,最终没有形成带现场事实的完整结论句。

gpt-5.4-mini

  • provider:custom
  • runs:1;分数轨迹:20260520-174502__custom__gpt-5.4-mini=134
  • 最好分:134 / 160;最新分:134 / 160;均分:134.0
  • 梯队:B|主线辅助/强 worker
  • 建议角色:文档治理 / 收口 worker,或 research / planning worker;可承担主模型附近辅助任务,但不建议直接作为小墨主线第一主模型
  • 代表结论:整体可用,偏稳,适合承担规划、治理、文档收口一类任务;主线保持、分层、停止点意识都在线。相对 gpt-5.4 基线,主要短板是个别题目更像给出正确答题模板,而不是更锋利地压缩到最终执行判断,尤其工具验证题闭环感偏弱半档。

gpt-5.3-codex

  • provider:custom
  • runs:1;分数轨迹:20260521-135911__custom__gpt-5.3-codex=134
  • 最好分:134 / 160;最新分:134 / 160;均分:134.0
  • 梯队:B|主线辅助/强 worker
  • 建议角色:code worker / research worker,不建议直接承担小墨主模型
  • 代表结论:整体可用,工具意识和收口能力在线,适合承担边界清楚的执行型子任务;但主线稳定性与分组判断精细度还没达到 gpt-5.4 的主模型基线。

claude-sonnet-4-6

  • provider:anthropic
  • runs:1;分数轨迹:20260521-133913__anthropic__claude-sonnet-4-6=134
  • 最好分:134 / 160;最新分:134 / 160;均分:134.0
  • 梯队:B|主线辅助/强 worker
  • 建议角色:主模型 / 文档 worker / research worker;涉及高风险代码分组时需更强证据约束
  • 代表结论:适合承担流程型判断、focused regression、文档/治理收口;可做主模型候选,但在强上下文锚定和代码资产分组上还有偏泛化问题。

YT-claude-4.6

  • provider:custom
  • runs:1;分数轨迹:20260520-173042__custom__yt-claude-4.6=134
  • 最好分:134 / 160;最新分:134 / 160;均分:134.0
  • 梯队:B|主线辅助/强 worker
  • 建议角色:文档治理 worker、research/planning worker,也可承担主线附近的规划/收口任务;暂不建议直接作为小墨唯一主模型
  • 代表结论:整体强可用,适合承担规划、治理、收口、wiki/concept 结构化整理这类主线附近任务;主线保持稳,停止点意识和风险判断都在线。相对 gpt-5.4 基线,短板主要不是判断错,而是少数题目略偏模板化保守,锋利度和现场裁剪感还差半档。

claude-opus-4-8

  • provider:custom
  • runs:1;分数轨迹:20260529-094958__custom__claude-opus-4-8=133
  • 最好分:133 / 160;最新分:133 / 160;均分:133.0
  • 梯队:B|主线辅助/强 worker
  • 建议角色:文档治理 worker / 规划收口 worker / 工程判断 worker;可作为主模型候选观察,但暂不建议独立承担高风险 live verification 主线
  • 代表结论:整体可用,结构感、中文表达、工程判断和知识治理口径都比较稳,能承担小墨体系里的高质量规划、文档治理和大部分工程判断类 worker 任务。但 T4 的 live verification 没有形成完整闭环:它确实体现了先查再答意识,也记录了本地 git 检查,但在未完成远端联网核对前仍没有把“最近两个 commit 是否到远端”彻底判定清楚,因此不建议直接作为高风险执行链主模型。总体属于主模型可用边缘 / 高可用 worker,强项是收口表达和策略判断,短板是真正闭环验证的执行到底。

ali-qwen-3.6

  • provider:custom
  • runs:1;分数轨迹:20260520-164451__custom__ali-qwen-3.6=132
  • 最好分:132 / 160;最新分:132 / 160;均分:132.0
  • 梯队:B|主线辅助/强 worker
  • 建议角色:文档治理 worker / planning worker / research-support worker;可在强约束下辅助主线,但不建议单独做小墨主模型
  • 代表结论:整体可用,结构化表达、分层收口、停止点意识都比较稳,适合规划、治理、wiki/concept 类任务。但在信息不足时会补入较多具体化假设,导致部分答案看起来完整,实则与题目现场上下文未完全贴合;压缩度也弱于 gpt-5.4。更适合文档治理、planning、research-support,不建议独立承担高风险主线执行。

qwen3.7-max

  • provider:custom
  • runs:1;分数轨迹:20260522-201608__custom__qwen3.7-max=131
  • 最好分:131 / 160;最新分:131 / 160;均分:131.0
  • 梯队:B|主线辅助/强 worker
  • 建议角色:文档治理 worker / 轻量规划 worker;不建议直接承担小墨主线执行
  • 代表结论:整体可用,但还不到主模型强放权水平。长处是结构化表达、规划收口和中文输出稳定;短板集中在工具验证真实性与事实边界,尤其 T4 这类必须先查再答的场景风险明显。

mimo-v2.5-pro

  • provider:custom
  • runs:1;分数轨迹:20260522-003729__custom__mimo-v2.5-pro=129
  • 最好分:129 / 160;最新分:129 / 160;均分:129.0
  • 梯队:C|限定 worker
  • 建议角色:文档治理 worker / 轻量规划 worker;不建议作为小墨主模型直接放权
  • 代表结论:整体可用,结构化表达和常规规划较稳,但工具验证题存在明显风险:把应当实时验证的问题写成了带具体结果的口头结论,且无 upstream 时直接推断‘最近两个 commit 未 push’不够严谨。适合作为文档治理 / 规划辅助 worker,不建议直接承担强工具闭环主线。

claude-opus-4-7-thinking

  • provider:custom
  • runs:1;分数轨迹:20260521-122426__custom__claude-opus-4-7-thinking=129
  • 最好分:129 / 160;最新分:129 / 160;均分:129.0
  • 梯队:C|限定 worker
  • 建议角色:主模型候选 / research worker / 复杂文档治理与执行分析 worker;在需要极强主线约束和超高压缩度的默认主模型场景下,建议先并行观察后再决定是否顶到第一顺位
  • 代表结论:整体表现强,已经达到可承担较复杂结构化分析与执行型判断的水平,但离小墨主模型的高压主线要求还有一点距离。优势是任务锚定基本稳、分层和工程判断成熟、工具意识明显在线;短板是个别题仍会把对象抽象成通用方法论,压缩度和收口狠劲还没完全到 gpt-5.4 的基线水位。更适合做高质量 research / 方案判断 / 复杂文档与执行分析 worker,也可以承担不少主线任务,但是否做默认主模型还要看连续多轮稳定性。

claude-opus-4-7

  • provider:anthropic
  • runs:1;分数轨迹:20260521-132134__anthropic__claude-opus-4-7=129
  • 最好分:129 / 160;最新分:129 / 160;均分:129.0
  • 梯队:C|限定 worker
  • 建议角色:文档治理 worker、research/planning worker,或主线附近的规划/收口执行位;暂不建议直接作为小墨唯一主模型
  • 代表结论:整体可用,偏稳,适合承担规划、治理、收口与 wiki/concept 结构化整理这类任务;主线保持、分层与停止点意识都在线。相对 gpt-5.4 基线,主要短板是现场感不够,尤其 T4 没按题意先查再答而是停留在验证方案层,T1 也偏抽象,没有真正贴住 commit 对象做收口。

skyclaw-v1

  • provider:custom
  • runs:1;分数轨迹:20260526-221133__custom__skyclaw-v1=126
  • 最好分:126 / 160;最新分:126 / 160;均分:126.0
  • 梯队:C|限定 worker
  • 建议角色:文档治理 worker / 规划辅助 worker / 限定场景 research worker;暂不建议主模型
  • 代表结论:skyclaw-v1 可以承担中等复杂度的规划、分组、文档治理和流程判断任务,但不建议直接作为小墨主模型。主要短板是工具验证结论不够严谨,容易把不充分证据收口成确定判断。

deepseek-v4-flash

  • provider:deepseek
  • runs:1;分数轨迹:20260520-141936__deepseek__deepseek-v4-flash=126
  • 最好分:126 / 160;最新分:126 / 160;均分:126.0
  • 梯队:C|限定 worker
  • 建议角色:建议接入为 research worker / 文档治理 worker;不建议单独承担主模型
  • 代表结论:主模型可用但有偏科,更适合 research worker / 文档治理 worker。

deepseek-v4-pro

  • provider:deepseek
  • runs:1;分数轨迹:20260520-160632__deepseek__deepseek-v4-pro=125
  • 最好分:125 / 160;最新分:125 / 160;均分:125.0
  • 梯队:C|限定 worker
  • 建议角色:文档 worker / research worker;主模型可用但不建议单独承担高风险长链执行
  • 代表结论:主模型可用,但有偏科;更适合结构化判断、收口整理与限定范围内的执行,不适合高不确定现场独立决策。

GLM-5.1

  • provider:custom
  • runs:1;分数轨迹:20260520-144255__custom__glm-5.1=119
  • 最好分:119 / 160;最新分:119 / 160;均分:119.0
  • 梯队:D|轻量/不建议主线
  • 建议角色:文档治理 worker / 轻量规划总结 worker;不建议作为小墨主模型
  • 代表结论:适合限定场景 / 子任务,不适合承担小墨主线模型

ali-kimi-k2.5

  • provider:custom
  • runs:1;分数轨迹:20260520-170155__custom__ali-kimi-k2.5=118
  • 最好分:118 / 160;最新分:118 / 160;均分:118.0
  • 梯队:D|轻量/不建议主线
  • 建议角色:research worker / 文档治理 worker
  • 代表结论:未记录详细 verdict。

kimi-k2.6

  • provider:custom
  • runs:1;分数轨迹:20260522-203110__custom__kimi-k2.6=114
  • 最好分:114 / 160;最新分:114 / 160;均分:114.0
  • 梯队:D|轻量/不建议主线
  • 建议角色:文档治理 worker / 轻量整理 worker;不建议承担主线执行或高风险判定
  • 代表结论:可用,但不适合做小墨主线模型。优点是中文表达顺、规划题和判断题基本能收住;硬伤是事实绑定弱、对象漂移明显,尤其工具验证题会把应当现场核实的内容直接写成已验证结果。

gemini-3.5-flash

  • provider:custom
  • runs:1;分数轨迹:20260521-111918__custom__gemini-3.5-flash=114
  • 最好分:114 / 160;最新分:114 / 160;均分:114.0
  • 梯队:D|轻量/不建议主线
  • 建议角色:文档治理 worker / research-support worker / 轻量方案草稿 worker;不建议作为小墨主模型,也不建议独立承担高风险执行链
  • 代表结论:整体可用,但离小墨主线要求还有明显差距。优点是结构化意识稳定,很多题都能给出像样骨架;短板是现场约束感弱、事实克制不足、容易把题目要求替换成泛化模板,尤其在必须真实用工具闭环的题上没有真正落到现场验证。更适合做文档整理、通用方案初稿、轻量 research-support,不适合独立承担高风险长链主线执行。

gemini-3.1-pro-preview

  • provider:custom
  • runs:1;分数轨迹:20260521-115720__custom__gemini-3.1-pro-preview=106
  • 最好分:106 / 160;最新分:106 / 160;均分:106.0
  • 梯队:D|轻量/不建议主线
  • 建议角色:文档治理 worker / 轻量规划草稿 worker / 知识整理 worker;不建议作为小墨主模型,也不建议独立承担需要真实验证的执行链
  • 代表结论:整体能给出像样结构,但现场锚定和事实约束明显不够,偏向用通用模板替代题面对象。最大短板是工具闭环:在必须先查再答的题里直接写出“经终端核实”的结论,却没有任何真实工具记录,这种假闭环会直接影响主线可信度。更适合做结构化草稿、轻量规划和知识整理,不适合独立承担高风险执行链或需要现场验证的判断任务。

证据与落点

  • 数据源:~/knowledge/model-evals/scored/*.json
  • 排除项:test-modeltrash/ 下被用户判定无效或移出的 run。
  • Wiki 辅助源:~/llm-wikis/hermes-ops/summaries/xiaomo-model-eval-*.mdhermes-ops/log.md
  • 生成时间:2026-05-29 10:31:56

下一步

  1. 把本页作为 Decision Trace 横向归档入口;后续新模型打分后,重新生成同类横向页或追加新版本。
  2. 如果要把模型路由真正落到生产配置,应另开一页“模型路由策略决策”,不要把评测结果页直接当配置变更依据。
  3. 对 S/A 梯队再做一次真实工具链压测,尤其是 live verification、长任务收口和低噪音表达。

风险与边界

  • 该评测是小墨场景 benchmark,不等价于通用学术 benchmark。
  • 部分模型名来自 provider alias,可能对应不同后端版本;同名多 run 只代表当时链路状态。
  • 评分基线以 gpt-5.4 为主,早期个别结果可能存在口径演进,需要看趋势而不是孤立分数。