Hermes Decision Trace

小墨模型评测横向归档（截至 2026-05-29）

截至 2026-05-29，本地有效 scored run 共 26 个，覆盖 22 个模型名。横向看，当前最值得进入主模型候选池的是 gpt-5.5、gpt-5.4 / gpt-5.4-2026-03-05、YT-claude-4.7；更适合作为强 worker 或限定 worker 的包括 Claude Sonnet/Opus、Qwen、Mimo、DeepSeek、SkyClaw 等；Gemini Flash/Pro Preview、Kimi/GLM 当前更适合轻量整理或文档辅助，不建议直接承担小墨主线。

HTML完整论证

Wiki可检索归档

Feishu短入口交付

🎯

核心结论

截至 2026-05-29，本地有效 scored run 共 26 个，覆盖 22 个模型名。横向看，当前最值得进入主模型候选池的是 gpt-5.5、gpt-5.4 / gpt-5.4-2026-03-05、YT-claude-4.7；更适合作为强 worker 或限定 worker 的包括 Claude Sonnet/Opus、Qwen、Mimo、DeepSeek、SkyClaw 等；Gemini Flash/Pro Preview、Kimi/GLM 当前更适合轻量整理或文档辅助，不建议直接承担小墨主线。

🧭

推荐路径

把本页作为 Decision Trace 横向归档入口；后续新模型打分后，重新生成同类横向页或追加新版本。

🛡️

关键边界

该评测是小墨场景 benchmark，不等价于通用学术 benchmark。

关键判断

判断项	摘要
推荐方案	GLM-5.1：最好 119/160，最新 119/160；文档治理 worker / 轻量规划总结 worker；不建议作为小墨主模型。
关键依据	数据源：`~/knowledge/model-evals/scored/*.json`
落地方式	把本页作为 Decision Trace 横向归档入口；后续新模型打分后，重新生成同类横向页或追加新版本。
风险边界	该评测是小墨场景 benchmark，不等价于通用学术 benchmark。

证据摘要

数据源：~/knowledge/model-evals/scored/*.json证据点 1
排除项：test-model 与 trash/ 下被用户判定无效或移出的 run。证据点 2
Wiki 辅助源：~/llm-wikis/hermes-ops/summaries/xiaomo-model-eval-*.md 与 hermes-ops/log.md。证据点 3
生成时间：2026-05-29 10:31:56。证据点 4

行动清单

把本页作为 Decision Trace 横向归档入口；后续新模型打分后，重新生成同类横向页或追加新版本。

如果要把模型路由真正落到生产配置，应另开一页“模型路由策略决策”，不要把评测结果页直接当配置变更依据。

对 S/A 梯队再做一次真实工具链压测，尤其是 live verification、长任务收口和低噪音表达。

边界 / 风险

风险点

该评测是小墨场景 benchmark，不等价于通用学术 benchmark。

风险点

部分模型名来自 provider alias，可能对应不同后端版本；同名多 run 只代表当时链路状态。

风险点

评分基线以 gpt-5.4 为主，早期个别结果可能存在口径演进，需要看趋势而不是孤立分数。

完整记录

本节目录结论推荐分层排名总表关键判断弱项聚合各模型详情证据与落点下一步风险与边界

小墨模型评测横向归档（截至 2026-05-29）

结论

截至 2026-05-29，本地有效 scored run 共 26 个，覆盖 22 个模型名。横向看，当前最值得进入主模型候选池的是 gpt-5.5、gpt-5.4 / gpt-5.4-2026-03-05、YT-claude-4.7；更适合作为强 worker 或限定 worker 的包括 Claude Sonnet/Opus、Qwen、Mimo、DeepSeek、SkyClaw 等；Gemini Flash/Pro Preview、Kimi/GLM 当前更适合轻量整理或文档辅助，不建议直接承担小墨主线。

推荐分层

S｜主模型强候选

gpt-5.5：最好 156/160，最新 155/160；主模型候选 / 复杂执行与治理主线。

A｜主模型候选

gpt-5.4：最好 148/160，最新 148/160；主模型。
YT-claude-4.7：最好 148/160，最新 148/160；主模型。
gpt-5.4-2026-03-05：最好 147/160，最新 147/160；主模型；也可兼任规划 / 治理 / 文档收口 worker。

B｜主线辅助 / 强 worker

gpt-5.4-mini：最好 134/160，最新 134/160；文档治理 / 收口 worker，或 research / planning worker；可承担主模型附近辅助任务，但不建议直接作为小墨主线第一主模型。
gpt-5.3-codex：最好 134/160，最新 134/160；code worker / research worker，不建议直接承担小墨主模型。
claude-sonnet-4-6：最好 134/160，最新 134/160；主模型 / 文档 worker / research worker；涉及高风险代码分组时需更强证据约束。
YT-claude-4.6：最好 134/160，最新 134/160；文档治理 worker、research/planning worker，也可承担主线附近的规划/收口任务；暂不建议直接作为小墨唯一主模型。
claude-opus-4-8：最好 133/160，最新 133/160；文档治理 worker / 规划收口 worker / 工程判断 worker；可作为主模型候选观察，但暂不建议独立承担高风险 live verification 主线。
ali-qwen-3.6：最好 132/160，最新 132/160；文档治理 worker / planning worker / research-support worker；可在强约束下辅助主线，但不建议单独做小墨主模型。
qwen3.7-max：最好 131/160，最新 131/160；文档治理 worker / 轻量规划 worker；不建议直接承担小墨主线执行。

C｜限定 worker

mimo-v2.5-pro：最好 129/160，最新 129/160；文档治理 worker / 轻量规划 worker；不建议作为小墨主模型直接放权。
claude-opus-4-7-thinking：最好 129/160，最新 129/160；主模型候选 / research worker / 复杂文档治理与执行分析 worker；在需要极强主线约束和超高压缩度的默认主模型场景下，建议先并行观察后再决定是否顶到第一顺位。
claude-opus-4-7：最好 129/160，最新 129/160；文档治理 worker、research/planning worker，或主线附近的规划/收口执行位；暂不建议直接作为小墨唯一主模型。
skyclaw-v1：最好 126/160，最新 126/160；文档治理 worker / 规划辅助 worker / 限定场景 research worker；暂不建议主模型。
deepseek-v4-flash：最好 126/160，最新 126/160；建议接入为 research worker / 文档治理 worker；不建议单独承担主模型。
deepseek-v4-pro：最好 125/160，最新 125/160；文档 worker / research worker；主模型可用但不建议单独承担高风险长链执行。

D｜轻量 / 不建议主线

GLM-5.1：最好 119/160，最新 119/160；文档治理 worker / 轻量规划总结 worker；不建议作为小墨主模型。
ali-kimi-k2.5：最好 118/160，最新 118/160；research worker / 文档治理 worker。
kimi-k2.6：最好 114/160，最新 114/160；文档治理 worker / 轻量整理 worker；不建议承担主线执行或高风险判定。
gemini-3.5-flash：最好 114/160，最新 114/160；文档治理 worker / research-support worker / 轻量方案草稿 worker；不建议作为小墨主模型，也不建议独立承担高风险执行链。
gemini-3.1-pro-preview：最好 106/160，最新 106/160；文档治理 worker / 轻量规划草稿 worker / 知识整理 worker；不建议作为小墨主模型，也不建议独立承担需要真实验证的执行链。

排名总表

#	模型	最好分	最新分	runs	均分	梯队	建议角色
1	gpt-5.5	156	155	4	144.5	S｜主模型强候选	主模型候选 / 复杂执行与治理主线
2	gpt-5.4	148	148	2	148.0	A｜主模型候选	主模型
3	YT-claude-4.7	148	148	1	148.0	A｜主模型候选	主模型
4	gpt-5.4-2026-03-05	147	147	1	147.0	A｜主模型候选	主模型；也可兼任规划 / 治理 / 文档收口 worker
5	gpt-5.4-mini	134	134	1	134.0	B｜主线辅助/强 worker	文档治理 / 收口 worker，或 research / planning worker；可承担主模型附近辅助任务，但不建议直接作为小墨主线第一主模型
6	gpt-5.3-codex	134	134	1	134.0	B｜主线辅助/强 worker	code worker / research worker，不建议直接承担小墨主模型
7	claude-sonnet-4-6	134	134	1	134.0	B｜主线辅助/强 worker	主模型 / 文档 worker / research worker；涉及高风险代码分组时需更强证据约束
8	YT-claude-4.6	134	134	1	134.0	B｜主线辅助/强 worker	文档治理 worker、research/planning worker，也可承担主线附近的规划/收口任务；暂不建议直接作为小墨唯一主模型
9	claude-opus-4-8	133	133	1	133.0	B｜主线辅助/强 worker	文档治理 worker / 规划收口 worker / 工程判断 worker；可作为主模型候选观察，但暂不建议独立承担高风险 live verification 主线
10	ali-qwen-3.6	132	132	1	132.0	B｜主线辅助/强 worker	文档治理 worker / planning worker / research-support worker；可在强约束下辅助主线，但不建议单独做小墨主模型
11	qwen3.7-max	131	131	1	131.0	B｜主线辅助/强 worker	文档治理 worker / 轻量规划 worker；不建议直接承担小墨主线执行
12	mimo-v2.5-pro	129	129	1	129.0	C｜限定 worker	文档治理 worker / 轻量规划 worker；不建议作为小墨主模型直接放权
13	claude-opus-4-7-thinking	129	129	1	129.0	C｜限定 worker	主模型候选 / research worker / 复杂文档治理与执行分析 worker；在需要极强主线约束和超高压缩度的默认主模型场景下，建议先并行观察后再决定是否顶到第一顺位
14	claude-opus-4-7	129	129	1	129.0	C｜限定 worker	文档治理 worker、research/planning worker，或主线附近的规划/收口执行位；暂不建议直接作为小墨唯一主模型
15	skyclaw-v1	126	126	1	126.0	C｜限定 worker	文档治理 worker / 规划辅助 worker / 限定场景 research worker；暂不建议主模型
16	deepseek-v4-flash	126	126	1	126.0	C｜限定 worker	建议接入为 research worker / 文档治理 worker；不建议单独承担主模型
17	deepseek-v4-pro	125	125	1	125.0	C｜限定 worker	文档 worker / research worker；主模型可用但不建议单独承担高风险长链执行
18	GLM-5.1	119	119	1	119.0	D｜轻量/不建议主线	文档治理 worker / 轻量规划总结 worker；不建议作为小墨主模型
19	ali-kimi-k2.5	118	118	1	118.0	D｜轻量/不建议主线	research worker / 文档治理 worker
20	kimi-k2.6	114	114	1	114.0	D｜轻量/不建议主线	文档治理 worker / 轻量整理 worker；不建议承担主线执行或高风险判定
21	gemini-3.5-flash	114	114	1	114.0	D｜轻量/不建议主线	文档治理 worker / research-support worker / 轻量方案草稿 worker；不建议作为小墨主模型，也不建议独立承担高风险执行链
22	gemini-3.1-pro-preview	106	106	1	106.0	D｜轻量/不建议主线	文档治理 worker / 轻量规划草稿 worker / 知识整理 worker；不建议作为小墨主模型，也不建议独立承担需要真实验证的执行链

关键判断

判断项	结论
主模型优先级	先看 gpt-5.5 最新高分 run，再看 `gpt-5.4` 基线与 `YT-claude-4.7` 的稳定性。
Worker 池	Claude Sonnet/Opus、gpt-5.3-codex、Qwen、Mimo、DeepSeek Pro/Flash、SkyClaw 均有分工价值。
不宜直接主线	Gemini 3.1/3.5、Kimi K2.6、GLM-5.1 分数与工具闭环不足，不适合单独接主线。
多 run 口径	同模型多 run 不取简单平均作主结论；优先看最新 run 与最好 run，保留轨迹解释稳定性。

弱项聚合

按已能解析的 task total 聚合，平均分较低的题型更值得作为后续评测重点：

T4：平均 15.1/20
T1：平均 16.0/20
T3：平均 16.0/20
T7：平均 17.0/20
T2：平均 17.1/20
T8：平均 17.1/20
T5：平均 17.5/20
T6：平均 17.6/20

各模型详情

gpt-5.5

provider：custom
runs：4；分数轨迹：20260520-122842__custom__gpt-5.5=134；20260520-171535__custom__gpt-5.5=133；20260521-223037__custom__gpt-5.5=156；20260525-104100__custom__gpt-5.5=155
最好分：156 / 160；最新分：155 / 160；均分：144.5
梯队：S｜主模型强候选
建议角色：主模型候选 / 复杂执行与治理主线
代表结论：明显达到主模型候选水平。主线保持、复杂规划、commit 分组、工具验证闭环和 drift 判断都很稳，整体比 gpt-5.4 基线更收敛、更少废话；主要注意点是少数题仍会基于历史上下文做合理外推，严格事实归因场景要继续强制先查证。

gpt-5.4

provider：custom
runs：2；分数轨迹：20260520-093327__custom__gpt-5.4=148；20260521-220230__custom__gpt-5.4=148
最好分：148 / 160；最新分：148 / 160；均分：148.0
梯队：A｜主模型候选
建议角色：主模型
代表结论：达到主模型候选水平，强项在主线保持、收口判断和知识治理；短板主要是个别题目工具执行停留在计划表达，没有实际查证。

YT-claude-4.7

provider：custom
runs：1；分数轨迹：20260520-125942__custom__yt-claude-4.7=148
最好分：148 / 160；最新分：148 / 160；均分：148.0
梯队：A｜主模型候选
建议角色：主模型
代表结论：可做主模型候选

gpt-5.4-2026-03-05

provider：custom
runs：1；分数轨迹：20260520-175546__custom__gpt-5.4-2026-03-05=147
最好分：147 / 160；最新分：147 / 160；均分：147.0
梯队：A｜主模型候选
建议角色：主模型；也可兼任规划 / 治理 / 文档收口 worker
代表结论：整体表现很强，主线保持、规划收口、升级判断、知识治理结构都在线，输出稳定而且收敛。相对 gpt-5.4 基线本身，这轮更像一次合格基线自检：没有明显短板，真正扣分主要在少数题目还可以再压缩半档，以及 T4 虽然真实调用了工具，但因为运行环境不是 git 仓库，最终没有形成带现场事实的完整结论句。

gpt-5.4-mini

provider：custom
runs：1；分数轨迹：20260520-174502__custom__gpt-5.4-mini=134
最好分：134 / 160；最新分：134 / 160；均分：134.0
梯队：B｜主线辅助/强 worker
建议角色：文档治理 / 收口 worker，或 research / planning worker；可承担主模型附近辅助任务，但不建议直接作为小墨主线第一主模型
代表结论：整体可用，偏稳，适合承担规划、治理、文档收口一类任务；主线保持、分层、停止点意识都在线。相对 gpt-5.4 基线，主要短板是个别题目更像给出正确答题模板，而不是更锋利地压缩到最终执行判断，尤其工具验证题闭环感偏弱半档。

gpt-5.3-codex

provider：custom
runs：1；分数轨迹：20260521-135911__custom__gpt-5.3-codex=134
最好分：134 / 160；最新分：134 / 160；均分：134.0
梯队：B｜主线辅助/强 worker
建议角色：code worker / research worker，不建议直接承担小墨主模型
代表结论：整体可用，工具意识和收口能力在线，适合承担边界清楚的执行型子任务；但主线稳定性与分组判断精细度还没达到 gpt-5.4 的主模型基线。

claude-sonnet-4-6

provider：anthropic
runs：1；分数轨迹：20260521-133913__anthropic__claude-sonnet-4-6=134
最好分：134 / 160；最新分：134 / 160；均分：134.0
梯队：B｜主线辅助/强 worker
建议角色：主模型 / 文档 worker / research worker；涉及高风险代码分组时需更强证据约束
代表结论：适合承担流程型判断、focused regression、文档/治理收口；可做主模型候选，但在强上下文锚定和代码资产分组上还有偏泛化问题。

YT-claude-4.6

provider：custom
runs：1；分数轨迹：20260520-173042__custom__yt-claude-4.6=134
最好分：134 / 160；最新分：134 / 160；均分：134.0
梯队：B｜主线辅助/强 worker
建议角色：文档治理 worker、research/planning worker，也可承担主线附近的规划/收口任务；暂不建议直接作为小墨唯一主模型
代表结论：整体强可用，适合承担规划、治理、收口、wiki/concept 结构化整理这类主线附近任务；主线保持稳，停止点意识和风险判断都在线。相对 gpt-5.4 基线，短板主要不是判断错，而是少数题目略偏模板化保守，锋利度和现场裁剪感还差半档。

claude-opus-4-8

provider：custom
runs：1；分数轨迹：20260529-094958__custom__claude-opus-4-8=133
最好分：133 / 160；最新分：133 / 160；均分：133.0
梯队：B｜主线辅助/强 worker
建议角色：文档治理 worker / 规划收口 worker / 工程判断 worker；可作为主模型候选观察，但暂不建议独立承担高风险 live verification 主线
代表结论：整体可用，结构感、中文表达、工程判断和知识治理口径都比较稳，能承担小墨体系里的高质量规划、文档治理和大部分工程判断类 worker 任务。但 T4 的 live verification 没有形成完整闭环：它确实体现了先查再答意识，也记录了本地 git 检查，但在未完成远端联网核对前仍没有把“最近两个 commit 是否到远端”彻底判定清楚，因此不建议直接作为高风险执行链主模型。总体属于主模型可用边缘 / 高可用 worker，强项是收口表达和策略判断，短板是真正闭环验证的执行到底。

ali-qwen-3.6

provider：custom
runs：1；分数轨迹：20260520-164451__custom__ali-qwen-3.6=132
最好分：132 / 160；最新分：132 / 160；均分：132.0
梯队：B｜主线辅助/强 worker
建议角色：文档治理 worker / planning worker / research-support worker；可在强约束下辅助主线，但不建议单独做小墨主模型
代表结论：整体可用，结构化表达、分层收口、停止点意识都比较稳，适合规划、治理、wiki/concept 类任务。但在信息不足时会补入较多具体化假设，导致部分答案看起来完整，实则与题目现场上下文未完全贴合；压缩度也弱于 gpt-5.4。更适合文档治理、planning、research-support，不建议独立承担高风险主线执行。

qwen3.7-max

provider：custom
runs：1；分数轨迹：20260522-201608__custom__qwen3.7-max=131
最好分：131 / 160；最新分：131 / 160；均分：131.0
梯队：B｜主线辅助/强 worker
建议角色：文档治理 worker / 轻量规划 worker；不建议直接承担小墨主线执行
代表结论：整体可用，但还不到主模型强放权水平。长处是结构化表达、规划收口和中文输出稳定；短板集中在工具验证真实性与事实边界，尤其 T4 这类必须先查再答的场景风险明显。

mimo-v2.5-pro

provider：custom
runs：1；分数轨迹：20260522-003729__custom__mimo-v2.5-pro=129
最好分：129 / 160；最新分：129 / 160；均分：129.0
梯队：C｜限定 worker
建议角色：文档治理 worker / 轻量规划 worker；不建议作为小墨主模型直接放权
代表结论：整体可用，结构化表达和常规规划较稳，但工具验证题存在明显风险：把应当实时验证的问题写成了带具体结果的口头结论，且无 upstream 时直接推断‘最近两个 commit 未 push’不够严谨。适合作为文档治理 / 规划辅助 worker，不建议直接承担强工具闭环主线。

claude-opus-4-7-thinking

provider：custom
runs：1；分数轨迹：20260521-122426__custom__claude-opus-4-7-thinking=129
最好分：129 / 160；最新分：129 / 160；均分：129.0
梯队：C｜限定 worker
建议角色：主模型候选 / research worker / 复杂文档治理与执行分析 worker；在需要极强主线约束和超高压缩度的默认主模型场景下，建议先并行观察后再决定是否顶到第一顺位
代表结论：整体表现强，已经达到可承担较复杂结构化分析与执行型判断的水平，但离小墨主模型的高压主线要求还有一点距离。优势是任务锚定基本稳、分层和工程判断成熟、工具意识明显在线；短板是个别题仍会把对象抽象成通用方法论，压缩度和收口狠劲还没完全到 gpt-5.4 的基线水位。更适合做高质量 research / 方案判断 / 复杂文档与执行分析 worker，也可以承担不少主线任务，但是否做默认主模型还要看连续多轮稳定性。

claude-opus-4-7

provider：anthropic
runs：1；分数轨迹：20260521-132134__anthropic__claude-opus-4-7=129
最好分：129 / 160；最新分：129 / 160；均分：129.0
梯队：C｜限定 worker
建议角色：文档治理 worker、research/planning worker，或主线附近的规划/收口执行位；暂不建议直接作为小墨唯一主模型
代表结论：整体可用，偏稳，适合承担规划、治理、收口与 wiki/concept 结构化整理这类任务；主线保持、分层与停止点意识都在线。相对 gpt-5.4 基线，主要短板是现场感不够，尤其 T4 没按题意先查再答而是停留在验证方案层，T1 也偏抽象，没有真正贴住 commit 对象做收口。

skyclaw-v1

provider：custom
runs：1；分数轨迹：20260526-221133__custom__skyclaw-v1=126
最好分：126 / 160；最新分：126 / 160；均分：126.0
梯队：C｜限定 worker
建议角色：文档治理 worker / 规划辅助 worker / 限定场景 research worker；暂不建议主模型
代表结论：skyclaw-v1 可以承担中等复杂度的规划、分组、文档治理和流程判断任务，但不建议直接作为小墨主模型。主要短板是工具验证结论不够严谨，容易把不充分证据收口成确定判断。

deepseek-v4-flash

provider：deepseek
runs：1；分数轨迹：20260520-141936__deepseek__deepseek-v4-flash=126
最好分：126 / 160；最新分：126 / 160；均分：126.0
梯队：C｜限定 worker
建议角色：建议接入为 research worker / 文档治理 worker；不建议单独承担主模型
代表结论：主模型可用但有偏科，更适合 research worker / 文档治理 worker。

deepseek-v4-pro

provider：deepseek
runs：1；分数轨迹：20260520-160632__deepseek__deepseek-v4-pro=125
最好分：125 / 160；最新分：125 / 160；均分：125.0
梯队：C｜限定 worker
建议角色：文档 worker / research worker；主模型可用但不建议单独承担高风险长链执行
代表结论：主模型可用，但有偏科；更适合结构化判断、收口整理与限定范围内的执行，不适合高不确定现场独立决策。

GLM-5.1

provider：custom
runs：1；分数轨迹：20260520-144255__custom__glm-5.1=119
最好分：119 / 160；最新分：119 / 160；均分：119.0
梯队：D｜轻量/不建议主线
建议角色：文档治理 worker / 轻量规划总结 worker；不建议作为小墨主模型
代表结论：适合限定场景 / 子任务，不适合承担小墨主线模型

ali-kimi-k2.5

provider：custom
runs：1；分数轨迹：20260520-170155__custom__ali-kimi-k2.5=118
最好分：118 / 160；最新分：118 / 160；均分：118.0
梯队：D｜轻量/不建议主线
建议角色：research worker / 文档治理 worker
代表结论：未记录详细 verdict。

kimi-k2.6

provider：custom
runs：1；分数轨迹：20260522-203110__custom__kimi-k2.6=114
最好分：114 / 160；最新分：114 / 160；均分：114.0
梯队：D｜轻量/不建议主线
建议角色：文档治理 worker / 轻量整理 worker；不建议承担主线执行或高风险判定
代表结论：可用，但不适合做小墨主线模型。优点是中文表达顺、规划题和判断题基本能收住；硬伤是事实绑定弱、对象漂移明显，尤其工具验证题会把应当现场核实的内容直接写成已验证结果。

gemini-3.5-flash

provider：custom
runs：1；分数轨迹：20260521-111918__custom__gemini-3.5-flash=114
最好分：114 / 160；最新分：114 / 160；均分：114.0
梯队：D｜轻量/不建议主线
建议角色：文档治理 worker / research-support worker / 轻量方案草稿 worker；不建议作为小墨主模型，也不建议独立承担高风险执行链
代表结论：整体可用，但离小墨主线要求还有明显差距。优点是结构化意识稳定，很多题都能给出像样骨架；短板是现场约束感弱、事实克制不足、容易把题目要求替换成泛化模板，尤其在必须真实用工具闭环的题上没有真正落到现场验证。更适合做文档整理、通用方案初稿、轻量 research-support，不适合独立承担高风险长链主线执行。

gemini-3.1-pro-preview

provider：custom
runs：1；分数轨迹：20260521-115720__custom__gemini-3.1-pro-preview=106
最好分：106 / 160；最新分：106 / 160；均分：106.0
梯队：D｜轻量/不建议主线
建议角色：文档治理 worker / 轻量规划草稿 worker / 知识整理 worker；不建议作为小墨主模型，也不建议独立承担需要真实验证的执行链
代表结论：整体能给出像样结构，但现场锚定和事实约束明显不够，偏向用通用模板替代题面对象。最大短板是工具闭环：在必须先查再答的题里直接写出“经终端核实”的结论，却没有任何真实工具记录，这种假闭环会直接影响主线可信度。更适合做结构化草稿、轻量规划和知识整理，不适合独立承担高风险执行链或需要现场验证的判断任务。

证据与落点

数据源：~/knowledge/model-evals/scored/*.json
排除项：test-model 与 trash/ 下被用户判定无效或移出的 run。
Wiki 辅助源：~/llm-wikis/hermes-ops/summaries/xiaomo-model-eval-*.md 与 hermes-ops/log.md。
生成时间：2026-05-29 10:31:56。

下一步

把本页作为 Decision Trace 横向归档入口；后续新模型打分后，重新生成同类横向页或追加新版本。
如果要把模型路由真正落到生产配置，应另开一页“模型路由策略决策”，不要把评测结果页直接当配置变更依据。
对 S/A 梯队再做一次真实工具链压测，尤其是 live verification、长任务收口和低噪音表达。

风险与边界

该评测是小墨场景 benchmark，不等价于通用学术 benchmark。
部分模型名来自 provider alias，可能对应不同后端版本；同名多 run 只代表当时链路状态。
评分基线以 gpt-5.4 为主，早期个别结果可能存在口径演进，需要看趋势而不是孤立分数。