小墨模型评测横向归档(截至 2026-05-29)
截至 2026-05-29,本地有效 scored run 共 26 个,覆盖 22 个模型名。横向看,当前最值得进入主模型候选池的是 gpt-5.5、gpt-5.4 / gpt-5.4-2026-03-05、YT-claude-4.7;更适合作为强 worker 或限定 worker 的包括 Claude Sonnet/Opus、Qwen、Mimo、DeepSeek、SkyClaw 等;Gemini Flash/Pro Preview、Kimi/GLM 当前更适合轻量整理或文档辅助,不建议直接承担小墨主线。
截至 2026-05-29,本地有效 scored run 共 26 个,覆盖 22 个模型名。横向看,当前最值得进入主模型候选池的是 gpt-5.5、gpt-5.4 / gpt-5.4-2026-03-05、YT-claude-4.7;更适合作为强 worker 或限定 worker 的包括 Claude Sonnet/Opus、Qwen、Mimo、DeepSeek、SkyClaw 等;Gemini Flash/Pro Preview、Kimi/GLM 当前更适合轻量整理或文档辅助,不建议直接承担小墨主线。
把本页作为 Decision Trace 横向归档入口;后续新模型打分后,重新生成同类横向页或追加新版本。
该评测是小墨场景 benchmark,不等价于通用学术 benchmark。
关键判断
| 判断项 | 摘要 |
|---|---|
| 推荐方案 | GLM-5.1:最好 119/160,最新 119/160;文档治理 worker / 轻量规划总结 worker;不建议作为小墨主模型。 |
| 关键依据 | 数据源:~/knowledge/model-evals/scored/*.json |
| 落地方式 | 把本页作为 Decision Trace 横向归档入口;后续新模型打分后,重新生成同类横向页或追加新版本。 |
| 风险边界 | 该评测是小墨场景 benchmark,不等价于通用学术 benchmark。 |
证据摘要
- 数据源:
~/knowledge/model-evals/scored/*.json证据点 1 - 排除项:
test-model与trash/下被用户判定无效或移出的 run。证据点 2 - Wiki 辅助源:
~/llm-wikis/hermes-ops/summaries/xiaomo-model-eval-*.md与hermes-ops/log.md。证据点 3 - 生成时间:
2026-05-29 10:31:56。证据点 4
行动清单
边界 / 风险
该评测是小墨场景 benchmark,不等价于通用学术 benchmark。
部分模型名来自 provider alias,可能对应不同后端版本;同名多 run 只代表当时链路状态。
评分基线以 gpt-5.4 为主,早期个别结果可能存在口径演进,需要看趋势而不是孤立分数。
完整记录
小墨模型评测横向归档(截至 2026-05-29)
结论
截至 2026-05-29,本地有效 scored run 共 26 个,覆盖 22 个模型名。横向看,当前最值得进入主模型候选池的是 gpt-5.5、gpt-5.4 / gpt-5.4-2026-03-05、YT-claude-4.7;更适合作为强 worker 或限定 worker 的包括 Claude Sonnet/Opus、Qwen、Mimo、DeepSeek、SkyClaw 等;Gemini Flash/Pro Preview、Kimi/GLM 当前更适合轻量整理或文档辅助,不建议直接承担小墨主线。
推荐分层
S|主模型强候选
- gpt-5.5:最好 156/160,最新 155/160;主模型候选 / 复杂执行与治理主线。
A|主模型候选
- gpt-5.4:最好 148/160,最新 148/160;主模型。
- YT-claude-4.7:最好 148/160,最新 148/160;主模型。
- gpt-5.4-2026-03-05:最好 147/160,最新 147/160;主模型;也可兼任规划 / 治理 / 文档收口 worker。
B|主线辅助 / 强 worker
- gpt-5.4-mini:最好 134/160,最新 134/160;文档治理 / 收口 worker,或 research / planning worker;可承担主模型附近辅助任务,但不建议直接作为小墨主线第一主模型。
- gpt-5.3-codex:最好 134/160,最新 134/160;code worker / research worker,不建议直接承担小墨主模型。
- claude-sonnet-4-6:最好 134/160,最新 134/160;主模型 / 文档 worker / research worker;涉及高风险代码分组时需更强证据约束。
- YT-claude-4.6:最好 134/160,最新 134/160;文档治理 worker、research/planning worker,也可承担主线附近的规划/收口任务;暂不建议直接作为小墨唯一主模型。
- claude-opus-4-8:最好 133/160,最新 133/160;文档治理 worker / 规划收口 worker / 工程判断 worker;可作为主模型候选观察,但暂不建议独立承担高风险 live verification 主线。
- ali-qwen-3.6:最好 132/160,最新 132/160;文档治理 worker / planning worker / research-support worker;可在强约束下辅助主线,但不建议单独做小墨主模型。
- qwen3.7-max:最好 131/160,最新 131/160;文档治理 worker / 轻量规划 worker;不建议直接承担小墨主线执行。
C|限定 worker
- mimo-v2.5-pro:最好 129/160,最新 129/160;文档治理 worker / 轻量规划 worker;不建议作为小墨主模型直接放权。
- claude-opus-4-7-thinking:最好 129/160,最新 129/160;主模型候选 / research worker / 复杂文档治理与执行分析 worker;在需要极强主线约束和超高压缩度的默认主模型场景下,建议先并行观察后再决定是否顶到第一顺位。
- claude-opus-4-7:最好 129/160,最新 129/160;文档治理 worker、research/planning worker,或主线附近的规划/收口执行位;暂不建议直接作为小墨唯一主模型。
- skyclaw-v1:最好 126/160,最新 126/160;文档治理 worker / 规划辅助 worker / 限定场景 research worker;暂不建议主模型。
- deepseek-v4-flash:最好 126/160,最新 126/160;建议接入为 research worker / 文档治理 worker;不建议单独承担主模型。
- deepseek-v4-pro:最好 125/160,最新 125/160;文档 worker / research worker;主模型可用但不建议单独承担高风险长链执行。
D|轻量 / 不建议主线
- GLM-5.1:最好 119/160,最新 119/160;文档治理 worker / 轻量规划总结 worker;不建议作为小墨主模型。
- ali-kimi-k2.5:最好 118/160,最新 118/160;research worker / 文档治理 worker。
- kimi-k2.6:最好 114/160,最新 114/160;文档治理 worker / 轻量整理 worker;不建议承担主线执行或高风险判定。
- gemini-3.5-flash:最好 114/160,最新 114/160;文档治理 worker / research-support worker / 轻量方案草稿 worker;不建议作为小墨主模型,也不建议独立承担高风险执行链。
- gemini-3.1-pro-preview:最好 106/160,最新 106/160;文档治理 worker / 轻量规划草稿 worker / 知识整理 worker;不建议作为小墨主模型,也不建议独立承担需要真实验证的执行链。
排名总表
| # | 模型 | 最好分 | 最新分 | runs | 均分 | 梯队 | 建议角色 |
|---|---|---|---|---|---|---|---|
| 1 | gpt-5.5 | 156 | 155 | 4 | 144.5 | S|主模型强候选 | 主模型候选 / 复杂执行与治理主线 |
| 2 | gpt-5.4 | 148 | 148 | 2 | 148.0 | A|主模型候选 | 主模型 |
| 3 | YT-claude-4.7 | 148 | 148 | 1 | 148.0 | A|主模型候选 | 主模型 |
| 4 | gpt-5.4-2026-03-05 | 147 | 147 | 1 | 147.0 | A|主模型候选 | 主模型;也可兼任规划 / 治理 / 文档收口 worker |
| 5 | gpt-5.4-mini | 134 | 134 | 1 | 134.0 | B|主线辅助/强 worker | 文档治理 / 收口 worker,或 research / planning worker;可承担主模型附近辅助任务,但不建议直接作为小墨主线第一主模型 |
| 6 | gpt-5.3-codex | 134 | 134 | 1 | 134.0 | B|主线辅助/强 worker | code worker / research worker,不建议直接承担小墨主模型 |
| 7 | claude-sonnet-4-6 | 134 | 134 | 1 | 134.0 | B|主线辅助/强 worker | 主模型 / 文档 worker / research worker;涉及高风险代码分组时需更强证据约束 |
| 8 | YT-claude-4.6 | 134 | 134 | 1 | 134.0 | B|主线辅助/强 worker | 文档治理 worker、research/planning worker,也可承担主线附近的规划/收口任务;暂不建议直接作为小墨唯一主模型 |
| 9 | claude-opus-4-8 | 133 | 133 | 1 | 133.0 | B|主线辅助/强 worker | 文档治理 worker / 规划收口 worker / 工程判断 worker;可作为主模型候选观察,但暂不建议独立承担高风险 live verification 主线 |
| 10 | ali-qwen-3.6 | 132 | 132 | 1 | 132.0 | B|主线辅助/强 worker | 文档治理 worker / planning worker / research-support worker;可在强约束下辅助主线,但不建议单独做小墨主模型 |
| 11 | qwen3.7-max | 131 | 131 | 1 | 131.0 | B|主线辅助/强 worker | 文档治理 worker / 轻量规划 worker;不建议直接承担小墨主线执行 |
| 12 | mimo-v2.5-pro | 129 | 129 | 1 | 129.0 | C|限定 worker | 文档治理 worker / 轻量规划 worker;不建议作为小墨主模型直接放权 |
| 13 | claude-opus-4-7-thinking | 129 | 129 | 1 | 129.0 | C|限定 worker | 主模型候选 / research worker / 复杂文档治理与执行分析 worker;在需要极强主线约束和超高压缩度的默认主模型场景下,建议先并行观察后再决定是否顶到第一顺位 |
| 14 | claude-opus-4-7 | 129 | 129 | 1 | 129.0 | C|限定 worker | 文档治理 worker、research/planning worker,或主线附近的规划/收口执行位;暂不建议直接作为小墨唯一主模型 |
| 15 | skyclaw-v1 | 126 | 126 | 1 | 126.0 | C|限定 worker | 文档治理 worker / 规划辅助 worker / 限定场景 research worker;暂不建议主模型 |
| 16 | deepseek-v4-flash | 126 | 126 | 1 | 126.0 | C|限定 worker | 建议接入为 research worker / 文档治理 worker;不建议单独承担主模型 |
| 17 | deepseek-v4-pro | 125 | 125 | 1 | 125.0 | C|限定 worker | 文档 worker / research worker;主模型可用但不建议单独承担高风险长链执行 |
| 18 | GLM-5.1 | 119 | 119 | 1 | 119.0 | D|轻量/不建议主线 | 文档治理 worker / 轻量规划总结 worker;不建议作为小墨主模型 |
| 19 | ali-kimi-k2.5 | 118 | 118 | 1 | 118.0 | D|轻量/不建议主线 | research worker / 文档治理 worker |
| 20 | kimi-k2.6 | 114 | 114 | 1 | 114.0 | D|轻量/不建议主线 | 文档治理 worker / 轻量整理 worker;不建议承担主线执行或高风险判定 |
| 21 | gemini-3.5-flash | 114 | 114 | 1 | 114.0 | D|轻量/不建议主线 | 文档治理 worker / research-support worker / 轻量方案草稿 worker;不建议作为小墨主模型,也不建议独立承担高风险执行链 |
| 22 | gemini-3.1-pro-preview | 106 | 106 | 1 | 106.0 | D|轻量/不建议主线 | 文档治理 worker / 轻量规划草稿 worker / 知识整理 worker;不建议作为小墨主模型,也不建议独立承担需要真实验证的执行链 |
关键判断
| 判断项 | 结论 |
|---|---|
| 主模型优先级 | 先看 gpt-5.5 最新高分 run,再看 gpt-5.4 基线与 YT-claude-4.7 的稳定性。 |
| Worker 池 | Claude Sonnet/Opus、gpt-5.3-codex、Qwen、Mimo、DeepSeek Pro/Flash、SkyClaw 均有分工价值。 |
| 不宜直接主线 | Gemini 3.1/3.5、Kimi K2.6、GLM-5.1 分数与工具闭环不足,不适合单独接主线。 |
| 多 run 口径 | 同模型多 run 不取简单平均作主结论;优先看最新 run 与最好 run,保留轨迹解释稳定性。 |
弱项聚合
按已能解析的 task total 聚合,平均分较低的题型更值得作为后续评测重点:
- T4:平均 15.1/20
- T1:平均 16.0/20
- T3:平均 16.0/20
- T7:平均 17.0/20
- T2:平均 17.1/20
- T8:平均 17.1/20
- T5:平均 17.5/20
- T6:平均 17.6/20
各模型详情
gpt-5.5
- provider:
custom - runs:
4;分数轨迹:20260520-122842__custom__gpt-5.5=134;20260520-171535__custom__gpt-5.5=133;20260521-223037__custom__gpt-5.5=156;20260525-104100__custom__gpt-5.5=155 - 最好分:
156 / 160;最新分:155 / 160;均分:144.5 - 梯队:S|主模型强候选
- 建议角色:主模型候选 / 复杂执行与治理主线
- 代表结论:明显达到主模型候选水平。主线保持、复杂规划、commit 分组、工具验证闭环和 drift 判断都很稳,整体比 gpt-5.4 基线更收敛、更少废话;主要注意点是少数题仍会基于历史上下文做合理外推,严格事实归因场景要继续强制先查证。
gpt-5.4
- provider:
custom - runs:
2;分数轨迹:20260520-093327__custom__gpt-5.4=148;20260521-220230__custom__gpt-5.4=148 - 最好分:
148 / 160;最新分:148 / 160;均分:148.0 - 梯队:A|主模型候选
- 建议角色:主模型
- 代表结论:达到主模型候选水平,强项在主线保持、收口判断和知识治理;短板主要是个别题目工具执行停留在计划表达,没有实际查证。
YT-claude-4.7
- provider:
custom - runs:
1;分数轨迹:20260520-125942__custom__yt-claude-4.7=148 - 最好分:
148 / 160;最新分:148 / 160;均分:148.0 - 梯队:A|主模型候选
- 建议角色:主模型
- 代表结论:可做主模型候选
gpt-5.4-2026-03-05
- provider:
custom - runs:
1;分数轨迹:20260520-175546__custom__gpt-5.4-2026-03-05=147 - 最好分:
147 / 160;最新分:147 / 160;均分:147.0 - 梯队:A|主模型候选
- 建议角色:主模型;也可兼任规划 / 治理 / 文档收口 worker
- 代表结论:整体表现很强,主线保持、规划收口、升级判断、知识治理结构都在线,输出稳定而且收敛。相对 gpt-5.4 基线本身,这轮更像一次合格基线自检:没有明显短板,真正扣分主要在少数题目还可以再压缩半档,以及 T4 虽然真实调用了工具,但因为运行环境不是 git 仓库,最终没有形成带现场事实的完整结论句。
gpt-5.4-mini
- provider:
custom - runs:
1;分数轨迹:20260520-174502__custom__gpt-5.4-mini=134 - 最好分:
134 / 160;最新分:134 / 160;均分:134.0 - 梯队:B|主线辅助/强 worker
- 建议角色:文档治理 / 收口 worker,或 research / planning worker;可承担主模型附近辅助任务,但不建议直接作为小墨主线第一主模型
- 代表结论:整体可用,偏稳,适合承担规划、治理、文档收口一类任务;主线保持、分层、停止点意识都在线。相对 gpt-5.4 基线,主要短板是个别题目更像给出正确答题模板,而不是更锋利地压缩到最终执行判断,尤其工具验证题闭环感偏弱半档。
gpt-5.3-codex
- provider:
custom - runs:
1;分数轨迹:20260521-135911__custom__gpt-5.3-codex=134 - 最好分:
134 / 160;最新分:134 / 160;均分:134.0 - 梯队:B|主线辅助/强 worker
- 建议角色:code worker / research worker,不建议直接承担小墨主模型
- 代表结论:整体可用,工具意识和收口能力在线,适合承担边界清楚的执行型子任务;但主线稳定性与分组判断精细度还没达到 gpt-5.4 的主模型基线。
claude-sonnet-4-6
- provider:
anthropic - runs:
1;分数轨迹:20260521-133913__anthropic__claude-sonnet-4-6=134 - 最好分:
134 / 160;最新分:134 / 160;均分:134.0 - 梯队:B|主线辅助/强 worker
- 建议角色:主模型 / 文档 worker / research worker;涉及高风险代码分组时需更强证据约束
- 代表结论:适合承担流程型判断、focused regression、文档/治理收口;可做主模型候选,但在强上下文锚定和代码资产分组上还有偏泛化问题。
YT-claude-4.6
- provider:
custom - runs:
1;分数轨迹:20260520-173042__custom__yt-claude-4.6=134 - 最好分:
134 / 160;最新分:134 / 160;均分:134.0 - 梯队:B|主线辅助/强 worker
- 建议角色:文档治理 worker、research/planning worker,也可承担主线附近的规划/收口任务;暂不建议直接作为小墨唯一主模型
- 代表结论:整体强可用,适合承担规划、治理、收口、wiki/concept 结构化整理这类主线附近任务;主线保持稳,停止点意识和风险判断都在线。相对 gpt-5.4 基线,短板主要不是判断错,而是少数题目略偏模板化保守,锋利度和现场裁剪感还差半档。
claude-opus-4-8
- provider:
custom - runs:
1;分数轨迹:20260529-094958__custom__claude-opus-4-8=133 - 最好分:
133 / 160;最新分:133 / 160;均分:133.0 - 梯队:B|主线辅助/强 worker
- 建议角色:文档治理 worker / 规划收口 worker / 工程判断 worker;可作为主模型候选观察,但暂不建议独立承担高风险 live verification 主线
- 代表结论:整体可用,结构感、中文表达、工程判断和知识治理口径都比较稳,能承担小墨体系里的高质量规划、文档治理和大部分工程判断类 worker 任务。但 T4 的 live verification 没有形成完整闭环:它确实体现了先查再答意识,也记录了本地 git 检查,但在未完成远端联网核对前仍没有把“最近两个 commit 是否到远端”彻底判定清楚,因此不建议直接作为高风险执行链主模型。总体属于主模型可用边缘 / 高可用 worker,强项是收口表达和策略判断,短板是真正闭环验证的执行到底。
ali-qwen-3.6
- provider:
custom - runs:
1;分数轨迹:20260520-164451__custom__ali-qwen-3.6=132 - 最好分:
132 / 160;最新分:132 / 160;均分:132.0 - 梯队:B|主线辅助/强 worker
- 建议角色:文档治理 worker / planning worker / research-support worker;可在强约束下辅助主线,但不建议单独做小墨主模型
- 代表结论:整体可用,结构化表达、分层收口、停止点意识都比较稳,适合规划、治理、wiki/concept 类任务。但在信息不足时会补入较多具体化假设,导致部分答案看起来完整,实则与题目现场上下文未完全贴合;压缩度也弱于 gpt-5.4。更适合文档治理、planning、research-support,不建议独立承担高风险主线执行。
qwen3.7-max
- provider:
custom - runs:
1;分数轨迹:20260522-201608__custom__qwen3.7-max=131 - 最好分:
131 / 160;最新分:131 / 160;均分:131.0 - 梯队:B|主线辅助/强 worker
- 建议角色:文档治理 worker / 轻量规划 worker;不建议直接承担小墨主线执行
- 代表结论:整体可用,但还不到主模型强放权水平。长处是结构化表达、规划收口和中文输出稳定;短板集中在工具验证真实性与事实边界,尤其 T4 这类必须先查再答的场景风险明显。
mimo-v2.5-pro
- provider:
custom - runs:
1;分数轨迹:20260522-003729__custom__mimo-v2.5-pro=129 - 最好分:
129 / 160;最新分:129 / 160;均分:129.0 - 梯队:C|限定 worker
- 建议角色:文档治理 worker / 轻量规划 worker;不建议作为小墨主模型直接放权
- 代表结论:整体可用,结构化表达和常规规划较稳,但工具验证题存在明显风险:把应当实时验证的问题写成了带具体结果的口头结论,且无 upstream 时直接推断‘最近两个 commit 未 push’不够严谨。适合作为文档治理 / 规划辅助 worker,不建议直接承担强工具闭环主线。
claude-opus-4-7-thinking
- provider:
custom - runs:
1;分数轨迹:20260521-122426__custom__claude-opus-4-7-thinking=129 - 最好分:
129 / 160;最新分:129 / 160;均分:129.0 - 梯队:C|限定 worker
- 建议角色:主模型候选 / research worker / 复杂文档治理与执行分析 worker;在需要极强主线约束和超高压缩度的默认主模型场景下,建议先并行观察后再决定是否顶到第一顺位
- 代表结论:整体表现强,已经达到可承担较复杂结构化分析与执行型判断的水平,但离小墨主模型的高压主线要求还有一点距离。优势是任务锚定基本稳、分层和工程判断成熟、工具意识明显在线;短板是个别题仍会把对象抽象成通用方法论,压缩度和收口狠劲还没完全到 gpt-5.4 的基线水位。更适合做高质量 research / 方案判断 / 复杂文档与执行分析 worker,也可以承担不少主线任务,但是否做默认主模型还要看连续多轮稳定性。
claude-opus-4-7
- provider:
anthropic - runs:
1;分数轨迹:20260521-132134__anthropic__claude-opus-4-7=129 - 最好分:
129 / 160;最新分:129 / 160;均分:129.0 - 梯队:C|限定 worker
- 建议角色:文档治理 worker、research/planning worker,或主线附近的规划/收口执行位;暂不建议直接作为小墨唯一主模型
- 代表结论:整体可用,偏稳,适合承担规划、治理、收口与 wiki/concept 结构化整理这类任务;主线保持、分层与停止点意识都在线。相对 gpt-5.4 基线,主要短板是现场感不够,尤其 T4 没按题意先查再答而是停留在验证方案层,T1 也偏抽象,没有真正贴住 commit 对象做收口。
skyclaw-v1
- provider:
custom - runs:
1;分数轨迹:20260526-221133__custom__skyclaw-v1=126 - 最好分:
126 / 160;最新分:126 / 160;均分:126.0 - 梯队:C|限定 worker
- 建议角色:文档治理 worker / 规划辅助 worker / 限定场景 research worker;暂不建议主模型
- 代表结论:skyclaw-v1 可以承担中等复杂度的规划、分组、文档治理和流程判断任务,但不建议直接作为小墨主模型。主要短板是工具验证结论不够严谨,容易把不充分证据收口成确定判断。
deepseek-v4-flash
- provider:
deepseek - runs:
1;分数轨迹:20260520-141936__deepseek__deepseek-v4-flash=126 - 最好分:
126 / 160;最新分:126 / 160;均分:126.0 - 梯队:C|限定 worker
- 建议角色:建议接入为 research worker / 文档治理 worker;不建议单独承担主模型
- 代表结论:主模型可用但有偏科,更适合 research worker / 文档治理 worker。
deepseek-v4-pro
- provider:
deepseek - runs:
1;分数轨迹:20260520-160632__deepseek__deepseek-v4-pro=125 - 最好分:
125 / 160;最新分:125 / 160;均分:125.0 - 梯队:C|限定 worker
- 建议角色:文档 worker / research worker;主模型可用但不建议单独承担高风险长链执行
- 代表结论:主模型可用,但有偏科;更适合结构化判断、收口整理与限定范围内的执行,不适合高不确定现场独立决策。
GLM-5.1
- provider:
custom - runs:
1;分数轨迹:20260520-144255__custom__glm-5.1=119 - 最好分:
119 / 160;最新分:119 / 160;均分:119.0 - 梯队:D|轻量/不建议主线
- 建议角色:文档治理 worker / 轻量规划总结 worker;不建议作为小墨主模型
- 代表结论:适合限定场景 / 子任务,不适合承担小墨主线模型
ali-kimi-k2.5
- provider:
custom - runs:
1;分数轨迹:20260520-170155__custom__ali-kimi-k2.5=118 - 最好分:
118 / 160;最新分:118 / 160;均分:118.0 - 梯队:D|轻量/不建议主线
- 建议角色:research worker / 文档治理 worker
- 代表结论:未记录详细 verdict。
kimi-k2.6
- provider:
custom - runs:
1;分数轨迹:20260522-203110__custom__kimi-k2.6=114 - 最好分:
114 / 160;最新分:114 / 160;均分:114.0 - 梯队:D|轻量/不建议主线
- 建议角色:文档治理 worker / 轻量整理 worker;不建议承担主线执行或高风险判定
- 代表结论:可用,但不适合做小墨主线模型。优点是中文表达顺、规划题和判断题基本能收住;硬伤是事实绑定弱、对象漂移明显,尤其工具验证题会把应当现场核实的内容直接写成已验证结果。
gemini-3.5-flash
- provider:
custom - runs:
1;分数轨迹:20260521-111918__custom__gemini-3.5-flash=114 - 最好分:
114 / 160;最新分:114 / 160;均分:114.0 - 梯队:D|轻量/不建议主线
- 建议角色:文档治理 worker / research-support worker / 轻量方案草稿 worker;不建议作为小墨主模型,也不建议独立承担高风险执行链
- 代表结论:整体可用,但离小墨主线要求还有明显差距。优点是结构化意识稳定,很多题都能给出像样骨架;短板是现场约束感弱、事实克制不足、容易把题目要求替换成泛化模板,尤其在必须真实用工具闭环的题上没有真正落到现场验证。更适合做文档整理、通用方案初稿、轻量 research-support,不适合独立承担高风险长链主线执行。
gemini-3.1-pro-preview
- provider:
custom - runs:
1;分数轨迹:20260521-115720__custom__gemini-3.1-pro-preview=106 - 最好分:
106 / 160;最新分:106 / 160;均分:106.0 - 梯队:D|轻量/不建议主线
- 建议角色:文档治理 worker / 轻量规划草稿 worker / 知识整理 worker;不建议作为小墨主模型,也不建议独立承担需要真实验证的执行链
- 代表结论:整体能给出像样结构,但现场锚定和事实约束明显不够,偏向用通用模板替代题面对象。最大短板是工具闭环:在必须先查再答的题里直接写出“经终端核实”的结论,却没有任何真实工具记录,这种假闭环会直接影响主线可信度。更适合做结构化草稿、轻量规划和知识整理,不适合独立承担高风险执行链或需要现场验证的判断任务。
证据与落点
- 数据源:
~/knowledge/model-evals/scored/*.json - 排除项:
test-model与trash/下被用户判定无效或移出的 run。 - Wiki 辅助源:
~/llm-wikis/hermes-ops/summaries/xiaomo-model-eval-*.md与hermes-ops/log.md。 - 生成时间:
2026-05-29 10:31:56。
下一步
- 把本页作为 Decision Trace 横向归档入口;后续新模型打分后,重新生成同类横向页或追加新版本。
- 如果要把模型路由真正落到生产配置,应另开一页“模型路由策略决策”,不要把评测结果页直接当配置变更依据。
- 对 S/A 梯队再做一次真实工具链压测,尤其是 live verification、长任务收口和低噪音表达。
风险与边界
- 该评测是小墨场景 benchmark,不等价于通用学术 benchmark。
- 部分模型名来自 provider alias,可能对应不同后端版本;同名多 run 只代表当时链路状态。
- 评分基线以
gpt-5.4为主,早期个别结果可能存在口径演进,需要看趋势而不是孤立分数。