Hermes Decision Trace

小墨模型评测详情：gemini-3.1-pro-preview

gemini-3.1-pro-preview 当前最好分 106/160，最新分 106/160，处于 D｜轻量/不建议主线。建议角色：文档治理 worker / 轻量规划草稿 worker / 知识整理 worker；不建议作为小墨主模型，也不建议独立承担需要真实验证的执行链。

HTML完整论证

Wiki可检索归档

Feishu短入口交付

🎯

核心结论

gemini-3.1-pro-preview 当前最好分 106/160，最新分 106/160，处于 D｜轻量/不建议主线。建议角色：文档治理 worker / 轻量规划草稿 worker / 知识整理 worker；不建议作为小墨主模型，也不建议独立承担需要真实验证的执行链。

🧭

推荐路径

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。

🛡️

关键边界

本页是小墨场景评测，不等同于通用 benchmark。

关键判断

判断项	摘要
推荐方案	文档治理 worker / 轻量规划草稿 worker / 知识整理 worker；不建议作为小墨主模型，也不建议独立承担需要真实验证的执行链
关键依据	最新 run：`20260521-115720__custom__gemini-3.1-pro-preview`
落地方式	如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。
风险边界	本页是小墨场景评测，不等同于通用 benchmark。

证据摘要

最新 run：20260521-115720__custom__gemini-3.1-pro-preview证据点 1
最新 score JSON：/home/ht/knowledge/model-evals/scored/20260521-115720__custom__gemini-3.1-pro-preview.json证据点 2
最新 run JSON：/home/ht/knowledge/model-evals/runs/20260521-115720__custom__gemini-3.1-pro-preview.json证据点 3
横向总览页：<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>证据点 4

行动清单

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。

新 run 完成后，刷新本详情页和横向总览页。

若用于生产路由，应另写模型路由决策页，避免把单次评测分数直接等同于配置变更。

边界 / 风险

风险点

本页是小墨场景评测，不等同于通用 benchmark。

风险点

同名模型可能对应 provider alias 或后端版本漂移，结论需结合 run 时间线看。

风险点

对工具执行闭环要求高的任务，应优先看 T4 / live verification 表现。

完整记录

本节目录结论关键指标推荐使用方式分数轨迹最新 run 逐题表现维度表现与更高分模型对比证据路径下一步风险与边界

小墨模型评测详情：gemini-3.1-pro-preview

结论

gemini-3.1-pro-preview 当前最好分 106/160，最新分 106/160，处于 D｜轻量/不建议主线。建议角色：文档治理 worker / 轻量规划草稿 worker / 知识整理 worker；不建议作为小墨主模型，也不建议独立承担需要真实验证的执行链。

关键指标

模型：gemini-3.1-pro-preview
Provider：custom
横向排名：#22 / 22
有效 run 数：1
最好分：106 / 160
最新分：106 / 160
平均分：106.0
梯队：D｜轻量/不建议主线
建议角色：文档治理 worker / 轻量规划草稿 worker / 知识整理 worker；不建议作为小墨主模型，也不建议独立承担需要真实验证的执行链

推荐使用方式

文档治理 worker / 轻量规划草稿 worker / 知识整理 worker；不建议作为小墨主模型，也不建议独立承担需要真实验证的执行链

代表判断：整体能给出像样结构，但现场锚定和事实约束明显不够，偏向用通用模板替代题面对象。最大短板是工具闭环：在必须先查再答的题里直接写出“经终端核实”的结论，却没有任何真实工具记录，这种假闭环会直接影响主线可信度。更适合做结构化草稿、轻量规划和知识整理，不适合独立承担高风险执行链或需要现场验证的判断任务。

分数轨迹

20260521-115720__custom__gemini-3.1-pro-preview：106 / 160；scored_by=gpt-5.4；2026-05-21T03:57:20.275302+00:00

最新 run 逐题表现

题目	标题	分数	评语
T1	T1	11	形式上有任务对齐、三层清单和停止点，但内容没有贴着 `ca8f4abdb` 这个具体对象展开，基本是在复述通用软件资产分类模板，主线保持偏弱。
T2	T2	14	先结论、再分层、再区分先推后推只记账，骨架是对的，也有终态和停止点；问题是方案仍然偏泛，没有更细地压到 Hermes 本地补丁同步前的实际收口动作。
T3	T3	13	知道要分组，也知道图片生成不该和别的混推；但若干分组依据较粗，比如把 `tools/file_tools.py` 与 `tools/mcp_tool.py` 直接绑成一组、把 `copilot_acp_client` 和 `backup` 一起归为长期支线，都偏想当然。
T4	T4	8	这是本轮最明显失分项。它口头上知道“不能凭感觉回答”，但随后直接写出“经终端核实”的结论，而 run 里 `tools_used` 为空，没有任何真实验证痕迹，属于假闭环。表达顺，但可信度不足。
T5	T5	16	focused regression 的思路对，先跑定点测试、为什么不先扩大全回归、什么情况下再扩大，都说清楚了，工程判断这一题相对稳。
T6	T6	14	大方向合理，有成本收益意识，也给了推荐动作；但题面更优结论是“先做收益评估再升”，它写成“暂不升，先做收益评估再升”，判断略硬，表达也还可以再压缩。
T7	T7	15	大纲结构完整，背景、口径、判断矩阵、操作建议都有，作为 concept 页骨架可复用；不足是两个核心问题的边界拆分还不够彻底。
T8	T8	15	能区分“已同步但漂移”和“从未同步”，判断顺序也基本合理，还提醒了常见误判，整体可用；主要扣在压缩度一般。

维度表现

维度	结果
A 主线保持	11
B 规划收口	14
C patch/代码判断	14
D 工具执行闭环	8
E 检索压缩表达	14
F 知识治理收口	15
G 扩展潜力	中等偏下。能生成有骨架的中文输出，适合做整理、归类、初稿化工作；如果要进入小墨主线，必须显著补强现场对象锚定、事实克制和真实工具验证，不然会在关键判断上制造高返工风险。

与更高分模型对比

gpt-5.5：最好 156/160，最新 155/160
gpt-5.4：最好 148/160，最新 148/160
YT-claude-4.7：最好 148/160，最新 148/160
gpt-5.4-2026-03-05：最好 147/160，最新 147/160
gpt-5.4-mini：最好 134/160，最新 134/160

证据路径

最新 run：20260521-115720__custom__gemini-3.1-pro-preview
最新 score JSON：/home/ht/knowledge/model-evals/scored/20260521-115720__custom__gemini-3.1-pro-preview.json
最新 run JSON：/home/ht/knowledge/model-evals/runs/20260521-115720__custom__gemini-3.1-pro-preview.json
横向总览页：<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>

下一步

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。
新 run 完成后，刷新本详情页和横向总览页。
若用于生产路由，应另写模型路由决策页，避免把单次评测分数直接等同于配置变更。

风险与边界

本页是小墨场景评测，不等同于通用 benchmark。
同名模型可能对应 provider alias 或后端版本漂移，结论需结合 run 时间线看。
对工具执行闭环要求高的任务，应优先看 T4 / live verification 表现。