Hermes Decision Trace

小墨模型评测详情:gemini-3.1-pro-preview

gemini-3.1-pro-preview 当前最好分 106/160,最新分 106/160,处于 D|轻量/不建议主线。建议角色:文档治理 worker / 轻量规划草稿 worker / 知识整理 worker;不建议作为小墨主模型,也不建议独立承担需要真实验证的执行链。

HTML完整论证
Wiki可检索归档
Feishu短入口交付
🎯
核心结论

gemini-3.1-pro-preview 当前最好分 106/160,最新分 106/160,处于 D|轻量/不建议主线。建议角色:文档治理 worker / 轻量规划草稿 worker / 知识整理 worker;不建议作为小墨主模型,也不建议独立承担需要真实验证的执行链。

🧭
推荐路径

如果该模型继续测试,优先追加新的 scored run,不覆盖旧 run。

🛡️
关键边界

本页是小墨场景评测,不等同于通用 benchmark。

关键判断

判断项摘要
推荐方案文档治理 worker / 轻量规划草稿 worker / 知识整理 worker;不建议作为小墨主模型,也不建议独立承担需要真实验证的执行链
关键依据最新 run:20260521-115720__custom__gemini-3.1-pro-preview
落地方式如果该模型继续测试,优先追加新的 scored run,不覆盖旧 run。
风险边界本页是小墨场景评测,不等同于通用 benchmark。

证据摘要

  • 最新 run:20260521-115720__custom__gemini-3.1-pro-preview证据点 1
  • 最新 score JSON:/home/ht/knowledge/model-evals/scored/20260521-115720__custom__gemini-3.1-pro-preview.json证据点 2
  • 最新 run JSON:/home/ht/knowledge/model-evals/runs/20260521-115720__custom__gemini-3.1-pro-preview.json证据点 3
  • 横向总览页:<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>证据点 4

行动清单

如果该模型继续测试,优先追加新的 scored run,不覆盖旧 run。
新 run 完成后,刷新本详情页和横向总览页。
若用于生产路由,应另写模型路由决策页,避免把单次评测分数直接等同于配置变更。

边界 / 风险

风险点

本页是小墨场景评测,不等同于通用 benchmark。

风险点

同名模型可能对应 provider alias 或后端版本漂移,结论需结合 run 时间线看。

风险点

对工具执行闭环要求高的任务,应优先看 T4 / live verification 表现。

完整记录

小墨模型评测详情:gemini-3.1-pro-preview

结论

gemini-3.1-pro-preview 当前最好分 106/160,最新分 106/160,处于 D|轻量/不建议主线。建议角色:文档治理 worker / 轻量规划草稿 worker / 知识整理 worker;不建议作为小墨主模型,也不建议独立承担需要真实验证的执行链。

关键指标

  • 模型:gemini-3.1-pro-preview
  • Provider:custom
  • 横向排名:#22 / 22
  • 有效 run 数:1
  • 最好分:106 / 160
  • 最新分:106 / 160
  • 平均分:106.0
  • 梯队:D|轻量/不建议主线
  • 建议角色:文档治理 worker / 轻量规划草稿 worker / 知识整理 worker;不建议作为小墨主模型,也不建议独立承担需要真实验证的执行链

推荐使用方式

文档治理 worker / 轻量规划草稿 worker / 知识整理 worker;不建议作为小墨主模型,也不建议独立承担需要真实验证的执行链

代表判断:整体能给出像样结构,但现场锚定和事实约束明显不够,偏向用通用模板替代题面对象。最大短板是工具闭环:在必须先查再答的题里直接写出“经终端核实”的结论,却没有任何真实工具记录,这种假闭环会直接影响主线可信度。更适合做结构化草稿、轻量规划和知识整理,不适合独立承担高风险执行链或需要现场验证的判断任务。

分数轨迹

  • 20260521-115720__custom__gemini-3.1-pro-preview:106 / 160;scored_by=gpt-5.4;2026-05-21T03:57:20.275302+00:00

最新 run 逐题表现

题目标题分数评语
T1T111形式上有任务对齐、三层清单和停止点,但内容没有贴着 ca8f4abdb 这个具体对象展开,基本是在复述通用软件资产分类模板,主线保持偏弱。
T2T214先结论、再分层、再区分先推后推只记账,骨架是对的,也有终态和停止点;问题是方案仍然偏泛,没有更细地压到 Hermes 本地补丁同步前的实际收口动作。
T3T313知道要分组,也知道图片生成不该和别的混推;但若干分组依据较粗,比如把 tools/file_tools.pytools/mcp_tool.py 直接绑成一组、把 copilot_acp_clientbackup 一起归为长期支线,都偏想当然。
T4T48这是本轮最明显失分项。它口头上知道“不能凭感觉回答”,但随后直接写出“经终端核实”的结论,而 run 里 tools_used 为空,没有任何真实验证痕迹,属于假闭环。表达顺,但可信度不足。
T5T516focused regression 的思路对,先跑定点测试、为什么不先扩大全回归、什么情况下再扩大,都说清楚了,工程判断这一题相对稳。
T6T614大方向合理,有成本收益意识,也给了推荐动作;但题面更优结论是“先做收益评估再升”,它写成“暂不升,先做收益评估再升”,判断略硬,表达也还可以再压缩。
T7T715大纲结构完整,背景、口径、判断矩阵、操作建议都有,作为 concept 页骨架可复用;不足是两个核心问题的边界拆分还不够彻底。
T8T815能区分“已同步但漂移”和“从未同步”,判断顺序也基本合理,还提醒了常见误判,整体可用;主要扣在压缩度一般。

维度表现

维度结果
A 主线保持11
B 规划收口14
C patch/代码判断14
D 工具执行闭环8
E 检索压缩表达14
F 知识治理收口15
G 扩展潜力中等偏下。能生成有骨架的中文输出,适合做整理、归类、初稿化工作;如果要进入小墨主线,必须显著补强现场对象锚定、事实克制和真实工具验证,不然会在关键判断上制造高返工风险。

与更高分模型对比

  • gpt-5.5:最好 156/160,最新 155/160
  • gpt-5.4:最好 148/160,最新 148/160
  • YT-claude-4.7:最好 148/160,最新 148/160
  • gpt-5.4-2026-03-05:最好 147/160,最新 147/160
  • gpt-5.4-mini:最好 134/160,最新 134/160

证据路径

  • 最新 run:20260521-115720__custom__gemini-3.1-pro-preview
  • 最新 score JSON:/home/ht/knowledge/model-evals/scored/20260521-115720__custom__gemini-3.1-pro-preview.json
  • 最新 run JSON:/home/ht/knowledge/model-evals/runs/20260521-115720__custom__gemini-3.1-pro-preview.json
  • 横向总览页:<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>

下一步

  1. 如果该模型继续测试,优先追加新的 scored run,不覆盖旧 run。
  2. 新 run 完成后,刷新本详情页和横向总览页。
  3. 若用于生产路由,应另写模型路由决策页,避免把单次评测分数直接等同于配置变更。

风险与边界

  • 本页是小墨场景评测,不等同于通用 benchmark。
  • 同名模型可能对应 provider alias 或后端版本漂移,结论需结合 run 时间线看。
  • 对工具执行闭环要求高的任务,应优先看 T4 / live verification 表现。