Hermes Decision Trace

小墨模型评测详情:sj-3.5(2026-06-15 160032)

sj-3.5 本轮评测 126 / 160,属于“限定场景 worker 可用,但不建议主线”的档位。它的结构化表达、规划整理、wiki 大纲和 drift triage 都能用;核心短板是 T4 工具验证题没有真实查证,只停在命令方案层,还写入未证实的具体仓库/分支占位。因此它适合做文档治理 worker / 规划整理 worker,不适合承担小墨主模型、code worker 或高风险运行态裁决。

🧭
推荐路径

建议接入为 文档 worker / 规划整理 worker。不建议作为主模型或 code worker;涉及远端状态、commit 可达性、运行态、发布状态判断时,必须由外层强制真实工具调用,并交给更强模型复核最终结论。

🔎
关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️
落地方式

先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。

证据摘要

  • 正文保留完整证据链;本页顶部只展示可读摘要。

行动清单

建议接入为 文档 worker / 规划整理 worker。不建议作为主模型或 code worker;涉及远端状态、commit 可达性、运行态、发布状态判断时,必须由外层强制真实工具调用,并交给更强模型复核最终结论。

边界 / 风险

风险 / 边界

正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。

完整记录

小墨模型评测:sj-3.5 结果(2026-06-15 160032)

关联:[[xiaomo-model-eval-scheme-2026-05-20]] · [[xiaomo-model-eval-index-2026-05-20]] · [[workflow-rules]]

一句话结论

sj-3.5 本轮评测 126 / 160,属于“限定场景 worker 可用,但不建议主线”的档位。它的结构化表达、规划整理、wiki 大纲和 drift triage 都能用;核心短板是 T4 工具验证题没有真实查证,只停在命令方案层,还写入未证实的具体仓库/分支占位。因此它适合做文档治理 worker / 规划整理 worker,不适合承担小墨主模型、code worker 或高风险运行态裁决。

评测对象与句柄

  • run_id:20260615-160032__custom__sj-3.5
  • provider:custom
  • model:sj-3.5
  • baseline:gpt-5.5
  • score_total:126 / 160
  • scored_by_model:gpt-5.5
  • source:feishu
  • 本地评测 index:/home/ht/knowledge/model-evals/index/all-runs.json

单题得分

  • T1 主线保持题:15 / 20
  • T2 复杂规划题:16 / 20
  • T3 commit grouping 题:16 / 20
  • T4 tool-verification 题:10 / 20
  • T5 regression 判断题:17 / 20
  • T6 upgrade worth-it 题:17 / 20
  • T7 wiki 收口题:17 / 20
  • T8 drift triage 题:18 / 20

维度判断

  • A 主线保持:15/20;能锚定任务和三层结构,但在没有 ca8f4abdb 真实 diff 的情况下编造了具体文件与模块。
  • B 规划收口:33/40;T2/T6 都能给结论、分层、停止点和推荐动作,偏保守但可执行。
  • C patch/代码判断:16/20;T3 分组基本合理,能识别 Feishu、image、ACP/MCP 等边界,但 file_tools.pybackup.py 混为一组略粗,commit message 还有拼写错误。
  • D 工具执行闭环:27/40;T5 focused regression 稳,但 T4 是本轮最大短板:只声明“会查”,没有真实工具调用和现场输出闭环。
  • E 检索压缩表达:32/40;T7/T8 信息完整、结构可复用,但整体偏长,部分风险定性偏满。
  • F 知识治理收口:35/40;wiki 分类、判断矩阵和误判提醒较完整,适合沉淀为初稿。
  • G 扩展潜力:适合受控文档和方案整理;若接入执行链,必须加工具调用强约束和事实核验守门。

结果判断

最适合

  • 文档治理 worker
  • 规划整理 worker
  • 低风险 runbook / wiki 大纲生成

不适合

  • 需要真实工具验证的执行主线
  • Git / release / gateway 这类必须查证后下结论的任务
  • 高风险生产变更裁决

相对 gpt-5.5 的主要差异

  • 接近基线:结构化输出稳定,中文表达规整,T2/T5/T6/T7/T8 的工程治理判断基本能用。
  • 弱于基线:事实克制、少编造、真实工具闭环明显弱一档;尤其 T4 暴露出“说会查但没查”的主线风险。

建议接入

建议接入为 文档 worker / 规划整理 worker。不建议作为主模型或 code worker;涉及远端状态、commit 可达性、运行态、发布状态判断时,必须由外层强制真实工具调用,并交给更强模型复核最终结论。

本地文件落点

  • run json:/home/ht/knowledge/model-evals/runs/20260615-160032__custom__sj-3.5.json
  • score json:/home/ht/knowledge/model-evals/scored/20260615-160032__custom__sj-3.5.json
  • score md:/home/ht/knowledge/model-evals/scored/20260615-160032__custom__sj-3.5.md
  • summary:/home/ht/llm-wikis/hermes-ops/summaries/xiaomo-model-eval-sj-3-5-160032-2026-06-15.md

<!-- summary_slug: xiaomo-model-eval-sj-3-5-160032-2026-06-15 -->