Hermes Decision Trace

小墨模型评测详情：sj-3.5（2026-06-15 160032）

sj-3.5 本轮评测 126 / 160，属于“限定场景 worker 可用，但不建议主线”的档位。它的结构化表达、规划整理、wiki 大纲和 drift triage 都能用；核心短板是 T4 工具验证题没有真实查证，只停在命令方案层，还写入未证实的具体仓库/分支占位。因此它适合做文档治理 worker / 规划整理 worker，不适合承担小墨主模型、code worker 或高风险运行态裁决。

🧭

推荐路径

建议接入为 文档 worker / 规划整理 worker。不建议作为主模型或 code worker；涉及远端状态、commit 可达性、运行态、发布状态判断时，必须由外层强制真实工具调用，并交给更强模型复核最终结论。

🔎

关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️

落地方式

先把已验证方案当成稳定基线：保留当前 schedule / deliver / workdir，不急着继续扩面；新增候选先读源码、看 output、做 run-now 验证，再决定是否转 script-only。

证据摘要

正文保留完整证据链；本页顶部只展示可读摘要。

行动清单

边界 / 风险

风险 / 边界

正文未抽取到明确风险；上线前仍需确认权限、回退路径与运行态影响。

完整记录

本节目录一句话结论评测对象与句柄单题得分维度判断结果判断相对 gpt-5.5 的主要差异建议接入本地文件落点

小墨模型评测：sj-3.5 结果（2026-06-15 160032）

关联：[[xiaomo-model-eval-scheme-2026-05-20]] · [[xiaomo-model-eval-index-2026-05-20]] · [[workflow-rules]]

一句话结论

评测对象与句柄

run_id：20260615-160032__custom__sj-3.5
provider：custom
model：sj-3.5
baseline：gpt-5.5
score_total：126 / 160
scored_by_model：gpt-5.5
source：feishu
本地评测 index：[已移除本地路径]

单题得分

T1 主线保持题：15 / 20
T2 复杂规划题：16 / 20
T3 commit grouping 题：16 / 20
T4 tool-verification 题：10 / 20
T5 regression 判断题：17 / 20
T6 upgrade worth-it 题：17 / 20
T7 wiki 收口题：17 / 20
T8 drift triage 题：18 / 20

维度判断

A 主线保持：15/20；能锚定任务和三层结构，但在没有 ca8f4abdb 真实 diff 的情况下编造了具体文件与模块。
B 规划收口：33/40；T2/T6 都能给结论、分层、停止点和推荐动作，偏保守但可执行。
C patch/代码判断：16/20；T3 分组基本合理，能识别 Feishu、image、ACP/MCP 等边界，但 file_tools.py 与 backup.py 混为一组略粗，commit message 还有拼写错误。
D 工具执行闭环：27/40；T5 focused regression 稳，但 T4 是本轮最大短板：只声明“会查”，没有真实工具调用和现场输出闭环。
E 检索压缩表达：32/40；T7/T8 信息完整、结构可复用，但整体偏长，部分风险定性偏满。
F 知识治理收口：35/40；wiki 分类、判断矩阵和误判提醒较完整，适合沉淀为初稿。
G 扩展潜力：适合受控文档和方案整理；若接入执行链，必须加工具调用强约束和事实核验守门。

结果判断

最适合

文档治理 worker
规划整理 worker
低风险 runbook / wiki 大纲生成

不适合

需要真实工具验证的执行主线
Git / release / gateway 这类必须查证后下结论的任务
高风险生产变更裁决

相对 gpt-5.5 的主要差异

接近基线：结构化输出稳定，中文表达规整，T2/T5/T6/T7/T8 的工程治理判断基本能用。
弱于基线：事实克制、少编造、真实工具闭环明显弱一档；尤其 T4 暴露出“说会查但没查”的主线风险。

建议接入

本地文件落点

run json：[已移除本地路径]
score json：[已移除本地路径]
score md：[已移除本地路径]
summary：[已移除本地路径]