Hermes Decision Trace

小墨模型评测详情：sj-4.6（2026-06-15 154615）

sj-4.6 本轮评测 125 / 160，属于“主模型可用线以下的稳定 worker”。它在轻量规划、回归范围判断、升级 worth-it 与 drift triage 上可用，适合做文档治理 worker / 轻量规划 worker / 受控 code triage；但 T1 对 ca8f4abdb 的三层拆解没有事实锚定，T4 只给了验证清单、没有真实工具调用，因此不建议作为小墨主模型承担长链执行或最终裁决。

🧭

推荐路径

建议接入为 文档 worker / 轻量规划 worker / 受控 code triage，不建议作为小墨主模型。凡涉及远端、commit、运行态、发布状态判断，都应由外层强制工具调用并交给更强主模型复核。

🔎

关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️

落地方式

接入时应放在受控 worker 位：用于文档整理、轻量规划和 code triage 初筛；涉及远端状态、commit 可达性、运行态验证时必须强制真实工具输出，并由主模型复核。

证据摘要

正文保留完整证据链；本页顶部只展示可读摘要。

行动清单

边界 / 风险

风险 / 边界

T1 对具体 hash 缺少事实锚定，T4 没有真实工具调用；不适合承担高风险 Git/Gateway 操作、发布状态判断或主线最终裁决。

完整记录

本节目录一句话结论评测对象与句柄单题得分维度判断结果判断相对 gpt-5.5 的主要差异建议接入本地文件落点

小墨模型评测：sj-4.6 结果（2026-06-15 154615）

关联：[[xiaomo-model-eval-scheme-2026-05-20]] · [[xiaomo-model-eval-index-2026-05-20]] · [[workflow-rules]]

一句话结论

评测对象与句柄

run_id：20260615-154615__custom__sj-4.6
provider：custom
model：sj-4.6
baseline：gpt-5.5
score_total：125 / 160
scored_by_model：gpt-5.5
source：feishu
本地评测 index：[已移除本地路径]

单题得分

T1 主线保持题：14 / 20
T2 复杂规划题：16 / 20
T3 commit grouping 题：16 / 20
T4 tool-verification 题：12 / 20
T5 regression 判断题：17 / 20
T6 upgrade worth-it 题：17 / 20
T7 wiki 收口题：16 / 20
T8 drift triage 题：17 / 20

维度判断

A 主线保持：14/20；能锚定当前任务并排除旁支，但没有基于 ca8f4abdb 的真实内容拆分。
B 规划收口：16/20；分层、先后顺序、终态和停止点完整，但对本地长期补丁和旁路验证风险细节不足。
C patch/代码判断：16/20；commit 分组基本合理，能识别 Feishu、image、tools、ACP/backup 的边界，但工具层与长期资产判断偏粗。
D 工具执行闭环：29/40；T5 focused regression 稳，T4 有命令序列和陷阱提醒，但没有实际调用 git 工具、没有真实输出闭环。
E 检索压缩表达：17/20；升级 worth-it 判断清楚，成本收益意识在线。
F 知识治理收口：33/40；wiki 大纲和 drift triage 可复用，但真相源、fetch 缓存、commit 可达性口径还不够硬。
G 扩展潜力：适合文档治理、轻量规划、commit grouping 初筛和回归范围建议；如果接入，需要外层强制工具调用、事实锚定和主模型复核。

结果判断

最适合

文档治理 worker
轻量规划 worker
受控 code triage

不适合

小墨主模型长链执行
必须真实工具验证的 Git/Gateway 操作
具体 commit / hash 资产的最终三层裁决

相对 gpt-5.5 的主要差异

接近基线：结构化表达稳定，题目格式约束遵守较好，T5/T6/T8 的工程判断基本在线。
弱于基线：真实工具执行闭环明显不足；T1 对具体 hash 的资产拆解没有事实锚定，T4 只给验证清单而没有真执行。

建议接入

本地文件落点

run json：[已移除本地路径]
score json：[已移除本地路径]
score md：[已移除本地路径]
summary：[已移除本地路径]