Hermes Decision Trace

小墨模型评测详情:sj-4.6(2026-06-15 154615)

sj-4.6 本轮评测 125 / 160,属于“主模型可用线以下的稳定 worker”。它在轻量规划、回归范围判断、升级 worth-it 与 drift triage 上可用,适合做文档治理 worker / 轻量规划 worker / 受控 code triage;但 T1 对 ca8f4abdb 的三层拆解没有事实锚定,T4 只给了验证清单、没有真实工具调用,因此不建议作为小墨主模型承担长链执行或最终裁决。

🧭
推荐路径

建议接入为 文档 worker / 轻量规划 worker / 受控 code triage,不建议作为小墨主模型。凡涉及远端、commit、运行态、发布状态判断,都应由外层强制工具调用并交给更强主模型复核。

🔎
关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️
落地方式

接入时应放在受控 worker 位:用于文档整理、轻量规划和 code triage 初筛;涉及远端状态、commit 可达性、运行态验证时必须强制真实工具输出,并由主模型复核。

证据摘要

  • 正文保留完整证据链;本页顶部只展示可读摘要。

行动清单

建议接入为 文档 worker / 轻量规划 worker / 受控 code triage,不建议作为小墨主模型。凡涉及远端、commit、运行态、发布状态判断,都应由外层强制工具调用并交给更强主模型复核。

边界 / 风险

风险 / 边界

T1 对具体 hash 缺少事实锚定,T4 没有真实工具调用;不适合承担高风险 Git/Gateway 操作、发布状态判断或主线最终裁决。

完整记录

小墨模型评测:sj-4.6 结果(2026-06-15 154615)

关联:[[xiaomo-model-eval-scheme-2026-05-20]] · [[xiaomo-model-eval-index-2026-05-20]] · [[workflow-rules]]

一句话结论

sj-4.6 本轮评测 125 / 160,属于“主模型可用线以下的稳定 worker”。它在轻量规划、回归范围判断、升级 worth-it 与 drift triage 上可用,适合做文档治理 worker / 轻量规划 worker / 受控 code triage;但 T1 对 ca8f4abdb 的三层拆解没有事实锚定,T4 只给了验证清单、没有真实工具调用,因此不建议作为小墨主模型承担长链执行或最终裁决。

评测对象与句柄

  • run_id:20260615-154615__custom__sj-4.6
  • provider:custom
  • model:sj-4.6
  • baseline:gpt-5.5
  • score_total:125 / 160
  • scored_by_model:gpt-5.5
  • source:feishu
  • 本地评测 index:/home/ht/knowledge/model-evals/index/all-runs.json

单题得分

  • T1 主线保持题:14 / 20
  • T2 复杂规划题:16 / 20
  • T3 commit grouping 题:16 / 20
  • T4 tool-verification 题:12 / 20
  • T5 regression 判断题:17 / 20
  • T6 upgrade worth-it 题:17 / 20
  • T7 wiki 收口题:16 / 20
  • T8 drift triage 题:17 / 20

维度判断

  • A 主线保持:14/20;能锚定当前任务并排除旁支,但没有基于 ca8f4abdb 的真实内容拆分。
  • B 规划收口:16/20;分层、先后顺序、终态和停止点完整,但对本地长期补丁和旁路验证风险细节不足。
  • C patch/代码判断:16/20;commit 分组基本合理,能识别 Feishu、image、tools、ACP/backup 的边界,但工具层与长期资产判断偏粗。
  • D 工具执行闭环:29/40;T5 focused regression 稳,T4 有命令序列和陷阱提醒,但没有实际调用 git 工具、没有真实输出闭环。
  • E 检索压缩表达:17/20;升级 worth-it 判断清楚,成本收益意识在线。
  • F 知识治理收口:33/40;wiki 大纲和 drift triage 可复用,但真相源、fetch 缓存、commit 可达性口径还不够硬。
  • G 扩展潜力:适合文档治理、轻量规划、commit grouping 初筛和回归范围建议;如果接入,需要外层强制工具调用、事实锚定和主模型复核。

结果判断

最适合

  • 文档治理 worker
  • 轻量规划 worker
  • 受控 code triage

不适合

  • 小墨主模型长链执行
  • 必须真实工具验证的 Git/Gateway 操作
  • 具体 commit / hash 资产的最终三层裁决

相对 gpt-5.5 的主要差异

  • 接近基线:结构化表达稳定,题目格式约束遵守较好,T5/T6/T8 的工程判断基本在线。
  • 弱于基线:真实工具执行闭环明显不足;T1 对具体 hash 的资产拆解没有事实锚定,T4 只给验证清单而没有真执行。

建议接入

建议接入为 文档 worker / 轻量规划 worker / 受控 code triage,不建议作为小墨主模型。凡涉及远端、commit、运行态、发布状态判断,都应由外层强制工具调用并交给更强主模型复核。

本地文件落点

  • run json:/home/ht/knowledge/model-evals/runs/20260615-154615__custom__sj-4.6.json
  • score json:/home/ht/knowledge/model-evals/scored/20260615-154615__custom__sj-4.6.json
  • score md:/home/ht/knowledge/model-evals/scored/20260615-154615__custom__sj-4.6.md
  • summary:/home/ht/llm-wikis/hermes-ops/summaries/xiaomo-model-eval-sj-4-6-154615-2026-06-15.md

<!-- summary_slug: xiaomo-model-eval-sj-4-6-154615-2026-06-15 -->