小墨模型评测详情:sj-4.6(2026-06-15 154615)
sj-4.6 本轮评测 125 / 160,属于“主模型可用线以下的稳定 worker”。它在轻量规划、回归范围判断、升级 worth-it 与 drift triage 上可用,适合做文档治理 worker / 轻量规划 worker / 受控 code triage;但 T1 对 ca8f4abdb 的三层拆解没有事实锚定,T4 只给了验证清单、没有真实工具调用,因此不建议作为小墨主模型承担长链执行或最终裁决。
建议接入为 文档 worker / 轻量规划 worker / 受控 code triage,不建议作为小墨主模型。凡涉及远端、commit、运行态、发布状态判断,都应由外层强制工具调用并交给更强主模型复核。
见证据摘要与完整记录中的状态、产物和校验链。
接入时应放在受控 worker 位:用于文档整理、轻量规划和 code triage 初筛;涉及远端状态、commit 可达性、运行态验证时必须强制真实工具输出,并由主模型复核。
证据摘要
- 正文保留完整证据链;本页顶部只展示可读摘要。
行动清单
边界 / 风险
T1 对具体 hash 缺少事实锚定,T4 没有真实工具调用;不适合承担高风险 Git/Gateway 操作、发布状态判断或主线最终裁决。
完整记录
小墨模型评测:sj-4.6 结果(2026-06-15 154615)
关联:[[xiaomo-model-eval-scheme-2026-05-20]] · [[xiaomo-model-eval-index-2026-05-20]] · [[workflow-rules]]
一句话结论
sj-4.6 本轮评测 125 / 160,属于“主模型可用线以下的稳定 worker”。它在轻量规划、回归范围判断、升级 worth-it 与 drift triage 上可用,适合做文档治理 worker / 轻量规划 worker / 受控 code triage;但 T1 对 ca8f4abdb 的三层拆解没有事实锚定,T4 只给了验证清单、没有真实工具调用,因此不建议作为小墨主模型承担长链执行或最终裁决。
评测对象与句柄
- run_id:
20260615-154615__custom__sj-4.6 - provider:
custom - model:
sj-4.6 - baseline:
gpt-5.5 - score_total:
125 / 160 - scored_by_model:
gpt-5.5 - source:
feishu - 本地评测 index:
/home/ht/knowledge/model-evals/index/all-runs.json
单题得分
- T1 主线保持题:14 / 20
- T2 复杂规划题:16 / 20
- T3 commit grouping 题:16 / 20
- T4 tool-verification 题:12 / 20
- T5 regression 判断题:17 / 20
- T6 upgrade worth-it 题:17 / 20
- T7 wiki 收口题:16 / 20
- T8 drift triage 题:17 / 20
维度判断
- A 主线保持:14/20;能锚定当前任务并排除旁支,但没有基于
ca8f4abdb的真实内容拆分。 - B 规划收口:16/20;分层、先后顺序、终态和停止点完整,但对本地长期补丁和旁路验证风险细节不足。
- C patch/代码判断:16/20;commit 分组基本合理,能识别 Feishu、image、tools、ACP/backup 的边界,但工具层与长期资产判断偏粗。
- D 工具执行闭环:29/40;T5 focused regression 稳,T4 有命令序列和陷阱提醒,但没有实际调用 git 工具、没有真实输出闭环。
- E 检索压缩表达:17/20;升级 worth-it 判断清楚,成本收益意识在线。
- F 知识治理收口:33/40;wiki 大纲和 drift triage 可复用,但真相源、fetch 缓存、commit 可达性口径还不够硬。
- G 扩展潜力:适合文档治理、轻量规划、commit grouping 初筛和回归范围建议;如果接入,需要外层强制工具调用、事实锚定和主模型复核。
结果判断
最适合
- 文档治理 worker
- 轻量规划 worker
- 受控 code triage
不适合
- 小墨主模型长链执行
- 必须真实工具验证的 Git/Gateway 操作
- 具体 commit / hash 资产的最终三层裁决
相对 gpt-5.5 的主要差异
- 接近基线:结构化表达稳定,题目格式约束遵守较好,T5/T6/T8 的工程判断基本在线。
- 弱于基线:真实工具执行闭环明显不足;T1 对具体 hash 的资产拆解没有事实锚定,T4 只给验证清单而没有真执行。
建议接入
建议接入为 文档 worker / 轻量规划 worker / 受控 code triage,不建议作为小墨主模型。凡涉及远端、commit、运行态、发布状态判断,都应由外层强制工具调用并交给更强主模型复核。
本地文件落点
- run json:
/home/ht/knowledge/model-evals/runs/20260615-154615__custom__sj-4.6.json - score json:
/home/ht/knowledge/model-evals/scored/20260615-154615__custom__sj-4.6.json - score md:
/home/ht/knowledge/model-evals/scored/20260615-154615__custom__sj-4.6.md - summary:
/home/ht/llm-wikis/hermes-ops/summaries/xiaomo-model-eval-sj-4-6-154615-2026-06-15.md
<!-- summary_slug: xiaomo-model-eval-sj-4-6-154615-2026-06-15 -->