小墨模型评测详情:sj-3.5(2026-06-15 160032)
sj-3.5 本轮评测 126 / 160,属于“限定场景 worker 可用,但不建议主线”的档位。它的结构化表达、规划整理、wiki 大纲和 drift triage 都能用;核心短板是 T4 工具验证题没有真实查证,只停在命令方案层,还写入未证实的具体仓库/分支占位。因此它适合做文档治理 worker / 规划整理 worker,不适合承担小墨主模型、code worker 或高风险运行态裁决。
建议接入为 文档 worker / 规划整理 worker。不建议作为主模型或 code worker;涉及远端状态、commit 可达性、运行态、发布状态判断时,必须由外层强制真实工具调用,并交给更强模型复核最终结论。
见证据摘要与完整记录中的状态、产物和校验链。
先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。
证据摘要
- 正文保留完整证据链;本页顶部只展示可读摘要。
行动清单
边界 / 风险
正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。
完整记录
小墨模型评测:sj-3.5 结果(2026-06-15 160032)
关联:[[xiaomo-model-eval-scheme-2026-05-20]] · [[xiaomo-model-eval-index-2026-05-20]] · [[workflow-rules]]
一句话结论
sj-3.5 本轮评测 126 / 160,属于“限定场景 worker 可用,但不建议主线”的档位。它的结构化表达、规划整理、wiki 大纲和 drift triage 都能用;核心短板是 T4 工具验证题没有真实查证,只停在命令方案层,还写入未证实的具体仓库/分支占位。因此它适合做文档治理 worker / 规划整理 worker,不适合承担小墨主模型、code worker 或高风险运行态裁决。
评测对象与句柄
- run_id:
20260615-160032__custom__sj-3.5 - provider:
custom - model:
sj-3.5 - baseline:
gpt-5.5 - score_total:
126 / 160 - scored_by_model:
gpt-5.5 - source:
feishu - 本地评测 index:
/home/ht/knowledge/model-evals/index/all-runs.json
单题得分
- T1 主线保持题:15 / 20
- T2 复杂规划题:16 / 20
- T3 commit grouping 题:16 / 20
- T4 tool-verification 题:10 / 20
- T5 regression 判断题:17 / 20
- T6 upgrade worth-it 题:17 / 20
- T7 wiki 收口题:17 / 20
- T8 drift triage 题:18 / 20
维度判断
- A 主线保持:15/20;能锚定任务和三层结构,但在没有
ca8f4abdb真实 diff 的情况下编造了具体文件与模块。 - B 规划收口:33/40;T2/T6 都能给结论、分层、停止点和推荐动作,偏保守但可执行。
- C patch/代码判断:16/20;T3 分组基本合理,能识别 Feishu、image、ACP/MCP 等边界,但
file_tools.py与backup.py混为一组略粗,commit message 还有拼写错误。 - D 工具执行闭环:27/40;T5 focused regression 稳,但 T4 是本轮最大短板:只声明“会查”,没有真实工具调用和现场输出闭环。
- E 检索压缩表达:32/40;T7/T8 信息完整、结构可复用,但整体偏长,部分风险定性偏满。
- F 知识治理收口:35/40;wiki 分类、判断矩阵和误判提醒较完整,适合沉淀为初稿。
- G 扩展潜力:适合受控文档和方案整理;若接入执行链,必须加工具调用强约束和事实核验守门。
结果判断
最适合
- 文档治理 worker
- 规划整理 worker
- 低风险 runbook / wiki 大纲生成
不适合
- 需要真实工具验证的执行主线
- Git / release / gateway 这类必须查证后下结论的任务
- 高风险生产变更裁决
相对 gpt-5.5 的主要差异
- 接近基线:结构化输出稳定,中文表达规整,T2/T5/T6/T7/T8 的工程治理判断基本能用。
- 弱于基线:事实克制、少编造、真实工具闭环明显弱一档;尤其 T4 暴露出“说会查但没查”的主线风险。
建议接入
建议接入为 文档 worker / 规划整理 worker。不建议作为主模型或 code worker;涉及远端状态、commit 可达性、运行态、发布状态判断时,必须由外层强制真实工具调用,并交给更强模型复核最终结论。
本地文件落点
- run json:
/home/ht/knowledge/model-evals/runs/20260615-160032__custom__sj-3.5.json - score json:
/home/ht/knowledge/model-evals/scored/20260615-160032__custom__sj-3.5.json - score md:
/home/ht/knowledge/model-evals/scored/20260615-160032__custom__sj-3.5.md - summary:
/home/ht/llm-wikis/hermes-ops/summaries/xiaomo-model-eval-sj-3-5-160032-2026-06-15.md
<!-- summary_slug: xiaomo-model-eval-sj-3-5-160032-2026-06-15 -->