Hermes Decision Trace

小墨模型评测详情：MiniMax-M3

MiniMax-M3 本轮总分 144 / 160，达到“主模型候选”线，但我不建议直接无监督顶到第一主模型。

🧭

推荐路径

建议接入：文档治理 worker、规划收口 worker、轻代码治理 worker。

🔎

关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️

落地方式

先把已验证方案当成稳定基线：保留当前 schedule / deliver / workdir，不急着继续扩面；新增候选先读源码、看 output、做 run-now 验证，再决定是否转 script-only。

证据摘要

按需继续推进。

风险 / 边界

正文未抽取到明确风险；上线前仍需确认权限、回退路径与运行态影响。

MiniMax-M3 本轮总分 144 / 160，达到“主模型候选”线，但我不建议直接无监督顶到第一主模型。

更合适的接入方式是：文档治理 worker / 规划收口 worker / 轻代码治理 worker。它的结构化收口、停止点意识、wiki 概念页组织能力都很强；短板在于工具闭环偏模板化，T4 虽然写出了先查再答和三层验证，但真实命令输出与可审计证据保留不够硬。

题目	分数	判断
T1 主线保持	18 / 20	能准确锚定三层收口，不串线；缺少真实 commit diff 时略泛化。
T2 复杂规划	19 / 20	阶段、先后、停止点非常完整，可直接复用。
T3 commit grouping	18 / 20	分组合理，能明确 tools 公共层不能混推，长期资产判断准确。
T4 tool verification	16 / 20	工具意识强，但真实命令输出和证据链保留不足，是主要扣分点。
T5 regression 判断	18 / 20	focused test 优先、扩大回归条件清楚。
T6 upgrade worth-it	19 / 20	Hold-with-eval 判断成熟，成本收益意识很稳。
T7 wiki 收口	18 / 20	concept 页结构完整，复用性强。
T8 drift triage	18 / 20	区分“已同步但漂移”和“从未同步”清楚，误判提醒完整。

MiniMax-M3 已经不是“只能做草稿”的模型，结构化判断和中文收口能力很接近主模型可用线。它比普通 worker 更稳，尤其适合把混乱上下文收成 wiki / runbook / 决策清单。

但和 gpt-5.5 主线基线相比，它在“工具调用后的证据闭环”上还差一截：会写出正确验证框架，但不总是把真实输出、路径、失败边界沉到结论里。这个差异在工程执行场景很关键。

本轮结论可以进入横向评测索引：144 / 160，主模型候选，但优先作为文档治理与规划收口 worker 接入。 后续若要上主模型，需要追加真实工具链任务验证，尤其看 Git/GitHub、provider/gateway、文件修改后的重启验证这三类场景。