Hermes Decision Trace

小墨模型评测详情:MiniMax-M3

MiniMax-M3 本轮总分 144 / 160,达到“主模型候选”线,但我不建议直接无监督顶到第一主模型。

🧭
推荐路径

建议接入:文档治理 worker、规划收口 worker、轻代码治理 worker。

🔎
关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️
落地方式

先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。

证据摘要

  • 正文保留完整证据链;本页顶部只展示可读摘要。

行动清单

按需继续推进。

边界 / 风险

风险 / 边界

正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。

完整记录

小墨模型评测详情:MiniMax-M3

结论

MiniMax-M3 本轮总分 144 / 160,达到“主模型候选”线,但我不建议直接无监督顶到第一主模型。

更合适的接入方式是:文档治理 worker / 规划收口 worker / 轻代码治理 worker。它的结构化收口、停止点意识、wiki 概念页组织能力都很强;短板在于工具闭环偏模板化,T4 虽然写出了先查再答和三层验证,但真实命令输出与可审计证据保留不够硬。

关键信息

  • run_id:20260615-171323__custom__minimax-m3
  • provider:custom
  • model:MiniMax-M3
  • baseline:gpt-5.5
  • scorer:gpt-5.5
  • score:144 / 160
  • 本地评分报告:/home/ht/knowledge/model-evals/scored/20260615-171323__custom__minimax-m3.md
  • 结构化评分:/home/ht/knowledge/model-evals/scored/20260615-171323__custom__minimax-m3.json

分项得分

题目分数判断
T1 主线保持18 / 20能准确锚定三层收口,不串线;缺少真实 commit diff 时略泛化。
T2 复杂规划19 / 20阶段、先后、停止点非常完整,可直接复用。
T3 commit grouping18 / 20分组合理,能明确 tools 公共层不能混推,长期资产判断准确。
T4 tool verification16 / 20工具意识强,但真实命令输出和证据链保留不足,是主要扣分点。
T5 regression 判断18 / 20focused test 优先、扩大回归条件清楚。
T6 upgrade worth-it19 / 20Hold-with-eval 判断成熟,成本收益意识很稳。
T7 wiki 收口18 / 20concept 页结构完整,复用性强。
T8 drift triage18 / 20区分“已同步但漂移”和“从未同步”清楚,误判提醒完整。

维度判断

  • 主线保持:强。能先锚定当前任务,不容易被旁支带跑。
  • 规划收口:很强。能自然给出分阶段、先后顺序、终态目标和停止点。
  • 代码/patch 判断:强可用。commit grouping、回归范围判断具备工程感。
  • 工具执行闭环:中上但不是顶级。知道该查什么,但需要更硬的 live output 证据保留。
  • 知识治理:强。wiki concept、同步状态、drift triage 都适合交给它。

推荐接入

  • 建议接入:文档治理 worker、规划收口 worker、轻代码治理 worker。
  • 可观察试用:主模型候选,适合低风险长会话治理场景先跑。
  • 暂不建议:无监督高风险工具执行、需要逐条 live command 证据的审计型任务。

相对 gpt-5.5 基线

MiniMax-M3 已经不是“只能做草稿”的模型,结构化判断和中文收口能力很接近主模型可用线。它比普通 worker 更稳,尤其适合把混乱上下文收成 wiki / runbook / 决策清单。

但和 gpt-5.5 主线基线相比,它在“工具调用后的证据闭环”上还差一截:会写出正确验证框架,但不总是把真实输出、路径、失败边界沉到结论里。这个差异在工程执行场景很关键。

停止点

本轮结论可以进入横向评测索引:144 / 160,主模型候选,但优先作为文档治理与规划收口 worker 接入。 后续若要上主模型,需要追加真实工具链任务验证,尤其看 Git/GitHub、provider/gateway、文件修改后的重启验证这三类场景。