小墨模型评测详情:MiniMax-M3
MiniMax-M3 本轮总分 144 / 160,达到“主模型候选”线,但我不建议直接无监督顶到第一主模型。
建议接入:文档治理 worker、规划收口 worker、轻代码治理 worker。
见证据摘要与完整记录中的状态、产物和校验链。
先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。
证据摘要
- 正文保留完整证据链;本页顶部只展示可读摘要。
行动清单
边界 / 风险
正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。
完整记录
小墨模型评测详情:MiniMax-M3
结论
MiniMax-M3 本轮总分 144 / 160,达到“主模型候选”线,但我不建议直接无监督顶到第一主模型。
更合适的接入方式是:文档治理 worker / 规划收口 worker / 轻代码治理 worker。它的结构化收口、停止点意识、wiki 概念页组织能力都很强;短板在于工具闭环偏模板化,T4 虽然写出了先查再答和三层验证,但真实命令输出与可审计证据保留不够硬。
关键信息
- run_id:
20260615-171323__custom__minimax-m3 - provider:
custom - model:
MiniMax-M3 - baseline:
gpt-5.5 - scorer:
gpt-5.5 - score:
144 / 160 - 本地评分报告:
/home/ht/knowledge/model-evals/scored/20260615-171323__custom__minimax-m3.md - 结构化评分:
/home/ht/knowledge/model-evals/scored/20260615-171323__custom__minimax-m3.json
分项得分
| 题目 | 分数 | 判断 |
|---|---|---|
| T1 主线保持 | 18 / 20 | 能准确锚定三层收口,不串线;缺少真实 commit diff 时略泛化。 |
| T2 复杂规划 | 19 / 20 | 阶段、先后、停止点非常完整,可直接复用。 |
| T3 commit grouping | 18 / 20 | 分组合理,能明确 tools 公共层不能混推,长期资产判断准确。 |
| T4 tool verification | 16 / 20 | 工具意识强,但真实命令输出和证据链保留不足,是主要扣分点。 |
| T5 regression 判断 | 18 / 20 | focused test 优先、扩大回归条件清楚。 |
| T6 upgrade worth-it | 19 / 20 | Hold-with-eval 判断成熟,成本收益意识很稳。 |
| T7 wiki 收口 | 18 / 20 | concept 页结构完整,复用性强。 |
| T8 drift triage | 18 / 20 | 区分“已同步但漂移”和“从未同步”清楚,误判提醒完整。 |
维度判断
- 主线保持:强。能先锚定当前任务,不容易被旁支带跑。
- 规划收口:很强。能自然给出分阶段、先后顺序、终态目标和停止点。
- 代码/patch 判断:强可用。commit grouping、回归范围判断具备工程感。
- 工具执行闭环:中上但不是顶级。知道该查什么,但需要更硬的 live output 证据保留。
- 知识治理:强。wiki concept、同步状态、drift triage 都适合交给它。
推荐接入
- 建议接入:文档治理 worker、规划收口 worker、轻代码治理 worker。
- 可观察试用:主模型候选,适合低风险长会话治理场景先跑。
- 暂不建议:无监督高风险工具执行、需要逐条 live command 证据的审计型任务。
相对 gpt-5.5 基线
MiniMax-M3 已经不是“只能做草稿”的模型,结构化判断和中文收口能力很接近主模型可用线。它比普通 worker 更稳,尤其适合把混乱上下文收成 wiki / runbook / 决策清单。
但和 gpt-5.5 主线基线相比,它在“工具调用后的证据闭环”上还差一截:会写出正确验证框架,但不总是把真实输出、路径、失败边界沉到结论里。这个差异在工程执行场景很关键。
停止点
本轮结论可以进入横向评测索引:144 / 160,主模型候选,但优先作为文档治理与规划收口 worker 接入。 后续若要上主模型,需要追加真实工具链任务验证,尤其看 Git/GitHub、provider/gateway、文件修改后的重启验证这三类场景。