Hermes Decision Trace
小墨模型评测详情:MC-4.8(2026-06-15 164052)
MC-4.8 本轮小墨模型评测得分 133 / 160,属于“主模型可用,但需要看偏科项”的区间。它适合做文档治理 worker、规划/同步收口 worker,也可以作为轻量主线候选试用;但不建议无约束替代 gpt-5.5 承担强工具闭环、远端验证、发布裁决等高风险执行任务。
🧭
推荐路径建议接入为:文档治理 worker / 规划收口 worker。
🔎
关键依据见证据摘要与完整记录中的状态、产物和校验链。
🛠️
落地方式先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。
证据摘要
- 正文保留完整证据链;本页顶部只展示可读摘要。
行动清单
建议接入为:文档治理 worker / 规划收口 worker。
可试用为:轻量主线候选,但必须加工具强制链和结果验收。
不建议用于:高风险代码发布、GitHub 同步是否已完成的最终裁决、运行态/远端状态判断、需要真实输出证明的强执行任务。
边界 / 风险
风险 / 边界
正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。
完整记录
小墨模型评测:MC-4.8 结果(2026-06-15 164052)
结论
MC-4.8 本轮小墨模型评测得分 133 / 160,属于“主模型可用,但需要看偏科项”的区间。它适合做文档治理 worker、规划/同步收口 worker,也可以作为轻量主线候选试用;但不建议无约束替代 gpt-5.5 承担强工具闭环、远端验证、发布裁决等高风险执行任务。
元信息
- run_id:
20260615-164052__custom__mc-4.8 - provider:
custom - model:
MC-4.8 - baseline:
gpt-5.5 - scored_by:
gpt-5.5 - score_total:
133 / 160 - score_status:
scored - score_report:
/home/ht/knowledge/model-evals/scored/20260615-164052__custom__mc-4.8.md
单题得分
- T1 主线保持:
17 / 20 - T2 复杂规划:
17 / 20 - T3 commit grouping:
16 / 20 - T4 tool-verification:
15 / 20 - T5 regression 判断:
18 / 20 - T6 upgrade worth-it:
19 / 20 - T7 wiki 收口:
16 / 20 - T8 drift triage:
18 / 20
能力判断
- 主线保持:能准确排除旁支并给停止点,适合长会话里的局部收口;但遇到具体 commit 对象时仍会先给通用框架,证据绑定不够硬。
- 规划收口:先结论、再分层、再终态/停止点的结构稳定,适合补丁同步、升级评估、wiki 治理这类低到中风险规划。
- 代码 / patch 判断:commit grouping 基本合理,能识别 Feishu、image_gen、tools、copilot/backup 的边界;但 tools 组仍保留条件分叉,需要外层流程补真实 diff 检查。
- 工具执行闭环:知道必须先查,也能列出合理命令和判断陷阱;主要扣分点是 T4 没有返回真实工具输出,仍停在“验证方案”层。
- 文档治理:概念页、判断矩阵、误判提醒和中文表达都比较稳,适合做长期 wiki/summary 初稿和治理型 worker。
建议角色
- 建议接入为:文档治理 worker / 规划收口 worker。
- 可试用为:轻量主线候选,但必须加工具强制链和结果验收。
- 不建议用于:高风险代码发布、GitHub 同步是否已完成的最终裁决、运行态/远端状态判断、需要真实输出证明的强执行任务。
相对 gpt-5.5
相对 gpt-5.5,MC-4.8 的优势是中文结构化表达稳、治理口径顺、停止点清楚;弱项是真实工具执行和证据闭环低一档。它能稳定产出“正确方向的收口草案”,但不能默认信任为最终事实裁判。
归档
- 本地 run:
/home/ht/knowledge/model-evals/runs/20260615-164052__custom__mc-4.8.md - 本地评分:
/home/ht/knowledge/model-evals/scored/20260615-164052__custom__mc-4.8.md - 本地 index:
/home/ht/knowledge/model-evals/index/latest-summary.md - 默认归档口径:只写本地 wiki + Decision Trace HTML,不写飞书主库。