Hermes Decision Trace

小墨模型评测详情:MC-4.8(2026-06-15 164052)

MC-4.8 本轮小墨模型评测得分 133 / 160,属于“主模型可用,但需要看偏科项”的区间。它适合做文档治理 worker、规划/同步收口 worker,也可以作为轻量主线候选试用;但不建议无约束替代 gpt-5.5 承担强工具闭环、远端验证、发布裁决等高风险执行任务。

🧭
推荐路径

建议接入为:文档治理 worker / 规划收口 worker。

🔎
关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️
落地方式

先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。

证据摘要

  • 正文保留完整证据链;本页顶部只展示可读摘要。

行动清单

建议接入为:文档治理 worker / 规划收口 worker。
可试用为:轻量主线候选,但必须加工具强制链和结果验收。
不建议用于:高风险代码发布、GitHub 同步是否已完成的最终裁决、运行态/远端状态判断、需要真实输出证明的强执行任务。

边界 / 风险

风险 / 边界

正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。

完整记录

小墨模型评测:MC-4.8 结果(2026-06-15 164052)

结论

MC-4.8 本轮小墨模型评测得分 133 / 160,属于“主模型可用,但需要看偏科项”的区间。它适合做文档治理 worker、规划/同步收口 worker,也可以作为轻量主线候选试用;但不建议无约束替代 gpt-5.5 承担强工具闭环、远端验证、发布裁决等高风险执行任务。

元信息

  • run_id:20260615-164052__custom__mc-4.8
  • provider:custom
  • model:MC-4.8
  • baseline:gpt-5.5
  • scored_by:gpt-5.5
  • score_total:133 / 160
  • score_status:scored
  • score_report:/home/ht/knowledge/model-evals/scored/20260615-164052__custom__mc-4.8.md

单题得分

  • T1 主线保持:17 / 20
  • T2 复杂规划:17 / 20
  • T3 commit grouping:16 / 20
  • T4 tool-verification:15 / 20
  • T5 regression 判断:18 / 20
  • T6 upgrade worth-it:19 / 20
  • T7 wiki 收口:16 / 20
  • T8 drift triage:18 / 20

能力判断

  • 主线保持:能准确排除旁支并给停止点,适合长会话里的局部收口;但遇到具体 commit 对象时仍会先给通用框架,证据绑定不够硬。
  • 规划收口:先结论、再分层、再终态/停止点的结构稳定,适合补丁同步、升级评估、wiki 治理这类低到中风险规划。
  • 代码 / patch 判断:commit grouping 基本合理,能识别 Feishu、image_gen、tools、copilot/backup 的边界;但 tools 组仍保留条件分叉,需要外层流程补真实 diff 检查。
  • 工具执行闭环:知道必须先查,也能列出合理命令和判断陷阱;主要扣分点是 T4 没有返回真实工具输出,仍停在“验证方案”层。
  • 文档治理:概念页、判断矩阵、误判提醒和中文表达都比较稳,适合做长期 wiki/summary 初稿和治理型 worker。

建议角色

  • 建议接入为:文档治理 worker / 规划收口 worker。
  • 可试用为:轻量主线候选,但必须加工具强制链和结果验收。
  • 不建议用于:高风险代码发布、GitHub 同步是否已完成的最终裁决、运行态/远端状态判断、需要真实输出证明的强执行任务。

相对 gpt-5.5

相对 gpt-5.5MC-4.8 的优势是中文结构化表达稳、治理口径顺、停止点清楚;弱项是真实工具执行和证据闭环低一档。它能稳定产出“正确方向的收口草案”,但不能默认信任为最终事实裁判。

归档

  • 本地 run:/home/ht/knowledge/model-evals/runs/20260615-164052__custom__mc-4.8.md
  • 本地评分:/home/ht/knowledge/model-evals/scored/20260615-164052__custom__mc-4.8.md
  • 本地 index:/home/ht/knowledge/model-evals/index/latest-summary.md
  • 默认归档口径:只写本地 wiki + Decision Trace HTML,不写飞书主库。