Hermes Decision Trace

小墨模型评测详情：MC-4.8（2026-06-15 164052）

MC-4.8 本轮小墨模型评测得分 133 / 160，属于“主模型可用，但需要看偏科项”的区间。它适合做文档治理 worker、规划/同步收口 worker，也可以作为轻量主线候选试用；但不建议无约束替代 gpt-5.5 承担强工具闭环、远端验证、发布裁决等高风险执行任务。

🧭

推荐路径

建议接入为：文档治理 worker / 规划收口 worker。

🔎

关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️

落地方式

先把已验证方案当成稳定基线：保留当前 schedule / deliver / workdir，不急着继续扩面；新增候选先读源码、看 output、做 run-now 验证，再决定是否转 script-only。

证据摘要

建议接入为：文档治理 worker / 规划收口 worker。

可试用为：轻量主线候选，但必须加工具强制链和结果验收。

不建议用于：高风险代码发布、GitHub 同步是否已完成的最终裁决、运行态/远端状态判断、需要真实输出证明的强执行任务。

风险 / 边界

正文未抽取到明确风险；上线前仍需确认权限、回退路径与运行态影响。

run_id：20260615-164052__custom__mc-4.8
provider：custom
model：MC-4.8
baseline：gpt-5.5
scored_by：gpt-5.5
score_total：133 / 160
score_status：scored
score_report：/home/ht/knowledge/model-evals/scored/20260615-164052__custom__mc-4.8.md

主线保持：能准确排除旁支并给停止点，适合长会话里的局部收口；但遇到具体 commit 对象时仍会先给通用框架，证据绑定不够硬。
规划收口：先结论、再分层、再终态/停止点的结构稳定，适合补丁同步、升级评估、wiki 治理这类低到中风险规划。
代码 / patch 判断：commit grouping 基本合理，能识别 Feishu、image_gen、tools、copilot/backup 的边界；但 tools 组仍保留条件分叉，需要外层流程补真实 diff 检查。
工具执行闭环：知道必须先查，也能列出合理命令和判断陷阱；主要扣分点是 T4 没有返回真实工具输出，仍停在“验证方案”层。
文档治理：概念页、判断矩阵、误判提醒和中文表达都比较稳，适合做长期 wiki/summary 初稿和治理型 worker。

相对 gpt-5.5，MC-4.8 的优势是中文结构化表达稳、治理口径顺、停止点清楚；弱项是真实工具执行和证据闭环低一档。它能稳定产出“正确方向的收口草案”，但不能默认信任为最终事实裁判。