Hermes Decision Trace

小墨模型评测详情:claude-opus-4-8

决策型回复 HTML 归档。

🧭
推荐路径

文档 worker / 轻量规划 worker / 受控辅助评审,不建议主模型

🔎
关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️
落地方式

先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。

证据摘要

  • 正文保留完整证据链;本页顶部只展示可读摘要。

行动清单

文档 worker / 轻量规划 worker / 受控辅助评审,不建议主模型

边界 / 风险

风险 / 边界

正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。

完整记录

模型评测结果:claude-opus-4-8

  • run_id: 20260613-233416__custom__claude-opus-4-8
  • baseline: gpt-5.5
  • scored_by: gpt-5.5
  • total: 122 / 160
  • verdict: 可用但明显偏泛化,能做文档整理和轻量规划,不建议直接承担小墨主线长链执行。

维度分

  • A 主线保持:13/20:能接住表层任务,但缺少对 ca8f4abdb 具体内容的追问或事实锚定,清单偏泛。
  • B 规划收口:15/20:先后顺序和停止点完整,但策略仍偏通用,没有贴合 Hermes 本地补丁治理细节。
  • C patch/代码判断:16/20:commit grouping 基本合理,能区分 Feishu、image、tools、ACP/backup,但长期资产判断略粗。
  • D 工具执行闭环:29/40:T4 有工具意识但停留在命令清单,没有形成真实输出闭环;T5 的 focused regression 判断较好。
  • E 检索压缩表达:17/20:升级收益判断清楚,表达可扫读,风险收益意识在线。
  • F 知识治理收口:32/40:wiki 结构和 drift triage 基本可复用,但真相源/索引治理意识不够强,部分动作如 reset --hard 提醒不够克制。
  • G 扩展潜力:适合做文档 worker、轻量方案 worker;若用于主线执行,需要外层强制工具验证和上下文约束。

最适合的方向

  • 文档治理 worker:结构清楚,适合把已有判断整理成 wiki / runbook 初稿。
  • 轻量规划 worker:能给出可读的分层方案和停止点。
  • 辅助 code review 分类:适合做初筛,但需要主模型复核关键边界。

不适合的方向

  • 不建议直接作为小墨主模型承担长链执行。
  • 不适合独立处理必须真实工具验证、强上下文锚定、低容错的 Git/Gateway 操作。
  • 不适合在缺少事实输入时直接产出最终工程结论。

相对 gpt-5.5 的主要差异

  • 更强:结构感稳定,中文输出顺滑,基本能按题目要求给出结论、分层和停止点。
  • 更弱:事实锚定和执行闭环弱于 gpt-5.5 基线,遇到 commit/branch/本地状态类问题时更容易给模板化答案;T4 虽写了工具命令,但没有真正用查询结果闭环。

是否建议接入

  • 文档 worker / 轻量规划 worker / 受控辅助评审,不建议主模型

单题得分

  • T1: 13 / 20
  • T2: 15 / 20
  • T3: 16 / 20
  • T4: 12 / 20
  • T5: 17 / 20
  • T6: 17 / 20
  • T7: 15 / 20
  • T8: 17 / 20