Hermes Decision Trace

小墨模型评测详情:glm-5.2

glm-5.2 本轮得分 145 / 160,达到主模型候选线。它在主线保持、规划收口、工具验证和 wiki 治理上都比较稳;相对 gpt-5.5,已经接近可替换候选,但表达略偏长,commit grouping 的层级判断还可以再克制一些。

🧭
推荐路径

建议纳入 主模型候选池,优先作为 code worker / 文档治理 worker 使用。如果作为默认主线模型,应加两条护栏:

🔎
关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️
落地方式

先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。

证据摘要

  • 正文保留完整证据链;本页顶部只展示可读摘要。

行动清单

建议纳入 主模型候选池,优先作为 code worker / 文档治理 worker 使用。如果作为默认主线模型,应加两条护栏:
最终回复必须再压缩,避免长解释污染移动端阅读。
涉及仓库、远端、commit、push 状态时,必须优先验证真实目标仓库,临时仓库只能作为流程演示。

边界 / 风险

风险 / 边界

表达偏长,交付给涛哥前最好再压缩到结论卡片。

风险 / 边界

局部分组判断会提前合理化,最好强制写“以真实 diff / 依赖关系为准”。

风险 / 边界

工具验证题中,临时仓库只能证明流程,不等于目标仓库真实状态。

完整记录

小墨模型评测详情:glm-5.2

结论

glm-5.2 本轮得分 145 / 160,达到主模型候选线。它在主线保持、规划收口、工具验证和 wiki 治理上都比较稳;相对 gpt-5.5,已经接近可替换候选,但表达略偏长,commit grouping 的层级判断还可以再克制一些。

基本信息

  • Run ID:20260617-112544__custom__glm-5.2
  • Provider:custom
  • Model:glm-5.2
  • Scored by:gpt-5.5
  • Eval version:2026-05-20.v2
  • Score report:/home/ht/knowledge/model-evals/scored/20260617-112544__custom__glm-5.2.md

分数

题目得分简评
T1 主线保持16 / 20能锚定 GitHub sync,不串线;但对 commit 文件归属有外推。
T2 复杂规划19 / 20分层、先后顺序、终态和停止点完整。
T3 commit grouping17 / 20分组可用,不能混推判断清楚;个别并组略武断。
T4 tool verification18 / 20真实体现工具闭环,能区分 upstream、remote、commit 可达性。
T5 regression 判断19 / 20focused regression 优先,扩大条件清楚。
T6 upgrade worth-it20 / 20结论、依据和推荐动作都稳,是本轮最强项。
T7 wiki 收口19 / 20concept 结构复用性强,分类和判断矩阵清楚。
T8 drift triage17 / 20区分和判断顺序清楚;远端不存在时还应更明确保留权限/网络未知。

适合方向

  • 小墨主线中的规划收口与多线任务治理。
  • Git/GitHub 同步判断、回归验证策略、drift triage。
  • wiki concept、知识治理和工程流程文档沉淀。
  • code worker / 文档治理 worker,也可纳入主模型候选池。

不适合方向

  • 不适合直接承担极短卡片式最终交付,需要最后再压缩一轮。
  • 不适合在无真实 diff / 无目标仓库验证时直接给强事实结论。
  • 真实仓库场景不能用临时仓库演示替代目标仓库结论。

主要优点

  • 主线保持稳定,不容易被 Feishu/search-worker 等旁支带偏。
  • 规划收口能力强,能给出终态、停止点和扩大回归条件。
  • T4 已有真实工具闭环,不再停留在“我会查”的口头层面。
  • wiki/知识治理结构化能力强,能产出可复用 concept 页。

主要风险

  • 表达偏长,交付给涛哥前最好再压缩到结论卡片。
  • 局部分组判断会提前合理化,最好强制写“以真实 diff / 依赖关系为准”。
  • 工具验证题中,临时仓库只能证明流程,不等于目标仓库真实状态。

接入建议

建议纳入 主模型候选池,优先作为 code worker / 文档治理 worker 使用。如果作为默认主线模型,应加两条护栏:

  1. 最终回复必须再压缩,避免长解释污染移动端阅读。
  2. 涉及仓库、远端、commit、push 状态时,必须优先验证真实目标仓库,临时仓库只能作为流程演示。