Hermes Decision Trace
小墨模型评测详情:glm-5.2
glm-5.2 本轮得分 145 / 160,达到主模型候选线。它在主线保持、规划收口、工具验证和 wiki 治理上都比较稳;相对 gpt-5.5,已经接近可替换候选,但表达略偏长,commit grouping 的层级判断还可以再克制一些。
🧭
推荐路径建议纳入 主模型候选池,优先作为 code worker / 文档治理 worker 使用。如果作为默认主线模型,应加两条护栏:
🔎
关键依据见证据摘要与完整记录中的状态、产物和校验链。
🛠️
落地方式先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。
证据摘要
- 正文保留完整证据链;本页顶部只展示可读摘要。
行动清单
建议纳入 主模型候选池,优先作为 code worker / 文档治理 worker 使用。如果作为默认主线模型,应加两条护栏:
最终回复必须再压缩,避免长解释污染移动端阅读。
涉及仓库、远端、commit、push 状态时,必须优先验证真实目标仓库,临时仓库只能作为流程演示。
边界 / 风险
风险 / 边界
表达偏长,交付给涛哥前最好再压缩到结论卡片。
风险 / 边界
局部分组判断会提前合理化,最好强制写“以真实 diff / 依赖关系为准”。
风险 / 边界
工具验证题中,临时仓库只能证明流程,不等于目标仓库真实状态。
完整记录
小墨模型评测详情:glm-5.2
结论
glm-5.2 本轮得分 145 / 160,达到主模型候选线。它在主线保持、规划收口、工具验证和 wiki 治理上都比较稳;相对 gpt-5.5,已经接近可替换候选,但表达略偏长,commit grouping 的层级判断还可以再克制一些。
基本信息
- Run ID:
20260617-112544__custom__glm-5.2 - Provider:
custom - Model:
glm-5.2 - Scored by:
gpt-5.5 - Eval version:
2026-05-20.v2 - Score report:
/home/ht/knowledge/model-evals/scored/20260617-112544__custom__glm-5.2.md
分数
| 题目 | 得分 | 简评 |
|---|---|---|
| T1 主线保持 | 16 / 20 | 能锚定 GitHub sync,不串线;但对 commit 文件归属有外推。 |
| T2 复杂规划 | 19 / 20 | 分层、先后顺序、终态和停止点完整。 |
| T3 commit grouping | 17 / 20 | 分组可用,不能混推判断清楚;个别并组略武断。 |
| T4 tool verification | 18 / 20 | 真实体现工具闭环,能区分 upstream、remote、commit 可达性。 |
| T5 regression 判断 | 19 / 20 | focused regression 优先,扩大条件清楚。 |
| T6 upgrade worth-it | 20 / 20 | 结论、依据和推荐动作都稳,是本轮最强项。 |
| T7 wiki 收口 | 19 / 20 | concept 结构复用性强,分类和判断矩阵清楚。 |
| T8 drift triage | 17 / 20 | 区分和判断顺序清楚;远端不存在时还应更明确保留权限/网络未知。 |
适合方向
- 小墨主线中的规划收口与多线任务治理。
- Git/GitHub 同步判断、回归验证策略、drift triage。
- wiki concept、知识治理和工程流程文档沉淀。
- code worker / 文档治理 worker,也可纳入主模型候选池。
不适合方向
- 不适合直接承担极短卡片式最终交付,需要最后再压缩一轮。
- 不适合在无真实 diff / 无目标仓库验证时直接给强事实结论。
- 真实仓库场景不能用临时仓库演示替代目标仓库结论。
主要优点
- 主线保持稳定,不容易被 Feishu/search-worker 等旁支带偏。
- 规划收口能力强,能给出终态、停止点和扩大回归条件。
- T4 已有真实工具闭环,不再停留在“我会查”的口头层面。
- wiki/知识治理结构化能力强,能产出可复用 concept 页。
主要风险
- 表达偏长,交付给涛哥前最好再压缩到结论卡片。
- 局部分组判断会提前合理化,最好强制写“以真实 diff / 依赖关系为准”。
- 工具验证题中,临时仓库只能证明流程,不等于目标仓库真实状态。
接入建议
建议纳入 主模型候选池,优先作为 code worker / 文档治理 worker 使用。如果作为默认主线模型,应加两条护栏:
- 最终回复必须再压缩,避免长解释污染移动端阅读。
- 涉及仓库、远端、commit、push 状态时,必须优先验证真实目标仓库,临时仓库只能作为流程演示。