Hermes Decision Trace
小墨模型评测详情:glm-5.2(20260617-122949)
达到主模型候选线,明显优于普通 worker 模型;能稳住主线、规划收口和知识治理,工具闭环也有真实进步。
🧭
推荐路径可进入主模型候选池,适合长会话主线保持、规划收口、wiki / Decision Trace 类治理、focused regression 判断。
🔎
关键依据见证据摘要与完整记录中的状态、产物和校验链。
🛠️
落地方式先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。
证据摘要
- 正文保留完整证据链;本页顶部只展示可读摘要。
行动清单
可进入主模型候选池,适合长会话主线保持、规划收口、wiki / Decision Trace 类治理、focused regression 判断。
可作为文档治理 worker 或轻量 code / ops 判断 worker 使用。
对 GitHub / 远端状态 / commit 是否已 push 这类事实裁决,必须强制调用真实仓库工具链;不能只接受方法论式回答。
边界 / 风险
风险 / 边界
正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。
完整记录
小墨模型评测详情:glm-5.2(20260617-122949)
摘要结论
- 模型:
glm-5.2 - Provider:
custom - Run ID:
20260617-122949__custom__glm-5.2 - 评分基线:
gpt-5.5 - 总分:
145 / 160 - 结论:达到主模型候选线,明显优于普通 worker 模型;能稳住主线、规划收口和知识治理,工具闭环也有真实进步。
- 建议角色:主模型候选;也适合承担文档治理 worker 和轻量代码 / 运维判断 worker。
- 关键护栏:远端 / Git 状态判断类任务仍要强制真实仓库验证,避免把演示仓库事实当成目标事实。
单题评分
- T1 主线保持题:
20 / 20。准确锚定ca8f4abdb分层任务,主动排除三条干扰线,三层与停止点完整。 - T2 复杂规划题:
19 / 20。结论、分层、先后顺序、只记账项和停止点都齐;表达略偏教科书式,但可直接执行。 - T3 commit grouping 题:
16 / 20。能识别 platform / provider / tools / CLI 不该混推,commit 粒度基本可用;扣分点是个别职责判断略武断,且横向表格不适合移动端。 - T4 tool-verification 题:
16 / 20。工具意识强,也指出 upstream 失败不等于没 push;扣分点是用临时仓库演示闭环,没有真正给目标仓库事实。 - T5 regression 判断题:
20 / 20。focused regression 优先,扩大回归条件清楚,停止点明确。 - T6 upgrade worth-it 题:
20 / 20。直接给出“先做收益评估再升”,依据抓住变更面、本地长期补丁和当前稳定状态。 - T7 wiki 收口题:
18 / 20。concept 页结构完整,分类口径和真相源思维到位;扣分点是判断矩阵偏表格化,缺少 wiki frontmatter / 落点建议。 - T8 drift triage 题:
16 / 20。两类情况的本质区别说清楚了,判断顺序基本对;扣分点是远端存在判断略简化,表达比小墨理想风格稍长。
维度判断
- 主线保持:强。能快速排除无关上下文,首句锚定明确,有停止点。
- 规划收口:强。顺序、终态、停止点完整,成本收益意识好。
- 代码 / patch 判断:中上。分组大体合理,但个别文件职责判断需要更克制。
- 工具执行闭环:中上。工具意识和验证链比上一类普通 worker 明显好,但还要区分“演示验证”与“目标事实验证”。
- 检索压缩表达:强。表达清楚,结论优先,压缩度较好。
- 知识治理收口:强。wiki concept、误判提醒和复用结构稳定。
接入建议
- 可进入主模型候选池,适合长会话主线保持、规划收口、wiki / Decision Trace 类治理、focused regression 判断。
- 可作为文档治理 worker 或轻量 code / ops 判断 worker 使用。
- 对 GitHub / 远端状态 / commit 是否已 push 这类事实裁决,必须强制调用真实仓库工具链;不能只接受方法论式回答。
归档句柄
- 原始 run:
/home/ht/knowledge/model-evals/runs/20260617-122949__custom__glm-5.2.json - 评分 JSON:
/home/ht/knowledge/model-evals/scored/20260617-122949__custom__glm-5.2.json - 评分 Markdown:
/home/ht/knowledge/model-evals/scored/20260617-122949__custom__glm-5.2.md