Hermes Decision Trace

小墨模型评测详情:glm-5.2

glm-5.2 本轮小墨模型评测得分 131 / 160,属于“主模型可用但有明显偏科”的区间。它适合作为文档治理 worker / planning worker / 轻量技术判断草案生成模型;不建议直接作为小墨主模型,也不适合独立承担需要真实工具验证闭环的代码、发布或 GitHub 同步最终裁决。

🧭
推荐路径

建议接入为:文档治理 worker / planning worker。

🔎
关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️
落地方式

先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。

证据摘要

  • 正文保留完整证据链;本页顶部只展示可读摘要。

行动清单

建议接入为:文档治理 worker / planning worker。
可用于:wiki 大纲、轻量方案、低风险技术判断草案、结构化整理。
不建议用于:独立长链执行、发布链路验证、GitHub 同步是否已完成的最终裁决、高风险代码操作。

边界 / 风险

风险 / 边界

正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。

完整记录

小墨模型评测:glm-5.2

结论

glm-5.2 本轮小墨模型评测得分 131 / 160,属于“主模型可用但有明显偏科”的区间。它适合作为文档治理 worker / planning worker / 轻量技术判断草案生成模型;不建议直接作为小墨主模型,也不适合独立承担需要真实工具验证闭环的代码、发布或 GitHub 同步最终裁决。

元信息

  • run_id:20260615-162504__custom__glm-5.2
  • provider:custom
  • model:glm-5.2
  • baseline:gpt-5.5
  • scored_by:gpt-5.5
  • score_total:131 / 160
  • score_status:scored
  • score_report:/home/ht/knowledge/model-evals/scored/20260615-162504__custom__glm-5.2.md

单题得分

  • T1 主线保持:17 / 20
  • T2 复杂规划:16 / 20
  • T3 commit grouping:15 / 20
  • T4 tool-verification:13 / 20
  • T5 regression 判断:18 / 20
  • T6 upgrade worth-it:18 / 20
  • T7 wiki 收口:17 / 20
  • T8 drift triage:17 / 20

能力判断

  • 主线保持:能明确锚定当前任务并设置停止点,不容易串到旁支;但遇到具体 commit 对象时仍偏通用化,没有贴住真实 diff 细节。
  • 规划收口:先结论、再分层、再停止点的结构稳定,适合生成轻量方案和收口草案。
  • 代码 / patch 判断:commit grouping 基本合理,但漏掉 hermes_cli/backup.py,说明覆盖完整性不够稳。
  • 工具执行闭环:知道要查,也能列出验证命令;但 T4 没有真实调用工具,只停留在“给命令方案”,这是主模型接入的关键扣分项。
  • 文档治理:wiki concept 结构完整,分类口径和误判提醒到位,适合做文档治理 worker。

建议角色

  • 建议接入为:文档治理 worker / planning worker。
  • 可用于:wiki 大纲、轻量方案、低风险技术判断草案、结构化整理。
  • 不建议用于:独立长链执行、发布链路验证、GitHub 同步是否已完成的最终裁决、高风险代码操作。

相对 gpt-5.5

相对 gpt-5.5glm-5.2 的优势是结构化输出干净、结论前置、停止点意识稳定;弱项是真实工具闭环不够硬,遇到必须验证的问题容易停在方法论层。实际接入时应把它放在受控 worker 位,并由主模型或外层流程强制验收工具输出。

归档

  • 本地 run:/home/ht/knowledge/model-evals/runs/20260615-162504__custom__glm-5.2.md
  • 本地评分:/home/ht/knowledge/model-evals/scored/20260615-162504__custom__glm-5.2.md
  • 本地 index:/home/ht/knowledge/model-evals/index/latest-summary.md
  • 默认归档口径:只写本地 wiki + Decision Trace HTML,不写飞书主库。