Hermes Decision Trace
小墨模型评测详情:glm-5.2
glm-5.2 本轮小墨模型评测得分 131 / 160,属于“主模型可用但有明显偏科”的区间。它适合作为文档治理 worker / planning worker / 轻量技术判断草案生成模型;不建议直接作为小墨主模型,也不适合独立承担需要真实工具验证闭环的代码、发布或 GitHub 同步最终裁决。
🧭
推荐路径建议接入为:文档治理 worker / planning worker。
🔎
关键依据见证据摘要与完整记录中的状态、产物和校验链。
🛠️
落地方式先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。
证据摘要
- 正文保留完整证据链;本页顶部只展示可读摘要。
行动清单
建议接入为:文档治理 worker / planning worker。
可用于:wiki 大纲、轻量方案、低风险技术判断草案、结构化整理。
不建议用于:独立长链执行、发布链路验证、GitHub 同步是否已完成的最终裁决、高风险代码操作。
边界 / 风险
风险 / 边界
正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。
完整记录
小墨模型评测:glm-5.2
结论
glm-5.2 本轮小墨模型评测得分 131 / 160,属于“主模型可用但有明显偏科”的区间。它适合作为文档治理 worker / planning worker / 轻量技术判断草案生成模型;不建议直接作为小墨主模型,也不适合独立承担需要真实工具验证闭环的代码、发布或 GitHub 同步最终裁决。
元信息
- run_id:
20260615-162504__custom__glm-5.2 - provider:
custom - model:
glm-5.2 - baseline:
gpt-5.5 - scored_by:
gpt-5.5 - score_total:
131 / 160 - score_status:
scored - score_report:
/home/ht/knowledge/model-evals/scored/20260615-162504__custom__glm-5.2.md
单题得分
- T1 主线保持:
17 / 20 - T2 复杂规划:
16 / 20 - T3 commit grouping:
15 / 20 - T4 tool-verification:
13 / 20 - T5 regression 判断:
18 / 20 - T6 upgrade worth-it:
18 / 20 - T7 wiki 收口:
17 / 20 - T8 drift triage:
17 / 20
能力判断
- 主线保持:能明确锚定当前任务并设置停止点,不容易串到旁支;但遇到具体 commit 对象时仍偏通用化,没有贴住真实 diff 细节。
- 规划收口:先结论、再分层、再停止点的结构稳定,适合生成轻量方案和收口草案。
- 代码 / patch 判断:commit grouping 基本合理,但漏掉
hermes_cli/backup.py,说明覆盖完整性不够稳。 - 工具执行闭环:知道要查,也能列出验证命令;但 T4 没有真实调用工具,只停留在“给命令方案”,这是主模型接入的关键扣分项。
- 文档治理:wiki concept 结构完整,分类口径和误判提醒到位,适合做文档治理 worker。
建议角色
- 建议接入为:文档治理 worker / planning worker。
- 可用于:wiki 大纲、轻量方案、低风险技术判断草案、结构化整理。
- 不建议用于:独立长链执行、发布链路验证、GitHub 同步是否已完成的最终裁决、高风险代码操作。
相对 gpt-5.5
相对 gpt-5.5,glm-5.2 的优势是结构化输出干净、结论前置、停止点意识稳定;弱项是真实工具闭环不够硬,遇到必须验证的问题容易停在方法论层。实际接入时应把它放在受控 worker 位,并由主模型或外层流程强制验收工具输出。
归档
- 本地 run:
/home/ht/knowledge/model-evals/runs/20260615-162504__custom__glm-5.2.md - 本地评分:
/home/ht/knowledge/model-evals/scored/20260615-162504__custom__glm-5.2.md - 本地 index:
/home/ht/knowledge/model-evals/index/latest-summary.md - 默认归档口径:只写本地 wiki + Decision Trace HTML,不写飞书主库。