Hermes Decision Trace

小墨模型评测详情：glm-5.2

glm-5.2 本轮小墨模型评测得分 131 / 160，属于“主模型可用但有明显偏科”的区间。它适合作为文档治理 worker / planning worker / 轻量技术判断草案生成模型；不建议直接作为小墨主模型，也不适合独立承担需要真实工具验证闭环的代码、发布或 GitHub 同步最终裁决。

🧭

推荐路径

建议接入为：文档治理 worker / planning worker。

🔎

关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️

落地方式

先把已验证方案当成稳定基线：保留当前 schedule / deliver / workdir，不急着继续扩面；新增候选先读源码、看 output、做 run-now 验证，再决定是否转 script-only。

证据摘要

正文保留完整证据链；本页顶部只展示可读摘要。

行动清单

建议接入为：文档治理 worker / planning worker。

可用于：wiki 大纲、轻量方案、低风险技术判断草案、结构化整理。

不建议用于：独立长链执行、发布链路验证、GitHub 同步是否已完成的最终裁决、高风险代码操作。

边界 / 风险

风险 / 边界

正文未抽取到明确风险；上线前仍需确认权限、回退路径与运行态影响。

完整记录

本节目录结论元信息单题得分能力判断建议角色相对 gpt-5.5 归档

小墨模型评测：glm-5.2

结论

元信息

run_id：20260615-162504__custom__glm-5.2
provider：custom
model：glm-5.2
baseline：gpt-5.5
scored_by：gpt-5.5
score_total：131 / 160
score_status：scored
score_report：[已移除本地路径]

单题得分

T1 主线保持：17 / 20
T2 复杂规划：16 / 20
T3 commit grouping：15 / 20
T4 tool-verification：13 / 20
T5 regression 判断：18 / 20
T6 upgrade worth-it：18 / 20
T7 wiki 收口：17 / 20
T8 drift triage：17 / 20

能力判断

主线保持：能明确锚定当前任务并设置停止点，不容易串到旁支；但遇到具体 commit 对象时仍偏通用化，没有贴住真实 diff 细节。
规划收口：先结论、再分层、再停止点的结构稳定，适合生成轻量方案和收口草案。
代码 / patch 判断：commit grouping 基本合理，但漏掉 hermes_cli/backup.py，说明覆盖完整性不够稳。
工具执行闭环：知道要查，也能列出验证命令；但 T4 没有真实调用工具，只停留在“给命令方案”，这是主模型接入的关键扣分项。
文档治理：wiki concept 结构完整，分类口径和误判提醒到位，适合做文档治理 worker。

建议角色

建议接入为：文档治理 worker / planning worker。
可用于：wiki 大纲、轻量方案、低风险技术判断草案、结构化整理。
不建议用于：独立长链执行、发布链路验证、GitHub 同步是否已完成的最终裁决、高风险代码操作。

相对 gpt-5.5

相对 gpt-5.5，glm-5.2 的优势是结构化输出干净、结论前置、停止点意识稳定；弱项是真实工具闭环不够硬，遇到必须验证的问题容易停在方法论层。实际接入时应把它放在受控 worker 位，并由主模型或外层流程强制验收工具输出。