Hermes Decision Trace

小墨模型评测详情：GLM-5.1

GLM-5.1 当前最好分 119/160，最新分 119/160，处于 D｜轻量/不建议主线。建议角色：文档治理 worker / 轻量规划总结 worker；不建议作为小墨主模型。

HTML完整论证

Wiki可检索归档

Feishu短入口交付

🎯

核心结论

GLM-5.1 当前最好分 119/160，最新分 119/160，处于 D｜轻量/不建议主线。建议角色：文档治理 worker / 轻量规划总结 worker；不建议作为小墨主模型。

🧭

推荐路径

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。

🛡️

关键边界

本页是小墨场景评测，不等同于通用 benchmark。

关键判断

判断项	摘要
推荐方案	文档治理 worker / 轻量规划总结 worker；不建议作为小墨主模型
关键依据	最新 run：`20260520-144255__custom__glm-5.1`
落地方式	如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。
风险边界	本页是小墨场景评测，不等同于通用 benchmark。

证据摘要

最新 run：20260520-144255__custom__glm-5.1证据点 1
最新 score JSON：/home/ht/knowledge/model-evals/scored/20260520-144255__custom__glm-5.1.json证据点 2
最新 run JSON：/home/ht/knowledge/model-evals/runs/20260520-144255__custom__glm-5.1.json证据点 3
横向总览页：<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>证据点 4

行动清单

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。

新 run 完成后，刷新本详情页和横向总览页。

若用于生产路由，应另写模型路由决策页，避免把单次评测分数直接等同于配置变更。

边界 / 风险

风险点

本页是小墨场景评测，不等同于通用 benchmark。

风险点

同名模型可能对应 provider alias 或后端版本漂移，结论需结合 run 时间线看。

风险点

对工具执行闭环要求高的任务，应优先看 T4 / live verification 表现。

完整记录

本节目录结论关键指标推荐使用方式分数轨迹最新 run 逐题表现维度表现与更高分模型对比证据路径下一步风险与边界

小墨模型评测详情：GLM-5.1

结论

GLM-5.1 当前最好分 119/160，最新分 119/160，处于 D｜轻量/不建议主线。建议角色：文档治理 worker / 轻量规划总结 worker；不建议作为小墨主模型。

关键指标

模型：GLM-5.1
Provider：custom
横向排名：#18 / 22
有效 run 数：1
最好分：119 / 160
最新分：119 / 160
平均分：119.0
梯队：D｜轻量/不建议主线
建议角色：文档治理 worker / 轻量规划总结 worker；不建议作为小墨主模型

推荐使用方式

文档治理 worker / 轻量规划总结 worker；不建议作为小墨主模型

代表判断：适合限定场景 / 子任务，不适合承担小墨主线模型

分数轨迹

20260520-144255__custom__glm-5.1：119 / 160；scored_by=gpt-5.4；2026-05-20T06:42:55.281022+00:00

最新 run 逐题表现

题目	标题	分数	评语
T1	T1	15	主线没串，三层和停止点都给了；但内容偏抽象，没有更贴近 commit 收口场景。
T2	T2	16	先结论、再分层、再停止点，结构合格；但方案仍偏通用，不够像处理 Hermes 本地补丁的老手。
T3	T3	13	分成了多组，也知道不能混推；但把 ACP 客户端和 backup 都归长期资产有点武断，file_tools/mcp_tool 的关系判断也略粗。
T4	T4	12	工具意识是对的，也确实调了 terminal；但因为没进真实仓库，最后没有形成真正的事实闭环，只停在方法说明。
T5	T5	16	focused regression 优先、扩大条件也清楚，这题答得稳。
T6	T6	16	结论明确，有成本收益意识，也给了下一步动作；整体靠谱。
T7	T7	16	结构清楚、可复用，分类和判断矩阵都有，适合作为 concept 页起稿。
T8	T8	15	两类情况区分清楚，也有判断顺序和误判提醒；但部分优先级判断略绝对。

维度表现

未记录维度分。

与更高分模型对比

gpt-5.5：最好 156/160，最新 155/160
gpt-5.4：最好 148/160，最新 148/160
YT-claude-4.7：最好 148/160，最新 148/160
gpt-5.4-2026-03-05：最好 147/160，最新 147/160
gpt-5.4-mini：最好 134/160，最新 134/160

证据路径

最新 run：20260520-144255__custom__glm-5.1
最新 score JSON：/home/ht/knowledge/model-evals/scored/20260520-144255__custom__glm-5.1.json
最新 run JSON：/home/ht/knowledge/model-evals/runs/20260520-144255__custom__glm-5.1.json
横向总览页：<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>

下一步

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。
新 run 完成后，刷新本详情页和横向总览页。
若用于生产路由，应另写模型路由决策页，避免把单次评测分数直接等同于配置变更。

风险与边界

本页是小墨场景评测，不等同于通用 benchmark。
同名模型可能对应 provider alias 或后端版本漂移，结论需结合 run 时间线看。
对工具执行闭环要求高的任务，应优先看 T4 / live verification 表现。