Hermes Decision Trace

小墨模型评测详情：claude-sonnet-4-6

claude-sonnet-4-6 当前最好分 134/160，最新分 134/160，处于 B｜主线辅助/强 worker。建议角色：主模型 / 文档 worker / research worker；涉及高风险代码分组时需更强证据约束。

HTML完整论证

Wiki可检索归档

Feishu短入口交付

🎯

核心结论

claude-sonnet-4-6 当前最好分 134/160，最新分 134/160，处于 B｜主线辅助/强 worker。建议角色：主模型 / 文档 worker / research worker；涉及高风险代码分组时需更强证据约束。

🧭

推荐路径

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。

🛡️

关键边界

本页是小墨场景评测，不等同于通用 benchmark。

关键判断

判断项	摘要
推荐方案	主模型 / 文档 worker / research worker；涉及高风险代码分组时需更强证据约束
关键依据	最新 run：`20260521-133913__anthropic__claude-sonnet-4-6`
落地方式	如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。
风险边界	本页是小墨场景评测，不等同于通用 benchmark。

证据摘要

最新 run：20260521-133913__anthropic__claude-sonnet-4-6证据点 1
最新 score JSON：/home/ht/knowledge/model-evals/scored/20260521-133913__anthropic__claude-sonnet-4-6.json证据点 2
最新 run JSON：/home/ht/knowledge/model-evals/runs/20260521-133913__anthropic__claude-sonnet-4-6.json证据点 3
横向总览页：<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>证据点 4

行动清单

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。

新 run 完成后，刷新本详情页和横向总览页。

若用于生产路由，应另写模型路由决策页，避免把单次评测分数直接等同于配置变更。

边界 / 风险

风险点

本页是小墨场景评测，不等同于通用 benchmark。

风险点

同名模型可能对应 provider alias 或后端版本漂移，结论需结合 run 时间线看。

风险点

对工具执行闭环要求高的任务，应优先看 T4 / live verification 表现。

完整记录

本节目录结论关键指标推荐使用方式分数轨迹最新 run 逐题表现维度表现与更高分模型对比证据路径下一步风险与边界

小墨模型评测详情：claude-sonnet-4-6

结论

claude-sonnet-4-6 当前最好分 134/160，最新分 134/160，处于 B｜主线辅助/强 worker。建议角色：主模型 / 文档 worker / research worker；涉及高风险代码分组时需更强证据约束。

关键指标

模型：claude-sonnet-4-6
Provider：anthropic
横向排名：#7 / 22
有效 run 数：1
最好分：134 / 160
最新分：134 / 160
平均分：134.0
梯队：B｜主线辅助/强 worker
建议角色：主模型 / 文档 worker / research worker；涉及高风险代码分组时需更强证据约束

推荐使用方式

主模型 / 文档 worker / research worker；涉及高风险代码分组时需更强证据约束

代表判断：适合承担流程型判断、focused regression、文档/治理收口；可做主模型候选，但在强上下文锚定和代码资产分组上还有偏泛化问题。

分数轨迹

20260521-133913__anthropic__claude-sonnet-4-6：134 / 160；scored_by=gpt-5.4；2026-05-21T05:39:13.488180+00:00

最新 run 逐题表现

题目	标题	分数	评语
T1	T1	14	有锚定和停止点，但没有真正围绕指定 commit 展开，三层内容偏泛。
T2	T2	16	先结论再分层，终态和停止点完整，作为轻量收口方案可直接用。
T3	T3	15	分组意识对，但部分耦合判断偏拍脑袋，长期资产与支线边界不够硬。
T4	T4	18	工具导向明确，验证闭环完整，是这轮最稳的一题之一。
T5	T5	18	focused regression 优先、扩圈触发条件清楚，边界感很好。
T6	T6	18	成本收益意识稳定，结论明确，下一步动作也可执行。
T7	T7	16	wiki 大纲可复用，分类口径清楚，但真相源/验证源头意识还可以再显式一点。
T8	T8	19	两类漂移区分清楚，判断顺序和常见误判都讲明白了。

维度表现

维度	结果
A 主线保持	14
B 规划收口	16
C patch/代码判断	16
D 工具执行闭环	18
E 检索压缩表达	16
F 知识治理收口	17
G 扩展潜力	适合做流程判断、focused QA、文档治理与收口；不适合在证据不足时独立做高风险代码归并或复杂架构定责。

与更高分模型对比

gpt-5.5：最好 156/160，最新 155/160
gpt-5.4：最好 148/160，最新 148/160
YT-claude-4.7：最好 148/160，最新 148/160
gpt-5.4-2026-03-05：最好 147/160，最新 147/160

证据路径

最新 run：20260521-133913__anthropic__claude-sonnet-4-6
最新 score JSON：/home/ht/knowledge/model-evals/scored/20260521-133913__anthropic__claude-sonnet-4-6.json
最新 run JSON：/home/ht/knowledge/model-evals/runs/20260521-133913__anthropic__claude-sonnet-4-6.json
横向总览页：<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>

下一步

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。
新 run 完成后，刷新本详情页和横向总览页。
若用于生产路由，应另写模型路由决策页，避免把单次评测分数直接等同于配置变更。

风险与边界

本页是小墨场景评测，不等同于通用 benchmark。
同名模型可能对应 provider alias 或后端版本漂移，结论需结合 run 时间线看。
对工具执行闭环要求高的任务，应优先看 T4 / live verification 表现。