Hermes Decision Trace

小墨模型评测详情：claude-opus-4-7-thinking

claude-opus-4-7-thinking 当前最好分 129/160，最新分 129/160，处于 C｜限定 worker。建议角色：主模型候选 / research worker / 复杂文档治理与执行分析 worker；在需要极强主线约束和超高压缩度的默认主模型场景下，建议先并行观察后再决定是否顶到第一顺位。

HTML完整论证

Wiki可检索归档

Feishu短入口交付

🎯

核心结论

claude-opus-4-7-thinking 当前最好分 129/160，最新分 129/160，处于 C｜限定 worker。建议角色：主模型候选 / research worker / 复杂文档治理与执行分析 worker；在需要极强主线约束和超高压缩度的默认主模型场景下，建议先并行观察后再决定是否顶到第一顺位。

🧭

推荐路径

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。

🛡️

关键边界

本页是小墨场景评测，不等同于通用 benchmark。

关键判断

判断项	摘要
推荐方案	主模型候选 / research worker / 复杂文档治理与执行分析 worker；在需要极强主线约束和超高压缩度的默认主模型场景下，建议先并行观察后再决定是否顶到第一顺位
关键依据	最新 run：`20260521-122426__custom__claude-opus-4-7-thinking`
落地方式	如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。
风险边界	本页是小墨场景评测，不等同于通用 benchmark。

证据摘要

最新 run：20260521-122426__custom__claude-opus-4-7-thinking证据点 1
最新 score JSON：/home/ht/knowledge/model-evals/scored/20260521-122426__custom__claude-opus-4-7-thinking.json证据点 2
最新 run JSON：/home/ht/knowledge/model-evals/runs/20260521-122426__custom__claude-opus-4-7-thinking.json证据点 3
横向总览页：<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>证据点 4

行动清单

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。

新 run 完成后，刷新本详情页和横向总览页。

若用于生产路由，应另写模型路由决策页，避免把单次评测分数直接等同于配置变更。

边界 / 风险

风险点

本页是小墨场景评测，不等同于通用 benchmark。

风险点

同名模型可能对应 provider alias 或后端版本漂移，结论需结合 run 时间线看。

风险点

对工具执行闭环要求高的任务，应优先看 T4 / live verification 表现。

完整记录

本节目录结论关键指标推荐使用方式分数轨迹最新 run 逐题表现维度表现与更高分模型对比证据路径下一步风险与边界

小墨模型评测详情：claude-opus-4-7-thinking

结论

claude-opus-4-7-thinking 当前最好分 129/160，最新分 129/160，处于 C｜限定 worker。建议角色：主模型候选 / research worker / 复杂文档治理与执行分析 worker；在需要极强主线约束和超高压缩度的默认主模型场景下，建议先并行观察后再决定是否顶到第一顺位。

关键指标

模型：claude-opus-4-7-thinking
Provider：custom
横向排名：#13 / 22
有效 run 数：1
最好分：129 / 160
最新分：129 / 160
平均分：129.0
梯队：C｜限定 worker
建议角色：主模型候选 / research worker / 复杂文档治理与执行分析 worker；在需要极强主线约束和超高压缩度的默认主模型场景下，建议先并行观察后再决定是否顶到第一顺位

推荐使用方式

主模型候选 / research worker / 复杂文档治理与执行分析 worker；在需要极强主线约束和超高压缩度的默认主模型场景下，建议先并行观察后再决定是否顶到第一顺位

代表判断：整体表现强，已经达到可承担较复杂结构化分析与执行型判断的水平，但离小墨主模型的高压主线要求还有一点距离。优势是任务锚定基本稳、分层和工程判断成熟、工具意识明显在线；短板是个别题仍会把对象抽象成通用方法论，压缩度和收口狠劲还没完全到 gpt-5.4 的基线水位。更适合做高质量 research / 方案判断 / 复杂文档与执行分析 worker，也可以承担不少主线任务，但是否做默认主模型还要看连续多轮稳定性。

分数轨迹

20260521-122426__custom__claude-opus-4-7-thinking：129 / 160；scored_by=gpt-5.4；2026-05-21T04:24:26.253613+00:00

最新 run 逐题表现

题目	标题	分数	评语
T1	T1	12	形式上满足对齐、三层结构和停止点，但没有真正贴着 `ca8f4abdb` 这个对象收口，主体仍是偏泛化的软件分层模板。主线没串，但对象贴脸度不够，这是这轮最明显失分点。
T2	T2	15	先结论、再分层、再顺序、再终态与停止点，框架完整，执行路径也清楚。问题主要是表达略长，局部仍偏方法论化，但整体已经可直接拿来推进。
T3	T3	16	分组清楚，哪些不能混推也点得准，commit/branch 粒度建议可执行。少量分组仍带一点经验性假设，但总体工程判断成熟。
T4	T4	18	这题关键是不能只讲方法，必须真查再答；本次确实给出了实际查询链、现场结果和闭环结论，工具意识和验证姿态都在线。扣分只在于表达还有一点铺陈，可以更狠地压缩。
T5	T5	17	focused regression 优先、扩大条件清楚、顺序合理，工程味很正。已经达到高可用水平，只是还能再压一点篇幅。
T6	T6	16	题眼抓得对，明确给出“先做收益评估再升”，而不是被功能多带着走，成本收益意识也明确。主要扣在语言仍偏长，推荐动作能再砍得更利落。
T7	T7	16	结构完整，背景、分类口径、判断矩阵、操作建议都齐，确实像一个可复用 concept 页。问题不大，主要是局部还能更紧。
T8	T8	15	差异、顺序、误判都有，整体可用。轻微失分在于内容略重复，判断链虽然完整，但收口不如最强基线那么干脆。

维度表现

维度	结果
A 主线保持	12
B 规划收口	17
C patch/代码判断	16
D 工具执行闭环	18
E 检索压缩表达	16
F 知识治理收口	16
G 扩展潜力	较高。适合承担复杂方案判断、代码/补丁分层、工具验证型问答、wiki 结构化收口；若要稳定承担小墨主模型，还需要进一步增强对具体对象的贴脸收口、减少泛化抽象，并把表达再压紧一点。

与更高分模型对比

gpt-5.5：最好 156/160，最新 155/160
gpt-5.4：最好 148/160，最新 148/160
YT-claude-4.7：最好 148/160，最新 148/160
gpt-5.4-2026-03-05：最好 147/160，最新 147/160
gpt-5.4-mini：最好 134/160，最新 134/160

证据路径

最新 run：20260521-122426__custom__claude-opus-4-7-thinking
最新 score JSON：/home/ht/knowledge/model-evals/scored/20260521-122426__custom__claude-opus-4-7-thinking.json
最新 run JSON：/home/ht/knowledge/model-evals/runs/20260521-122426__custom__claude-opus-4-7-thinking.json
横向总览页：<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>

下一步

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。
新 run 完成后，刷新本详情页和横向总览页。
若用于生产路由，应另写模型路由决策页，避免把单次评测分数直接等同于配置变更。

风险与边界

本页是小墨场景评测，不等同于通用 benchmark。
同名模型可能对应 provider alias 或后端版本漂移，结论需结合 run 时间线看。
对工具执行闭环要求高的任务，应优先看 T4 / live verification 表现。