Hermes Decision Trace

小墨模型评测详情:claude-opus-4-7-thinking

claude-opus-4-7-thinking 当前最好分 129/160,最新分 129/160,处于 C|限定 worker。建议角色:主模型候选 / research worker / 复杂文档治理与执行分析 worker;在需要极强主线约束和超高压缩度的默认主模型场景下,建议先并行观察后再决定是否顶到第一顺位。

HTML完整论证
Wiki可检索归档
Feishu短入口交付
🎯
核心结论

claude-opus-4-7-thinking 当前最好分 129/160,最新分 129/160,处于 C|限定 worker。建议角色:主模型候选 / research worker / 复杂文档治理与执行分析 worker;在需要极强主线约束和超高压缩度的默认主模型场景下,建议先并行观察后再决定是否顶到第一顺位。

🧭
推荐路径

如果该模型继续测试,优先追加新的 scored run,不覆盖旧 run。

🛡️
关键边界

本页是小墨场景评测,不等同于通用 benchmark。

关键判断

判断项摘要
推荐方案主模型候选 / research worker / 复杂文档治理与执行分析 worker;在需要极强主线约束和超高压缩度的默认主模型场景下,建议先并行观察后再决定是否顶到第一顺位
关键依据最新 run:20260521-122426__custom__claude-opus-4-7-thinking
落地方式如果该模型继续测试,优先追加新的 scored run,不覆盖旧 run。
风险边界本页是小墨场景评测,不等同于通用 benchmark。

证据摘要

  • 最新 run:20260521-122426__custom__claude-opus-4-7-thinking证据点 1
  • 最新 score JSON:/home/ht/knowledge/model-evals/scored/20260521-122426__custom__claude-opus-4-7-thinking.json证据点 2
  • 最新 run JSON:/home/ht/knowledge/model-evals/runs/20260521-122426__custom__claude-opus-4-7-thinking.json证据点 3
  • 横向总览页:<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>证据点 4

行动清单

如果该模型继续测试,优先追加新的 scored run,不覆盖旧 run。
新 run 完成后,刷新本详情页和横向总览页。
若用于生产路由,应另写模型路由决策页,避免把单次评测分数直接等同于配置变更。

边界 / 风险

风险点

本页是小墨场景评测,不等同于通用 benchmark。

风险点

同名模型可能对应 provider alias 或后端版本漂移,结论需结合 run 时间线看。

风险点

对工具执行闭环要求高的任务,应优先看 T4 / live verification 表现。

完整记录

小墨模型评测详情:claude-opus-4-7-thinking

结论

claude-opus-4-7-thinking 当前最好分 129/160,最新分 129/160,处于 C|限定 worker。建议角色:主模型候选 / research worker / 复杂文档治理与执行分析 worker;在需要极强主线约束和超高压缩度的默认主模型场景下,建议先并行观察后再决定是否顶到第一顺位。

关键指标

  • 模型:claude-opus-4-7-thinking
  • Provider:custom
  • 横向排名:#13 / 22
  • 有效 run 数:1
  • 最好分:129 / 160
  • 最新分:129 / 160
  • 平均分:129.0
  • 梯队:C|限定 worker
  • 建议角色:主模型候选 / research worker / 复杂文档治理与执行分析 worker;在需要极强主线约束和超高压缩度的默认主模型场景下,建议先并行观察后再决定是否顶到第一顺位

推荐使用方式

主模型候选 / research worker / 复杂文档治理与执行分析 worker;在需要极强主线约束和超高压缩度的默认主模型场景下,建议先并行观察后再决定是否顶到第一顺位

代表判断:整体表现强,已经达到可承担较复杂结构化分析与执行型判断的水平,但离小墨主模型的高压主线要求还有一点距离。优势是任务锚定基本稳、分层和工程判断成熟、工具意识明显在线;短板是个别题仍会把对象抽象成通用方法论,压缩度和收口狠劲还没完全到 gpt-5.4 的基线水位。更适合做高质量 research / 方案判断 / 复杂文档与执行分析 worker,也可以承担不少主线任务,但是否做默认主模型还要看连续多轮稳定性。

分数轨迹

  • 20260521-122426__custom__claude-opus-4-7-thinking:129 / 160;scored_by=gpt-5.4;2026-05-21T04:24:26.253613+00:00

最新 run 逐题表现

题目标题分数评语
T1T112形式上满足对齐、三层结构和停止点,但没有真正贴着 ca8f4abdb 这个对象收口,主体仍是偏泛化的软件分层模板。主线没串,但对象贴脸度不够,这是这轮最明显失分点。
T2T215先结论、再分层、再顺序、再终态与停止点,框架完整,执行路径也清楚。问题主要是表达略长,局部仍偏方法论化,但整体已经可直接拿来推进。
T3T316分组清楚,哪些不能混推也点得准,commit/branch 粒度建议可执行。少量分组仍带一点经验性假设,但总体工程判断成熟。
T4T418这题关键是不能只讲方法,必须真查再答;本次确实给出了实际查询链、现场结果和闭环结论,工具意识和验证姿态都在线。扣分只在于表达还有一点铺陈,可以更狠地压缩。
T5T517focused regression 优先、扩大条件清楚、顺序合理,工程味很正。已经达到高可用水平,只是还能再压一点篇幅。
T6T616题眼抓得对,明确给出“先做收益评估再升”,而不是被功能多带着走,成本收益意识也明确。主要扣在语言仍偏长,推荐动作能再砍得更利落。
T7T716结构完整,背景、分类口径、判断矩阵、操作建议都齐,确实像一个可复用 concept 页。问题不大,主要是局部还能更紧。
T8T815差异、顺序、误判都有,整体可用。轻微失分在于内容略重复,判断链虽然完整,但收口不如最强基线那么干脆。

维度表现

维度结果
A 主线保持12
B 规划收口17
C patch/代码判断16
D 工具执行闭环18
E 检索压缩表达16
F 知识治理收口16
G 扩展潜力较高。适合承担复杂方案判断、代码/补丁分层、工具验证型问答、wiki 结构化收口;若要稳定承担小墨主模型,还需要进一步增强对具体对象的贴脸收口、减少泛化抽象,并把表达再压紧一点。

与更高分模型对比

  • gpt-5.5:最好 156/160,最新 155/160
  • gpt-5.4:最好 148/160,最新 148/160
  • YT-claude-4.7:最好 148/160,最新 148/160
  • gpt-5.4-2026-03-05:最好 147/160,最新 147/160
  • gpt-5.4-mini:最好 134/160,最新 134/160

证据路径

  • 最新 run:20260521-122426__custom__claude-opus-4-7-thinking
  • 最新 score JSON:/home/ht/knowledge/model-evals/scored/20260521-122426__custom__claude-opus-4-7-thinking.json
  • 最新 run JSON:/home/ht/knowledge/model-evals/runs/20260521-122426__custom__claude-opus-4-7-thinking.json
  • 横向总览页:<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>

下一步

  1. 如果该模型继续测试,优先追加新的 scored run,不覆盖旧 run。
  2. 新 run 完成后,刷新本详情页和横向总览页。
  3. 若用于生产路由,应另写模型路由决策页,避免把单次评测分数直接等同于配置变更。

风险与边界

  • 本页是小墨场景评测,不等同于通用 benchmark。
  • 同名模型可能对应 provider alias 或后端版本漂移,结论需结合 run 时间线看。
  • 对工具执行闭环要求高的任务,应优先看 T4 / live verification 表现。