小墨模型评测详情:claude-opus-4-7-thinking
claude-opus-4-7-thinking 当前最好分 129/160,最新分 129/160,处于 C|限定 worker。建议角色:主模型候选 / research worker / 复杂文档治理与执行分析 worker;在需要极强主线约束和超高压缩度的默认主模型场景下,建议先并行观察后再决定是否顶到第一顺位。
claude-opus-4-7-thinking 当前最好分 129/160,最新分 129/160,处于 C|限定 worker。建议角色:主模型候选 / research worker / 复杂文档治理与执行分析 worker;在需要极强主线约束和超高压缩度的默认主模型场景下,建议先并行观察后再决定是否顶到第一顺位。
如果该模型继续测试,优先追加新的 scored run,不覆盖旧 run。
本页是小墨场景评测,不等同于通用 benchmark。
关键判断
| 判断项 | 摘要 |
|---|---|
| 推荐方案 | 主模型候选 / research worker / 复杂文档治理与执行分析 worker;在需要极强主线约束和超高压缩度的默认主模型场景下,建议先并行观察后再决定是否顶到第一顺位 |
| 关键依据 | 最新 run:20260521-122426__custom__claude-opus-4-7-thinking |
| 落地方式 | 如果该模型继续测试,优先追加新的 scored run,不覆盖旧 run。 |
| 风险边界 | 本页是小墨场景评测,不等同于通用 benchmark。 |
证据摘要
- 最新 run:
20260521-122426__custom__claude-opus-4-7-thinking证据点 1 - 最新 score JSON:
/home/ht/knowledge/model-evals/scored/20260521-122426__custom__claude-opus-4-7-thinking.json证据点 2 - 最新 run JSON:
/home/ht/knowledge/model-evals/runs/20260521-122426__custom__claude-opus-4-7-thinking.json证据点 3 - 横向总览页:<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>证据点 4
行动清单
边界 / 风险
本页是小墨场景评测,不等同于通用 benchmark。
同名模型可能对应 provider alias 或后端版本漂移,结论需结合 run 时间线看。
对工具执行闭环要求高的任务,应优先看 T4 / live verification 表现。
完整记录
小墨模型评测详情:claude-opus-4-7-thinking
结论
claude-opus-4-7-thinking 当前最好分 129/160,最新分 129/160,处于 C|限定 worker。建议角色:主模型候选 / research worker / 复杂文档治理与执行分析 worker;在需要极强主线约束和超高压缩度的默认主模型场景下,建议先并行观察后再决定是否顶到第一顺位。
关键指标
- 模型:
claude-opus-4-7-thinking - Provider:
custom - 横向排名:
#13 / 22 - 有效 run 数:
1 - 最好分:
129 / 160 - 最新分:
129 / 160 - 平均分:
129.0 - 梯队:C|限定 worker
- 建议角色:主模型候选 / research worker / 复杂文档治理与执行分析 worker;在需要极强主线约束和超高压缩度的默认主模型场景下,建议先并行观察后再决定是否顶到第一顺位
推荐使用方式
主模型候选 / research worker / 复杂文档治理与执行分析 worker;在需要极强主线约束和超高压缩度的默认主模型场景下,建议先并行观察后再决定是否顶到第一顺位
代表判断:整体表现强,已经达到可承担较复杂结构化分析与执行型判断的水平,但离小墨主模型的高压主线要求还有一点距离。优势是任务锚定基本稳、分层和工程判断成熟、工具意识明显在线;短板是个别题仍会把对象抽象成通用方法论,压缩度和收口狠劲还没完全到 gpt-5.4 的基线水位。更适合做高质量 research / 方案判断 / 复杂文档与执行分析 worker,也可以承担不少主线任务,但是否做默认主模型还要看连续多轮稳定性。
分数轨迹
20260521-122426__custom__claude-opus-4-7-thinking:129 / 160;scored_by=gpt-5.4;2026-05-21T04:24:26.253613+00:00
最新 run 逐题表现
| 题目 | 标题 | 分数 | 评语 |
|---|---|---|---|
| T1 | T1 | 12 | 形式上满足对齐、三层结构和停止点,但没有真正贴着 ca8f4abdb 这个对象收口,主体仍是偏泛化的软件分层模板。主线没串,但对象贴脸度不够,这是这轮最明显失分点。 |
| T2 | T2 | 15 | 先结论、再分层、再顺序、再终态与停止点,框架完整,执行路径也清楚。问题主要是表达略长,局部仍偏方法论化,但整体已经可直接拿来推进。 |
| T3 | T3 | 16 | 分组清楚,哪些不能混推也点得准,commit/branch 粒度建议可执行。少量分组仍带一点经验性假设,但总体工程判断成熟。 |
| T4 | T4 | 18 | 这题关键是不能只讲方法,必须真查再答;本次确实给出了实际查询链、现场结果和闭环结论,工具意识和验证姿态都在线。扣分只在于表达还有一点铺陈,可以更狠地压缩。 |
| T5 | T5 | 17 | focused regression 优先、扩大条件清楚、顺序合理,工程味很正。已经达到高可用水平,只是还能再压一点篇幅。 |
| T6 | T6 | 16 | 题眼抓得对,明确给出“先做收益评估再升”,而不是被功能多带着走,成本收益意识也明确。主要扣在语言仍偏长,推荐动作能再砍得更利落。 |
| T7 | T7 | 16 | 结构完整,背景、分类口径、判断矩阵、操作建议都齐,确实像一个可复用 concept 页。问题不大,主要是局部还能更紧。 |
| T8 | T8 | 15 | 差异、顺序、误判都有,整体可用。轻微失分在于内容略重复,判断链虽然完整,但收口不如最强基线那么干脆。 |
维度表现
| 维度 | 结果 |
|---|---|
| A 主线保持 | 12 |
| B 规划收口 | 17 |
| C patch/代码判断 | 16 |
| D 工具执行闭环 | 18 |
| E 检索压缩表达 | 16 |
| F 知识治理收口 | 16 |
| G 扩展潜力 | 较高。适合承担复杂方案判断、代码/补丁分层、工具验证型问答、wiki 结构化收口;若要稳定承担小墨主模型,还需要进一步增强对具体对象的贴脸收口、减少泛化抽象,并把表达再压紧一点。 |
与更高分模型对比
- gpt-5.5:最好 156/160,最新 155/160
- gpt-5.4:最好 148/160,最新 148/160
- YT-claude-4.7:最好 148/160,最新 148/160
- gpt-5.4-2026-03-05:最好 147/160,最新 147/160
- gpt-5.4-mini:最好 134/160,最新 134/160
证据路径
- 最新 run:
20260521-122426__custom__claude-opus-4-7-thinking - 最新 score JSON:
/home/ht/knowledge/model-evals/scored/20260521-122426__custom__claude-opus-4-7-thinking.json - 最新 run JSON:
/home/ht/knowledge/model-evals/runs/20260521-122426__custom__claude-opus-4-7-thinking.json - 横向总览页:<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>
下一步
- 如果该模型继续测试,优先追加新的 scored run,不覆盖旧 run。
- 新 run 完成后,刷新本详情页和横向总览页。
- 若用于生产路由,应另写模型路由决策页,避免把单次评测分数直接等同于配置变更。
风险与边界
- 本页是小墨场景评测,不等同于通用 benchmark。
- 同名模型可能对应 provider alias 或后端版本漂移,结论需结合 run 时间线看。
- 对工具执行闭环要求高的任务,应优先看 T4 / live verification 表现。