小墨模型评测详情:claude-opus-4-8
总分:117 / 160。
建议角色:文档 worker / 轻量规划 worker。
见证据摘要与完整记录中的状态、产物和校验链。
先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。
证据摘要
- 正文保留完整证据链;本页顶部只展示可读摘要。
行动清单
边界 / 风险
正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。
完整记录
小墨模型评测详情:claude-opus-4-8
结论
总分:117 / 160。
这轮 claude-opus-4-8 可作为限定场景 worker 使用,但不建议承担小墨主线。核心问题不是不会写,而是题眼锚定和 Git/GitHub 漂移判断不稳:T1 对 ca8f4abdb 的三层拆解给成了通用模板,T8 首句把“已同步但漂移”和“从未同步”两类情况说反。工具意识和 focused regression 还可以,但真实验证闭环不够扎实。
基本信息
- run_id:
20260614-130915__custom__claude-opus-4-8 - provider:
custom - model:
claude-opus-4-8 - baseline:
gpt-5.5 - scored_by:
gpt-5.5 - score:
117 / 160 - 本地原始作答:
/home/ht/knowledge/model-evals/runs/20260614-130915__custom__claude-opus-4-8.md - 本地评分报告:
/home/ht/knowledge/model-evals/scored/20260614-130915__custom__claude-opus-4-8.md
单题得分
| 题目 | 分数 | 判断 |
|---|---|---|
| T1 主线保持 | 11 / 20 | 格式齐,但没有围绕 ca8f4abdb 做真实分层,泛答明显。 |
| T2 复杂规划 | 16 / 20 | 结论、分层、顺序、停止点完整;偏常规模板。 |
| T3 commit grouping | 17 / 20 | 大组合理,Feishu/test、image-gen、ACP 独立判断不错。 |
| T4 tool verification | 14 / 20 | 有工具意识,但用测试仓库演示替代真实仓库验证,闭环不够干净。 |
| T5 regression 判断 | 18 / 20 | focused test 优先、扩大回归条件、执行命令都清楚。 |
| T6 upgrade worth-it | 17 / 20 | 暂不升/先评估判断合理,成本收益意识清楚。 |
| T7 wiki 收口 | 16 / 20 | 结构可复用,但同步一致性边界还能再拆细。 |
| T8 drift triage | 8 / 20 | 首句把两类情况说反,高风险错误。 |
维度判断
- A 主线保持:10/20
能按格式回答,但没有围绕具体 commit 做真实分层,说明长会话主线锚定不稳。
- B 规划收口:16/20
顺序、停止点完整,能给出可执行方案;但缺少 Hermes 本地补丁语境下的细粒度风险。
- C patch / 代码判断:17/20
分组基本合理,知道哪些不该混推;少量工具模块合并建议偏粗。
- D 工具执行闭环:14/20
命令链和工具意识有,但没有真正针对目标仓库给结论,可信度不足。
- E 检索压缩表达:17/20
表达规整、结论优先、可扫读,是这轮相对稳定的能力。
- F 知识治理收口:15/20
wiki 结构化能力可用,但关键同步状态定义不够严。
- G 扩展潜力
适合做文档初稿、低风险规划和测试范围判断;不适合承担需要精确状态裁决的主线执行。
推荐接入方式
建议角色:文档 worker / 轻量规划 worker。
适合:
- 轻量方案草拟
- 测试范围判断
- 文档结构初稿
- 低风险分组建议
不适合:
- 小墨主线模型
- Git/GitHub 同步状态裁决
- 需要严格事实锚定的收口判断
- 需要真实工具闭环的代码执行任务
相对 gpt-5.5 基线
整体弱于 gpt-5.5 基线。它的优势是表达规整、能保持结论先行和分层输出;弱点是主线锚定、漂移判断和真实工具闭环。真实主线里这类错误会制造返工,尤其 T8 这种反向定义不能放过。
收口状态
- 评分 JSON 已写入:
/home/ht/knowledge/model-evals/scored/20260614-130915__custom__claude-opus-4-8.json - 评分 Markdown 已写入:
/home/ht/knowledge/model-evals/scored/20260614-130915__custom__claude-opus-4-8.md - 本地模型评测 index 已刷新:
/home/ht/knowledge/model-evals/index/all-runs.json - pending run 已清零。