Hermes Decision Trace

小墨模型评测详情：skyclaw-v1

skyclaw-v1 当前最好分 126/160，最新分 126/160，处于 C｜限定 worker。建议角色：文档治理 worker / 规划辅助 worker / 限定场景 research worker；暂不建议主模型。

HTML完整论证

Wiki可检索归档

Feishu短入口交付

🎯

核心结论

skyclaw-v1 当前最好分 126/160，最新分 126/160，处于 C｜限定 worker。建议角色：文档治理 worker / 规划辅助 worker / 限定场景 research worker；暂不建议主模型。

🧭

推荐路径

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。

🛡️

关键边界

本页是小墨场景评测，不等同于通用 benchmark。

关键判断

判断项	摘要
推荐方案	文档治理 worker / 规划辅助 worker / 限定场景 research worker；暂不建议主模型
关键依据	最新 run：`20260526-221133__custom__skyclaw-v1`
落地方式	如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。
风险边界	本页是小墨场景评测，不等同于通用 benchmark。

证据摘要

最新 run：20260526-221133__custom__skyclaw-v1证据点 1
最新 score JSON：/home/ht/knowledge/model-evals/scored/20260526-221133__custom__skyclaw-v1.json证据点 2
最新 run JSON：/home/ht/knowledge/model-evals/runs/20260526-221133__custom__skyclaw-v1.json证据点 3
横向总览页：<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>证据点 4

行动清单

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。

新 run 完成后，刷新本详情页和横向总览页。

若用于生产路由，应另写模型路由决策页，避免把单次评测分数直接等同于配置变更。

边界 / 风险

风险点

本页是小墨场景评测，不等同于通用 benchmark。

风险点

同名模型可能对应 provider alias 或后端版本漂移，结论需结合 run 时间线看。

风险点

对工具执行闭环要求高的任务，应优先看 T4 / live verification 表现。

完整记录

本节目录结论关键指标推荐使用方式分数轨迹最新 run 逐题表现维度表现与更高分模型对比证据路径下一步风险与边界

小墨模型评测详情：skyclaw-v1

结论

skyclaw-v1 当前最好分 126/160，最新分 126/160，处于 C｜限定 worker。建议角色：文档治理 worker / 规划辅助 worker / 限定场景 research worker；暂不建议主模型。

关键指标

模型：skyclaw-v1
Provider：custom
横向排名：#15 / 22
有效 run 数：1
最好分：126 / 160
最新分：126 / 160
平均分：126.0
梯队：C｜限定 worker
建议角色：文档治理 worker / 规划辅助 worker / 限定场景 research worker；暂不建议主模型

推荐使用方式

文档治理 worker / 规划辅助 worker / 限定场景 research worker；暂不建议主模型

代表判断：skyclaw-v1 可以承担中等复杂度的规划、分组、文档治理和流程判断任务，但不建议直接作为小墨主模型。主要短板是工具验证结论不够严谨，容易把不充分证据收口成确定判断。

分数轨迹

20260526-221133__custom__skyclaw-v1：126 / 160；scored_by=skyclaw-v1；2026-05-26T14:11:33.019932+00:00

最新 run 逐题表现

题目	标题	分数	评语
T1	T1	17	准确锚定当前任务，没有串到其他线；三层和停止点都有。缺点是没基于 ca8f4abdb 具体内容展开，清单略模板化。
T2	T2	16	先结论、分层、先后顺序和停止点都满足。问题是补丁目录、每周 pending 等带有未验证假设，方案可用但不够贴近本机真实流程。
T3	T3	15	分组基本合理，也指出不混推和长期资产；但把 agent/copilot_acp_client.py 写成 tools/copilot_acp_client.py 是硬错误，说明代码资产细节审计不稳。
T4	T4	12	有真实工具调用，这是优点；但使用 git ls-remote origin HEAD 不能证明当前分支已 push，也不能证明最近两个 commit 在远端对应分支，且命令超时后仍给确定结论，事实风险较高。
T5	T5	17	focused regression 优先，扩大回归条件清楚，可直接执行。
T6	T6	16	结论正确：先做收益评估再升。依据是成本收益视角，不是复述 release note；推荐动作也可执行，但还可更明确隔离演练和回滚标准。
T7	T7	18	wiki concept 结构清楚，有背景、分类、矩阵、操作建议，适合复用。
T8	T8	17	能清楚区分 drift 和从未同步，判断顺序与误判提醒都到位。个别 Git upstream 表述可更严谨。

维度表现

维度	结果
A_主线保持	17/20：T1 锚定明确，不串线，有三层和停止点；但清单略泛，没真正利用 ca8f4abdb 的具体改动信息。
B_规划收口	31/40：T2/T6 都能先结论、分层、给停止点或动作；但 T2 部分内容如 ~/.hermes/patches 和每周 pending 带有臆造倾向，T6 推荐动作合理但未强调隔离演练。
C_patch代码判断	15/20：T3 分组基本合理，但把 agent/copilot_acp_client.py 写成 tools/copilot_acp_client.py 是明显细节错误；backup 分组也略粗。
D_工具执行闭环	12/20：T4 有真实工具调用意识，但验证命令输出超长且超时，ls-remote origin HEAD 不能证明当前分支或最近两个 commit 已到对应远端分支，结论过度确定。
E_检索压缩表达	16/20：表达清楚、可扫读，表格和层级都可用；偶有过度扩展。
F_知识治理收口	17/20：T7/T8 的 wiki 大纲和 drift 分类复用性强，误判提醒比较到位。
G_扩展潜力	适合做中间层 worker：把粗需求快速变成结构化草案；不适合作为最终事实裁判。

与更高分模型对比

gpt-5.5：最好 156/160，最新 155/160
gpt-5.4：最好 148/160，最新 148/160
YT-claude-4.7：最好 148/160，最新 148/160
gpt-5.4-2026-03-05：最好 147/160，最新 147/160
gpt-5.4-mini：最好 134/160，最新 134/160

证据路径

最新 run：20260526-221133__custom__skyclaw-v1
最新 score JSON：/home/ht/knowledge/model-evals/scored/20260526-221133__custom__skyclaw-v1.json
最新 run JSON：/home/ht/knowledge/model-evals/runs/20260526-221133__custom__skyclaw-v1.json
横向总览页：<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>

下一步

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。
新 run 完成后，刷新本详情页和横向总览页。
若用于生产路由，应另写模型路由决策页，避免把单次评测分数直接等同于配置变更。

风险与边界

本页是小墨场景评测，不等同于通用 benchmark。
同名模型可能对应 provider alias 或后端版本漂移，结论需结合 run 时间线看。
对工具执行闭环要求高的任务，应优先看 T4 / live verification 表现。