Hermes Decision Trace

小墨模型评测详情：ali-kimi-k2.5

ali-kimi-k2.5 当前最好分 118/160，最新分 118/160，处于 D｜轻量/不建议主线。建议角色：research worker / 文档治理 worker。

HTML完整论证

Wiki可检索归档

Feishu短入口交付

🎯

核心结论

ali-kimi-k2.5 当前最好分 118/160，最新分 118/160，处于 D｜轻量/不建议主线。建议角色：research worker / 文档治理 worker。

🧭

推荐路径

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。

🛡️

关键边界

本页是小墨场景评测，不等同于通用 benchmark。

关键判断

判断项	摘要
推荐方案	research worker / 文档治理 worker
关键依据	最新 run：`20260520-170155__custom__ali-kimi-k2.5`
落地方式	如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。
风险边界	本页是小墨场景评测，不等同于通用 benchmark。

证据摘要

最新 run：20260520-170155__custom__ali-kimi-k2.5证据点 1
最新 score JSON：/home/ht/knowledge/model-evals/scored/20260520-170155__custom__ali-kimi-k2.5.json证据点 2
最新 run JSON：/home/ht/knowledge/model-evals/runs/20260520-170155__custom__ali-kimi-k2.5.json证据点 3
横向总览页：<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>证据点 4

行动清单

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。

新 run 完成后，刷新本详情页和横向总览页。

若用于生产路由，应另写模型路由决策页，避免把单次评测分数直接等同于配置变更。

边界 / 风险

风险点

本页是小墨场景评测，不等同于通用 benchmark。

风险点

同名模型可能对应 provider alias 或后端版本漂移，结论需结合 run 时间线看。

风险点

对工具执行闭环要求高的任务，应优先看 T4 / live verification 表现。

完整记录

本节目录结论关键指标推荐使用方式分数轨迹最新 run 逐题表现维度表现与更高分模型对比证据路径下一步风险与边界

小墨模型评测详情：ali-kimi-k2.5

结论

ali-kimi-k2.5 当前最好分 118/160，最新分 118/160，处于 D｜轻量/不建议主线。建议角色：research worker / 文档治理 worker。

关键指标

模型：ali-kimi-k2.5
Provider：custom
横向排名：#19 / 22
有效 run 数：1
最好分：118 / 160
最新分：118 / 160
平均分：118.0
梯队：D｜轻量/不建议主线
建议角色：research worker / 文档治理 worker

推荐使用方式

research worker / 文档治理 worker

代表判断：未记录详细 verdict。

分数轨迹

20260520-170155__custom__ali-kimi-k2.5：118 / 160；scored_by=gpt-5.4；2026-05-20T09:01:55.300718+00:00

最新 run 逐题表现

题目	标题	分数	评语
T1	主线保持题	15	没有串到其他线，结构完整，也给了停止点。问题是三层内容偏泛，没有真正围绕 ca8f4abdb 的潜在改动域展开，更像通用模板。
T2	复杂规划题	16	结论前置、分层、先后顺序、终态和停止点都齐了。短板是“测试资产只记账”与“同批次但独立 commit”表述略有张力，策略还不够细。
T3	commit grouping 题	14	至少分成了 4 组，也明确了不能混推项。问题是把 backup 和 copilot_acp_client 直接并为一组、并判成长期资产，依据偏弱，真实工程里未必该这么捆。
T4	tool-verification 题	19	这题是整轮最好的一题。先查再答，明确分支、commit、远端追踪状态，闭环完整，没有口头猜。
T5	regression 判断题	16	focused test 优先，边界也基本清楚。问题是“gateway 公共基类改动”这个扩回归条件是合理猜测，但题面里没给这个信号，略模板化。
T6	upgrade worth-it 题	17	结论对，成本收益意识也在线，推荐动作可执行。问题是还是偏标准答案，缺少更强的本地补丁冲突审计意识。
T7	wiki 收口题	13	结构看着完整，但 concept 页大纲还不够“可复用”。背景、分类、矩阵、建议都有了，但缺少真相源、判断输入、异常分支等更稳的知识治理骨架。
T8	drift triage 题	13	能区分两类情况，也给了误判提醒。但判断顺序仍偏薄，尤其“从未同步”分支没有先确认 GitHub/远端是否真的不存在该主题，容易把未追踪分支和未同步主题混在一起。

维度表现

未记录维度分。

与更高分模型对比

gpt-5.5：最好 156/160，最新 155/160
gpt-5.4：最好 148/160，最新 148/160
YT-claude-4.7：最好 148/160，最新 148/160
gpt-5.4-2026-03-05：最好 147/160，最新 147/160
gpt-5.4-mini：最好 134/160，最新 134/160

证据路径

最新 run：20260520-170155__custom__ali-kimi-k2.5
最新 score JSON：/home/ht/knowledge/model-evals/scored/20260520-170155__custom__ali-kimi-k2.5.json
最新 run JSON：/home/ht/knowledge/model-evals/runs/20260520-170155__custom__ali-kimi-k2.5.json
横向总览页：<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>

下一步

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。
新 run 完成后，刷新本详情页和横向总览页。
若用于生产路由，应另写模型路由决策页，避免把单次评测分数直接等同于配置变更。

风险与边界

本页是小墨场景评测，不等同于通用 benchmark。
同名模型可能对应 provider alias 或后端版本漂移，结论需结合 run 时间线看。
对工具执行闭环要求高的任务，应优先看 T4 / live verification 表现。