Hermes Decision Trace

小墨模型评测详情:kimi-k2.7-code

总分:140 / 160

🧭
推荐路径

优先作为 code worker:处理 commit grouping、GitHub sync 前拆包、focused regression、升级风险初判。

🔎
关键依据

见证据摘要与完整记录中的状态、产物和校验链。

🛠️
落地方式

先把已验证方案当成稳定基线:保留当前 schedule / deliver / workdir,不急着继续扩面;新增候选先读源码、看 output、做 run-now 验证,再决定是否转 script-only。

证据摘要

  • 正文保留完整证据链;本页顶部只展示可读摘要。

行动清单

优先作为 code worker:处理 commit grouping、GitHub sync 前拆包、focused regression、升级风险初判。
可作为 文档治理 worker:整理 wiki concept、runbook、drift triage 口径。
可列入 主模型候选:但要继续跑真实仓库任务,观察工具调用、事实绑定和连续多轮收口。
暂不建议单独承担:发布链路最终裁决、生产 gateway/provider 改动验收、deep research 证据裁判。

边界 / 风险

风险 / 边界

正文未抽取到明确风险;上线前仍需确认权限、回退路径与运行态影响。

完整记录

小墨模型评测详情:kimi-k2.7-code

摘要

kimi-k2.7-code 本轮固定 8 题小墨模型评测得分 140 / 160,达到主模型候选线。它在代码改动分组、GitHub 同步前收口、focused regression、升级收益判断和 wiki/document concept 整理上表现稳定;但作为小墨主线模型仍需观察真实仓库上下文下的工具执行闭环与长链收口稳定性。

关键结论

  • 总分:140 / 160
  • run_id:20260618-131815__custom__kimi-k2.7-code
  • provider / model:custom / kimi-k2.7-code
  • baseline / scored_by:gpt-5.5 / gpt-5.5
  • 建议角色:主模型候选 / code worker / 文档治理 worker
  • 不建议:高风险生产变更单独最终裁决、deep research 主裁判、缺少上下文时完全自主主线接管

单题得分

题目分数判断
T1 主线保持18 / 20锚定任务和停止点稳定,但缺真实对象上下文时偏泛化
T2 复杂规划18 / 20同步前先推 / 后推 / 只记账分层清楚
T3 commit grouping18 / 20分组合理,不混推意识强
T4 tool-verification17 / 20多信号验证意识强,但目标仓库缺失时未形成真实分支结论
T5 regression 判断20 / 20focused regression 判断非常稳
T6 upgrade worth-it19 / 20成本收益和风险边界清楚
T7 wiki 收口17 / 20concept 结构可复用,但真相源字段还可补强
T8 drift triage17 / 20区分同步漂移和从未同步,需补 PR/issue/squash 历史检查

能力画像

kimi-k2.7-code 的强项是工程化结构和低废话收口。它能快速把变更按风险、资产类型和同步节奏拆开,也能给 focused test 优先的验证链。T4 没有出现“凭感觉回答”的硬伤,能识别没有 upstream 不等于没 push,并提出 commit 可达性验证,这是加分点。

扣分主要来自事实绑定强度:当没有真实仓库或真实 diff 时,它倾向于给出规范化流程,而不是进一步声明缺口、要求目标路径或产出“无法判定但已验证到哪一步”的更强结论。这个问题不致命,但决定了它更适合先做受控 worker,而不是无保护地顶到第一主线位。

接入建议

  • 优先作为 code worker:处理 commit grouping、GitHub sync 前拆包、focused regression、升级风险初判。
  • 可作为 文档治理 worker:整理 wiki concept、runbook、drift triage 口径。
  • 可列入 主模型候选:但要继续跑真实仓库任务,观察工具调用、事实绑定和连续多轮收口。
  • 暂不建议单独承担:发布链路最终裁决、生产 gateway/provider 改动验收、deep research 证据裁判。

归档句柄

  • Run:/home/ht/knowledge/model-evals/runs/20260618-131815__custom__kimi-k2.7-code.md
  • Score:/home/ht/knowledge/model-evals/scored/20260618-131815__custom__kimi-k2.7-code.md
  • Wiki summary:/home/ht/llm-wikis/hermes-ops/summaries/xiaomo-model-eval-kimi-k2-7-code-2026-06-18.md
  • 本地 index:/home/ht/knowledge/model-evals/index/latest-summary.md