Hermes Decision Trace

小墨模型评测详情：gpt-5.3-codex

gpt-5.3-codex 当前最好分 134/160，最新分 134/160，处于 B｜主线辅助/强 worker。建议角色：code worker / research worker，不建议直接承担小墨主模型。

HTML完整论证

Wiki可检索归档

Feishu短入口交付

🎯

核心结论

gpt-5.3-codex 当前最好分 134/160，最新分 134/160，处于 B｜主线辅助/强 worker。建议角色：code worker / research worker，不建议直接承担小墨主模型。

🧭

推荐路径

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。

🛡️

关键边界

本页是小墨场景评测，不等同于通用 benchmark。

关键判断

判断项	摘要
推荐方案	code worker / research worker，不建议直接承担小墨主模型
关键依据	最新 run：`20260521-135911__custom__gpt-5.3-codex`
落地方式	如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。
风险边界	本页是小墨场景评测，不等同于通用 benchmark。

证据摘要

最新 run：20260521-135911__custom__gpt-5.3-codex证据点 1
最新 score JSON：/home/ht/knowledge/model-evals/scored/20260521-135911__custom__gpt-5.3-codex.json证据点 2
最新 run JSON：/home/ht/knowledge/model-evals/runs/20260521-135911__custom__gpt-5.3-codex.json证据点 3
横向总览页：<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>证据点 4

行动清单

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。

新 run 完成后，刷新本详情页和横向总览页。

若用于生产路由，应另写模型路由决策页，避免把单次评测分数直接等同于配置变更。

边界 / 风险

风险点

本页是小墨场景评测，不等同于通用 benchmark。

风险点

同名模型可能对应 provider alias 或后端版本漂移，结论需结合 run 时间线看。

风险点

对工具执行闭环要求高的任务，应优先看 T4 / live verification 表现。

完整记录

本节目录结论关键指标推荐使用方式分数轨迹最新 run 逐题表现维度表现与更高分模型对比证据路径下一步风险与边界

小墨模型评测详情：gpt-5.3-codex

结论

gpt-5.3-codex 当前最好分 134/160，最新分 134/160，处于 B｜主线辅助/强 worker。建议角色：code worker / research worker，不建议直接承担小墨主模型。

关键指标

模型：gpt-5.3-codex
Provider：custom
横向排名：#6 / 22
有效 run 数：1
最好分：134 / 160
最新分：134 / 160
平均分：134.0
梯队：B｜主线辅助/强 worker
建议角色：code worker / research worker，不建议直接承担小墨主模型

推荐使用方式

code worker / research worker，不建议直接承担小墨主模型

代表判断：整体可用，工具意识和收口能力在线，适合承担边界清楚的执行型子任务；但主线稳定性与分组判断精细度还没达到 gpt-5.4 的主模型基线。

分数轨迹

20260521-135911__custom__gpt-5.3-codex：134 / 160；scored_by=gpt-5.4；2026-05-21T05:59:11.545316+00:00

最新 run 逐题表现

题目	标题	分数	评语
T1	主线保持题	16	能锚定当前任务，也给了三层和停止点；但‘长期保留核心’的边界还稍粗，缺少对 commit 内外对象的更强约束。
T2	复杂规划题	17	先结论、再分层、再停止点，结构是对的；收口意识不错，且知道哪些只记账。
T3	commit grouping 题	15	能明显拆出几组，也知道不能混推；但工具横切组与 ACP/CLI 资产组的边界仍偏粗，缺少更细的发布粒度判断。
T4	tool-verification 题	18	工具意识强，验证闭环完整，也能在证据不足时给出‘不能确认’而不是硬答，这是明显加分项。
T5	regression 判断题	17	focused regression 优先的判断对，扩大回归条件也比较清楚。
T6	upgrade worth-it 题	18	结论干脆，成本收益意识到位，也给了合理的隔离演练动作。
T7	wiki 收口题	16	结构可复用，分类和矩阵意识在线；但如果按更高标准，还可以再补‘真相源’和证据层级。
T8	drift triage 题	17	先判远端基线、再判本地漂移，顺序是对的；误判提醒也比较实用。

维度表现

维度	结果
A 主线保持	16 / 20
B 规划收口	17 / 20
C patch/代码判断	15 / 20
D 工具执行闭环	18 / 20
E 检索压缩表达	17 / 20
F 知识治理收口	16 / 20
G 扩展潜力	适合做执行导向的 code/research worker；若要上主模型，还需要在复杂分支并行场景下进一步验证主线稳定性与边界判断。

与更高分模型对比

gpt-5.5：最好 156/160，最新 155/160
gpt-5.4：最好 148/160，最新 148/160
YT-claude-4.7：最好 148/160，最新 148/160
gpt-5.4-2026-03-05：最好 147/160，最新 147/160

证据路径

最新 run：20260521-135911__custom__gpt-5.3-codex
最新 score JSON：/home/ht/knowledge/model-evals/scored/20260521-135911__custom__gpt-5.3-codex.json
最新 run JSON：/home/ht/knowledge/model-evals/runs/20260521-135911__custom__gpt-5.3-codex.json
横向总览页：<https://decision.ht1072.top/2026-05-29-xiaomo-model-eval-cross-model-archive.html>

下一步

如果该模型继续测试，优先追加新的 scored run，不覆盖旧 run。
新 run 完成后，刷新本详情页和横向总览页。
若用于生产路由，应另写模型路由决策页，避免把单次评测分数直接等同于配置变更。

风险与边界

本页是小墨场景评测，不等同于通用 benchmark。
同名模型可能对应 provider alias 或后端版本漂移，结论需结合 run 时间线看。
对工具执行闭环要求高的任务，应优先看 T4 / live verification 表现。