🟢 已上线 production · 2026-06-02

OpenRouter 成本精简:opener 提示词瘦身 v34 (slim)

把 ice_break 冷启动话术的系统提示瘦身 34%,在不掉质量的前提下削减 qwen3 的 input token 花费。

Langfuse prompt dm.ice_break.system · v33 (verbose) → v34 (slim) · 模型 qwen/qwen3-235b-a22b

−34%
系统提示长度
14089 → 9535 字
+7.8pp
离线一次过率
62.1% → 69.8%
−22.9%
每次 input token
12580 → 9700
~$5.9/周
实测外推省额
(测算 ~$8.6)

背景与目标

opener(冷启动招呼语)由 qwen/qwen3-235b-a22b 生成。该模型在 OpenRouter 上没有 prompt cache——意味着那段固定的、上万字的系统提示每一次调用都按全价重新计费,无论内容是否变化。

ice_break opener 是全系统调用量最大的 LLM 路径之一(近 14 天约 626 次/天)。因此「把系统提示本身改短」是性价比最高的省钱杠杆——这就是本次方案 B(瘦身)

核心思路:input token 由 prompt 长度主导。提示越短,每次调用的 input 计费越低,而调用量不变,省额随之线性累积。

改了什么

质量闸门 · 离线评测(slim vs v33)

29 条意向回归集 × 2 臂 × k=4 = 每臂 116 trial,离线级联判定(镜像线上 generateOpener 16 步)。

维度v33 (verbose)v34 (slim)Δ
总体一次过率62.1%69.8%+7.8pp
高意向57.5%65.0%+7.5pp
中意向63.9%69.4%+5.6pp
低意向65.0%75.0%+10.0pp
含我方号 Homedz3791 外发0 / 1160 / 1160 泄漏
闸门标准:slim 一次过率 ≥ v33 0 我方号外发。两项全绿 → 放行上线。瘦身不仅没掉质量,三档意向反而全部正向。

实测成本(上线 day-0 基线)

数据源:llm_call_provenance 表,按 prompt 版本分桶。total_cost_usd 暂为空,按 qwen3 单价(input $0.455/M、output $1.82/M)反推。

指标v33v34Δ
avg input token / 次125809700−22.9%
avg output token / 次408389~持平
反推成本 / 次$0.006466$0.005121省 $0.00135

按 ice_break 全量调用速率(~626 次/天 → ~4383 次/周)外推:实测周省约 $5.9

为何低于事前测算 $8.6:测算按 prompt 全文字数差(~3.4k tok)推,实测每次只省 2881 tok——差在「字 ≠ token」+ 系统提示里的变量内容(视频标题 / 评论 / IP 等)不参与缩减。v34 刚上线样本尚小,过几天复跑数字更稳。

落地状态与后续

回滚路径:owner 在 Langfuse UI 把 production label 切回 v33 即可,无需改代码。