🟢 已上线 production · 2026-06-02

OpenRouter 成本精简：opener 提示词瘦身 v34 (slim)

把 ice_break 冷启动话术的系统提示瘦身 34%，在不掉质量的前提下削减 qwen3 的 input token 花费。

Langfuse prompt dm.ice_break.system · v33 (verbose) → v34 (slim) · 模型 qwen/qwen3-235b-a22b

−34%

系统提示长度
14089 → 9535 字

+7.8pp

离线一次过率
62.1% → 69.8%

−22.9%

每次 input token
12580 → 9700

~$5.9/周

实测外推省额
(测算 ~$8.6)

背景与目标

opener（冷启动招呼语）由 qwen/qwen3-235b-a22b 生成。该模型在 OpenRouter 上没有 prompt cache——意味着那段固定的、上万字的系统提示每一次调用都按全价重新计费，无论内容是否变化。

ice_break opener 是全系统调用量最大的 LLM 路径之一（近 14 天约 626 次/天）。因此「把系统提示本身改短」是性价比最高的省钱杠杆——这就是本次方案 B（瘦身）。

核心思路：input token 由 prompt 长度主导。提示越短，每次调用的 input 计费越低，而调用量不变，省额随之线性累积。

系统提示 body 从 14089 字压到 9535 字（−34%），删冗余表述、合并重复规则，保留全部硬约束。
瘦身版完整合入 v33 的两项方向，确保上线不回退已有能力：
- contact-intent 扩面：识别 8 个强购买信号词（我要买 / 怎么下单 / 可以上门 / 做预算 / 急需等），在最热的 lead 上主动邀客户发微信。
- 翻转抛微信方向：我方微信号永不外发（抖音风控拦含号码的首条 DM），改为反问客户要号、让设计师加。

29 条意向回归集 × 2 臂 × k=4 = 每臂 116 trial，离线级联判定（镜像线上 generateOpener 16 步）。

维度	v33 (verbose)	v34 (slim)	Δ
总体一次过率	62.1%	69.8%	+7.8pp
高意向	57.5%	65.0%	+7.5pp
中意向	63.9%	69.4%	+5.6pp
低意向	65.0%	75.0%	+10.0pp
含我方号 Homedz3791 外发	0 / 116	0 / 116	0 泄漏

闸门标准：slim 一次过率 ≥ v33 且 0 我方号外发。两项全绿 → 放行上线。瘦身不仅没掉质量，三档意向反而全部正向。

数据源：llm_call_provenance 表，按 prompt 版本分桶。total_cost_usd 暂为空，按 qwen3 单价（input $0.455/M、output $1.82/M）反推。

按 ice_break 全量调用速率（~626 次/天 → ~4383 次/周）外推：实测周省约 $5.9。

为何低于事前测算 $8.6：测算按 prompt 全文字数差（~3.4k tok）推，实测每次只省 2881 tok——差在「字 ≠ token」+ 系统提示里的变量内容（视频标题 / 评论 / IP 等）不参与缩减。v34 刚上线样本尚小，过几天复跑数字更稳。

已完成 owner 已在 Langfuse 把 v34 promote 到 production（2026-06-02）。
已完成代码侧 fallback / contact-intent 正则 / wechatClause 早已携带 v33 方向（commit 2ecc481/dc17753/661839f，已在 prod 验证），无需同步部署。
待跟进对账脚本 scripts/_cost-recon-icebreak-v33-v34.ts，过 2–3 天复跑确认实际省额。
提醒 promote 之前 analyze 的老 lead，缓存 opener 仍是旧 prompt 生成的——发 DM 前仍需抽查话术新鲜度。

回滚路径：owner 在 Langfuse UI 把 production label 切回 v33 即可，无需改代码。