一条真实评论 「135装这款硬装需要多少钱」:大模型拆维度 → 问购 60 + 具体 25 + 在调研 8 = 93 分 → 高意向,直接成 lead。这是打分顺利的情况。
每条评论先由大模型拆成 3 个维度,算出一个 0–100 分,再按阈值(注:分界线)落到四档。档位决定要不要去私信这个人:
用的大模型:DeepSeek V4 Flash(284B 参数的 MoE 模型,实际激活 13B;负责把评论拆成下面 3 个维度)。拆完后,分数由代码按固定公式算,不靠模型直接给分(更稳定、可复现)。
得分 = 基础分(类型)+ 加分(具体程度)+ 加分(时效),上限 100:
| ① 评论类型 | 基础分 | ② 具体程度 | 加分 | ③ 时效 | 加分 |
|---|---|---|---|---|---|
| 问购(想买/找服务) | 60 | 具体 | +25 | 近窗(刚发) | +15 |
| 问工艺(问知识/做法) | 40 | 一般 | +10 | 在调研 | +8 |
| 感慨(闲聊/玩梗) | 15 | 模糊 | +0 | 无时间 | +0 |
→ 算完按 高≥80 / 中≥60 / 低≥30 / 其余无关 落档。两个特殊规则:
| 规则 | 动作 |
|---|---|
| 非业务品类(off_topic,如门窗/家电/数码) | 直接 0 分 → 无关,不管说啥 |
| 代码层强买家信号兜底:命中「怎么联系/加微信/在哪买/怎么买/能做吗/店在哪/我要一套」且是装修话题 | 不管模型打多少,强制拉到高意向 |
下面都是库里真实评论 + 它被打的分(公式可对上):
装修视频评论区大部分是噪音——纯表情、玩梗、同行、跑题。实测近 24 小时被分析的评论里:
处理方式(三道):
| 环节 | 做法 | 状态 |
|---|---|---|
| ① 抓取时预过滤 | 纯表情 / 同行号 / @AI 这类,不送大模型,直接 skip(省成本) | ✅ 正常 |
| ② 本周一次性大清理(手动) | 无关曾累积到峰值 ~30,131 条;本周手动跑清扫脚本,累计删除约 17,725 条 | ✅ 已执行 |
| ③ 每日自动清理 | 定时任务每天删 无关 且 >24h 的(留 24h 安全窗防改判) | ⚠️ 配了但失败(删除时 SSL 报错、无重试 → 一条没删),修复中 |
conversations(对话)表引用——这些评论关联了触达/对话记录,删评论会破坏对话(FK 挡住),本就不该删。全库 31,504 条评论里 无关仍占 55%(17,333 条)——即便天天清,噪音依然是绝对大头。这正说明价值集中在那 7.7% 高意向上,筛得准比抓得多更重要。
全库 31,504 条评论的档位分布(2026-06-04 实时):
| 档位 | 数量 | 占比 | 用途 |
|---|---|---|---|
| 高意向 | 2,440 | 7.7% | 主力私信池 |
| 中意向 | 4,718 | 15.0% | 高意向枯竭时补(score≥75) |
| 低意向 | 6,577 | 20.9% | 一般不碰 |
| 无关 | 17,333 | 55.0% | 清理(删可删的;对话锁的保留) |
| 未分析 | 436 | 1.4% | 排队待打分(从 19% 降下来) |
| 优先级 | 动作 | 为什么 |
|---|---|---|
| 高 | 意向配方 A/B 回测 | 把"效果"从定性变量化,精确测每次改动的精确率 + 池子大小 |
| 中 | 持续扩强买家信号词 + 同行后缀 | 这两层兜底,词越全漏判/误判越少 |
| 中 | 意向打分 ↔ 号源打分联动 | 高意向集中在少数号 → 反哺号源 A/B/C 分级 |