号源筛出来的触达候选要更精准——尽可能排除同行(全屋定制 / 装修 / 装饰),以及卖设计、卖灯具、卖瓷砖的商家号,不把 DM 配额浪费在无效用户上。
| 层 | 现状 | 能不能拦「卖灯具的」 |
|---|---|---|
| 1. 文本 gate peer-filter.ts | 扫昵称(已含「灯具店」「建材」等 ~60 词)+ 评论内容套话,analyze 投 LLM 前生效 | 部分 只拦昵称暴露身份的 |
| 2. LLM 意向分 | 打的是评论文本 | 拦不住 同行会写满分买家话术 |
| 3. 发送前人工看主页 | 写在拉单流程 step 2,纯靠人自觉 | 最可靠但不自动 无沉淀、会漏 |
| 检查 | 怎么判 | 成本 | 强度 |
|---|---|---|---|
| 1. 主页画像 | signature / 认证主体 / 昵称重扫同行词(室内装修/灯饰/照明/瓷砖…) | export 入口复用本来就拉的 profile 请求零新增;claim-leads 补拉 ~30-60 次/天 | 强 |
| 2. 签名挂微信 | 签名里挂自己微信 = 引流/卖家(归一化破「我的_微__信__是_xxx」打散伎俩)。真买家是问你微信,不会把自己微信挂签名 | 零(同一次请求) | 强 |
| 3. 主页视频墙 | 主页视频标题 ≥2 条命中同行词且占比 ≥40%(满屏「全屋定制案例」);业主记录自家装修只发 1-2 条,单条不定性 | 零(lead_profiles 已存主页视频标题,纯 DB) | 中强 |
| 4. 跨视频同文 | 同一用户把一模一样的评论刷到 ≥3 个视频下 = 收割/引流;2 个视频或短文案("多少钱一平"类)只告警不杀——真买家比价场景 | 零(库里本来就存全量评论,纯 DB) | 强 |
| 5. 认证主体透出 | worker 新增返回企业认证("XX灯饰有限公司")/自定义认证("优质房产领域创作者"),并入检查 1 | 零(同一次请求 +2 字段) | 强 |
拉单流程(判无效 → 沉淀「无关」+ 释放 claim,全员永久出池,防同事重复拉到同一卖家):
lead_profiles.raw_videos 基建已存在,零成本提前落地;② 不做 1.5× 超额拉取——gate 剔除后实拿不足时「再跑一次」更简单;③ analyze 全量的问题天然消失(6/4 起 analyze 只打分,主页拉取本来就在 claim 时)。| 案例 | 当时怎么漏的 | 现在哪道拦住 |
|---|---|---|
| B嗯嗯(卖灯具) | 昵称干净 + 满分买家话术,两道文本过滤全漏 | 双杀 跨视频同文(同句刷 3 个视频)+ 签名挂微信(签名=「我的_微__信__是_chengxinjiuwu」,下划线打散「微信」躲关键词,归一化后命中) |
| 谢大叔→聊房(房产创作者) | 旧词表无「聊房」 | 拦截 昵称:聊房(文本层 + 画像层都拦) |
| 太湖美景 | 昵称无信号,身份在简介 | 拦截 签名:室内装修 |
| 情况 | 处理 |
|---|---|
| signature 为空(大量用户不写简介) | 放行,不误伤;空字段只跳过该项检查 |
| 主页接口失败 / 超时 | 放行 + 拉单报告显式列出「N 条主页拉取失败」,不静默跳过也不断拉单 |
| signature 含「装修」但属业主语境("正在装修中") | 不收单字「装修」,只收「室内装修 / 全案设计」等完整形态 |
| 同文刷 2 个视频 / 文案 <6 字("多少钱一平"类) | 只告警不硬杀——真买家比价可能在 2-3 条视频下问同样的话 |
| 主页视频单条命中同行词 | 不定性(业主记录自家装修);要 ≥2 条且占比 ≥40% 才判 |
| 被 discard 的候选 claim 锁 | 主动释放(status='expired');释放失败也无碍,4h 自然过期 |
| gate 剔除后实拿 < 请求数 | 脚本如实报「实拿 M/N,再跑一次补拉」,不做超额拉取 |
风险:worker 主页接口走 sec_user_id 路径,回测 3 个真实 sec_uid 全部拉回成功;但未大批量验证海外出口反爬表现——上线后观察拉取失败率(报告里有显式计数),失败率高退回本机拉取兜底。
历史数据:不回填、不清理已触达历史(低影响又烧钱);只对 merge 后新拉单生效,基线抽样仅作统计。