采集数据为什么突然涨 & 早报"未发"数准不准
Akke 内部数据核查 · 2026-05-31(数据为当日约中午的快照)· 数据来源:service-role 直查生产库(跨全部 org,与早报 scrape-digest-daily 同口径)
一句话结论:5/30 的视频/评论/高意向相比前一天涨了约 3–4.5 倍,是真实的,但不是有那么多新客户——而是 #65「评论覆盖度修复」把回看窗口从 24h 拉到 7 天后,一次性把过去几天漏抓的旧评论补了进来(5/30 入库评论里 63% 是 3 天前发布的,5/31 更高达 77%)。数字没有重复计算膨胀,可信。而且这波补漏还没排完,5/31 的量比 5/30 还高。早报"未发 backlog"我也复算并核了真伪:5/30 有 高 103 / 中高 276 人未发,其中真正已联系过的只有各 4 人(约 2%)——也就是说 backlog 几乎没虚高,是实打实没人碰的高意向需求,而且正随补漏快速堆积。
这是个什么类型的问题,在 Akke 哪个环节
这不是"采集坏了"或"数据错了",而是两件事叠在一起的 数据可观测性 / 指标口径问题:
- 采集行为变更(#65 扩窗)→ "每天采集量"这个指标的含义临时变了(含大量补漏的历史数据),但报表照旧按"昨日新增"展示,于是看起来异常。
- 报表口径不完整→ 早报的"未触达 backlog"只按评论状态推断,没扣掉"这个人其实早联系过",会偏大。
它落在整条链路的「观测 / 报表层」——横跨在"分析产出"和"运营触达决策"之间,本身不产生业务数据,只汇总它们给人看。所以问题不在采集或分析的正确性,而在怎么把它们的产出讲清楚。
→
采集 Worker
videos · comments
#65 改这里
→
→
运营触达
ADB/WDA · conversations
📊 观测 / 报表层 · 每日 07:30 采集快照(scrape-digest-daily)
汇总上面 2~3 环节的产出 → 推 Lark · 本次两个疑问都出在这一层的「展示口径」
问题在这里被看到
今天你问的 4 个问题
昨天视频数和高/中/低意向评论为什么比前天高不少?
→ #65 扩窗后的补漏,相比前一天约 3–4.5 倍,且仍在进行,见「为什么涨」。
这些数据是否正确?
→ 正确,无重复计算膨胀;口径是"按入库时间统计采集量",见「数据准不准」。
无关评论现在怎么处理?
→ 两层过滤(规则预筛 + LLM 打"无关"标签),5/30 有 82% 评论是无关,已被挡在 leads 之外,见「无关评论」。
早报说的"昨天没发的高/中意向各多少"准吗?
→ 准(5/30 高 103 / 中高 276 人),且只有约 2% 是已联系过的——基本没虚高,见「未发 backlog」。
1 · 为什么 5/30 突然涨
1368
5/30 新视频
▲ 4.5×(5/29 是 305)
5505
5/30 新评论
▲ 3.8×(5/29 是 1465)
135
5/30 高意向评论
▲ 2.9×(5/29 是 46)
每日采集量对比
| 日期 | 新视频 | 新评论 | 高意向 | 中意向 | 低意向 | 无关 | 未分析 |
| 5/27 | 90 | 415 | 45 | 170 | 184 | 11 | 5 |
| 5/28 | 148 | 798 | 30 | 85 | 94 | 564 | 25 |
| 5/29 | 305 | 1465 | 46 | 102 | 145 | 1168 | 4 |
| 5/30 | 1368 | 5505 | 135 | 434 | 426 | 4495 | 15 |
| 5/31(到中午) | 3831 | 5830 | 148 | 424 | 412 | 4846 | 0 |
注:5/27 的"无关"只有 11、占比极低,与后几天(数千)明显不符,疑似当天评论尚未被分析环节充分打标(intent_label 还没刷上),把 5/27 当基线要打个问号;做倍数对比时用 5/29 当"前一天"最稳。
关键证据:入库评论"有多旧"
按"评论入库时刻 − 评论发布时刻"分桶。日常 60–80% 是当天发的;5/30 起一大半是 3 天前的——这正是"回看 7 天补漏"的指纹。
| 日期 | 当天(<24h) | 1–2 天 | 3–7 天 | 无发布时刻 | 3 天以上占比 |
| 5/29 | 936 | 128 | 401 | 0 | 27% |
| 5/30 | 1558 | 459 | 3488 | 0 | 63% |
| 5/31(到中午) | 1034 | 310 | 4472 | 14 | 77% |
修正一个我自己先前的误判:补漏不是"一次性、正在排空",而是还在进行、甚至在加速。5/31 到中午就已经有 5830 条评论、3831 个视频(都超过 5/30 全天),其中 3–7 天前的旧评论占到 77%。说明 #65 的"近 7d 视频持续复扫 / 回看 7 天"还在源源不断地把历史评论灌进来。预计要等历史窗口被吃透后才会回落到新稳态(叠加每视频抓评上限 20→50 带来的持续抬升)。具体几天能排完,需要再观察。
时间线提醒:#65 是 5/30 21:37 部署的,只覆盖 5/30 最后约 2.4 小时。一次全量刷新(每个活跃源回看 7 天 × 每视频最多 50 条)短时间灌进数千条旧评论是合理的;5/30 大涨可能还叠加了 5/29 那次数据修复(127 个孤儿源 + 1072 视频回填进主 org,让更多源活了过来)。两推手难以百分百拆分。
2 · 这些数据正确吗
正确,且没有重复计算膨胀。评论入库虽是 INSERT,但有两道去重:同批内存去重 + 入库前查 DB 已有的 (内容, 作者) 再跳过。所以"反复复扫同一批视频"不会把同一条评论重复插进去,涨上来的不是水分。
- "新视频"按
videos.scraped_at、"新评论"按 comments.created_at(入库时刻,代码注释明确写"受 cron 调度影响")落在昨日 BJT 0–24h。所以它衡量的是"昨天采集进来多少"——补漏的旧评论也算昨天采集量,是对的。
- 意向分桶按
intent_label:高 ≥80 / 中 60–79 / 低 30–59 / 无关 <30。
- 全程不按 org 过滤,是全公司所有采集源的合计。
所以"数字对不对"的答案是:作为采集量它准确无误;只是别读成"昨天新冒出这么多买家"。
3 · 无关评论现在怎么处理
- 规则预筛(便宜):同行报价号、纯 emoji、@AI 这类明显噪音,直接跳过,不送 LLM。
- LLM 打标:剩下的由分析环节打
intent_label,判为「无关」的留库存档(供审计),但不进 leads、不进 backlog、不生成话术。
实际占比很大:5/30 的 5505 条评论里,无关 4495 条 = 82%,低意向 426 条。真正进入"值得触达"漏斗的高+中意向只有 569 条(10.3%)。说明过滤层在正常工作——绝大多数噪音被挡在了运营视野之外。
4 · 早报"昨天没发的高/中意向"准吗
早报口径:昨日入库、已打分、状态还停在 analyzed/queued、按 douyin_user_id 去重。我用完全相同的逻辑复算(约中午快照,可能略低于 07:30 卡片值,因为期间运营又联系了一些人):
| 日期 | 高意向"未发"(人) | 中高"未发"(人) |
| 5/30 | 103 | 276 |
| 5/31(到中午) | 138 | 338 |
原始口径下,5/30 有 103 个高意向 + 276 个中高意向用户"还没发"。注意这是"昨日入库且还没发",不是历史全部积压。随着补漏带进大量旧的高意向评论,这个待发池也跟着被撑大了。
"未发"里有多少其实已经联系过
| 分档(5/30) | 未发(人) | 已联系(权威·status=contacted) | 虚高比例 |
| 高意向 ≥80 | 103 | 4 | 约 4% |
| 中高 70–79 | 276 | 4 | 约 1.4% |
| 合计 | 379 | 8 | 约 2% |
结论:backlog 基本没虚高。用权威信号(该用户名下有评论被标成 contacted,即 mark-contacted 真写回过)核查,379 个"未发"用户里只有 8 个(2%)其实已经联系过。换句话说,这 103/276 几乎全是真没人碰过的高意向需求。作为佐证:5/30 全部高+中意向评论按状态分是「待发 389 / 已联系 53 / 已跳过 52」——只有约 12% 的高价值需求被实际行动了。
顺带纠正一个会骗人的口径:如果用"该用户是否有会话记录(conversations)"来判定"已联系",会得到 103/103 全命中的荒谬结果——因为会话在触达之前就被建成空壳了(每个被分析的用户一个),所以"有会话"≠"已联系",不能拿来做去重判断。真正可信的只有 status=contacted。
另一块仍查不到的残差:若运营手机发了 DM 却完全没跑 mark-contacted,库里零痕迹,无法识别——这部分只会让"真没碰过"更少,不会更多。
结论 & 建议
- 5/30 的涨是预期内的补漏,数据可信,不用担心采集出错;但补漏仍在进行,未来几天采集量会持续偏高,之后回落到比 5/29 略高的新稳态。
- 真正要警惕的是堆积:backlog 基本没虚高,意味着补漏带进来的 100+ 高意向 / 270+ 中高意向是真需求且没人碰,且每天还在加。当前只有约 12% 被实际行动——这是运营触达产能的问题,不是数据问题。建议按"近 6h 优先 + 高意向优先"消化,别让高意向冷掉。
- 报表口径建议改两处(都在观测层,不动采集/分析):
- 采集快照同时标出"当天新增 vs 历史补漏"(按 comment_time 拆),扩窗/补数时一眼看出是不是水分。
- "未触达 backlog"判定只认
status=contacted,不要用"有会话"(会话是空壳,会把数字算成 0 待发)。
- 运营动作:发完 DM 立刻
mark-contacted 是去重闭环的命门,漏标会同时污染 backlog 和去重黑名单。