抓取时效全解 · 三层节奏 / 3分钟快道 / 复扫 / tier分级 / 加VM

一页讲透:哪个闹钟扫什么、三层各自多快、为什么"3分钟"实际是几十分钟、tier 怎么分、复扫有没有用、加机器多少钱多久。给睡醒的你做决策用。
📅 更新 2026-06-13 快道 tier1 163 个号 慢道 tier0 1019 个号 已修复并实测验证(6-13)

0一分钟结论

1三层抓取节奏全景

把"闹钟节奏"和"实际节奏"分开看——闹钟响得勤 ≠ 真被扫到得勤(被产能卡着)。

① 号源层(挑号 → 发现它的新视频)

号源闹钟节奏(cron)实际轮到节奏数量/现状
优质号源 tier13 分钟scrape-hot~47 分钟(被产能稀释)163 个
普通号源 tier01 小时 取最旧 150 个(scrape≈ 被饿死(近期 0 覆盖)1019 个

② 视频层(复扫已抓过的视频,捞它新来的评论)

视频闹钟节奏实际现状
优质视频 is_vip5 分钟vip-video-rescan每 5 分钟把全部 276 个扫一遍⚠️ 276 个全是 7 天前老视频=刨老坟
最近视频2 小时rescan-recent-videos受开关控制,可能没开
重新评选哪些算 VIP每天 04:45 一次hot-video-rotation一天一次决定②里扫哪 276 个

③ 评论层(抓评论 + 识别高/中意向)

动作闹钟节奏说明
抓评论没有独立闹钟跟着 ①号源 和 ②视频 被扫到时,把评论整片全抓回来
打标(识别高/中意向)2 分钟analyze抓回来后由 LLM 逐条分拣"高/中/低/无关"
一句话看懂

23 分钟快道扫的是「优质号源」,不是视频/评论

层级3分钟快道挑不挑?实际逻辑
优质号源✅ 就挑这个选 tier1 号(被证明产过高意向的 163 个号)
优质视频❌ 不挑抓这个号主页最新的视频(tier1 取最新 20 条),按时间排,不按质量
优质评论❌ 不挑把视频下符合时间窗的评论全抓回来,之后再由 LLM 逐条打"高/中/低/无关"标

大白话:3 分钟快道做的事 =「先挑出好号,然后去它主页把最新几条视频翻出来,把这些视频底下的评论一股脑全抓回来」。

"优质评论"(高意向)不是抓的时候挑的,是抓回来之后另一个程序(analyze 打标)识别的——抓的时候不知道哪条是高意向,先全捞再分拣。

三个"优质"对应到不同程序(彻底分清):

3tier 分级到底如何——只有 0 和 1

数据库里 source_accounts.tier 这列的官方定义(注释已于 2026-06-13 对齐真实节奏):

tier是什么走哪条道数量(最新)
0默认/普通号源(新加的号默认就是 0)1 小时慢道(scrape,priority=5)1019 active
1优质号源(被证明产高意向)3 分钟快道(scrape-hot,priority=1)163 active(101 原 + 62 升)

实测全库 distinct 值确实只有 0 和 1。列类型 SMALLINT 无 CHECK 约束,技术上能填 2/3;快道索引用的是 WHERE tier > 0(不是 =1)——当初预留了加更多级的口子,但至今没实现。

怎么从 0 升到 1(只升不降)

现在 tier1 内部是"平的"——可选扩展:tier2 超快道 163 个号不分先后,连最猛的「奇妙改造家」(14高) 和刚够线的 3高号都挤同一条 3 分钟道、平等竞争那 ~47min。
如果想让最尖子的 27 个(近30天高意向 ≥5 条的"强证据"号)跑得更快,可加一个 tier2
  • 证据:这 27 个号近 30 天各自产 ≥5 条真实高意向评论(奇妙改造家 14、唐山源哥 10、广州装修范工 10…)。
  • 怎么快:① 给 priority=0 比 tier1 还优先插队;② 只 27 个、不被稀释,稳在 ~30min(甚至缩 skip 窗到 15min → ~15min)。27 个只吃 ~54/h 产能,对全局影响很小。
  • 代价:不创造产能(只把最好的拎出来开小灶);要写新 cron + 改 worker priority,走 PR。
现成扩展点,待定,未实现

4为什么"3 分钟"实际变成 ~47 分钟

🏥 用挂号比喻
3 分钟 = 排号机每 3 分钟响一次,喊"谁该看病了,进队列"。
但真正看病的窗口只有 3 个(worker 3 个并行槽),一小时拢共最多看 ~200 个号——固定产能。
一个号"这次被看 → 下次被看"的间隔 = 号数 ÷ 产能。队里人越多,轮到你越慢。
快道号数产能每个号实际多久被抓一次
101 个(之前)~200/h≈ 每 30 分钟
163 个(今天提拔后)~200/h≈ 每 47 分钟

多了 62 个号(+61%),同一块产能分给更多人 → 30min × 1.61 ≈ 47min。纯粹是除法。(系统还有条规矩:30 分钟内抓过就跳过,所以一个号最快也就每 30 分钟一次。)

之前"3 分钟快道可以",是踩着产能临界线的"可以"——没余量。而且那个"可以"有代价:tier1 吃满产能时,慢道 1000 多个号是 0 覆盖。不是真够用,是顾了快道丢了慢道。

5复扫到底有没有用?

先分清:「新鲜视频」≠「新鲜评论」。一条视频发出后,评论不是一次性来完——发出后第 2、3 天还在持续有人评论。所以"过两天再扫一次"本意是对的:捞它这两天新冒出来的评论,这些可能就是新鲜高意向 lead。

但现在的复扫方向反了 —— 这才是 06-10 时效崩盘的根。

铁证:现在被每 5 分钟反复扫的 276 个 VIP 视频,100% 是 7 天以前发的老视频。老视频评论高峰早过,再扫多半啥新评论都没有 = 空转;一扫还触发 7 天窗口,把几天前的老评论倒灌进库,把时效统计从 2h 拉到 58h。

该加强该砍掉
快速发现新视频(现在被挤瘦了) 老视频(7-30天)的高频复扫
只复扫最近 1-3 天的视频(捞正在来的新评论) 7 天全窗回填老评论
别一刀切全关复扫——那样只抓到视频刚发时那几条评论,会错过它火起来那 2-3 天陆续来的新鲜 lead。正解是"复扫只盯新视频、放过老视频"。

6加 VM / fly worker:怎么做、产能、费用

"加 VM" 和 "增加 fly worker" 是同一件事

现在 worker 是 1 台机器、3 个干活窗口,一小时干 ~200 个号。一条命令 fly scale count=2(约 30 秒),就是再开一台一模一样的机器

窗口数
3 → 6 个
产能
~200 → ~400/h
月费用
+¥77 (≈$11)

规格:shared-cpu / 2GB / 东京。技术上安全——两台机器抢同一队列时数据库有锁(SKIP LOCKED),不会重复抓。代码注释也写明:号数超 1000 就该横向加机器。

能喂饱吗?算笔账

2 台 = ~400/h。163 个快道号、每个 30 分钟抓一次 = 需要 326/h。400/h 喂得饱,还剩 ~74/h 漏给慢道(慢道终于不再是 0)。✅ 直接有效。

但两个坑,别以为是纯赚 2 倍

7背景:06-10 起为什么变差了

日期复扫任务/天发现新源/天时效中位中高意向/天
06-0839k58085.5h705
06-0939k56581.5h778
06-1070k505158h551
06-1196k487741h333
06-1264k421756h330
一句话根因复扫洪水(vip-video-rescan 每 5 分钟扫 276 个老视频 ≈ 7.9 万次/天)把 worker 灌满 → "发现新视频"被挤降、慢道饿到 0 → 没产能及时抓新鲜评论 → 时效从 2h 崩到 56h、中高意向量腰斩。跟评论窗口无关,是复扫抢光了产能。

8已执行的动作 + 今日实测验证

原计划的"三条路"已选 ③ 都上 并全部落地(2026-06-13)。下面是做了什么 + 生产库实测结果。

✅ 已执行(全部上线/部署/验证)

动作方式状态
① 复扫限流(老视频退役)vip-rescan 加视频年龄闸 ≤4天,PR #329合并+部署 ✅
② 加 1 台 VMfly scale count=2(2台/东京)已生效 ✅
③ 提拔金矿入快道62 个证明过的号 → tier1(101→163)已生效 ✅
④ tier 注释对齐4h/5min→1h/3min,PR #327合并生效 ✅

📊 实测验证(改造后 vs 改造前)

指标改造前改造后
真新鲜评论捕获(发布≤2h)中位 ~23 分钟,≤1h 96% ✅ 目标达成
tier0 覆盖近24h 仅 3 个源(≈饿死)30min 内 106 个源被采
worker 吞吐~207/h~300–460/h(2.2×)
vip 复扫洪水~3.3k/h(7.9万/天空转)归零(276 老视频退役)
worker 积压洪水期堆积仅 14 条(完全追平)
⏳ 唯一还在跑的「恢复期」——会自己结束,不是问题 1019 个被饿死几天的源正在"首次复活补抓",把各自积压的老评论一次性倒进来——所以整体时效中位短期仍显示偏高(老评论拉的)。但这批是在找回被搁置的高意向 leads(非垃圾),且不挡运营(lead 队列按发布时间倒序,新鲜永远排最前)。实测已在排空:老回填占比 91% → 43%(2 小时内)。再过几小时整体数字也会跟着回落。
没做(按你的指示) tier2 超快道(你说不用);lead 队列时间窗从 7天收紧到 48-72h(业务策略,留你定)。
Akke 智能获客 · 抓取管线时效专题 · 更新于 2026-06-13(已执行+实测)· 数据全部来自生产库实测
现状:改造全部落地并验证,新鲜捕获 ~23 分钟达标,恢复期数小时内自然排空。