Akke 评论抓取时效 · 数据快照

生成于 2026-06-17(北京时区)· 窗口最近 3 天 · 数据型自动报告(根因/方案叙事见深度调查页)

① 时延分布 T1(评论→采集),按 source tier

T1 = comment_timecreated_at(评论发出到被我们抓进库)。仅高/中意向评论。>6h 尾=慢尾占比,越高越糟。comment_time 缺失的评论不计入分布(单列)。
tier样本中位均值最慢>6h 尾缺时间
全部 1300 14h 51h 168h 55% 0
tier-1 1092 9.5h 47h 167h 52% 0
tier-0 109 54h 74h 168h 71% 0
孤儿(无源) 99 45h 64h 167h 62% 0
全部高/中意向 T1 分布(橙=6h+ 慢尾):
0–3h554
3–6h37
6–12h48
12–24h64
24–72h137
>72h460

② 各复扫路径空跑率

窗口内已完成的 scrape_video 任务里 抓到 0 条评论result.total_comments=0)的占比。越高=越多无效复扫(白占 worker 槽)。按 payload 路径标记分组。(注:用 result JSONB 判定,非恒 0 的 comments_found 列。)
路径完成数空跑数空跑率
其他(单视频/手动)18760981 0%
fast-lane(常规)6751165263 97%
fast-lane(高意向注入)1448014073 97%
vip-rescan20131993 99%
cold-intent-rescan300196 65%

③ pri 队列:enqueue 量 · 积压 · 最老 pending 龄

claim 严格按 priority ASC最老 pending 龄高的档=被高优先档饿着(tier-0 pri=5 积压是已知病)。
优先级窗口 enqueue当前 pending最老 pending 龄
pri=0 高意向注入/VIP/手动 164930
pri=1 常规 fresh-catch 单视频 811870
pri=3 tier-1 整号 / rescan-recent / cold-intent 2608384 32min
pri=5 tier-0 每小时 / 默认 190993312 12h
当前 pending 合计 696 条。

④ 抓取相关 cron + 近期已合并 PR

cron pathschedule
/api/cron/scrape10 * * * *
/api/cron/scrape-hot*/3 * * * *
/api/cron/analyze*/2 * * * *
/api/cron/scrape-monitor-digest30 * * * *
/api/cron/scrape-internal-accounts15 */6 * * *
/api/cron/scrape-digest-hourly30 * * * *
/api/cron/scrape-digest-daily30 23 * * *
/api/cron/rescan-recent-videos40 */2 * * *
/api/cron/hot-video-rotation45 4 * * *
/api/cron/vip-video-rescan*/5 * * * *
/api/cron/auto-tier10 1 * * *
PR标题合并
#377feat(scrape): cold-intent-rescan — 高意向历史视频低频回扫(方案②)2026-06-16
#366perf(scrape-hot): 快车道空跑指数退避 — 省 ~77% 无效复扫2026-06-16
#365perf(auto-tier1): 对称 auto-demote — 断「只升不降」总根因2026-06-16
#364feat(tier): akke 机器人每天推「tier 日报」到数据监控群2026-06-16
#363perf(scrape-hot): 破鸡生蛋(Leg B) + 快慢分道(Leg C) + cron */2→*/3 减空跑2026-06-16
#361feat(tier): tier 变更日志+每日快照 + auto-tier1 口径改高+中/7天2026-06-16
#357fix(queue): aging-weighted claim fairness 防 tier-0 starvation(安全网 6h)2026-06-15
#346perf(scrape): 评论抓取提速阶梯第1步 (scrape-hot */2 + 源节流30min)2026-06-15
数据型指标由 scripts/build-scrape-latency-report.ts 直查生产库生成;时延口径复用 src/lib/timeliness.ts 单一真相源。根因与方案叙事走 /update-scrape-report skill 半自动补。