force_full_window,此前是本地未提交 WIP 没部署,已查实并真正上线、用数据验证);② 每个好号抓取深度从 10 条视频提到 20 条(实验先得 30% 收益、扩样本复验只有 18%,结论收敛为"线索主要在最新 10 条")。第三条杠杆——把每个好号"数据最好的 top10 爆款视频"纳入轮转——原计划按转赞评排序,但因蝉妈妈封号 + 自有表无互动数据,改用"自有评论/线索密度"信号,一次性复抓了 491 条(未建常驻 cron,见专题三)。配套还做了号源池大清理:去重 + 把被埋没的好号重新激活,active 号源 581 → 649,高频好号 tier1 64 → 91。这几件事都暴露同一类流程问题:"改了" ≠ "生效"、"小样本" ≠ "结论",下面分别拆解。
大白话:抓一条视频评论时有个"时间闸门",只留"距今 N 小时内"发的评论,更老的直接扔。N 默认 24(1 天)。放宽到 7 天,是为了捞回视频发布后第 2–7 天持续来的评论。
ebaad66)按时 commit + 部署,这块当时就做对了。
7266a33 → PR #65)才补上并用数据验证。
force_full_window 就是修这两条:让复扫也按整 7 天全窗口抓,并回去复扫已掉出最新 10 条的老视频。
force_full_window 写好了却没 commit、没 deploy,在工作区躺了约 2 天。线上跑的还是老版本,收到"按 7d 抓"的指令因部署版本无此参数直接忽略 → 改了等于没改。git status 一眼能看到。SCRAPE_RECENT_COMMENT_HOURS 设过,但只看得到指纹看不到值,可能还是 24。force_full_window 收尾合并(PR #65)→ CI 部署到 worker v214/215fly secrets set SCRAPE_RECENT_COMMENT_HOURS=168 重启到 v215(168 小时 = 7 天)① 分清四个状态,只有最后一个算数:写了代码 → commit 了 → 部署了 → 线上真生效了。这次就是把前面某个当成了最后一个。人话比喻:文件存自己电脑 ≠ 上传到了公司共享盘,同事打开看到的还是旧版。
② 说"改好了"前,要齐三样(缺一就是没真上线):
· PR 链接(改动存档+评审,没 PR = 还在本地)
· 部署版本号/时间(如 worker v215、Vercel 部署时间)
· 一条真实数据(如"抓一条视频看评论跨度到没到 7 天 / 168h")——这条最决定性;配置类尤其要回读"生效值",不能只看命令返回成功。
下次谁说"部署成功",回一句"给我这三样"。
git log 搜不到我的提交」≠「没合进去」,要核 origin/main 的代码 / PR 是否 merged,别只盯单个 hash。
rescan-recent-videos 这条专用复扫 cron 是否被 RESCAN_RECENT_VIDEOS_ENABLED 开关 gate 成休眠(目前 7d 是靠主抓取的 refresh 路在跑,专用 cron 状态待确认)大白话:每个号每轮只抓主页"最新 N 条"视频的评论,N 默认 10。问题:抓到第 11–30 条还有没有新的高/中意向线索?值不值得多抓。
max_videos(向后兼容默认 10)| 视频位置 | 高意向 | 中意向 | 占高意向 |
|---|---|---|---|
| 1–10(现在抓的) | 65 | 163 | 82% |
| 11–20 | 7 | 10 | ~9% |
| 21–30 | 7 | 35 | ~9% |
11–20 仅 7 个高意向 / 130 条视频;21–30 的 7 个还集中在某号第 21 条偶然爆。线索主要就在最新 10 条。用户知情后选择保留 #66(tier1 仅 91 个、成本有界、18% 非 0),未回滚。
大白话:一个号的爆款视频会持续来新评论。想法是——把每个好号"数据最好的 top10 视频"单独纳入持续复扫,而不只抓主页最新那几条。
videos 表确实没存点赞/转发/评论计数(只有 url/标题/发布时间)→ 当前无法按真实转赞评排序。aweme detail,与我们抓评论同一套 f2 签名)就返回 digg/comment/share/collect 数;Playwright 视频页 DOM 也有。要自抓只需 ① 加调用/解析 stats 字段 ② videos 表加列存。不依赖蝉妈妈。scripts/_enqueue-hot-video-rotation.ts,非估算):
底层"自有信号":对每条视频从评论库算两个数——hi=高意向评论数、total=评论总数;视频一律按 (hi 降序, total 降序) 排,不看点赞/转赞评。
① Top70 好号 · 各自 top10 产线索视频:先对每个 active 号源按 5 维打分(满分 100:主页视频数 + 近 30 天发文频率 + 评论总数 + 高意向占比≤30 分 + 高意向绝对数≤20 分,后两维即"高意向相关占 50% 权重"),取分数最高的 70 个号;每个号再把它有评论的视频按 (hi, total) 排、取前 10 条。⚠️"top10"指产线索最多的 10 条,不是主页最新 10 条(所以与常规"抓最新 10/20 条"目标错开、不重复)。
② 全源历史"单条产≥3 高意向"的已验证爆款:不限 Top70,所有 active 号源的视频里,凡单条视频累计抓到过 ≥3 个高意向评论(hi>=3)的全收。"已验证"=历史上真产出过,不靠预测/点赞。
合并:①∪②去重(一条视频若既在某 Top70 号的 top10、又 hi≥3,只算一次),并剔除离题视频(topic_status=rejected)与 0 评论视频 → 当日快照 491 条。hi/total 随评论积累每天浮动,491 是 5-31 快照值。
/api/cron/hot-video-rotation,PR #67,每日 04:45):每天重算"每号 top10 已产 lead 且近 14d 仍活跃的视频 → 全局 top200"复扫。与 rescan 互补(rescan 管新视频<7d、本 cron 管老视频但仍活跃的常青爆款),dedup 防重复。#67 已 merged,Vercel 部署后每日 04:45 首跑。本地干跑选片逻辑已验证:491 经"近 14d 仍活跃"过滤 + 上限收敛后 → 每天约复扫 120 条(量合理、不失控)。aweme detail stats + 给 videos 表加互动列,把排序从"评论密度"升级为"互动 + 评论密度"双信号(评估:转赞评对获客增益有限,优先级低)前面专题的"效果"多用采集量;这里补线索维度(高/中意向才是真线索)。口径:按评论入库时刻分天,service-role 直查生产库跨全部 org。
| 日期 | 入库总 | 高意向 | 中意向 | 线索(高+中) | 无关 | >24h 补漏% |
|---|---|---|---|---|---|---|
| 5/26 | 161 | 37 | 49 | 86 | 1 | 40% |
| 5/27 | 402 | 47 | 169 | 216 | 1 | 84% |
| 5/28 | 395 | 55 | 153 | 208 | 15 | 55% |
| 5/29 | 220 | 23 | 61 | 84 | 25 | 27% |
| 5/30 · 7d 修复当天 | 8130 | 238 | 729 | 967 | 6441 | 83% |
| 5/31(到下午) | 2142 | 54 | 139 | 193 | 1808 | 65% |
蝉妈妈封号促使重新审视号池。核心发现:"开/关"和"质量分"本来是脱钩的——active 池 80% 是 0 线索的 D 级号,而关着的池子里埋着 93 个产过线索的好号。这轮按质量重新对齐了开关。
| 维度 | 满分 | 大白话 |
|---|---|---|
| 已有视频数 | 15 | 号活跃度 |
| 近 30 天更新频率 | 15 | 还在不在更 |
| 评论总数 | 20 | 评论区热不热 |
| 高意向占比 | 30 | 评论里多少是真要装修的(占一半权重) |
| 高意向绝对数 | 20 | 实打实产了多少线索 |
评级:A≥70 / B≥50 / C≥30 / D<30。注:业务范围筛是叠加的硬门槛——打分高但属门窗/涂料/家具贴膜等范围外的号,不激活、不升频。
为什么 Top70 = 这 70 个:就是用上面那套「号源打分」(5 维满分 100,高意向相关占 50% 权重)给 702 个 active 号实时算分后,分数最高的前 70 名。本批分数区间 65 ~ 95。它们也是 scrape-hot 每小时高频轮抓(tier1)+ 爆款复扫 cron 的主力覆盖对象。
| # | 号源名 | 质量分 | 高意向 | 评论数 | 高意向占比 | 类型 |
|---|---|---|---|---|---|---|
| 1 | 装修帮 | 95 | 38 | 640 | 5.9% | 知识号 |
| 2 | 小刘厂长美式家具 | 90 | 91 | 477 | 19.1% | 本地号 |
| 3 | 奇才木作 | 90 | 39 | 106 | 36.8% | 本地号 |
| 4 | 灿哥聊装修 | 90 | 44 | 391 | 11.3% | 知识号 |
| 5 | 米凌设计师_胡设计 | 90 | 37 | 149 | 24.8% | 本地号 |
| 6 | 海哥—用心讲装修 | 90 | 69 | 872 | 7.9% | 知识号 |
| 7 | 旭东聊装修 | 85 | 31 | 306 | 10.1% | 知识号 |
| 8 | 恋巢哥 | 南宁全屋定制工厂 | 85 | 31 | 86 | 36% | 工厂号 |
| 9 | 一起装修网 | 85 | 121 | 217 | 55.8% | 平台号 |
| 10 | 设计师·十一 | 85 | 11 | 162 | 6.8% | 知识号 |
| 11 | 吴名I设计师 | 85 | 16 | 138 | 11.6% | 本地号 |
| 12 | 设计师__巴丽 | 85 | 22 | 118 | 18.6% | 本地号 |
| 13 | 设计师阿爽 | 85 | 31 | 358 | 8.7% | 知识号 |
| 14 | 设计师_郭工 | 80 | 10 | 73 | 13.7% | 本地号 |
| 15 | 设计师_鹿鹿 | 80 | 28 | 86 | 32.6% | 本地号 |
| 16 | 锐哥聊装修 | 80 | 12 | 103 | 11.7% | 知识号 |
| 17 | 米凌设计师_涂设计 | 80 | 18 | 53 | 34% | 本地号 |
| 18 | 万荣索菲亚整家定制 | 80 | 10 | 125 | 8% | 品牌号 |
| 19 | 宜宾王幺叔说装修 III | 80 | 8 | 146 | 5.5% | 全屋定制 |
| 20 | 西安老王聊装修 | 80 | 63 | 258 | 24.4% | 本地号 |
| 21 | 爱吃猫的鱼_软装中_ | 77 | 9 | 201 | 4.5% | 本地号 |
| 22 | 德州居饰达小张聊装修 | 75 | 4 | 37 | 10.8% | 全屋定制 |
| 23 | 设计师陈陈_接全国设计_ | 75 | 4 | 32 | 12.5% | 本地号 |
| 24 | 设计师凌叙_接全国设计_ | 75 | 8 | 70 | 11.4% | 本地号 |
| 25 | 欢喜锅聊装修建材 | 75 | 11 | 140 | 7.9% | 知识号 |
| 26 | Ly__ | 75 | 28 | 261 | 10.7% | 本地号 |
| 27 | 吴先生设计师 | 75 | 6 | 32 | 18.8% | 本地号 |
| 28 | 意式轻奢_设计师八八 | 75 | 8 | 45 | 17.8% | 本地号 |
| 29 | 久辉不锈钢家具定制工厂 | 75 | 11 | 195 | 5.6% | 工厂号 |
| 30 | 设计师文文 | 75 | 6 | 43 | 14% | 本地号 |
| 31 | 设计师_大鱼 | 75 | 3 | 50 | 6% | 本地号 |
| 32 | 武汉全屋定制工厂|金艺家居官方号 | 75 | 20 | 55 | 36.4% | 工厂号 |
| 33 | 苏等等的家 | 75 | 27 | 240 | 11.3% | 本地号 |
| 34 | 罗哥讲装修 | 75 | 19 | 133 | 14.3% | 知识号 |
| 35 | 深度空间装饰王工 | 70 | 4 | 6 | 66.7% | 本地号 |
| 36 | 太和聚艺装饰万华无醛整装体验馆 | 70 | 5 | 23 | 21.7% | 本地号 |
| 37 | 设计师_美嘉 | 70 | 5 | 88 | 5.7% | 本地号 |
| 38 | 幺哥全瓷橱柜 | 70 | 7 | 15 | 46.7% | 工厂号 |
| 39 | 武汉洗衣柜定制君妹儿 | 70 | 14 | 44 | 31.8% | 本地号 |
| 40 | 天津莎莎讲装修 | 信日 | 70 | 2 | 39 | 5.1% | 全屋定制 |
| 41 | 糖果家🏠软装中 | 70 | 7 | 90 | 7.8% | 本地号 |
| 42 | 瑾瑾钰钰的__软装中_ | 70 | 7 | 114 | 6.1% | 本地号 |
| 43 | 老诚讲装修 | 70 | 6 | 115 | 5.2% | 知识号 |
| 44 | 小王装修日记 | 70 | 4 | 51 | 7.8% | 知识号 |
| 45 | 设计师阿辽工作室 | 70 | 9 | 91 | 9.9% | 工厂号 |
| 46 | 卖板材的小姐姐 | 70 | 3 | 18 | 16.7% | 本地号 |
| 47 | 千年舟-老梁讲装修 | 70 | 6 | 71 | 8.5% | 品牌号 |
| 48 | 广州装修范工 | 70 | 10 | 16 | 62.5% | 本地号 |
| 49 | 实木仿古大门定制 | 70 | 7 | 98 | 7.1% | 本地号 |
| 50 | 卜总聊装修(西安) | 70 | 6 | 40 | 15% | 全屋定制 |
| 51 | 上海设计师Rigo睿哥 | 70 | 9 | 87 | 10.3% | 全屋定制 |
| 52 | 南昌全屋定制李哥+南昌兔宝宝 | 70 | 9 | 61 | 14.8% | 本地号 |
| 53 | 苏州四哥聊装修 | 70 | 3 | 36 | 8.3% | 本地号 |
| 54 | 张师傅讲装修 | 66 | 7 | 203 | 3.4% | - |
| 55 | 曲靖钱师傅中固门业锁业全屋定制官方号 | 65 | 1 | 4 | 25% | 本地号 |
| 56 | 索菲亚设计师_索长 | 65 | 1 | 8 | 12.5% | 品牌号 |
| 57 | 三门峡豪匠装饰柏总馆家居整装官方号 | 65 | 2 | 20 | 10% | 工厂号 |
| 58 | 西安王哥讲装修(塞纳春天) | 65 | 2 | 11 | 18.2% | 全屋定制 |
| 59 | 成都全屋定制工厂-金柏莱赵美丽 | 65 | 6 | 12 | 50% | 工厂号 |
| 60 | 设计师_代欣 | 65 | 8 | 66 | 12.1% | 本地号 |
| 61 | 小薇的家_ | 65 | 6 | 70 | 8.6% | 本地号 |
| 62 | 老包讲装修 | 65 | 2 | 9 | 22.2% | 本地号 |
| 63 | 花与财全屋定制(樟树店) | 65 | 1 | 2 | 50% | 本地号 |
| 64 | 老邱讲装修 | 65 | 3 | 91 | 3.3% | 本地号 |
| 65 | 永乐佳 | 65 | 11 | 50 | 22% | 本地号 |
| 66 | 溪彤家__硬装中___ | 65 | 2 | 39 | 5.1% | 本地号 |
| 67 | 姑娘姓朱_装修中_ | 65 | 3 | 14 | 21.4% | 本地号 |
| 68 | 歆笛的装修日记 | 65 | 4 | 7 | 57.1% | 知识号 |
| 69 | 皇家背景墙壁龛_岛台官方号 | 65 | 2 | 7 | 28.6% | 本地号 |
| 70 | 堂堂的新家_ | 65 | 5 | 206 | 2.4% | 本地号 |
注:分数实时计算、随评论积累每天变动;本表为 2026-05-31 快照。tier1 现 91 个(Top70 + 业务范围筛后的其余高分号),享每小时 scrape-hot 高频轮抓。
队列里只有两类活:号源级 scrape_source(去一个号主页发现最新 N 条视频、逐条抓评论)和 视频级 scrape_video(抓指定一条视频)。小时级主力是号源级。
| 时刻 | 任务 | 级别 | 抓谁 |
|---|---|---|---|
| 每小时 :00 | scrape-hot | 号源级 | tier1 好号(91 个)全量轮抓,每号最新 20 条,优先级最高 |
| 每小时 :10 | scrape | 号源级 | tier0 号里最久没抓的一批(受容量限制),每号最新 10 条 |
| 每 2 小时 :40 | rescan-recent-videos | 视频级 | tier1 号里发布<7 天的视频,反复 7d 复扫(满 7 天退休) |
| 每 5 分钟 | analyze | — | 给新评论打意向标签(高/中意向 = 线索) |
⚠️ 注:"数据最好的爆款"目前不是常驻小时任务——491 条是一次性复抓;持续覆盖靠"它们多属 tier1 好号、被高频路径捎带"。若要"每天专门复扫历史爆款"的显式循环,需另建 cron(待用户拍)。
git status 确认已 commit → fly releases 确认真部署 → 抓一条真实数据验证效果。没查到数据前只说"待验证",不说"成功"。rescan-recent-videos cron 是否被开关休眠(7d 专用复扫路是否真在跑)