每日扩源 · 进展与 tier 分级体系
Akke 项目 · 2026-06-11 收口 · 持续迭代文档
01一句话
扩源 = 持续往号池里补「评论区有真实装修买家」的抖音号,再用 tier 分级把抓取预算压到刀刃上。难点不是「找到很多号」,而是分辨出哪些号现在还能挖到买家(历史火过、粉丝多、评论多,都不等于「现在评论区里有人在问价」),以及让有限的抓取频率优先伺候真正产出的号。
今天两件事落地:① 入库前用本地 f2 实拉候选号最新评论 → 意向打分,把空号挡在门外;② 定下 tier 分级 + 时段口径的目标设计(见 ④),把「每小时无差别扫 1182 个号、74% 零产出」收敛成「按真实产出分级抓」。
02号池现状(2026-06-11 实时)
在用(active)
1,166
今天弃用 19 死号后
tier1 快车道
95
scrape-hot 高频抓
供给早已过剩 5–10×。当前每天产出 600–800 条高+中意向 leads,远超 5 人运营 + 云电脑的处理能力。但抓取预算却被浪费:active 号里近 7 天只有 ~312 个真出货,~870 个零产出还在被每小时无差别扫。这正是要上 tier 分级的原因——扩源的下一步不是堆量,是把抓取频率按产出分级。
每日新增号源 by-day(扩源自 6/4 起,按北京日 created_at)
| 日期 | 新增入库 | 现 热(t1) | 现 未分档(t0) | 已停用 |
| 6/04 | 404 | 2 | 402 | 6 |
| 6/05 | 22 | 1 | 21 | 0 |
| 6/06 | 9 | 0 | 9 | 0 |
| 6/07 | 16 | 2 | 14 | 0 |
| 6/08 | 26 | 0 | 26 | 0 |
| 6/09 | 17 | 0 | 17 | 0 |
| 6/10 | 40 | 0 | 40 | 0 |
| 6/11 | 10 | 2 | 8 | 0 |
| 合计 | 544 | 7 | 537 | 6 |
tier 是当前值,不是入库时的档(口径见 ④ 统一体系:热=tier1 / 未分档=tier0)。新增 544 里现仅 7 个进了「热」——因为「热」靠 auto-tier1 cron 看「近 3 天产出」自动升,新号还没攒够产出窗口,自然全留在「未分档」;6/4 那 404 的大批也多是腰部/同行号,真出货的少。这说明扩源的瓶颈不在「入库量」(量够),在「入库号的质量与产出转化」——下一步靠 tier 再切(未分档细分成温/冷/休眠)+ 入库前 f2 实拉意向打分提质。
注:6/11 的 10 个含当天 142 候选批经置信度分流(脉+avgC≥150+posts30 活跃闸+非同行)精确入库的 7 个 auto_import;6/1–6/3 无扩源动作。
03意向产出 · 时段分布
这是分级 / 调频的事实依据:先看到底每天产多少 leads、什么时段产,才能决定抓取频率怎么配。
近 7 天每日产出(按 created_at,我们采集分析的天)
| 日期 | 高意向 | 中意向 | 高+中 |
| 今天(滚动 24h) | 79 | 255 | 334 |
| 6/10 | 147 | 543 | 690 |
| 6/9 | 173 | 631 | 804 |
| 6/8 | 147 | 452 | 599 |
| 6/7 | 172 | 418 | 590 |
| 6/6 | 150 | 453 | 603 |
| 6/5 | 154 | 434 | 588 |
高意向稳定 ~150/天,中意向 ~430–630/天。
24 小时分时(按 comment_time 用户真实评论时间,北京时,近 7 天聚合)
| 时段 | 高 | 中 | 高+中 | 分布 |
| 21:00 | 79 | 232 | 311 | 晚高峰顶 |
| 16:00 | 62 | 218 | 280 | |
| 20:00 | 58 | 211 | 269 | |
| 22:00 | 51 | 209 | 260 | |
| 17:00 | 66 | 189 | 255 | |
| 11:00–12:00 | ~60 | ~176 | ~237 | 午高峰 |
| 19:00 | 58 | 172 | 230 | |
| 09:00–10:00 | ~48 | ~151 | ~199 | |
| 13:00–15:00 | ~47 | ~142 | ~190 | 午后平台 |
| 06:00–08:00 | ~31 | ~101 | ~131 | 早升段 |
| 02:00–05:00 | ~9 | ~24 | ~33 | 谷底 |
结论:评论集中在 09:00–23:00(占 ~85%),双峰在午 11–12 点 + 晚 16–22 点(21 点最高),凌晨 2–5 点几乎为零。这条直接决定轮抓频率该不该按时段调(见 ④)。
04tier 分级体系(统一)热已落地 · 温冷休眠待 retier
就一套体系,别再两套词。source_accounts.tier 数值 ↔ 名称一一对应:1=热 · 2=温 · 3=冷 · 4=休眠 · 0=未分档。「tier1」就是「热」,「tier0」正名叫「未分档」——不是 tier0/tier1 和冷热暖两套东西。现在物理上只分出了「热」一档,其余全堆在「未分档」;温/冷/休眠是把未分档按产出细分的目标,靠 retier job 落地。
| tier | 名称 | 选号标准(近7天 高+中) | 轮抓频率 | 现状 |
| 1 | 热 | ≥ 16 条 | 3 min(scrape-hot) | ✅ 已落地 · 95 个 |
| 2 | 温 | 6 – 15 条 | 3 min(含谷底) | 🔜 待 retier(现混在未分档) |
| 3 | 冷 | 1 – 5 条 | 1 h | 🔜 待 retier |
| 4 | 休眠 | 连续 ≥14 天 0 产出 | 1 h | 🔜 待 retier |
| 0 | 未分档 | 入库默认,未分级 | 1 h(scrape) | 现 ~1070 个全在这 |
为什么要细分——每号近 7 天产出分布(细分依据)
| 近7天 高+中产出 | 号数 | 其中 热 | 其中 未分档 | 贡献量 |
| ≥40(属 热) | 21 | 19 | 2 | 1904 |
| 16–39(属 热) | 27 | 18 | 9 | 655 |
| 6–15(应进 温) | 50 | 25 | 25 | 473 |
| 1–5(应进 冷) | 214 | 24 | 190 | 400 |
| 0(应进 休眠) | 870 | 17 | 853 | 0 |
三个扎眼的浪费(这就是要细分未分档的原因):
- 870 个 active 号近 7 天 0 产出(占 74%),还在每小时被抓 —— 纯烧抓取预算(应降进休眠)。
- 今天已清掉的 17 个「热」近 7 天 0 产出(衰退号),曾占着 3 分钟快车道。
- 36 个未分档号近 7 天高+中 ≥6(其中 11 个 ≥16),被压在每小时档、欠抓 —— 那 11 个该进热。
- Pareto 极端:top 48 个号(≥16/7天)产出 2559 条 = 全部的 ~67%。
轮抓节奏 · 最新定版(2026-06-11 定)
抖音评论双峰(③)虽明显,但定版选择简化为两档频率、热温不按时段降频——热/温号高频常驻、其余 active 统一低频:
| 档 | 高峰(09–23 北京) | 谷底(00–08) |
| 1 热 | 3 min | 3 min(谷底不降频) |
| 2 温 | 3 min | 3 min(谷底不降频) |
| 3 冷 | 1 h(active 其余号统一) |
| 4 休眠 | 1 h(active 其余号统一) |
| 0 未分档 | 1 h(active 其余号统一) |
定版口径:只有两档频率 —— 热(T1)+ 温(T2)= 每 3 min 轮抓(含谷底,不降频);其余所有 active 号(冷 / 休眠 / 新)= 每 1 h 轮抓。比原始分级方案简单,落地优先按此版实现。
轮抓节奏 · 原始分级设计(spec 备选,保留参考)
最初按 tier 间隔 × 时段调制的细方案,保留作对照与后续优化备选:
| tier | 高峰(09–23 北京) | 谷底(00–08) |
| 1 热 | 3 min(走 scrape-hot) | 15 min |
| 2 温 | 20 min | 1 h |
| 3 冷 | 3 h | 6 h |
| 4 休眠 | 24 h | 24 h |
| 0 未分档 | 1 h(新号尽快摸底) | 1 h |
retier job(每天重算分档)
- 每天凌晨跑(如 01:30),算每个 active 源近 7 天高+中产出 → 按上表分档。
- 迟滞防抖:跌出档要连续 2 天才降,避免天天翻档。
- 升降都留回滚锚点;替换旧 auto-tier1 口径(从「高意向 ≥5/3天」改成「高+中/7天」——旧口径今天漏升了 6 个号,证明该换)。
产出集中度
top48 = 67%
≥16 档贡献 2/3 产出
⚠️ 落地最高优先级地雷:scrape 路由现在是 .eq("tier",0) 精确匹配(不是 !=1)。一旦把号设成 tier 2/3/4,两条路由都不捞它 → 号会静默永不抓。实现顺序硬约束:先改路由 cover 所有非 tier1 档,再跑 retier 打 2/3/4 标,顺序反了会批量断抓。全是高危路径(cron + vercel.json + migrations)→ 必须 PR + CI 绿 + claude-review,灰度三步(先消地雷分档 → 再差异化频率 → 再时段调制),别一把梭。
完整落地设计:docs/superpowers/specs/2026-06-11-tier-reslice-4tier-design.md · 数据基线:project_akke_tier_state_and_reslice_20260611.md
05扩源管线(6 阶段)已上线
已封装成 /source-mining-daily skill + runbook,本机(mac,国内 IP 直连抖音)一键端到端跑。
阶段 0 · 选词
系统化母表选词 → CDP 捞作者
关键词走 6 维母表(内容形式/装修阶段/房屋类型/风格/地域/全屋定制),自动避开近 3 天用过 + 已退役词。独立 profile 的调试端口 Chrome 免扫码登录,直链触发抖音搜索接口抽 sec_uid。
阶段 1 · 富化
本地 f2 拉每个号的真实互动体检
串行(并发必崩 + 触发限流)拉最近 20 条视频的评论数/点赞数,算出 7d / 30d / 90d 分窗口均值。只拉数字做体检,不抓评论正文。
阶段 2 · 实拉打分
实拉「活号」最新视频真实评论 → 意向分类器 今天补齐
只对「30 天内有发新视频 + 近期还有评论」的活号 f2 实拉评论正文,喂生产意向分类器(deepseek-v4-flash),看每个号的高/中意向命中数。死号没新视频、实拉=0,直接跳过。
阶段 3 · 分流
置信度三桶(确定性,不走 LLM)
auto_import 高置信直接入 | need_confirm 边缘推飞书等点头 | reject 否决(同行号 / 30 天没新视频 / 0 可触达)。
阶段 4 · 入库
写 source_accounts + 升 tier1
实时去重(sec_uid + 名称双锁),命中率最高的非同行号升 tier1 进 scrape-hot 快车道,写回滚锚点。
阶段 5 · 闭环
回写关键词产量 + 排 T+7 效果检查
高产词留、低产词自动退役(母表越用越聪明);自动建 T+7 日历提醒,7 天后用真实队列产出复核这批号好不好。
06今日实战(2026-06-11)
今天选的是 loft / 复式 / 公寓 风格词。漏斗:
| 阶段 | 数量 | 说明 |
| 阶段 0 捞作者 | 183 | 风格词搜索命中作者 |
| 阶段 1 去重 + 富化 | 142 | 新号(非已入库),完成 f2 互动体检 |
| 阶段 2 实拉打分 | 14 活号 / 587 评论 | 只打活号,意向分类器逐条打分 |
| 阶段 3-4 真入库 | 3 | 有真实买家的号 |
| 其中升 tier1 | 2 | 非同行 + 命中率高 |
实拉打分逐号结果(可触达 = 高意向 + 中意向):
| 号源 | 可触达 | 30d均评 | 判定 |
| 🟢 一帆的家(法式黑白loft自装记) | 中 9 | 286 | 入库 · tier1 最活 + 非同行 |
| 🟢 颖火虫的顶楼复式 | 高2 中2 | 25 | 入库 · tier1 真买家 · 非同行 |
| 🟡 装修设计屋 | 高1 中6 | 27 | 入库 · 普通源 同行号,但评论区全是问价买家 |
| 🟡 阿Sue小屋 / 雪糕崽崽 | 各 中1 | 42 / 25 | 不入 单条,太薄 |
| ⚫ 其余 9 个(打工人/是亚男/多多苗…) | 0 | — | 否决 看着活但 0 买家 |
今天风格词出的是腰部 / 泛流量号:3 个真产号 + 2 个薄号,离每日 ≥20 入库差很远。这恰恰是 f2 实拉这一步的价值证明——它在入库前就把真假分清了,而不是入库后浪费 7 天抓取额度才发现是空号。
07三个关键发现
发现一 · 历史评论均值会严重高估「降温号」
入库阈值原来挂在 avg_comments(最近 10 条视频均值)。但这个数对「火过但在降温」的号是陈旧值:
| 号 | legacy 均评 | 30d 真实均评 | 真相 |
| 野生也 | 21,419 | 2 | 历史爆款,现在基本死 |
| 咸菜家 | 6,273 | 0 发文 | 119 天没发新视频 |
| 小眼儿妈妈 | 913 | 0 发文 | 973 天没发 |
| 颖火虫的顶楼复式 | 695 | 25 | 在降温,但仍有买家 |
已修分流逻辑:30 天没发新视频(posts_30d=0)= 没有新评论可抓,无论历史多火直接否决。堵住了「legacy 均评高 → 误入降温僵尸号」的漏洞。
发现二 · 高评论量 ≠ 买家意向
「打工人的装修日常」:30 天发了 15 条视频,看着是这批最勤快的号。但实拉评论打分 → 0 可触达。它的评论区是同行/泛流量互动,不是买家在问价。只看「评论多不多」会把这种空号当宝。反过来,「一帆的家」评论里夹着「装修花多少」「软装一起报价」,才是真买家。
发现三 · 同行号的评论区也可能是金矿
「装修设计屋」本身是同行(设计师/公司),按名字规则会被否决。但它的视频评论区高1 中6——全是「5万怎么布置」「有没有推荐」的真买家在问设计师。所以同行号作为「评论区号源」入库是有价值的(我们抓它评论区的买家,而不是去触达号主本人)。今天把它作普通源入库、不升 tier1。
08死号复检(20 个)
之前一批扩源号入库后近 7 天 0 产出被判「死号」,曾怀疑是抓不到(IP / 限流)。今天 f2 能本地实拉了,复检一遍。结论推翻了原假设:
| 分组 | 数量 | 复检结论 |
| 全屋定制工厂 / 同行号 | 17 | 末抓都是昨/今天——一直抓得到,只是评论区是 B2B/同行、没有 C 端买家 |
| 装修科普 / 木作号 | 3 | f2 实拉:厦门杰哥 1 高/12 评论(薄,留)· 奇才木作 0 · 大巫聊装修 号已失效 |
不是「抓不到」,是「评论区没买家」。20 个里只有「厦门杰哥」还有 1 丝信号,其余 19 个确认弃用(is_active=false,留回滚锚点)。active 池 1185 → 1166。
顺带印证了 tier 体系的必要性:这类「在抓但长期零产」的号,正是未来 tier 4 休眠档该收的对象。
09现状与下一步
| 项 | 状态 |
| 扩源管线自动化(skill + runbook) | 已上线 /source-mining-daily |
| 入库前 f2 实拉意向打分(阶段 2) | 今天补齐 587 评论实证 |
| 分流逻辑:30 天活跃度硬闸 | 已修 堵降温号漏洞 |
| 20 个历史「死号」f2 复检 | 今天完成 弃用 19 / 留 1 |
| tier 分级 + 时段调频 | spec 已定 · 定版口径已锁 待专门 session 落地(高危,先消路由地雷) |
策略定调:供给过剩 5–10× 的现状下,扩源从「堆量」转向「提质 + 分级」——入库前 f2 实拉只放真买家进来,入库后 tier 分级让抓取频率优先伺候真产出的号、死号降频。每日产出目标是上限参考,真实标准是「这个号评论区现在有没有人在问价」。下一个里程碑就是把 ④ 的 tier 体系(定版:热+温 3min / 其余 active 1h)落地。
10tier 体系发展时间线(2026-06-14 补记)
| 阶段(PR) | 动作 | 关键点 / 教训 |
| ① tier1 提频(#229) | scrape-hot + vip-rescan 对 tier1 源 */5 提频到 5min | tier1 = 「好号」雏形:值得高频抓的源 |
| ② 自动升级 cron(#230) | auto-tier1:非 tier1 活跃源近 N 天高意向 ≥ 阈值 → 自动升 tier=1(只升不降) | 这是 codified 的 tier1 标准:AUTO_TIER1_DAYS=3 / AUTO_TIER1_MIN=5(近 3 天 ≥5 高意向) |
| ③ 快照拆分(#244) | 每小时采集快照加 Tier-1 vs 全量拆分 | 开始把 tier1 当独立口径监控 |
| ④ 金矿提拔 + 回切 | 一批 goldmine(~200)提拔进 tier1,后发现拖累 → _apply-goldmine-cutoff 切回 tier0 | 只动「提拔的那批」,绝不碰原生 101 tier1——提拔过猛会稀释,回切保原生 |
| ⑤ 4 档命名设计(spec) | 统一命名 1热 / 2温 / 3冷 / 4休眠 / 0未分档(消除两套词混用) | 设计层;DB 当前仍主要 0/1(tier2 active=0,4 档未全落地) |
| ⑥ 每日扩源 + tier1 选号(#299) | /source-mining-daily:入库置信度分流 + tier1 选号脚本 | 入库前 f2 实拉打分,judgment 前移;本页 ①–⑨ 即此 |
| ⑦ tier0 饿死事故(#313/#314) | tier1 提频挤垮 tier0 采集 → 单源 45min 节流 + in-flight 去重 | P1:高频伺候好号不能饿死大池子 |
| ⑧ 节奏定版(#327) | tier0 = 1h / tier1 = 3min 轮抓 | 当前生效的真实节奏 |
| ⑨ VIP 复扫洪水修复(#329,6-13) | 老 VIP 视频退役(VIP_RESCAN_MAX_VIDEO_AGE_DAYS=4),产能还给新视频发现 | 复扫 7.9万次/天空转曾把时效拖到 58h;修复后恢复全池覆盖 |
现状(截至 2026-06-14)
| 分档 | active 数 | 说明 |
| tier0(大池子 / 低产) | 1019 | 多为 0-lead 号,1h 一轮 |
| tier1(好号) | 171 | 3min 一轮;标准 = auto-tier1(近3天高意向≥5,只升不降)+ source-mining 选号 |
| tier2 / null | 0 / 0 | 4 档设计未落地 |
tier1 171 个里:132 个近 14 天有产出、39 个零产出。新用途:tier1 即将成为 Playwright 抓取目标池(绕过抖音 post API 的 ~6 天延迟,拿真·新视频)。目标 ~100,从「有产出 + 发帖勤」的 132 里取——零产出的 39 个不进(Playwright 渲染它们是空跑)。
tier1 产出 Top 20(近 14 天 高/中意向)
| # | 号源 | 近14天产出 |
| 1 | Ly__ | 105 |
| 2 | 灿哥聊装修 | 101 |
| 3 | 大橘的家🏠(软装中) | 77 |
| 4 | 阿进 | 47 |
| 5 | 旭东聊装修 | 46 |
| 6 | 张师傅讲装修 | 46 |
| 7 | 米凌设计师_胡设计 | 46 |
| 8 | 我得装修日记📔 | 36 |
| 9 | 罗哥讲装修 | 34 |
| 10 | 苏等等的家 | 32 |
| 11 | 设计师_巴丽 | 30 |
| 12 | 歆笛的装修日记 | 29 |
| 13 | 到位哥 装修纪录 | 27 |
| 14 | 永乐佳 | 25 |
| 15 | 贵港老五_夫妻贴砖_ | 25 |
| 16 | 米工说装修 | 24 |
| 17 | 装修帮 | 24 |
| 18 | 曾师傅装修日记 | 24 |
| 19 | 海哥—用心讲装修 | 24 |
| 20 | 堂堂的新家_ | 23 |
全 171 个名单由诊断脚本 scripts/_tier1-roster.ts 输出。