upio.ai / Akke / 每日扩源 · 进展与 tier 分级体系

每日扩源 · 进展与 tier 分级体系

Akke 项目 · 2026-06-11 收口 · 持续迭代文档

⚠️ 2026-07-17 口径校准：本页标「持续迭代文档」，但 tier 分级的口径与频率停在 6/11，此后已落地、且跟本页当时的设想不完全一样。现行口径以获客链路页 §2 为准：tier1 = 每 3 分钟扫一轮（单号整号节流 30 分钟；近 6 小时刚产过高/中意向的缩到最快 10 分钟）、tier0 = 每小时取 150 个最久没抓的；升=近 10 天「高+中意向」≥ 10 条、降=tier1 近 7 天「高+中」= 0、出池=tier0 且「最新视频 30 天前」+「近 30 天 0 条高+中」，三闸每天 01:00 一轮跑完。本页 ④ 当时设想的「未分档再细分成温/冷/休眠」没有按那个形态落地（4 档切分至今仍 parked，因为抓取路由只认 tier=0 精确匹配，打 2/3/4 标会静默永不抓）。下面保留 6/11 当时的判断与叙事原样。

① 一句话 ② 号池现状 ③ 意向产出 · 时段分布 ④ tier 分级体系 ★ ⑤ 扩源管线 ⑥ 今日实战 ⑦ 三个关键发现 ⑧ 死号复检 ⑨ 下一步

01一句话

扩源 = 持续往号池里补「评论区有真实装修买家」的抖音号，再用 tier 分级把抓取预算压到刀刃上。难点不是「找到很多号」，而是分辨出哪些号现在还能挖到买家（历史火过、粉丝多、评论多，都不等于「现在评论区里有人在问价」），以及让有限的抓取频率优先伺候真正产出的号。

今天两件事落地：① 入库前用本地 f2 实拉候选号最新评论 → 意向打分，把空号挡在门外；② 定下 tier 分级 + 时段口径的目标设计（见 ④），把「每小时无差别扫 1182 个号、74% 零产出」收敛成「按真实产出分级抓」。

02号池现状（2026-06-11 实时）

号池总量

3,190

累计采集号源

在用（active）

1,166

今天弃用 19 死号后

tier1 快车道

scrape-hot 高频抓

近 7 天有产出

~312

其余 ~870 零产出

供给早已过剩 5–10×。当前每天产出 600–800 条高+中意向 leads，远超 5 人运营 + 云电脑的处理能力。但抓取预算却被浪费：active 号里近 7 天只有 ~312 个真出货，~870 个零产出还在被每小时无差别扫。这正是要上 tier 分级的原因——扩源的下一步不是堆量，是把抓取频率按产出分级。

每日新增号源 by-day（扩源自 6/4 起，按北京日 created_at）

日期	新增入库	现热(t1)	现未分档(t0)	已停用
6/04	404	2	402	6
6/05	22	1	21	0
6/06	9	0	9	0
6/07	16	2	14	0
6/08	26	0	26	0
6/09	17	0	17	0
6/10	40	0	40	0
6/11	10	2	8	0
合计	544	7	537	6

tier 是当前值，不是入库时的档（口径见 ④ 统一体系：热=tier1 / 未分档=tier0）。新增 544 里现仅 7 个进了「热」——因为「热」靠 auto-tier1 cron 看「近 3 天产出」自动升（6/11 口径，现为近 10 天「高+中」≥ 10 条），新号还没攒够产出窗口，自然全留在「未分档」；6/4 那 404 的大批也多是腰部/同行号，真出货的少。这说明扩源的瓶颈不在「入库量」（量够），在「入库号的质量与产出转化」——下一步靠 tier 再切（未分档细分成温/冷/休眠）+ 入库前 f2 实拉意向打分提质。
注：6/11 的 10 个含当天 142 候选批经置信度分流（脉+avgC≥150+posts30 活跃闸+非同行）精确入库的 7 个 auto_import；6/1–6/3 无扩源动作。

03意向产出 · 时段分布

这是分级 / 调频的事实依据：先看到底每天产多少 leads、什么时段产，才能决定抓取频率怎么配。

近 7 天每日产出（按 created_at，我们采集分析的天）

日期	高意向	中意向	高+中
今天（滚动 24h）	79	255	334
6/10	147	543	690
6/9	173	631	804
6/8	147	452	599
6/7	172	418	590
6/6	150	453	603
6/5	154	434	588

高意向稳定 ~150/天，中意向 ~430–630/天。

24 小时分时（按 comment_time 用户真实评论时间，北京时，近 7 天聚合）

时段	高	中	高+中	分布
21:00	79	232	311	晚高峰顶
16:00	62	218	280
20:00	58	211	269
22:00	51	209	260
17:00	66	189	255
11:00–12:00	~60	~176	~237	午高峰
19:00	58	172	230
09:00–10:00	~48	~151	~199
13:00–15:00	~47	~142	~190	午后平台
06:00–08:00	~31	~101	~131	早升段
02:00–05:00	~9	~24	~33	谷底

结论：评论集中在 09:00–23:00（占 ~85%），双峰在午 11–12 点 + 晚 16–22 点（21 点最高），凌晨 2–5 点几乎为零。这条直接决定轮抓频率该不该按时段调（见 ④）。

04tier 分级体系（统一）热已落地 · 温冷休眠待 retier

就一套体系，别再两套词。source_accounts.tier 数值 ↔ 名称一一对应：1=热 · 2=温 · 3=冷 · 4=休眠 · 0=未分档。「tier1」就是「热」，「tier0」正名叫「未分档」——不是 tier0/tier1 和冷热暖两套东西。现在物理上只分出了「热」一档，其余全堆在「未分档」；温/冷/休眠是把未分档按产出细分的目标，靠 retier job 落地。

tier	名称	选号标准（近7天高+中）	轮抓频率	现状
1	热	≥ 16 条	3 min（scrape-hot）	✅ 已落地 · 95 个
2	温	6 – 15 条	3 min（含谷底）	🔜 待 retier（现混在未分档）
3	冷	1 – 5 条	1 h	🔜 待 retier
4	休眠	连续 ≥14 天 0 产出	1 h	🔜 待 retier
0	未分档	入库默认，未分级	1 h（scrape）	现 ~1070 个全在这

为什么要细分——每号近 7 天产出分布（细分依据）

近7天高+中产出	号数	其中热	其中未分档	贡献量
≥40（属热）	21	19	2	1904
16–39（属热）	27	18	9	655
6–15（应进温）	50	25	25	473
1–5（应进冷）	214	24	190	400
0（应进休眠）	870	17	853	0

三个扎眼的浪费（这就是要细分未分档的原因）：

870 个 active 号近 7 天 0 产出（占 74%），还在每小时被抓 —— 纯烧抓取预算（应降进休眠）。
今天已清掉的 17 个「热」近 7 天 0 产出（衰退号），曾占着 3 分钟快车道。
36 个未分档号近 7 天高+中 ≥6（其中 11 个 ≥16），被压在每小时档、欠抓 —— 那 11 个该进热。
Pareto 极端：top 48 个号（≥16/7天）产出 2559 条 = 全部的 ~67%。

轮抓节奏 · 最新定版（2026-06-11 定）

抖音评论双峰（③）虽明显，但定版选择简化为两档频率、热温不按时段降频——热/温号高频常驻、其余 active 统一低频：

档	高峰（09–23 北京）	谷底（00–08）
1 热	3 min	3 min（谷底不降频）
2 温	3 min	3 min（谷底不降频）
3 冷	1 h（active 其余号统一）
4 休眠	1 h（active 其余号统一）
0 未分档	1 h（active 其余号统一）

定版口径：只有两档频率 —— 热（T1）+ 温（T2）= 每 3 min 轮抓（含谷底，不降频）；其余所有 active 号（冷 / 休眠 / 新）= 每 1 h 轮抓。比原始分级方案简单，落地优先按此版实现。

轮抓节奏 · 原始分级设计（spec 备选，保留参考）

最初按 tier 间隔 × 时段调制的细方案，保留作对照与后续优化备选：

tier	高峰（09–23 北京）	谷底（00–08）
1 热	3 min（走 scrape-hot）	15 min
2 温	20 min	1 h
3 冷	3 h	6 h
4 休眠	24 h	24 h
0 未分档	1 h（新号尽快摸底）	1 h

retier job（每天重算分档）

每天凌晨跑（如 01:30），算每个 active 源近 7 天高+中产出 → 按上表分档。
迟滞防抖：跌出档要连续 2 天才降，避免天天翻档。
升降都留回滚锚点；替换旧 auto-tier1 口径（从「高意向 ≥5/3天」改成「高+中/7天」——旧口径今天漏升了 6 个号，证明该换）。

预期抓取量

↓ ~70%

死号降频后

高频常驻号

~100

热+温走 3min

产出集中度

top48 = 67%

≥16 档贡献 2/3 产出

⚠️ 落地最高优先级地雷：scrape 路由现在是 .eq("tier",0) 精确匹配（不是 !=1）。一旦把号设成 tier 2/3/4，两条路由都不捞它 → 号会静默永不抓。实现顺序硬约束：先改路由 cover 所有非 tier1 档，再跑 retier 打 2/3/4 标，顺序反了会批量断抓。全是高危路径（cron + vercel.json + migrations）→ 必须 PR + CI 绿 + claude-review，灰度三步（先消地雷分档 → 再差异化频率 → 再时段调制），别一把梭。

完整落地设计：docs/superpowers/specs/2026-06-11-tier-reslice-4tier-design.md · 数据基线：project_akke_tier_state_and_reslice_20260611.md

05扩源管线（6 阶段）已上线

已封装成 /source-mining-daily skill + runbook，本机（mac，国内 IP 直连抖音）一键端到端跑。

阶段 0 · 选词

系统化母表选词 → CDP 捞作者
关键词走 6 维母表（内容形式/装修阶段/房屋类型/风格/地域/全屋定制），自动避开近 3 天用过 + 已退役词。独立 profile 的调试端口 Chrome 免扫码登录，直链触发抖音搜索接口抽 sec_uid。

阶段 1 · 富化

本地 f2 拉每个号的真实互动体检
串行（并发必崩 + 触发限流）拉最近 20 条视频的评论数/点赞数，算出 7d / 30d / 90d 分窗口均值。只拉数字做体检，不抓评论正文。

阶段 2 · 实拉打分

实拉「活号」最新视频真实评论 → 意向分类器今天补齐
只对「30 天内有发新视频 + 近期还有评论」的活号 f2 实拉评论正文，喂生产意向分类器（deepseek-v4-flash），看每个号的高/中意向命中数。死号没新视频、实拉=0，直接跳过。

阶段 3 · 分流

置信度三桶（确定性，不走 LLM）
auto_import 高置信直接入｜ need_confirm 边缘推飞书等点头｜ reject 否决（同行号 / 30 天没新视频 / 0 可触达）。

阶段 4 · 入库

写 source_accounts + 升 tier1
实时去重（sec_uid + 名称双锁），命中率最高的非同行号升 tier1 进 scrape-hot 快车道，写回滚锚点。

阶段 5 · 闭环

回写关键词产量 + 排 T+7 效果检查
高产词留、低产词自动退役（母表越用越聪明）；自动建 T+7 日历提醒，7 天后用真实队列产出复核这批号好不好。

06今日实战（2026-06-11）

今天选的是 loft / 复式 / 公寓 风格词。漏斗：

阶段	数量	说明
阶段 0 捞作者	183	风格词搜索命中作者
阶段 1 去重 + 富化	142	新号（非已入库），完成 f2 互动体检
阶段 2 实拉打分	14 活号 / 587 评论	只打活号，意向分类器逐条打分
阶段 3-4 真入库	3	有真实买家的号
其中升 tier1	2	非同行 + 命中率高

实拉打分逐号结果（可触达 = 高意向 + 中意向）：

号源	可触达	30d均评	判定
🟢 一帆的家（法式黑白loft自装记）	中 9	286	入库 · tier1 最活 + 非同行
🟢 颖火虫的顶楼复式	高2 中2	25	入库 · tier1 真买家 · 非同行
🟡 装修设计屋	高1 中6	27	入库 · 普通源同行号，但评论区全是问价买家
🟡 阿Sue小屋 / 雪糕崽崽	各中1	42 / 25	不入单条，太薄
⚫ 其余 9 个（打工人/是亚男/多多苗…）	0	—	否决看着活但 0 买家

今天风格词出的是腰部 / 泛流量号：3 个真产号 + 2 个薄号，离每日 ≥20 入库差很远。这恰恰是 f2 实拉这一步的价值证明——它在入库前就把真假分清了，而不是入库后浪费 7 天抓取额度才发现是空号。

07三个关键发现

发现一 · 历史评论均值会严重高估「降温号」

入库阈值原来挂在 avg_comments（最近 10 条视频均值）。但这个数对「火过但在降温」的号是陈旧值：

号	legacy 均评	30d 真实均评	真相
野生也	21,419	2	历史爆款，现在基本死
咸菜家	6,273	0 发文	119 天没发新视频
小眼儿妈妈	913	0 发文	973 天没发
颖火虫的顶楼复式	695	25	在降温，但仍有买家

已修分流逻辑：30 天没发新视频（posts_30d=0）= 没有新评论可抓，无论历史多火直接否决。堵住了「legacy 均评高 → 误入降温僵尸号」的漏洞。

发现二 · 高评论量 ≠ 买家意向

「打工人的装修日常」：30 天发了 15 条视频，看着是这批最勤快的号。但实拉评论打分 → 0 可触达。它的评论区是同行/泛流量互动，不是买家在问价。只看「评论多不多」会把这种空号当宝。反过来，「一帆的家」评论里夹着「装修花多少」「软装一起报价」，才是真买家。

发现三 · 同行号的评论区也可能是金矿

「装修设计屋」本身是同行（设计师/公司），按名字规则会被否决。但它的视频评论区高1 中6——全是「5万怎么布置」「有没有推荐」的真买家在问设计师。所以同行号作为「评论区号源」入库是有价值的（我们抓它评论区的买家，而不是去触达号主本人）。今天把它作普通源入库、不升 tier1。

08死号复检（20 个）

之前一批扩源号入库后近 7 天 0 产出被判「死号」，曾怀疑是抓不到（IP / 限流）。今天 f2 能本地实拉了，复检一遍。结论推翻了原假设：

分组	数量	复检结论
全屋定制工厂 / 同行号	17	末抓都是昨/今天——一直抓得到，只是评论区是 B2B/同行、没有 C 端买家
装修科普 / 木作号	3	f2 实拉：厦门杰哥 1 高/12 评论（薄，留）· 奇才木作 0 · 大巫聊装修号已失效

不是「抓不到」，是「评论区没买家」。20 个里只有「厦门杰哥」还有 1 丝信号，其余 19 个确认弃用（is_active=false，留回滚锚点）。active 池 1185 → 1166。
顺带印证了 tier 体系的必要性：这类「在抓但长期零产」的号，正是未来 tier 4 休眠档该收的对象。

09现状与下一步

项	状态
扩源管线自动化（skill + runbook）	已上线 `/source-mining-daily`
入库前 f2 实拉意向打分（阶段 2）	今天补齐 587 评论实证
分流逻辑：30 天活跃度硬闸	已修堵降温号漏洞
20 个历史「死号」f2 复检	今天完成弃用 19 / 留 1
tier 分级 + 时段调频	spec 已定 · 定版口径已锁待专门 session 落地（高危，先消路由地雷）

策略定调：供给过剩 5–10× 的现状下，扩源从「堆量」转向「提质 + 分级」——入库前 f2 实拉只放真买家进来，入库后 tier 分级让抓取频率优先伺候真产出的号、死号降频。每日产出目标是上限参考，真实标准是「这个号评论区现在有没有人在问价」。下一个里程碑就是把 ④ 的 tier 体系（定版：热+温 3min / 其余 active 1h）落地。

10tier 体系发展时间线（2026-06-14 补记）

按时间线把 tier 的来龙去脉捋一遍——它不是一次设计出来的，是「提频 → 自动升级 → 提拔翻车回切 → 重命名设计 → 饿死事故 → 节奏定版」一路长出来的。关联：派单新鲜度根因诊断见 dispatch-freshness-diagnosis-20260613。

阶段（PR）	动作	关键点 / 教训
① tier1 提频（#229）	scrape-hot + vip-rescan 对 tier1 源 `*/5` 提频到 5min	tier1 = 「好号」雏形：值得高频抓的源
② 自动升级 cron（#230）	auto-tier1：非 tier1 活跃源近 N 天高意向 ≥ 阈值 → 自动升 tier=1（只升不降）	这是 codified 的 tier1 标准：`AUTO_TIER1_DAYS=3` / `AUTO_TIER1_MIN=5`（近 3 天 ≥5 高意向）
③ 快照拆分（#244）	每小时采集快照加 Tier-1 vs 全量拆分	开始把 tier1 当独立口径监控
④ 金矿提拔 + 回切	一批 goldmine（~200）提拔进 tier1，后发现拖累 → `_apply-goldmine-cutoff` 切回 tier0	只动「提拔的那批」，绝不碰原生 101 tier1——提拔过猛会稀释，回切保原生
⑤ 4 档命名设计（spec）	统一命名 1热 / 2温 / 3冷 / 4休眠 / 0未分档（消除两套词混用）	设计层；DB 当前仍主要 0/1（tier2 active=0，4 档未全落地）
⑥ 每日扩源 + tier1 选号（#299）	`/source-mining-daily`：入库置信度分流 + tier1 选号脚本	入库前 f2 实拉打分，judgment 前移；本页 ①–⑨ 即此
⑦ tier0 饿死事故（#313/#314）	tier1 提频挤垮 tier0 采集 → 单源 45min 节流 + in-flight 去重	P1：高频伺候好号不能饿死大池子
⑧ 节奏定版（#327）	tier0 = 1h / tier1 = 3min 轮抓	当前生效的真实节奏
⑨ VIP 复扫洪水修复（#329，6-13）	老 VIP 视频退役（`VIP_RESCAN_MAX_VIDEO_AGE_DAYS=4`），产能还给新视频发现	复扫 7.9万次/天空转曾把时效拖到 58h；修复后恢复全池覆盖

现状（截至 2026-06-14）

分档	active 数	说明
tier0（大池子 / 低产）	1019	多为 0-lead 号，1h 一轮
tier1（好号）	171	3min 一轮；标准 = auto-tier1（近3天高意向≥5，只升不降）+ source-mining 选号
tier2 / null	0 / 0	4 档设计未落地

tier1 171 个里：132 个近 14 天有产出、39 个零产出。新用途：tier1 即将成为 Playwright 抓取目标池（绕过抖音 post API 的 ~6 天延迟，拿真·新视频）。目标 ~100，从「有产出 + 发帖勤」的 132 里取——零产出的 39 个不进（Playwright 渲染它们是空跑）。

tier1 产出 Top 20（近 14 天高/中意向）

#	号源	近14天产出
1	Ly__	105
2	灿哥聊装修	101
3	大橘的家🏠（软装中）	77
4	阿进	47
5	旭东聊装修	46
6	张师傅讲装修	46
7	米凌设计师_胡设计	46
8	我得装修日记📔	36
9	罗哥讲装修	34
10	苏等等的家	32
11	设计师_巴丽	30
12	歆笛的装修日记	29
13	到位哥装修纪录	27
14	永乐佳	25
15	贵港老五_夫妻贴砖_	25
16	米工说装修	24
17	装修帮	24
18	曾师傅装修日记	24
19	海哥—用心讲装修	24
20	堂堂的新家_	23

全 171 个名单由诊断脚本 scripts/_tier1-roster.ts 输出。

每日扩源 · 进展与 tier 分级体系

现状（截至 2026-06-14）

tier1 产出 Top 20（近 14 天 高/中意向）

tier1 产出 Top 20（近 14 天高/中意向）