upio.ai / Akke / 每日扩源 · 进展与 tier 分级体系

每日扩源 · 进展与 tier 分级体系

Akke 项目 · 2026-06-11 收口 · 持续迭代文档
配套方法页:本地 f2 实拉号源新方法
① 一句话 ② 号池现状 ③ 意向产出 · 时段分布 ④ tier 分级体系 ★ ⑤ 扩源管线 ⑥ 今日实战 ⑦ 三个关键发现 ⑧ 死号复检 ⑨ 下一步
01一句话

扩源 = 持续往号池里补「评论区有真实装修买家」的抖音号,再用 tier 分级把抓取预算压到刀刃上。难点不是「找到很多号」,而是分辨出哪些号现在还能挖到买家(历史火过、粉丝多、评论多,都不等于「现在评论区里有人在问价」),以及让有限的抓取频率优先伺候真正产出的号

今天两件事落地:① 入库前用本地 f2 实拉候选号最新评论 → 意向打分,把空号挡在门外;② 定下 tier 分级 + 时段口径的目标设计(见 ④),把「每小时无差别扫 1182 个号、74% 零产出」收敛成「按真实产出分级抓」。
02号池现状(2026-06-11 实时)
号池总量
3,190
累计采集号源
在用(active)
1,166
今天弃用 19 死号后
tier1 快车道
95
scrape-hot 高频抓
近 7 天有产出
~312
其余 ~870 零产出
供给早已过剩 5–10×。当前每天产出 600–800 条高+中意向 leads,远超 5 人运营 + 云电脑的处理能力。但抓取预算却被浪费:active 号里近 7 天只有 ~312 个真出货,~870 个零产出还在被每小时无差别扫。这正是要上 tier 分级的原因——扩源的下一步不是堆量,是把抓取频率按产出分级。
每日新增号源 by-day(扩源自 6/4 起,按北京日 created_at
日期新增入库现 热(t1)现 未分档(t0)已停用
6/0440424026
6/05221210
6/069090
6/07162140
6/08260260
6/09170170
6/10400400
6/1110280
合计54475376
tier 是当前值,不是入库时的档(口径见 ④ 统一体系:热=tier1 / 未分档=tier0)。新增 544 里现仅 7 个进了「热」——因为「热」靠 auto-tier1 cron 看「近 3 天产出」自动升,新号还没攒够产出窗口,自然全留在「未分档」;6/4 那 404 的大批也多是腰部/同行号,真出货的少。这说明扩源的瓶颈不在「入库量」(量够),在「入库号的质量与产出转化」——下一步靠 tier 再切(未分档细分成温/冷/休眠)+ 入库前 f2 实拉意向打分提质。
注:6/11 的 10 个含当天 142 候选批经置信度分流(脉+avgC≥150+posts30 活跃闸+非同行)精确入库的 7 个 auto_import;6/1–6/3 无扩源动作。
03意向产出 · 时段分布

这是分级 / 调频的事实依据:先看到底每天产多少 leads、什么时段产,才能决定抓取频率怎么配。

近 7 天每日产出(按 created_at,我们采集分析的天)
日期高意向中意向高+中
今天(滚动 24h)79255334
6/10147543690
6/9173631804
6/8147452599
6/7172418590
6/6150453603
6/5154434588

高意向稳定 ~150/天,中意向 ~430–630/天

24 小时分时(按 comment_time 用户真实评论时间,北京时,近 7 天聚合)
时段高+中分布
21:0079232311晚高峰顶
16:0062218280
20:0058211269
22:0051209260
17:0066189255
11:00–12:00~60~176~237午高峰
19:0058172230
09:00–10:00~48~151~199
13:00–15:00~47~142~190午后平台
06:00–08:00~31~101~131早升段
02:00–05:00~9~24~33谷底
结论:评论集中在 09:00–23:00(占 ~85%),双峰在午 11–12 点 + 晚 16–22 点(21 点最高),凌晨 2–5 点几乎为零。这条直接决定轮抓频率该不该按时段调(见 ④)。
04tier 分级体系(统一)热已落地 · 温冷休眠待 retier
就一套体系,别再两套词。source_accounts.tier 数值 ↔ 名称一一对应:1=热 · 2=温 · 3=冷 · 4=休眠 · 0=未分档。「tier1」就是「热」,「tier0」正名叫「未分档」——不是 tier0/tier1 和冷热暖两套东西。现在物理上只分出了「热」一档,其余全堆在「未分档」;温/冷/休眠是把未分档按产出细分的目标,靠 retier job 落地。
tier名称选号标准(近7天 高+中)轮抓频率现状
1≥ 16 条3 min(scrape-hot)✅ 已落地 · 95 个
26 – 15 条3 min(含谷底)🔜 待 retier(现混在未分档)
31 – 5 条1 h🔜 待 retier
4休眠连续 ≥14 天 0 产出1 h🔜 待 retier
0未分档入库默认,未分级1 h(scrape)现 ~1070 个全在这
为什么要细分——每号近 7 天产出分布(细分依据)
近7天 高+中产出号数其中 热其中 未分档贡献量
≥40(属 热)211921904
16–39(属 热)27189655
6–15(应进 温)502525473
1–5(应进 冷)21424190400
0(应进 休眠)870178530
三个扎眼的浪费(这就是要细分未分档的原因)
  • 870 个 active 号近 7 天 0 产出(占 74%),还在每小时被抓 —— 纯烧抓取预算(应降进休眠)。
  • 今天已清掉的 17 个「热」近 7 天 0 产出(衰退号),曾占着 3 分钟快车道。
  • 36 个未分档号近 7 天高+中 ≥6(其中 11 个 ≥16),被压在每小时档、欠抓 —— 那 11 个该进热。
  • Pareto 极端:top 48 个号(≥16/7天)产出 2559 条 = 全部的 ~67%
轮抓节奏 · 最新定版(2026-06-11 定)

抖音评论双峰(③)虽明显,但定版选择简化为两档频率、热温不按时段降频——热/温号高频常驻、其余 active 统一低频:

高峰(09–23 北京)谷底(00–08)
1 热3 min3 min(谷底不降频)
2 温3 min3 min(谷底不降频)
3 冷1 h(active 其余号统一)
4 休眠1 h(active 其余号统一)
0 未分档1 h(active 其余号统一)
定版口径:只有两档频率 —— 热(T1)+ 温(T2)= 每 3 min 轮抓(含谷底,不降频)其余所有 active 号(冷 / 休眠 / 新)= 每 1 h 轮抓。比原始分级方案简单,落地优先按此版实现。
轮抓节奏 · 原始分级设计(spec 备选,保留参考)

最初按 tier 间隔 × 时段调制的细方案,保留作对照与后续优化备选:

tier高峰(09–23 北京)谷底(00–08)
1 热3 min(走 scrape-hot)15 min
2 温20 min1 h
3 冷3 h6 h
4 休眠24 h24 h
0 未分档1 h(新号尽快摸底)1 h
retier job(每天重算分档)
预期抓取量
↓ ~70%
死号降频后
高频常驻号
~100
热+温 走 3min
产出集中度
top48 = 67%
≥16 档贡献 2/3 产出
⚠️ 落地最高优先级地雷scrape 路由现在是 .eq("tier",0) 精确匹配(不是 !=1)。一旦把号设成 tier 2/3/4,两条路由都不捞它 → 号会静默永不抓实现顺序硬约束:先改路由 cover 所有非 tier1 档,再跑 retier 打 2/3/4 标,顺序反了会批量断抓。全是高危路径(cron + vercel.json + migrations)→ 必须 PR + CI 绿 + claude-review,灰度三步(先消地雷分档 → 再差异化频率 → 再时段调制),别一把梭。

完整落地设计:docs/superpowers/specs/2026-06-11-tier-reslice-4tier-design.md · 数据基线:project_akke_tier_state_and_reslice_20260611.md

05扩源管线(6 阶段)已上线

已封装成 /source-mining-daily skill + runbook,本机(mac,国内 IP 直连抖音)一键端到端跑。

阶段 0 · 选词
系统化母表选词 → CDP 捞作者
关键词走 6 维母表(内容形式/装修阶段/房屋类型/风格/地域/全屋定制),自动避开近 3 天用过 + 已退役词。独立 profile 的调试端口 Chrome 免扫码登录,直链触发抖音搜索接口抽 sec_uid
阶段 1 · 富化
本地 f2 拉每个号的真实互动体检
串行(并发必崩 + 触发限流)拉最近 20 条视频的评论数/点赞数,算出 7d / 30d / 90d 分窗口均值。只拉数字做体检,不抓评论正文。
阶段 2 · 实拉打分
实拉「活号」最新视频真实评论 → 意向分类器 今天补齐
只对「30 天内有发新视频 + 近期还有评论」的活号 f2 实拉评论正文,喂生产意向分类器(deepseek-v4-flash),看每个号的高/中意向命中数。死号没新视频、实拉=0,直接跳过。
阶段 3 · 分流
置信度三桶(确定性,不走 LLM)
auto_import 高置信直接入 | need_confirm 边缘推飞书等点头 | reject 否决(同行号 / 30 天没新视频 / 0 可触达)。
阶段 4 · 入库
写 source_accounts + 升 tier1
实时去重(sec_uid + 名称双锁),命中率最高的非同行号升 tier1 进 scrape-hot 快车道,写回滚锚点。
阶段 5 · 闭环
回写关键词产量 + 排 T+7 效果检查
高产词留、低产词自动退役(母表越用越聪明);自动建 T+7 日历提醒,7 天后用真实队列产出复核这批号好不好。
06今日实战(2026-06-11)

今天选的是 loft / 复式 / 公寓 风格词。漏斗:

阶段数量说明
阶段 0 捞作者183风格词搜索命中作者
阶段 1 去重 + 富化142新号(非已入库),完成 f2 互动体检
阶段 2 实拉打分14 活号 / 587 评论只打活号,意向分类器逐条打分
阶段 3-4 真入库3有真实买家的号
其中升 tier12非同行 + 命中率高

实拉打分逐号结果(可触达 = 高意向 + 中意向):

号源可触达30d均评判定
🟢 一帆的家(法式黑白loft自装记)中 9286入库 · tier1 最活 + 非同行
🟢 颖火虫的顶楼复式高2 中225入库 · tier1 真买家 · 非同行
🟡 装修设计屋高1 中627入库 · 普通源 同行号,但评论区全是问价买家
🟡 阿Sue小屋 / 雪糕崽崽各 中142 / 25不入 单条,太薄
⚫ 其余 9 个(打工人/是亚男/多多苗…)0否决 看着活但 0 买家
今天风格词出的是腰部 / 泛流量号:3 个真产号 + 2 个薄号,离每日 ≥20 入库差很远。这恰恰是 f2 实拉这一步的价值证明——它在入库前就把真假分清了,而不是入库后浪费 7 天抓取额度才发现是空号。
07三个关键发现

发现一 · 历史评论均值会严重高估「降温号」

入库阈值原来挂在 avg_comments(最近 10 条视频均值)。但这个数对「火过但在降温」的号是陈旧值

legacy 均评30d 真实均评真相
野生也21,4192历史爆款,现在基本死
咸菜家6,2730 发文119 天没发新视频
小眼儿妈妈9130 发文973 天没发
颖火虫的顶楼复式69525在降温,但仍有买家
已修分流逻辑:30 天没发新视频(posts_30d=0)= 没有新评论可抓,无论历史多火直接否决。堵住了「legacy 均评高 → 误入降温僵尸号」的漏洞。

发现二 · 高评论量 ≠ 买家意向

「打工人的装修日常」:30 天发了 15 条视频,看着是这批最勤快的号。但实拉评论打分 → 0 可触达。它的评论区是同行/泛流量互动,不是买家在问价。只看「评论多不多」会把这种空号当宝。反过来,「一帆的家」评论里夹着「装修花多少」「软装一起报价」,才是真买家。

发现三 · 同行号的评论区也可能是金矿

「装修设计屋」本身是同行(设计师/公司),按名字规则会被否决。但它的视频评论区高1 中6——全是「5万怎么布置」「有没有推荐」的真买家在问设计师。所以同行号作为「评论区号源」入库是有价值的(我们抓它评论区的买家,而不是去触达号主本人)。今天把它作普通源入库、不升 tier1。

08死号复检(20 个)

之前一批扩源号入库后近 7 天 0 产出被判「死号」,曾怀疑是抓不到(IP / 限流)。今天 f2 能本地实拉了,复检一遍。结论推翻了原假设

分组数量复检结论
全屋定制工厂 / 同行号17末抓都是昨/今天——一直抓得到,只是评论区是 B2B/同行、没有 C 端买家
装修科普 / 木作号3f2 实拉:厦门杰哥 1 高/12 评论(薄,留)· 奇才木作 0 · 大巫聊装修 号已失效
不是「抓不到」,是「评论区没买家」。20 个里只有「厦门杰哥」还有 1 丝信号,其余 19 个确认弃用(is_active=false,留回滚锚点)。active 池 1185 → 1166。
顺带印证了 tier 体系的必要性:这类「在抓但长期零产」的号,正是未来 tier 4 休眠档该收的对象。
10tier 体系发展时间线(2026-06-14 补记)
按时间线把 tier 的来龙去脉捋一遍——它不是一次设计出来的,是「提频 → 自动升级 → 提拔翻车回切 → 重命名设计 → 饿死事故 → 节奏定版」一路长出来的。关联:派单新鲜度根因诊断见 dispatch-freshness-diagnosis-20260613
阶段(PR)动作关键点 / 教训
① tier1 提频(#229)scrape-hot + vip-rescan 对 tier1 源 */5 提频到 5mintier1 = 「好号」雏形:值得高频抓的源
② 自动升级 cron(#230)auto-tier1:非 tier1 活跃源近 N 天高意向 ≥ 阈值 → 自动升 tier=1(只升不降这是 codified 的 tier1 标准AUTO_TIER1_DAYS=3 / AUTO_TIER1_MIN=5(近 3 天 ≥5 高意向)
③ 快照拆分(#244)每小时采集快照加 Tier-1 vs 全量拆分开始把 tier1 当独立口径监控
④ 金矿提拔 + 回切一批 goldmine(~200)提拔进 tier1,后发现拖累 → _apply-goldmine-cutoff 切回 tier0只动「提拔的那批」,绝不碰原生 101 tier1——提拔过猛会稀释,回切保原生
⑤ 4 档命名设计(spec)统一命名 1热 / 2温 / 3冷 / 4休眠 / 0未分档(消除两套词混用)设计层;DB 当前仍主要 0/1(tier2 active=0,4 档未全落地
⑥ 每日扩源 + tier1 选号(#299)/source-mining-daily:入库置信度分流 + tier1 选号脚本入库前 f2 实拉打分,judgment 前移;本页 ①–⑨ 即此
⑦ tier0 饿死事故(#313/#314)tier1 提频挤垮 tier0 采集 → 单源 45min 节流 + in-flight 去重P1:高频伺候好号不能饿死大池子
⑧ 节奏定版(#327)tier0 = 1h / tier1 = 3min 轮抓当前生效的真实节奏
⑨ VIP 复扫洪水修复(#329,6-13)老 VIP 视频退役(VIP_RESCAN_MAX_VIDEO_AGE_DAYS=4),产能还给新视频发现复扫 7.9万次/天空转曾把时效拖到 58h;修复后恢复全池覆盖

现状(截至 2026-06-14)

分档active 数说明
tier0(大池子 / 低产)1019多为 0-lead 号,1h 一轮
tier1(好号)1713min 一轮;标准 = auto-tier1(近3天高意向≥5,只升不降)+ source-mining 选号
tier2 / null0 / 04 档设计未落地
tier1 171 个里:132 个近 14 天有产出、39 个零产出。新用途:tier1 即将成为 Playwright 抓取目标池(绕过抖音 post API 的 ~6 天延迟,拿真·新视频)。目标 ~100,从「有产出 + 发帖勤」的 132 里取——零产出的 39 个不进(Playwright 渲染它们是空跑)。

tier1 产出 Top 20(近 14 天 高/中意向)

#号源近14天产出
1Ly__105
2灿哥聊装修101
3大橘的家🏠(软装中)77
4阿进47
5旭东聊装修46
6张师傅讲装修46
7米凌设计师_胡设计46
8我得装修日记📔36
9罗哥讲装修34
10苏等等的家32
11设计师_巴丽30
12歆笛的装修日记29
13到位哥 装修纪录27
14永乐佳25
15贵港老五_夫妻贴砖_25
16米工说装修24
17装修帮24
18曾师傅装修日记24
19海哥—用心讲装修24
20堂堂的新家_23
全 171 个名单由诊断脚本 scripts/_tier1-roster.ts 输出。