upio.ai / Akke / 号源打分与筛选

号源打分标准 & 筛选过程

Akke 项目 · 2026-05-31 建,数据刷新 2026-06-04 · 数据随并行运营实时变动,以下为快照
00 真实案例 01 打分标准 02 筛选漏斗 03 当前画像 04 获取渠道 05 下一步
CASE先看一个号怎么被挑成"好号"

西安老王聊装修(本地装修号)为例,看这套打分/分级怎么把它从普通号挑成高频好号:

① 入池
作为装修相关号导入,先进 tier0 常规抓(每 3–4 小时一轮)——还没产出数据时不享高频。
② 打分
抓了一阵,它评论区真有人问价问户型 → 5 维质量分里权重最高的"高意向占比 / 高意向条数"被拉起来。
③ 升 tier1
按"近 7 天高意向贡献"排进 Top → 升 tier1、每小时抓。现在它名下累计 96 条高意向,是头部贡献号之一。
这就是"用末端结果(高意向产出)反过来决定开头抓谁"的回流。下面给打分标准、筛选漏斗、当前画像。
SECTION 01号源打分标准

每个号源(我们去抓评论的抖音账号)有一个 0–100 分的质量分,由系统实时算出来(不是人工填的、也不是存死的数字)。5 个维度,权重向「评论质量」倾斜:

维度满分怎么给分(大白话)
已有视频数15号里有没有货:>50→15 / >10→10 / >0→5
更新频率
近30天视频数
15勤不勤更新:>15→15 / >5→10 / >0→5
评论总数20有没有人气:>500→20 / >100→15 / >30→10 / >0→5
高意向占比30评论质量(权重最高):占比% ×6,封顶 30
高意向条数20真金白银产出:≥30→20 / ≥10→15 / ≥3→10 / ≥1→5

按总分定级:

A 级
≥ 70
勤更新 + 高质量,重点抓
B 级
≥ 50
合格,常规抓
C 级
≥ 30
边缘,观察
D 级
< 30
低产/死号,待清理
「评论总数」指什么:是这个号名下所有视频的评论加总(不是单条视频、也不是抖音页面上的真实总数)——只算我们实际抓进库的那些评论之和。所以一个号视频多、评论多,这一项就高。
两套"分级"别混:上面这套 100 分质量分(A/B/C/D)跟「抓取优先级 tier(0/1)」是两回事——质量分评"号好不好",tier 决定"多勤去抓"。
tier当前数量抓取频率哪些号
tier 1(高频)911 小时轮一次(走 scrape-hot)近 7 天高意向贡献 Top 的号(Top50 + 已有)——把最值钱的号优先、抓得最勤
tier 0(常规)611约每 3–4 小时轮一次(每小时取 150 个最久没抓的)其余全部 active 号

→ 质量高 ≠ 一定 tier1:tier1 是按"近 7 天高意向产出"挑的,新号/好号若还没产出数据,会先在 tier0 跑,攒出高意向后再升 tier1。

tier1 怎么评估出来的 + 上线时间
  • 2026-05-23 tier-1 高频体系上线(最早 5 分钟一轮,后调成每小时);5/26 tier-0 改成 1 小时取 150 个最久没抓的轮抓。
  • 2026-05-30 重新评估:把所有号源按「近 7 天高意向评论贡献数」排序 → 取 Top 50(这 50 个号贡献了全部高意向的 88%,高度集中)。这 Top50 里 22 个本来就已经是 tier1剩下的 28 个还在 tier0 —— 把这 28 个升上 tier1("28"就是这么来的)。tier1 经此 + 其它并行调整后达 91 个。
  • ⚠️ 数据支撑诚实说:「选哪些号」是数据驱动的(88% 集中度是实测);但「升 tier1 后高意向产出实际涨多少」属于慢热效果,尚未做前后量化对比,不敢说已见效。
SECTION 02从 2600 到现在 · 一步步筛选
先说「active」是什么:号源有个 is_active 开关。active(在抓)= true = 这个号在抓取轮转里、每隔几小时会去抓它的新视频评论;inactive = false = 停用、不再去抓,但历史数据保留(随时能开回来)。下面"筛选"主要就是在调这个开关——把不产出的号关掉,让抓取预算集中在好号上。

号池累计导入过 2,653 个号,经过几轮筛选,现在 active 702 个 / inactive 1,951 个(06-04):

起点
2600 个 累计导入 —— 蝉妈妈(第三方数据平台)反向画像 + 历史批量拉的号
5/19–5/24
9 桶治理(先狠砍再放回)
先给所有号打 9 桶分类(品牌/工厂/建材/同行/设计师/知识号/业主/本地店/未知),再按"评论池质量"分轮调 active:
  • 1887 → 269(大停抓):工厂号 255 个全停(B2B 评论天然弱)+ 建材号 213 个全停(同行噪声 34%)+ 同行装修号里"近 7 天零评论"的 828 个停(只留 54 个产出活跃的)
  • 269 → 575:把误杀/有潜力的桶放回观察(知识号 buyer% 35% 是金矿、设计师单源评论多,重新激活)
  • 575 → 385:观察后再砍掉仍不产出的,收到平衡点
5/25–27
继续补号 + tier 调频
这周持续用蝉妈妈/抖音搜索补号(~395 个进库);5/26 把 tier-0 的抓取从"一次性全抓"改成"每小时取 150 个最久没抓的轮抓",让 worker 一直有活干、不空转。
5/28–29
扩池 +538 / 救回 +127
  • 538 个新导入:蝉妈妈按关键词反向画像拉的新批次(不按粉丝头部,按相关性/潜客密度挑)
  • 127 个孤儿号救回:这 127 个号之前因为"没标明属于哪个客户",被抓取程序当成"来路不明"一直跳过没抓;5/29 给它们补上归属标签后才救回入池。
上面这两个词("孤儿号"、"属于哪个客户")到底啥意思?大白话 + 打比方:
  • 多租户=一套系统同时服务多个客户、各用各的互不串门。就像一栋写字楼里好几家公司租办公室,各开各的门。"租户"="一个客户"。
  • org_id=给每个号贴的"这号属于哪个客户"的标签。系统靠它决定谁能看到/抓哪些号。
  • 这里的"客户"是谁用 Akke 做获客的甲方商家(不是评论区的潜客)。当前系统里有 4 个客户(org),但实际只有「有大有小」(主客户,全屋定制方向)在用,2,467 个号全挂它名下;另外 3 个 大麦植发 / 皮皮考研 / 景区导游 是当初验证"多租户能跨行业"建的空 demo(0 号源)。所以现在实质是单客户在跑,多租户是为将来扩客户留的能力。
  • 孤儿号=标签空白、没人认领的号(有 127 个)。就像没人认领的孩子。
  • 为什么没被抓=抓取程序有安全规则:不知道属于哪个客户的就不抓(怕数据算错客户头上)→ 这 127 个一直被跳过。
  • 为什么会漏贴=Akke 早期只服务一个客户、号不用标归属;后来升级成"能服务多客户"时回头补标签,漏了 127 个。5/29 补贴"主客户"标签后才重新被抓。
→ active 冲到 621
5/30
本轮治理 —— Top50 高意向号升 tier1(高频抓);停掉 40 个「主页 0 视频」的死号
5/30
补知识号 —— 抖音搜索「X讲装修」类自动发现,净增 53 个知识号(科普号,最值钱品类)
5/31
worker 复抓评论窗口 24h → 7d
抓视频评论时有个时间闸门——视频抓过一次后,再去复抓时最远只看闸门内的评论。原本闸门 = 过去 24 小时,意思是"复抓只看过去 1 天里出现的新评论"。万一 cron 卡过夜、worker 堵塞超 24h,中间冒出的新评论就漏掉。今天把闸门拧到 168 小时(7 天)= 即使复抓间隔 5-6 天都补得回来。
为啥今天改:取 47 个号 × 10 视频 × 共 11,879 条评论实测,整体只有 7.9% 评论是 24h 内的——也就是 24h 闸门平均要丢 92% 评论;改 7 天闸门能保住约 35%。
怎么改的:worker 跑在 Fly.io 上,改一个叫 SCRAPE_RECENT_COMMENT_HOURS 的环境变量("机器的设置旋钮"),24 → 168。不动代码、不发版、一行命令在线生效,2 台 worker 滚动重启完毕。Rollback 也是一行:set 回 24。
现在06-04
active 702(tier0 611 + tier1 91)· inactive 1,951
SECTION 03当前 active 号画像

质量分布(active 号,05-31 快照)—— 八成是 D 级,真正好号集中在少数:

注:A/B/C/D 质量分是按 5 维实时算的,本次刷新未重算分级分布(要复跑全量打分),下面这组是 05-31 快照、量级仍成立;可验证的产出口径见本节末尾「哪些号真产高意向」表(06-04 实数)。

A 34
B 72
C 23
D 492

→ A+B(值钱的)≈ 106 个;高意向高度集中:Top50 号贡献 84–88% 的高意向

数量号源举例(含质量分)
A34装修帮(95) · 海哥—用心讲装修(95) · 小刘厂长美式家具(90) · 奇才木作(90) · 灿哥聊装修(90)
B72堂堂的新家_(69) · 嘉伟室内设计(67) · 索菲亚设计师_索长(65) · 成都全屋定制工厂-金柏莱(65)
C23设计师小北(45) · 设计师阿鑫(意式风格)(41) · 天柱华帝厨电(35) · 广佛法柏卡全屋定制工厂(30)
D492洛阳老范聊装修(25) · 福临美佳全屋定制工厂(25) · 西安艺博匠心全屋定制(25) · 双峰成林木业兔宝宝(25)

注:D 级里也有"X聊装修"知识号(如洛阳老范),名字像但实际更新/评论产出弱 → 分低;可见名字signature只是入池线索,真产出还得抓了才知道

每档评分拆解(各取 1 个代表号,看 5 个维度分别得几分、怎么加到总分):

维度(满分)A · 装修帮B · 芬德格林门窗C · 家吉全屋定制D · 乐蜂·唐哥聊装修
已有视频数 (15)34→1015→1021→1013→10
更新频率·30d (15)33→1515→1021→1513→10
评论总数 (20)607→203→52→511→5
高意向占比 (30)8%→3033%→300%→00%→0
高意向条数 (20)46→201→50→00→0
总分 / 级95 · A60 · B30 · C20 · D

读法:A(装修帮)靠评论多 + 高意向多把"评论总数 20 + 高意向数 20"拉满;B 常是"占比高但量小"(芬德格林占比 33% 但只 1 条高意向);C/D 多半高意向占比和条数都是 0(有视频没转化),分自然低。

这 4 个号的评论区真实长啥样(标签是系统打的真实意向,直观看每档号的评论质量差距):

号(档)评论区真实样例
A 装修帮「想装修铺位2W够不够,能装什么样的」高100 · 「我下个月交房,200方,预算300万,求好公司」高100 · 「衣服放哪里刷?」低40 · 「能设计吗」无关
781 条评论,高意向密集(含大预算明确客户)→ 满分号
B 芬德格林门窗「怎么卖」高85 · 「无框阳台可以按纱窗不」低58 · 「这样的多少钱一个」无关
仅 5 条评论,占比高但绝对量太小 → B
C 家吉全屋定制全程只有 1 条:「你好,需要安装师傅吗?」无关(同行问安装,无效)
基本没人气 → C
D 乐蜂·唐哥聊装修「想做全屋定制,要多少钱?」中78 · 其余多为「[赞][赞][赞]」「[玫瑰]」无关
139 条评论但几乎全是表情/玩梗,零高意向 → D

对比一眼看出:A 级号评论区是"大预算 + 明确找服务",D 级号评论区是"一片点赞表情"。这就是高意向占比/条数把分数拉开的真实原因。

品类分布(active 号,2026-06-04 当前口径):

品类数量说明
本地号238本地装修/服务号
全屋定制189同行 / 全屋定制号
工厂号124B2B,产出低、稀释池子
知识号73「X讲/聊装修」科普号,观众真问问题、高意向密度高
(未分类)54名字无明显特征,待定
品牌号17
设计号6
平台号1如「一起装修网」(聚合平台,恰是高意向贡献第一)
⚠️ 分类口径变了(诚实说,别误读成暴跌):本页 05-31 原用一套标签(知识号 327 / 同行 130 / 设计师 72…,按号名正则补的)。06 月初重做了分类方案,改成上面这套(本地号 / 全屋定制 / 工厂号 / 知识号…)。所以不是"知识号从 327 掉到 73",是换了归类口径——新方案把大量"X讲装修"按经营主体重归到本地号 / 全屋定制,知识号只留更纯的科普号。两套口径不可直接相减比较。不变的结论:高意向高度集中在少数好号,品类只是入池线索,真高产看抓取产出(见下表)。

实测:哪些号真产高意向(按名下累计高意向评论数 Top,2026-06-04 实库)—— 验证"产出集中 + 升 tier1 抓得对":

源号品类tier名下高意向
一起装修网平台号tier1126
小刘厂长美式家具本地号tier197
西安老王聊装修本地号tier196
海哥—用心讲装修知识号tier179
石材橱柜板材批发工厂号tier079
设计师阿爽知识号tier171
装修帮知识号tier168
灿哥聊装修知识号tier164

8 个里 7 个是 tier1,印证"按近 7 天高意向贡献升 tier1 高频抓"是对的;品类多样(平台/本地/知识/工厂号都出好号),"石材橱柜板材批发"这种工厂号也能进前列 → 名字品类只是线索,真高产抓了才知道。

这 286 个 category 具体怎么补的:用名字 signature 正则分类器(脚本 `_backfill-category.py`)——按号名里的特征词归类,清晰才打、模糊留空
名字含归类
讲装修 / 聊装修 / 说装修 / 懂装修 / 装修课堂 / 避坑知识号
设计师 / 室内设计设计师
建材 / 瓷砖 / 门窗 / 地板 / 涂料 / 板材材料
工厂 / 厂家 / 源头 / 批发工厂
业主 / 我家 / 晒家 / 装修日记业主日记
旗舰店 / 官方品牌
全屋定制 / 整装 / 装饰(兜底)同行
结果:285 个补上(知识号 245 / 设计师 16 / 工厂 12 / 同行 11 / 材料 1),1 个名字无特征留空。
局限(诚实说):这是按名字猜的、非 100% 准——抽检 18 个知识号全对,但边缘可能误判(名字像知识号、实际是装修公司的);而且"名字像 ≠ 真高产"(D 级里就有"X聊装修"名字但不产出的)。补 category 只让画像可筛,真好坏还得看抓取产出。
SECTION 04号源从哪来 · 获取渠道现状与对比

号源不是凭空来的,靠几个渠道往里灌。当前各渠道状态:

渠道干什么用怎么拉现状
蝉妈妈
第三方抖音数据平台
按数据维度精筛号(粉丝/评论/类目反向画像)搜关键词→拿作者列表→分享链接解析→批量导入。限流:搜索无限 / 详情 30 次/窗口双重失效:5/28 关键词矩阵枯竭(拉不出新号)+ 5/29 账号被封
飞瓜
另一第三方平台
同蝉妈妈(备选)未注册(蝉妈妈的潜在替代,还没启用)
抖音搜索
直连抖音网页
直接搜关键词找号CDP Chrome 搜词→监听搜索接口的作者列表→打分去重→导入。免费、不依赖第三方账号当前主力(5/30 走通;本周 53 个知识号就走这条)。缺点:半自动、无法像蝉妈妈按数据精筛
抖音指数
巨量算数升级版(2026-01-01 起)
验关键词热度(不是抓号,是选词)查关键词同比/环比/平均搜索量,判断哪个词值得上号源⚠️ 能用,但只对"话题词"有数据(装修案例/婚房装修);对"X讲装修"这类创作者名字模式词返回无数据,找号别指望它
一句话现状:蝉妈妈(精筛主力)暂时挂了 → 现在靠抖音搜索顶着补号 + 抖音指数辅助选词。中期要么等蝉妈妈解封、要么注册飞瓜,把"按数据精筛"的能力补回来——抖音搜索能找到号,但筛得没第三方平台细。
飞瓜实测 + 零成本替代路子 → 飞瓜能不能用?评论池反挖号源 + 两段打分漏斗:飞瓜达人库卡付费墙、且只给抖音号无 sec_uid、永远给不了意向评论;默认走评论池反挖(号自带 sec_uid、零成本),配套昵称先验分(入库前定优先级,区别于本页的入库后 5 维产出分)。
SECTION 05下一步
优先级动作为什么
清掉 492 个 D 级死号在烧抓取预算 + 稀释,清了好号抓取频率翻倍
评估「首抓评论窗口」从 7 天再放宽到 30 天

"首抓" = worker 第一次抓某个新视频时往前看多久。当前 7d,意思是只收过去 7 天内出现的评论。

实验依据:5/31 抽 47 个号 × 各 10 视频 × 共 11,879 条评论,无 cutoff 全捞,看不同 cutoff 各能保住多少评论。三类样本:TierA(已验证的 2 个金号)/ vid_no_cmt(30 个"抓到视频但 0 评论"的疑似死号,最关键的待救组)/ vid_with_cmt(15 个有少量评论的对照组)。

cutoff 整体覆盖 TierA 金号 vid_no_cmt 死号嫌疑 vid_with_cmt 对照
7d(当前)11.8%45.1%4.1%13.0%
14d32.1%64.5%15.2%48.1%
21d44.5%85.0%24.2%63.2%
30d(建议)50.7%94.4%25.9%75.3%
60d56.2%100%32.7%78.9%
90d58.4%100%34.9%81.8%

为什么推 30d:① TierA 金号 7d→30d 覆盖率从 45.1% → 94.4%(几乎全保);② 195 个"抓到视频但 0 评论"的疑似死号里,约 50 号(195 × 25.9%)能脱困不再被冤枉;③ 30d → 60d 边际收益骤降(vid_no_cmt 只多救 6.8%),老评论意向衰减大不划算。

暂不立刻动的原因:今天刚改完复抓 7d,先观察几天实际涌入量再拍,避免一次改两个旋钮看不清谁的功劳。

评估存量 327 个知识号 → 留真高产、停不产的知识号高意向密度最高,但多数还在 tier0 没产出数据;6-06 起评估(不是"补不足",是"筛出真高产")
补回"按数据精筛"渠道:注册飞瓜 或 等蝉妈妈解封抖音搜索能找号但筛不细;精筛渠道挂了影响新号质量
同名重复号去重category 已补全(仅剩 1 个未分类);重复号仍待清
补 fan_count(粉丝数半数为空)profile 抓取没在跑,想按粉丝筛得先有数