upio.ai / Akke / 流水线提速

采集 → 入库 → 触达:全流程及提速

Akke 项目 · 2026-06-10 起,2026-06-14 更新(加「本周三层问题与修复」一节)· 一条买家评论从抖音到运营发出私信,要走哪几环、慢在哪、怎么提速到位
01 全流程(一图看懂) 02 本周问题与修复 03 提速进度 04 下一步
一句话:一条评论从被抓到推给运营,要过「采集 → 入库打分 → 触达」三大段。原来最慢一环是采集(每小时才抓一次),端到端能拖到一小时以上。这一轮把高价值号源的采集提到几分钟、打分和派单提到 2 分钟、并让系统按产出自动把高产号源升级进快车道,端到端从 ~1h 压到 ~9min。本周(6/14)又发现一个更硬的天花板:抖音发视频接口有 ~6 天延迟,导致 99% 评论一抓回来就过了私信新鲜窗——已用「砍老评论 + 热视频快道」止血;根治不是靠 Playwright(6/14 实测否决:6 天墙是抖音「按号查视频」接口本身的,换浏览器壳拿的是同一份延迟数据),而是换「关注流」面——让采集号集中关注号源、号源一发新视频就近实时拿到(见第 04 节)。
01全流程(一图看懂)
抖音源视频 ① 采集 抓评论入库 ② 打分 意向分高/中/低 ③ 触达 派单·云电脑发 私信 / 反向评论 / 二次触达

每一段是什么、多久跑一次:

环节频率干啥
① 采集全量采集每小时每个活跃号源抓一遍评论
热源采集3 分钟高价值(Tier-1)号源高频抓 + 视频级热快道(6/14 提到 3 分钟并加快道)。注意:3 分钟是系统多久「巡一次」,同一个号至少隔 45 分钟才会被再抓(见第 02 节问题①)——两回事
热视频复扫5 分钟正在涨评论的视频增量复扫(只扫近 4 天视频)
② 打分意向打分2 分钟大模型给新评论打分(高/中/低/无关);6/14 起超 120 分钟的老评论直接不打分
③ 触达派单 + 云电脑领单每分钟 / 60 秒高中意向 → 队列 → 云电脑自动发
两个关键概念
· Tier-1 = 号源级的「好号」标记,决定哪些源进高频采集。
· 热视频 = 视频级的「还在涨评论」标记,只在 Tier-1 源的视频上算。
· 端到端 = 各环叠加:单环频率不等于端到端,几环不对齐叠起来 ~9min(采集5 + 打分2 + 派单2 + 领单1,最坏;之前 ~1h)。
02本周(6/8–6/14)三层问题与修复

这一周「号源 → 视频 → 评论」三层各出了几个问题,也都修了。先看时间线,再逐层说(带例子,尽量大白话)。

日期出了什么 / 做了什么怎么处理状态
6/08扩源不精准:自动入库混进同行/水号,关键词「设计师」误伤好号源置信度分流 + 关键词重修 + 白名单精确入库已上线
6/10整条提速链一次性铺开采集/打分/派单提频、自动升 Tier-1、库存补单端到端 1h→~9min
6/11–12P1 事故:普通号连续 27 小时一个都没抓到每个号加 45 分钟冷却,好号不再霸占车道已修复并实测
6/12抓取机器「假死」12 小时零产出任务加 25 分钟硬超时 + 超时重启浏览器已修复
6/12视频复扫「洪水」,老视频也被反复扫只复扫近 4 天视频,老视频退役已修复
6/13最大发现:抖音发视频接口 ~6 天延迟 → 99% 评论一抓就过期重新诊断、定方案诊断完成
6/14止血提量:砍老评论 + 热视频快道 + 反评按窗口收三件改动一个 PR(#340)已上线验证

号源层 ── 哪些抖音号值得抓

问题①
普通号「饿死」27 小时(本周最严重,已修)。抓取任务排成一条单行道,好号被设成优先通行,但有个 bug 让 93 个好号每次抓完立刻重排,把道塞满,1000 多个普通号连续 27 小时没轮到。6/10–11 本该覆盖 1089 个号、实际只抓到 103 个。
给每个号加 45 分钟冷却,刚抓完 45 分钟内不许再排,普通号开始轮得到(修后 57 分钟实测:普通号两天来第一次被抓到)。
📌 别和上面的「3 分钟」搞混,而且「45 分钟」只管一条路3 分钟 = 系统多久巡一次;45 分钟 = 「整号主页重走一遍(找新视频+抓评论)」的最小间隔,是普通视频的兜底节奏但高价值视频不受它管——VIP 视频每 5 分钟、还在产新鲜评论的快道视频每 3 分钟就增量刷一次。所以真正值钱的视频是 3–5 分钟刷一次,不是 45 分钟;45 分钟只兜普通视频。
问题②
扩源(找新号)不够精准(已改)。老办法按「平均评论数过线」一刀切,容易收进同行/卖货水号;关键词「设计师」误伤——个人设计师其实是好号源。「自装 / 个人设计师」被当同行剔掉。
→ 改「置信度分流」:脉络明确的自动入库,拿不准的推群等点头;关键词去掉「设计师」、加「二房/顶楼/复式/loft/自装/装修中」;走白名单精确入库。

视频层 ── 一个号下哪条视频值得反复抓

问题③
复扫「洪水」冲垮产能(已修,留了个副作用)。产高意向最多的视频会被反复复扫,但之前没限制视频多老,连发很久的老视频也一起扫,量太大冲垮产能。6666 个老视频一起进复扫队列,新视频反而抢不到产能。
→ 加「只复扫近 4 天视频」年龄闸、老视频退役。⚠️ 副作用:太一刀切,把「老但还在涨评论」的视频也踢了 → 6/14 的快道专门绕开它。
问题④
抓取机器「假死」12 小时(已修)。抓评论用云上一台无头浏览器,内存撑爆后表面还显示在线、其实卡死不动,12 小时零产出。6/12 最后一次成功停在 13:42,靠重启才恢复。
→ 给每个任务加 25 分钟硬超时 + 超时重启浏览器,把「无限卡死」变成「有限报错可重试」。

评论层 ── 抓到最新鲜的买家评论(本周最大发现)

问题⑤ ── 抖音 ~6 天延迟 → 99% 评论一抓就过期(核心,已止血)。
抖音「发视频」接口有约 6 天可见延迟——我们能看到的视频几乎都是 7 天前的,评论也都老了。可私信只在评论发出「10 分钟内」发才有效,所以 99% 的线索一抓进库就过期,白抓、还白花 AI 打分钱
真正新鲜(发表 7 分钟内被抓到)的评论:6/12 = 44 条、6/13 = 16、6/14 = 7。6/13 我们加大扫荡量、新鲜评论反而更少——产能全被 6666 个老视频复扫偷走。当天抓回 3523 条评论,86% 是超 24 小时的老评论,纯烧钱零回报。
止血①
砍老评论。评论发表超 120 分钟的不再送 AI 打分——省约 86% AI 费用,触达零损失(本来就过期)。已验证线上在生效。
止血②
热视频快道。专挑「最近 48 小时还在产新鲜评论」的视频,最多 100 个,按产出选不按年龄(绕开问题③年龄闸),每 3 分钟用「只抓新增」的轻量方式趁鲜抓。已验证:当轮排满 100 条全完成、队列没冲爆。
止血③
反评也按窗口收。反向评论触达只发 10 分钟内的新鲜评论(饭粒/野荞=10 分钟、零星/夏夏=7 分钟)。
提速 / 更新 / 扩源 / 精准 四个诉求对号入座
· 提速:6/10 端到端 1h→~9min;6/14 热门视频新评论再压进 3 分钟窗。但天花板是抖音 6 天延迟(外部硬限),提速绕不过,要靠下面「关注流抓新视频」根治(Playwright 那条已实测否决)。
· 更新(同视频反复抓新评论):热视频复扫(5 分钟)+ 热视频快道(3 分钟),都只抓「上次之后的新增」,最省最鲜。
· 扩源(补新号):每日扩源 + 自动升 Tier-1;6/8 起置信度分流 + 白名单,收得更准。
· 精准:评论层砍老评论/同行词/噪音过滤;号源层置信度分流防水号;视频层 VIP 按真实产高意向挑。
03提速进度(2026-06-10)

前后对比(提速前 → 提速后)

环节提速前提速后
采集(热源 / 热视频)每小时每 5 分钟
打分每 5 分钟每 2 分钟
派单每 5 分钟每 2 分钟
Tier-1 好号 / 高意向覆盖99 个 · 46%113 个 · 73%
端到端(高意向入库 → 运营手里)~1 小时+~9 分钟
诊断
端到端最慢点是采集(每小时一批)——占整体延迟大头;采集服务器其实很闲、有大量余量,瓶颈是频率不是算力。
号源扩容
高意向高度集中在少数源。把高产号源升进 Tier-1:好号从 99 → 113,高意向覆盖率 46% → 73%
采集提速
Tier-1 号源 + 热视频的采集从每小时 → 每 5 分钟,配套放开「重抓间隔」。Tier-1(占 73% 高意向)端到端 ~1h → ~15min,全量保持每小时。
打分派单提速
打分、派单两环从每 5 分钟 → 每 2 分钟,砍掉各等下一班的时间。端到端 ~15min → ~9min。免费——这两环成本只跟评论/线索量走、不跟跑的频率走。
自动升级
系统每天自动把「近期开始产高意向」的号源升进 Tier-1(只升不降),新冒出来的好源自动进快车道、不用人工盯,每天推升级名单到群里。
库存补单
把之前「积压没触达的高意向」按真实发言时间、最新优先,每天自动喂给云电脑各号(填满当日额度、不超限),并每 3 天彻查库存健康度。
监控
每小时一张「采集快照」推数据群(汇总这一小时产出,不是每跑一次推):Tier-1 高频源 vs 全量分开看各产多少评论/高意向 + 采集号健康。提速效果一眼可见。
异常会怎样?机器人推不推?
✅ 有自动告警(推到群里):① 采集号被风控(暂停/封号)/ 失败率高 / 抓了 0 产出 → 每小时采集卡自动转红橙;② 采集漏跑 / 打分卡住(采集超 30min 没入队、或评论超 20min 没打分)→ 每 30min 自检推告警群;③ AI 余额不足 / 调用量骤增 → 推告警群(每 15min 查);④ 系统接口挂了 → 健康探测失败推 Lark;⑤ 高意向库存积压(新增 > 消化)→ 每 3 天彻查卡转橙。
⚠️ 暂靠人工盯(无自动告警,待补):① 云电脑发送端挂了;② 端到端时效突然变慢。这两个涉及云电脑发送端(运营会正常关机,见缺口就报=误报),需先有「工作时段」信号才能加,本轮先不碰。
成果:高价值线索从产生到运营手里,从最慢一小时多压到 ~9 分钟;号源池能按产出自我成长;积压库存有自动消化机制。
04下一步
方向说明
真正的天花板:关注流抓新视频(小胡集中关注)6/14 实测把 Playwright 这条路否了:6 天延迟是抖音「按号查视频」接口本身的(全库 3 万条视频最新 6.9 天、发布<2 天的 0 条,登录/本机直拉都一样)→ Playwright 渲染同一个接口面拿的是同一份延迟数据,没用。真正的解 = 换「关注流」面:实测它冒出 1.12 天前的视频、没有 7 天墙。做法:采集号「小胡-全屋定制」集中关注 113 个 tier-1 号源 → 轮询关注流,号源一发新视频近实时拿到。约束:API 写关注被 403 挡死,只能无影 GUI 点、~30/天(约 4 天铺满)。交接文档:docs/requirements/2026-06-14-突破7天天花板-换面拉新视频.md
观察新鲜度 1–2 天看 6/14 三件套上线后,「真正新鲜(≤10 分钟抓到)评论」占比有没有抬上去;热视频快道有没有稳定喂进新评论。
要不要再收紧存储6/14 在抓取侧也留了「超 120 分钟直接不存」的闸,但默认关(怕动了老视频后几天还在来的评论捕获)。先看打分侧砍老评论的效果再决定要不要开。
观察提速一周看 6/10 提速 + 自动升级 + 库存补单后,触达量 / 转化有没有真提升;端到端是否稳定在 ~9min。
覆盖长尾剩下散在长尾号源的高意向,靠「自动升级」逐步收编,不强求全量提频(防采集风控)。