把 HubSpot / Calendly / 官网表单 3 来源的线索合并去重,让 Codex 写脚本自动评分,再推回 CRM 触发跟进。
开场气氛:Day 9 进入"销售落地"主题。Day 7-8 我们处理 SEO 与内容,今天回到销售漏斗——把外面进来的线索(lead)转成可执行的销售动作。
定调:今天的关键判断不是"AI 能不能评分",是"评分模型怎么落到你自己的 CRM(客户关系管理系统)里"。出海团队大部分卡在数据散在 3-4 个工具里,没人有时间合并。
键盘提示:→ 下一页,N 备注,F 全屏。
讲解要点:4 个目标按"概念 → 数据收集 → 自动同步 → 全链路验证"递进。提醒学员今天的产物是能跑的脚本,不是 PPT 概念。
互动:可以先问"你们公司线索现在在几个工具里?"——大部分人会答 3-5 个(CRM + 表单 + 日历 + 邮件 + LinkedIn),制造"我也卡在合并这一步"的代入感。
意味着:你不缺线索,缺的是把线索按优先级排出来的人——而这件事 Codex 一个脚本就能干完。
讲解:79% 这个数字来自 Marketo + Forrester 共识——大部分线索死在"销售不知道它存在"。5× 是 Lead Response 经典研究(James Oldroyd, MIT 2007,至今仍被引用)。
类比:就像快递不投递不是因为没货,是因为快递员不知道地址。AI lead scoring 就是给每条线索贴一张"优先级地址"。
今天聚焦前 3 类——这是 SaaS / 出海 B2B 团队覆盖率最高、API 最成熟的来源。
讲解:6 类来源不是要全做,是让学员对"自己的线索池在哪"心里有数。3 类聚焦原因:(1) HubSpot 是 SaaS 出海事实标准,(2) Calendly 邮件订阅最容易自动化,(3) 官网表单是意向最强的来源——能主动填表的都是热的。
互动:可以问"你们 3 类来源覆盖率怎么样?"——根据团队规模分流,30 人以下基本就 1-2 类,大企业才有完整 6 类。
SaaS / 电商 / 金融 = 25 分。教育 / 制造 / 医疗 = 15 分。其他 = 5 分。
→ 用公司邮箱域名反查行业(Clearbit / Apollo enrich)。
1000+ 员工 = 25。100-1000 = 20。10-100 = 12。1-10 = 5。
→ LinkedIn employee count,HubSpot enrich 自带。
邮件提到具体业务 + 12 分,提到价格 + 8 分,提到Demo / 试用 + 5 分。
→ Codex 用关键词 + LLM 做语义判定。
"price" / "demo" / "urgent" / "buy" 出现 1 次 +6,3 次以上封顶 25 分。
→ 正则匹配 + 词频统计,最便宜的一维。
讲解:4 维不是拍脑袋设计的,是 B2B SaaS 行业 lead scoring 的事实标准(参考 HubSpot Predictive Lead Scoring 官方文档)。强调等权重 baseline——很多团队栽在"上来就调权重",连数据都不够支撑调整。
避坑:行业匹配里如果你的 ICP(理想客户画像)不是 SaaS,这一维的分配要改。让学员根据自己产品调维度 1 的分配规则。
~/lead-scoring/.env,不要直接写脚本里。让 Codex 用 python-dotenv 读。
讲解:5 个工具里 HubSpot Free CRM 是关键——很多团队不知道 HubSpot 有完全免费版,API quota 也够个人 / 小团队用。
避坑:Salesforce / Pipedrive 也行,但 Salesforce API 复杂度是 HubSpot 的 3 倍,今天先教 HubSpot 跑通方法论。学完之后 Codex 可以一句话切换"换成 Salesforce API"。
讲解:这个 prompt 是对着 Codex CLI 直接喂的,不是 ChatGPT 那种聊天。强调最后两段"要求"——这是把"概念 demo"变成"能跑的生产脚本"的关键。
逐条解读:(1) 去重用邮箱是因为它是唯一标识,电话有格式差异,姓名有大小写;(2) hot/warm/cold 三档来自 HubSpot Lifecycle Stage 官方推荐;(3) 周报是给老板看的,不是给销售看。
讲解核心:Prompt 的结构就是输出代码的结构。让 Codex 生成生产级代码,prompt 自己就要是生产级 spec(规格说明)。
金句:你给 Codex 写"模糊",它就写"占位符";你给它写"具体",它就写"代码"。
Codex 拆成 7 个模块——每个模块独立可测,这是能维护的代码不是 demo 代码。
讲解:让学员看清"生产代码长什么样"——7 个文件不是炫技,是分层。明天要换 Salesforce,只改 push_hubspot.py;明天要加 LinkedIn 来源,只新增 ingest_linkedin.py。
对比:很多人让 ChatGPT 写脚本拿到的是一个 main.py 写 500 行——能跑但下周再改就崩。Codex CLI 的优势就是它会主动拆模块。
讲解:这段是真实 Codex 生成的代码(已脱敏)。3 个看点:(1) 每一维分数都有 breakdown,便于销售追问"为什么这个 70 分";(2) 沟通信号用 LLM 判定,其他用规则——便宜的事让规则做;(3) 意向词上限 25,防止用户滥用 "demo demo demo demo" 刷分。
互动:让学员看这段代码 30 秒,问"如果你的产品 ICP 是 D2C 电商,你会怎么改第 1 维?"——答案是把 eCommerce 权重提到 25,SaaS 降到 15。
→ 5 分钟响应窗口
→ 教育 → 转 hot
→ 不主动跟进
讲解:3 档背后是销售时间预算。Hot 给 80% 时间,Warm 自动化交给邮件,Cold 几乎 0 投入。这才是 lead scoring 的本质——把人最贵的资源(销售时间)分配到 ROI 最高的地方。
金句:你不是在评分线索,你在给销售的注意力做预算。
这 3 个 endpoint 覆盖 90% 场景。Codex 会自己查 HubSpot 文档——你不用记。
讲解:不要让学员死记 endpoint,要让他们记动作三件套:拉数据 → 更新字段 → 创建任务。换 Salesforce 是这三件套,换 Pipedrive 还是这三件套。
避坑:HubSpot 免费版有 rate limit(100 req / 10s),脚本要加 retry + backoff。Codex 会自动加,提醒学员检查 logs/ 里有没有 429 错误。
data/raw/每个来源独立模块,独立失败不影响其他data/merged.csv同一人多来源时合并字段,保留最早 first_touch 时间data/scored.csv每条记录带 breakdown,方便人工审查讲解:7 步看起来多,跑通后是一行命令 python run.py --weekly。强调"每步独立可测"——这是能维护的代码核心。
定时:cron / GitHub Actions schedule / Vercel cron 都行。每天凌晨 4 点跑一次 score + push,周一早 8 点跑 report。
讲解:周报不是数据 dump,是带洞察的——总览 + 来源对比 + TOP 10 + 3 条 actionable insight。最后 3 条是 Codex 自己根据数据生成的,prompt 里加一句"附上 3 条洞察"就行。
给老板看:老板看周报只关心"这周比上周好了吗?什么动作能让下周更好?"——前 2 段答前者,洞察段答后者。
15 维评分模型听起来牛,实际跑不通也调不动——每个维度都要数据 + 阈值 + 监控。
→ 4 维 baseline,3 个月后再加。
跑 3 个月有真实转化数据后,必须重训权重。继续等权就是浪费数据。
→ 看哪一维和成单相关性最高,加权。
销售从经验判断"这个 30 分的其实是大单"——脚本必须支持手动标 hot 并记录原因。
→ AI 是辅助,不是裁判。
3 个月后行业关键词变了(比如"AI agent"火了),不更新词库 → 分数失真。
→ 月度 review 关键词命中率。
讲解:4 个误区里误区 3 最容易踩。销售直觉是有价值的训练数据——他们 override 的记录,半年后可以反向训练模型。
给学员看:让 Codex 在 score.py 加一个 manual_override 字段,标 hot 时记录"override_by + reason"——3 个月后这个表就是金矿。
讲师准备了 50 条脱敏线索 CSV(混合 3 来源)
用 Codex 把今天的 prompt 跑一遍,
最终在 HubSpot Free 上看到 hot / warm / cold 标签
讲解:CSV 用脱敏 / 合成数据,所有 email 都是 example.com 域名 + 假姓名 + 假公司。所有学员用同一份数据可以对比结果。
时间分配:(1) 注册 HubSpot Free + 拿 API key:10 分钟。(2) Codex 喂 prompt:5 分钟。(3) 跑通调试:40 分钟。(4) 看 HubSpot 标签 + 周报:15 分钟。(5) Q&A:20 分钟。
day09_leads.csv · 50 条脱敏数据mkdir ~/lead-scoring && cd ~/lead-scoringcodex 然后把 SLIDE 7 的完整 prompt 喂进去python src/main.py --input data/raw/day09_leads.csv --pushpython src/report.py --week current → 输出 Markdown讲解:8 步顺序不能跳。常见卡点:(1) HubSpot scope 选少了——必须勾 contacts.read + write + tickets.read;(2) Codex 第一次跑会问"是否创建 venv"——选 yes;(3) push 之前先 dry-run 看输出。
讲师在场支持:转一圈,看谁卡在哪。常见是 API key 拼写错误或者 .env 没装 python-dotenv。
讲解:5 类报错覆盖练习里 90% 的卡点。让学员养成"报错 → 粘 Codex"的反射,不要自己看 stack trace 钻牛角尖。
金句:调试不是脑力活,是把上下文喂回去让 Codex 自己修。
跑通 HubSpot 后,让 Codex 加一层抽象 → 切换 CRM 只改一个环境变量。
跑完这一段,你团队明年换 CRM 时省下的工作量足够回本整个训练营。
讲解:这一段是选学。会架构的学员当场跑,不会的留作业。强调"抽象接口"是工程师思维,不是销售思维——学员可能第一次接触这个概念,要慢慢讲。
类比:就像家里电源插座,欧标 / 美标 / 国标接头不同,但电视机不用换——CRMClient 接口就是那个插座。
Apollo API 输入 email → 返回公司规模 / 行业 / 技术栈 / 资金状况
→ 替代 Clearbit,价格更友好($49/mo 起)
定义 ICP → Apollo Search → 拉出符合条件的潜在客户 → 灌进 lead pool
→ 不要 spam,每周 50 条精挑细选
讲解:Apollo 在出海团队渗透率很高,单独花 5 分钟讲清楚。强调不要本末倒置——很多团队上来就 Apollo 群发,最后被标记 spam 域名声誉崩了。
合规:欧盟 GDPR / 加州 CCPA 对 Apollo 数据有限制,给欧盟客户发邮件前必须有 legal basis(合法依据)。
讲解:4 个方案没有"最好"——按团队成熟度选。零基础先本地 cron 跑 1 周,确认数据没问题再上 GitHub Actions。
避坑:GitHub Actions 上 secrets 要用 environment-level,不要用 repo-level——重启 / 转移仓库时不丢。
consent_check(),没有 consent 记录的 email 不进 nurturing 序列——分进 pool 但不主动联系。罚款一次能花掉一年广告预算。
讲解:合规这一页要严肃讲。GDPR 单次罚款上限 €2000 万或全球营收 4%——出海公司一次踩雷可能直接关停。
给学员安心:HubSpot 自带 GDPR 字段(Legal Basis for processing),用它默认值就行——不用自己造合规体系。Codex prompt 里加一句"严格遵守 GDPR 字段,没 consent 的不入序列"即可。
echo $HUBSPOT_TOKEN 能输出cat data/scored.csv | head 看到分数 + breakdowncat reports/week_21.md讲解:4 项验收里第 3 项最关键——眼见为实。让学员主动截图 HubSpot Contacts 列表发群里,制造"我做出来了"的胜利感。
不到 4 项怎么办:不要批评,问"卡在哪一步?"——大部分是 API scope 或者 CSV 列名问题,10 分钟内能解。
小结口吻:3 个 takeaway 不重复细节,点核心判断。"销售注意力预算"是金句,重复一次。
作业设计:让学员拿真实数据跑——只有真实数据才能暴露模型的盲点。"TOP 10 不一致"是最好的调优信号。
从 GA4 / Mixpanel / Amplitude 拉 A/B 测试数据
让 Codex 算显著性 + 切 segment + 写"是否推全量"决策报告
Q&A 引导:先问"今天哪一步最卡?"——大部分会答 API scope 或者 Codex 写脚本太慢。
常见提问预案:(1) Salesforce 怎么办(答:SLIDE 19 进阶提示,让 Codex 抽象 CRMClient);(2) 不会 Python(答:Codex 写好了你只跑命令,今天不用懂代码);(3) Apollo 太贵(答:免费版每月 50 条够小团队 PoC)。
结束:"明天我们让 Codex 算 A/B 测试 p-value,不用学统计学。"