让 Codex 写爬虫抓 Reddit / TikTok / Amazon 评论
自动聚类用户痛点 TOP 10 + 情感分析
不用懂 Python——描述需求就行
开场气氛:欢迎回来。前两天我们做了"看竞品"和"做内容"——今天我们做"听用户"。这是出海做对一件事的根:你得知道海外用户骂什么、夸什么、痛什么。
定调:做用户研究最痛苦的是样本量——花钱做问卷只能采 50 个用户。今天我们教你0 成本采 1000+ 条真实评论。
键盘提示:→ 翻页 / N 备注 / F 全屏。
互动:让 2-3 个学员分享 1 个昨天 AI 给的"文化避坑"——哪个最意外。
过渡:"昨天我们给海外用户写内容,但你怎么知道他们想要什么?今天就解决这个问题——让 AI 直接帮你听他们的声音。"
讲解:今天的产物不是 PPT 而是数据资产——下课时你硬盘里多出 1 个 CSV + 1 份 Markdown 报告,可以直接发给产品/老板。
合规边界:第 5 点不是装饰——很多公司做用户研究踩雷被律师函,今天讲怎么避。
海外做不通:(1) 海外用户问卷转化极低;(2) 群拉不到;(3) 内容平台是 Reddit/TikTok 不是知乎;(4) 代运营 ¥5w 起。
¥0 成本 · 90 分钟出报告 · 样本量比传统问卷大 3-5×
讲解:海外用户在 Reddit / Amazon / Twitter / TikTok 上吐槽的话比问卷里答的真实 10 倍——因为他们不知道你在听。
金句:不要问海外用户"你想要什么"——去找他们已经在公开骂的东西。
讲解:3 个平台各有不可替代的优势——Reddit 是"骂得长",Amazon 是"骂得具体",TikTok 是"骂得有梗"。
互动:问"你们家产品是 SaaS 还是消费品" → SaaS 重点 Reddit,实物消费品重点 Amazon,DTC 品牌重点 TikTok。
讲解:合规这块要严肃讲——这不是吓唬人,是 2022 之后行业实际判例。
关键 framing:今天我们做的是"内部研究",不是商用数据销售——这是合规安全区。
如果学员问"抓淘宝可以吗":答:"国内平台基本都明确禁,海外平台只要合规 API + 公开数据是 OK 的。"
讲解:这一页打消非技术学员的紧张感。强调 Codex 是"懂技术的 AI 同事"——你只需要做需求方。
"agent loop"概念:Codex 自己拆任务、调工具、改错——这是 2025-2026 AI 工具的核心进化点。
讲解:今天的核心创新是"一条 prompt 跑完整个 pipeline"——你不用 8 次对 AI 说话。
总时长:~40 分钟跑 + 50 分钟看结果调整 prompt,正好 90 分钟。
下一页是完整版 prompt——一条搞定从爬虫到痛点报告的
8 步完整流程。
仪式感:再次强调"截图保存"——这是今天的核心资产。
讲解每一段:步骤 1-3 是抓,步骤 4 是合并,步骤 5-6 是 LLM 分析,步骤 7 是出报告。每一段都明确技术栈(praw, BeautifulSoup, GPT),让 Codex 不乱选。
互动:让大家截图保存。
核心教学点:写 prompt 是"具体到 AI 不需要猜"——猜得越少跑得越准。
讲解:5 分钟准备是必要前置——很多学员卡在这步。课前已经群发了 Reddit / OpenAI 注册链接,今天就是检查。
互动:让大家举手——谁 .env 已经准备好了。没准备好的 5 分钟现场补。
竞品:Notion(生产力工具)
赛道:r/productivity + r/Notion
最终目标:用户痛点 TOP 10 报告
讲师准备:开课前已经在终端 cd 到 demo 目录,.env 已经填好。现场粘贴 prompt → 回车 → 等 Codex 写脚本 + 跑。
边等边讲:抓取过程中讲解 Codex 在做什么,让学员理解"AI 同事真的在干活"。
讲解:这一页边看实际终端边讲,让学员体感"AI 同事真的在干活"。
Captcha 那一步:这是非常常见的实际问题——讲一句"这是合规边界——遇到 Captcha 就停,不绕"。
讲解:分平台拆数据是关键洞察——不要只看总比例,要看哪个平台负面占比高。负面占比高的就是核心用户真实痛点的窗口。
方法论:路人评看不到核心痛点,老用户骂得才是产品的真问题。
38 条提及 · Reddit 26 / Amazon 8 / TikTok 4
"Notion mobile is so slow I literally use Apple Notes when I'm on the go." — u/p*** "I love Notion on desktop but the mobile app is unusable." — u/m***29 条提及 · Reddit 21 / Amazon 5 / TikTok 3
"Tried to open my journal on a flight. Zero. Notion offline mode is a joke." — u/d***22 条提及 · Reddit 15 / Amazon 4 / TikTok 3
"$10/month per seat just to share a database? Switching to Obsidian." — u/s***讲解:每个痛点配 1-3 条原始评论引用——这是给老板看的"证据链"。空喊"用户觉得贵"没说服力,"$10/seat just to share" 这种引用一句搞定。
立刻可用:这 3 个痛点直接变成你下个广告的 hook:"Notion 太慢?我们快 3 倍。"
讲解:报告结构是讲过的——摘要 / 数据源 / 情感 / 痛点 / 建议。最后"投放建议"是 GPT 自动生成的——直接可以拿去做广告。
金句:用户研究的终点不是"知道",是"动作"——好的报告直接告诉你下一步做什么。
选一个你自己关注的海外竞品(任选)
用今天的 prompt 跑一遍流程
至少抓 50 条评论 + 出主题聚类
讲师巡场:这 15 分钟你要走动,看每个学员的屏幕。常见卡点:(1) .env 没填好 → 现场帮填;(2) Reddit API 限流 → 让减少抓取量到 30 条;(3) Amazon 反爬 → 让先跳过这一源,只跑 Reddit + TikTok。
如果有人特别快:让他试加一个"YouTube 评论"数据源。
讲解:这 6 个坑是真实学员练习时踩过的——提前讲让大家避。
"贴错误给 Codex"是核心技巧——很多非技术学员看到红色 traceback 就慌了,其实 Codex 看一眼就能修。
把 Notion / Obsidian / Roam 一起跑——出"竞品痛点矩阵",知道每家相对薄弱点,找差异化空间。
结合 Day 1 的定时任务能力——每周一自动抓 + 发飞书。用户痛点会随版本更新变化,长期追踪。
r/productivity 是英语圈,但 r/productivity_es 是西语圈——按地区拆评论,发现不同市场的差异痛点。
把"竞品名"换成"你自家产品"——直接看自己用户在哪些渠道骂什么,比让客服反馈快 10×。
讲解:进阶玩法不是必学,是激发想象力——让学员知道"今天学的是 1.0,后面可以怎么玩 2.0/3.0"。
玩法 4 最常用:很多公司自家产品的差评散落在 Reddit / Twitter / Trustpilot,没人系统看。这个 prompt 一上就能补盲区。
金句:传统调研是问用户"你想要什么",AI 调研是看用户已经在哪里骂什么——后者更真实。
小结口吻:不重复细节,只点 3 个 takeaway。让学员有"我记住了什么"的踏实感。
把今天发现的痛点 → 转成 5 版 Meta Ads 创意
+ 高转化落地页文案 + A/B test 方案
让 Codex 同时扮演文案 + 投放 + 数据分析师
Q&A 引导:"今天哪一步最卡?"
常见提问预案:(1) "我们 B2B SaaS Reddit 没人讨论怎么办" → 答:"那就主攻 G2 / Capterra / Producthunt 评论,改 prompt 数据源即可,框架不变";(2) "AI 聚类会不会瞎归类" → 答:"会,所以 prompt 里加'每个痛点至少 5 条独立评论支撑'+ 你自己复核 TOP 3 必看一遍";(3) "数据能商用吗" → 答:"内部研究 OK,对外发布前问律师"。
结束:"明天同一时间见。今天作业完成的明天直接出广告创意。"