Day 3
海外运营 × Codex 训练营

用户研究
自动化

让 Codex 写爬虫抓 Reddit / TikTok / Amazon 评论
自动聚类用户痛点 TOP 10 + 情感分析
不用懂 Python——描述需求就行

讲师 Terrence 时长 90 分钟 产物 1 个海外竞品的用户痛点报告(.md + .csv)
回顾 · Day 2

先回顾一下昨天

  1. 翻译 ≠ 本地化——L1 字面翻 / L2 改写 / L3 真本地化(SEO + 文化避坑)
  2. 一条 prompt 出 20 段文案——结构化输出 + 明确方言 + 文件输出
  3. 5 国市场各自的雷区——美 / 墨 / 日 / 巴 / 沙特
课后作业回收:举手——昨天作业(自家产品 5 语言版本)完成的请举手。今天 Day 3 做完,你的文案 + 用户痛点就齐了,可以直接做投放策划。
Day 3 · 目标

今天 90 分钟你会拿到什么

1
3 平台爬虫脚本 · Reddit / Amazon / TikTok 评论不用自己写代码,让 Codex 写
2
150+ 条真实评论数据集 · 一个海外竞品的多源用户声音CSV 格式,可以反复分析
3
情感分析 · 正/负/中立比例 · 知道海外用户对竞品整体态度LLM 做的,比规则方法准很多
4
痛点 TOP 10 主题聚类 · 每个痛点 2-3 条原始评论支撑这是 PRD / 投放素材 / 营销文案的金矿
5
合规的爬虫边界知识 · 什么能爬什么不能爬不踩 robots.txt / 不用登录态 / 不卖数据
Day 3 · 理论

为什么海外用户研究
不能照搬国内?

国内常用方法
  • 问卷星 / 腾讯问卷采 100-500 份
  • 微信群拉 20 个目标用户深访
  • 看小红书 / 知乎 / 抖音热门帖
  • 找代运营公司"做调研"

海外做不通:(1) 海外用户问卷转化极低;(2) 群拉不到;(3) 内容平台是 Reddit/TikTok 不是知乎;(4) 代运营 ¥5w 起。

今天教的方法
  • Codex 自动抓 Reddit 100+ 评论
  • Codex 自动抓 Amazon 50+ 真实购买反馈
  • Codex 自动抓 TikTok 30+ 热门视频评论
  • LLM 自动情感分析 + 主题聚类

¥0 成本 · 90 分钟出报告 · 样本量比传统问卷大 3-5×

核心洞察:海外用户已经在公开场合把意见说完了——你不需要"问",只需要"听"。问卷调研在海外是上世纪的方法。
Day 3 · 数据源

今天用哪 3 个平台?

R
Reddit · 长文吐槽 / 深度讨论 · 海外用户最敢说真话的地方
官方 API
A
Amazon · 真实购买后评论 · 用户骂得最具体("用 3 天就坏")
爬虫 (谨慎)
T
TikTok · 短评 / 表情包 · Z 世代真实情绪 + 病毒梗
公开数据
为什么选这 3 个?
  • Reddit:每个细分赛道都有 sub(r/SaaS, r/personalfinance)
  • Amazon:实物 / 工具类产品必看,verified purchase
  • TikTok:消费品 / DTC / Z 世代品牌必看
不选的平台
  • Twitter/X:API 收费 $100/月起,且去年限制爬虫
  • Facebook:墙得彻底 + 平台禁爬
  • YouTube 评论:可以加,今天 90 分钟讲不完
Day 3 · 合规

爬虫的"红线"在哪?

✓ 可以做
  • 官方 API(Reddit / TikTok 都有)
  • 公开网页(无登录就能看的页面)
  • 遵守 robots.txt 里允许的路径
  • 请求间隔 1-3 秒,不滥用服务器
  • 带正常 User-Agent 标识自己
✗ 不能做
  • 登录后才能看的内容(违反 ToS)
  • 绕开人机验证 / Captcha
  • 把抓到的数据对外销售(侵权)
  • 包含个人身份信息(PII)转售
  • 高频请求 / 拖垮目标网站
HiQ vs LinkedIn 判例(2022 美国):法院判定抓公开页面合法,但平台 ToS 仍可禁。原则:内部研究用 OK,对外发布 / 商业化前问律师。
Day 3 · Codex 能力

今天调 Codex 哪几个能力?

1
写 Python 脚本 · 你描述需求,Codex 自己装库、写代码、跑、报错自己改requests / praw / beautifulsoup4 / pandas 全自动
2
调外部 API · Reddit 官方 API(praw 库)/ TikTok 公开数据接口Codex 自己读文档,不用你查
3
多轮工具调用 · 抓→存→读→分析→出报告,一条 prompt 串起来"agent loop"——这是 Codex 比 ChatGPT 强的地方
4
LLM 做语义任务 · 情感分析 / 主题聚类,直接用 GPT 不用自己训模型10 行代码搞定传统 NLP 需要 100 行的事
5
报错自我修复 · 反爬 / 限流 / 网络问题,Codex 自己加重试和友好提示关键 prompt 技巧:"遇到错误友好提示"
💡 反复强调:你完全不需要懂 Python——你只需要会描述:抓什么、抓多少、存到哪、怎么分析。
Day 3 · 流程

今天的完整 pipeline

1
定目标:选 1 个海外竞品 + 1-2 个 keyword
3 min
2
抓 Reddit:100 条相关讨论评论(praw 库)
5 min
3
抓 Amazon:TOP 50 评论按 helpful 排序
5 min
4
抓 TikTok:hashtag 下 TOP 30 视频的评论
5 min
5
合并去重:写入 raw-data.csv
2 min
6
情感分析:LLM 给每条评论打"正/负/中立"标签
8 min
7
主题聚类:LLM 提炼 TOP 10 痛点 + 原文支撑
10 min
8
出报告:Markdown 报告 + 原始 CSV
2 min
Day 3 · Prompt
现在我们看主角

今日核心 Prompt

下一页是完整版 prompt——一条搞定从爬虫到痛点报告的
8 步完整流程

3 平台爬虫 情感分析 主题聚类 Markdown + CSV 双输出 合规友好提示
Day 3 · Prompt

完整版 Prompt · 直接复制

我想做 [某海外竞品名,比如 Notion] 的用户研究, 请帮我写一个 Python 脚本,完成以下流程: 1) 抓取 Reddit 上提到这个产品的 100 条评论 - 搜索 keyword: "[产品名]" - 重点 subreddit: r/[相关赛道,如 productivity] - 用 praw 库 + 我自己的 Reddit API key (.env 里) 2) 抓取 Amazon 该产品页面的 TOP 50 评论 - 按 helpful 排序 - 用 BeautifulSoup,带正常 User-Agent - 请求间隔 2 秒,遵守 robots.txt 3) 抓取 TikTok 上 hashtag #[产品名] 的 TOP 30 视频的评论 - 用 TikTok 公开数据接口(不要登录态) - 只取公开 metadata + 评论文本 4) 把所有评论合并 → raw-data.csv, 字段: 来源 / 时间 / 用户名(脱敏) / 内容 / 点赞数 5) 用 GPT(我的 OPENAI_API_KEY 在 .env 里)做情感分析: - 每条评论打标签: 正面 / 负面 / 中立 - 输出 sentiment-summary.json:三种比例 6) 用 GPT 做主题聚类: - 提炼 TOP 10 用户痛点(只看负面+中立评论) - 每个痛点配 2-3 条原始评论作为支撑 - 按"出现频次"排序 7) 输出最终报告: - user-research-report.md(给老板看) - raw-data.csv(原始数据备查) 约束: - 使用合规的公开 API / BeautifulSoup,不要登录态 - 如果遇到反爬 / 限流 / 网络错误, 给我友好的中文错误提示并打印当前进度 - 用户名要脱敏(只保留前 3 字符 + ***)
💡 关键 4 处:(1) .env 文件存 API key(别硬编码);(2) "请求间隔 2 秒 + User-Agent"是合规标志;(3) "友好中文提示"让脚本健壮;(4) "用户名脱敏"是 GDPR 红线。
Day 3 · Prompt

这条 Prompt 为什么强?

  1. 明确技术栈——指定 praw / BeautifulSoup / GPT,AI 不会乱选小众库
  2. API key 走 .env——安全最佳实践,不会被截图泄漏
  3. 合规标志显式——"请求间隔 2 秒 + User-Agent + robots.txt"让 AI 守规矩
  4. 分段清晰——8 个步骤每个独立,AI 卡某步报错你能精准修
  5. 双输出——.md 给老板看,.csv 给自己后续分析
  6. 错误友好提示——脚本健壮性 +50%
  7. 用户名脱敏——GDPR / 隐私合规红线
  8. "按出现频次排序"——避免 AI 列 10 个但乱序,痛点优先级出错
套用模板:以后你做任何"爬 → 存 → 分析 → 报告"流程都能套这 8 步框架。
Day 3 · 准备

跑之前的 5 分钟准备

1
注册 Reddit 开发者账号 · reddit.com/prefs/apps → Create App选 "script"类型 → 拿 client_id + client_secret(免费)
2
开 OpenAI API key · platform.openai.com → API keys充值 $5 起,这次实操大约花 $0.5
3
在项目目录建 .env 文件 · 写入 4 行 keyREDDIT_CLIENT_ID / REDDIT_CLIENT_SECRET / REDDIT_USER_AGENT / OPENAI_API_KEY
4
.gitignore 加 .env · 防止上传到 GitHub 泄漏Codex 会自动帮你做,但你自己心里要清楚
没有 OpenAI 账号怎么办:可以让 Codex 用本地 Ollama + Llama 3.1 替代——但效果会差一些,今天演示统一用 OpenAI。
Day 3 · Demo
现场演示

现场跑一遍

竞品:Notion(生产力工具)
赛道:r/productivity + r/Notion
最终目标:用户痛点 TOP 10 报告

预计耗时:8 分钟(脚本生成)+ 20 分钟(实际跑) tokens:约 15000 + OpenAI 调用 ~$0.4 输出:1 个 .py 脚本 + 1 个 .md 报告 + 1 个 .csv
Day 3 · Demo

看 Codex 怎么工作

  1. 读 prompt + 拆 8 步 · Codex 自己规划执行计划
  2. 装库 · pip install praw beautifulsoup4 openai pandas python-dotenv(自动)
  3. 写 scraper.py · 三个抓取函数 + 一个主函数
  4. 读 .env · 加载所有 API key
  5. 跑 Reddit 抓取 · 实时打印"已抓 30 / 100"
  6. 跑 Amazon 抓取 · 遇到 Captcha → 自动友好提示"建议换 IP 或减少频率"
  7. 跑 TikTok 抓取 · 用公开 API 拿评论
  8. 合并 → CSV → 调 GPT · 情感分析 + 主题聚类
  9. 生成报告 · user-research-report.md 已写入桌面
对运营的启示:Codex 是"边写边跑边改"的 agent——错了它自己改,不是一次性给你代码让你慢慢调。
Day 3 · 输出

Output 1 · 情感分析

📊 Notion 用户情感分布(n=178 条评论) 正面 (Positive) ████████████░░░░░░░░ 47.2% (84 条) 负面 (Negative) ███████░░░░░░░░░░░░░ 31.5% (56 条) 中立 (Neutral) █████░░░░░░░░░░░░░░░ 21.3% (38 条) 📍 按来源拆分: Reddit 82 条 · 正 38% / 负 42% / 中 20% ← 负面占比最高 Amazon 49 条 · 正 55% / 负 28% / 中 17% TikTok 47 条 · 正 51% / 负 24% / 中 25%
洞察:Reddit 上 Notion 用户骂得比夸得多——这是深度用户的真实痛点,比 Amazon / TikTok 上的"路人评"更有价值。痛点报告优先看 Reddit。
Day 3 · 输出

Output 2 · 痛点 TOP 5(部分)

#1
移动端性能极差,加载慢到能让人放弃

38 条提及 · Reddit 26 / Amazon 8 / TikTok 4

"Notion mobile is so slow I literally use Apple Notes when I'm on the go." — u/p*** "I love Notion on desktop but the mobile app is unusable." — u/m***
#2
离线模式残缺,没网就废了一半功能

29 条提及 · Reddit 21 / Amazon 5 / TikTok 3

"Tried to open my journal on a flight. Zero. Notion offline mode is a joke." — u/d***
#3
定价对个人用户太贵,团队版起步价不友好

22 条提及 · Reddit 15 / Amazon 4 / TikTok 3

"$10/month per seat just to share a database? Switching to Obsidian." — u/s***
💡 这就是金矿:3 个痛点 = 3 个出海产品的差异化卖点——"我们的 mobile 飞快""我们离线全功能""我们 $3/月起"。
Day 3 · 输出

Output 3 · Markdown 报告全貌

# Notion 用户研究报告 > 数据源: Reddit 82 / Amazon 49 / TikTok 47 (共 178 条) > 数据期: 过去 6 个月 > 生成时间: 2026-05-26 ## 摘要 Notion 是生产力工具领域头部产品,但在移动端、离线 模式、定价 3 个维度有显著用户抱怨。建议出海团队 在这 3 个维度做差异化定位... ## 情感分析 (见 Output 1) ## 痛点 TOP 10 1. 移动端性能差 (38 提及) 2. 离线模式残缺 (29 提及) 3. 个人/团队定价不友好 (22 提及) 4. 协作冲突频繁 (19 提及) 5. 搜索功能弱 (17 提及) 6. 模板太多无法上手 (15 提及) 7. AI 功能噱头大于实用 (14 提及) 8. 国际化语言支持差 (12 提及) 9. 数据导出受限 (11 提及) 10. 客服响应慢 (9 提及) ## 投放建议 基于痛点,建议 3 个广告创意: - "Mobile-first productivity. 3× faster than Notion." - "Offline-complete. Open your notes on a flight." - "$3/seat, not $10. Same power, fair pricing."
Day 3 · 动手
现在轮到你

15 分钟练习

选一个你自己关注的海外竞品(任选)
用今天的 prompt 跑一遍流程
至少抓 50 条评论 + 出主题聚类

验收标准
  • 桌面上有 raw-data.csv(50+ 行)
  • 有 sentiment-summary.json(三种比例)
  • 有 user-research-report.md(含 TOP 10 痛点 + 原文引用)
  • 每个痛点至少有 2 条原始评论支撑
Day 3 · 踩坑

练习时常见的 6 个坑

  1. Reddit API 限流——免费每分钟 60 次。:让 Codex 加 sleep(1.5) 间隔
  2. Amazon 反爬 Captcha——亚马逊反爬强。:减少抓取数量到 20 条 + 提高间隔到 3 秒,或用 Apify / Bright Data 付费代理
  3. TikTok 数据接口变化——TT 的非官方接口不稳。:用 yt-dlp 提取或换成 YouTube
  4. OpenAI 跑 1000 条评论太贵——GPT-4 全跑会爆。:让 Codex 用 gpt-4o-mini,成本 1/30,准确度够
  5. 聚类质量差——AI 把 10 个痛点合并成 3 个。:在 prompt 里加"每个痛点至少有 5 条独立评论支撑"
  6. 用户名忘脱敏——GDPR 红线。:报告交付前 grep 一次原文,确认没真名
排错原则:脚本报错时把错误信息原样贴给 Codex——它会自己修。不要自己 Google 报错。
Day 3 · 进阶

学会基础后的 4 个进阶玩法

玩法 1 · 竞品对比

同时抓 3 个竞品

把 Notion / Obsidian / Roam 一起跑——出"竞品痛点矩阵",知道每家相对薄弱点,找差异化空间。

玩法 2 · 趋势跟踪

每周自动跑一次

结合 Day 1 的定时任务能力——每周一自动抓 + 发飞书。用户痛点会随版本更新变化,长期追踪。

玩法 3 · 地区拆分

按市场分别分析

r/productivity 是英语圈,但 r/productivity_es 是西语圈——按地区拆评论,发现不同市场的差异痛点。

玩法 4 · 接你自家产品

抓自己产品的评论

把"竞品名"换成"你自家产品"——直接看自己用户在哪些渠道骂什么,比让客服反馈快 10×。

Day 3 · 落地

怎么把今天学的放进日常工作

1
建一个 user-research 项目目录 · 每个竞品一个子文件夹每周/月跑一次,沉淀长期数据
2
把今天 prompt 存成 research-template.md · 下次只换竞品名3 分钟启动一次完整研究
3
结果直接发产品/创始人 · 不开会,发 .md 报告即可提供数据驱动的产品建议而不是"我觉得"
4
痛点 → 广告 hook 转化 · 让 Codex 把 TOP 3 痛点改写成 3 个广告语用户骂什么,你就攻击什么——这是出海差异化的核心方法
团队效率公式:传统用户研究 ¥5w + 4 周 = 1 份报告。今天的方法 ¥0 + 90 分钟 = 1 份报告。差距是 100×
Day 3 · 小结

今天 3 个 takeaway

  1. 海外用户研究不靠问卷靠"听"——Reddit / Amazon / TikTok 是 3 大公开金矿
  2. Codex 当你的爬虫工程师 + 数据分析师——你描述需求,它自己写代码、跑、修错、出报告
  3. 痛点是出海产品的差异化抓手——竞品被骂什么,就是你的卖点
课后作业(明天前完成):跑一遍你的真实竞品的完整研究流程,带着报告 .md 来上 Day 4。明天我们学怎么把痛点转成广告创意 + 落地页文案
Day 3 · 结束
明天 · Day 4

广告创意 ×
落地页文案

把今天发现的痛点 → 转成 5 版 Meta Ads 创意
+ 高转化落地页文案 + A/B test 方案
让 Codex 同时扮演文案 + 投放 + 数据分析师

🙋 现在 · Q&A 时间
课后微信群答疑 · 联系讲师 Terrence
📝 讲师备注 · 按 N 切换显示 / 隐藏
翻页 · Space 下一页 · F 全屏 · N 备注 · Home 首页