Day 3

海外运营 × Codex 训练营

用户研究
自动化

让 Codex 写爬虫抓 Reddit / TikTok / Amazon 评论
自动聚类用户痛点 TOP 10 + 情感分析
不用懂技术——描述需求就行

讲师 Terrence 时长 90 分钟产物 1 个海外竞品的用户痛点报告（.md + .csv）

回顾 · Day 2

先回顾一下昨天

翻译 ≠ 本地化——L1 字面翻 / L2 改写 / L3 真本地化（SEO + 文化避坑）
一条 prompt 出 20 段文案——结构化输出 + 明确方言 + 文件输出
5 国市场各自的雷区——美 / 墨 / 日 / 巴 / 沙特

课后作业回收：举手——昨天作业（自家产品 5 语言版本）完成的请举手。今天 Day 3 做完，你的文案 + 用户痛点就齐了，可以直接做投放策划。

Day 3 · 目标

今天 90 分钟你会拿到什么

1

3 平台爬虫工具 · Reddit / Amazon / TikTok 评论不用自己写代码，让 Codex 写

2

150+ 条真实评论数据集 · 一个海外竞品的多源用户声音CSV 格式，可以反复分析

3

情感分析 · 正/负/中立比例 · 知道海外用户对竞品整体态度LLM 做的，比规则方法准很多

4

痛点 TOP 10 主题聚类 · 每个痛点 2-3 条原始评论支撑这是 PRD / 投放素材 / 营销文案的金矿

5

合规的爬虫边界知识 · 什么能爬什么不能爬不踩 robots.txt / 不用登录态 / 不卖数据

Day 3 · 理论

为什么海外用户研究
不能照搬国内？

国内常用方法

问卷星 / 腾讯问卷采 100-500 份
微信群拉 20 个目标用户深访
看小红书 / 知乎 / 抖音热门帖
找代运营公司"做调研"

海外做不通：(1) 海外用户问卷转化极低；(2) 群拉不到；(3) 内容平台是 Reddit/TikTok 不是知乎；(4) 代运营 ¥5w 起。

今天教的方法

Codex 自动抓 Reddit 100+ 评论
Codex 自动抓 Amazon 50+ 真实购买反馈
Codex 自动抓 TikTok 30+ 热门视频评论
LLM 自动情感分析 + 主题聚类

¥0 成本 · 90 分钟出报告 · 样本量比传统问卷大 3-5×

核心洞察：海外用户已经在公开场合把意见说完了——你不需要"问"，只需要"听"。问卷调研在海外是上世纪的方法。

Day 3 · 数据源

今天用哪 3 个平台？

R

Reddit · 长文吐槽 / 深度讨论 · 海外用户最敢说真话的地方

官方 API

A

Amazon · 真实购买后评论 · 用户骂得最具体（"用 3 天就坏"）

爬虫 (谨慎)

T

TikTok · 短评 / 表情包 · Z 世代真实情绪 + 病毒梗

公开数据

为什么选这 3 个？

Reddit：每个细分赛道都有 sub（r/SaaS, r/personalfinance）
Amazon：实物 / 工具类产品必看，verified purchase
TikTok：消费品 / DTC / Z 世代品牌必看

不选的平台

Twitter/X：API 收费 $100/月起，且去年限制爬虫
Facebook：墙得彻底 + 平台禁爬
YouTube 评论：可以加，今天 90 分钟讲不完

Day 3 · 合规

爬虫的"红线"在哪？

✓ 可以做

用 官方 API（Reddit / TikTok 都有）
抓公开网页（无登录就能看的页面）
遵守 robots.txt 里允许的路径
请求间隔 1-3 秒，不滥用服务器
带正常浏览器标识标识自己

✗ 不能做

抓登录后才能看的内容（违反 ToS）
绕开人机验证 / Captcha
把抓到的数据对外销售（侵权）
包含个人身份信息（PII）转售
高频请求 / 拖垮目标网站

HiQ vs LinkedIn 判例（2022 美国）：法院判定抓公开页面合法，但平台 ToS 仍可禁。原则：内部研究用 OK，对外发布 / 商业化前问律师。

Day 3 · Codex 能力

今天调 Codex 哪几个能力？

1

写工具 · 你描述需求,Codex 自己装库、写代码、跑、报错自己改requests / praw / beautifulsoup4 / pandas 全自动

2

调外部 API · Reddit 官方 API（praw 库）/ TikTok 公开数据接口Codex 自己读文档,不用你查

3

多轮工具调用 · 抓→存→读→分析→出报告,一条 prompt 串起来"agent loop"——这是 Codex 比 ChatGPT 强的地方

4

LLM 做语义任务 · 情感分析 / 主题聚类,直接用 GPT 不用自己训模型10 行代码搞定传统 NLP 需要 100 行的事

5

报错自我修复 · 反爬 / 限流 / 网络问题,Codex 自己加重试和友好提示关键 prompt 技巧:"遇到错误友好提示"

💡 反复强调：你完全不需要懂技术——你只需要会描述：抓什么、抓多少、存到哪、怎么分析。

Day 3 · 流程

今天的完整 pipeline

1

定目标：选 1 个海外竞品 + 1-2 个 keyword

3 min

2

抓 Reddit：100 条相关讨论评论（praw 库）

5 min

3

抓 Amazon：TOP 50 评论按 helpful 排序

5 min

4

抓 TikTok：hashtag 下 TOP 30 视频的评论

5 min

5

合并去重：写入 raw-data.csv

2 min

6

情感分析：LLM 给每条评论打"正/负/中立"标签

8 min

7

主题聚类：LLM 提炼 TOP 10 痛点 + 原文支撑

10 min

8

出报告：Markdown 报告 + 原始 CSV

2 min

Day 3 · Prompt

现在我们看主角

今日核心 Prompt

下一页是完整版 prompt——一条搞定从爬虫到痛点报告的
8 步完整流程。

3 平台爬虫情感分析主题聚类 Markdown + CSV 双输出合规友好提示

Day 3 · Prompt

完整版 Prompt · 直接复制

我想做某个海外竞品（比如 Notion）的用户研究，帮我搞定： 1) 找来网上提到这个产品的约 100 条公开评论（Reddit、Amazon、TikTok 上真实用户说的话）； 2) 每条判断是正面 / 负面 / 中立，并算出各占多少； 3) 把负面评论归类成 TOP 10 痛点，按出现次数从多到少排，每个配一条真实原话； 4) 整理成一份用户研究报告。只用公开内容，遵守各网站规则。

💡 关键 4 处：(1) 安全存放的配置文件存 API key（别硬编码）；(2) "请求间隔 2 秒 + 浏览器标识"是合规标志；(3) "友好中文提示"让工具健壮；(4) "用户名脱敏"是 GDPR 红线。

Day 3 · Prompt

这条 Prompt 为什么强？

明确技术栈——指定 praw / 网页解析 / GPT，AI 不会乱选小众库
API key 走安全存放的配置——安全最佳实践，不会被截图泄漏
合规标志显式——"请求间隔 2 秒 + 浏览器标识 + robots.txt"让 AI 守规矩
分段清晰——8 个步骤每个独立，AI 卡某步报错你能精准修
双输出——.md 给老板看，.csv 给自己后续分析
错误友好提示——工具健壮性 +50%
用户名脱敏——GDPR / 隐私合规红线
"按出现频次排序"——避免 AI 列 10 个但乱序，痛点优先级出错

套用模板：以后你做任何"爬 → 存 → 分析 → 报告"流程都能套这 8 步框架。

Day 3 · 准备

跑之前的 5 分钟准备

1

注册 Reddit 开发者账号 · reddit.com/prefs/apps → Create App选 "script"类型 → 拿 client_id + client_secret(免费)

2

开 OpenAI API key · platform.openai.com → API keys充值 $5 起,这次实操大约花 $0.5

3

在项目目录建安全存放的配置文件 · 写入 4 行 keyREDDIT_CLIENT_ID / REDDIT_CLIENT_SECRET / REDDIT_USER_AGENT / OPENAI_API_KEY

4

.gitignore 加安全存放的配置 · 防止上传到代码仓库泄漏Codex 会自动帮你做,但你自己心里要清楚

没有 OpenAI 账号怎么办：可以让 Codex 用本地 Ollama + Llama 3.1 替代——但效果会差一些，今天演示统一用 OpenAI。

Day 3 · 输出

Output 1 · 情感分析

📊 Notion 用户情感分布（n=178 条评论）正面 (Positive) ████████████░░░░░░░░ 47.2% (84 条) 负面 (Negative) ███████░░░░░░░░░░░░░ 31.5% (56 条) 中立 (Neutral) █████░░░░░░░░░░░░░░░ 21.3% (38 条) 📍 按来源拆分: Reddit 82 条 · 正 38% / 负 42% / 中 20% ← 负面占比最高 Amazon 49 条 · 正 55% / 负 28% / 中 17% TikTok 47 条 · 正 51% / 负 24% / 中 25%

洞察：Reddit 上 Notion 用户骂得比夸得多——这是深度用户的真实痛点，比 Amazon / TikTok 上的"路人评"更有价值。痛点报告优先看 Reddit。

Day 3 · 输出

Output 2 · 痛点 TOP 5（部分）

#1

移动端性能极差，加载慢到能让人放弃

38 条提及 · Reddit 26 / Amazon 8 / TikTok 4

"Notion mobile is so slow I literally use Apple Notes when I'm on the go." — u/p*** "I love Notion on desktop but the mobile app is unusable." — u/m***

#2

离线模式残缺，没网就废了一半功能

29 条提及 · Reddit 21 / Amazon 5 / TikTok 3

"Tried to open my journal on a flight. Zero. Notion offline mode is a joke." — u/d***

#3

定价对个人用户太贵，团队版起步价不友好

22 条提及 · Reddit 15 / Amazon 4 / TikTok 3

"$10/month per seat just to share a database? Switching to Obsidian." — u/s***

💡 这就是金矿：3 个痛点 = 3 个出海产品的差异化卖点——"我们的 mobile 飞快""我们离线全功能""我们 $3/月起"。

Day 3 · 输出

Output 3 · Markdown 报告全貌

# Notion 用户研究报告 > 数据源: Reddit 82 / Amazon 49 / TikTok 47 (共 178 条) > 数据期: 过去 6 个月 > 生成时间: 2026-05-26 ## 摘要 Notion 是生产力工具领域头部产品,但在移动端、离线模式、定价 3 个维度有显著用户抱怨。建议出海团队在这 3 个维度做差异化定位... ## 情感分析 (见 Output 1) ## 痛点 TOP 10 1. 移动端性能差 (38 提及) 2. 离线模式残缺 (29 提及) 3. 个人/团队定价不友好 (22 提及) 4. 协作冲突频繁 (19 提及) 5. 搜索功能弱 (17 提及) 6. 模板太多无法上手 (15 提及) 7. AI 功能噱头大于实用 (14 提及) 8. 国际化语言支持差 (12 提及) 9. 数据导出受限 (11 提及) 10. 客服响应慢 (9 提及) ## 投放建议基于痛点,建议 3 个广告创意: - "Mobile-first productivity. 3× faster than Notion." - "Offline-complete. Open your notes on a flight." - "$3/seat, not $10. Same power, fair pricing."

Day 3 · 动手

现在轮到你

15 分钟练习

选一个你自己关注的海外竞品（任选）
用今天的 prompt 跑一遍流程
至少抓 50 条评论 + 出主题聚类

验收标准：

桌面上有 raw-data.csv（50+ 行）
有 sentiment-summary.json（三种比例）
有 user-research-report.md（含 TOP 10 痛点 + 原文引用）
每个痛点至少有 2 条原始评论支撑

Day 3 · 踩坑

练习时常见的 6 个坑

Reddit API 限流——免费每分钟 60 次。解：让 Codex 加 sleep(1.5) 间隔
Amazon 反爬 Captcha——亚马逊反爬强。解：减少抓取数量到 20 条 + 提高间隔到 3 秒，或用 Apify / Bright Data 付费代理
TikTok 数据接口变化——TT 的非官方接口不稳。解：用提取或换成 YouTube
OpenAI 跑 1000 条评论太贵——GPT-4 全跑会爆。解：让 Codex 用 gpt-4o-mini，成本 1/30，准确度够
聚类质量差——AI 把 10 个痛点合并成 3 个。解：在 prompt 里加"每个痛点至少有 5 条独立评论支撑"
用户名忘脱敏——GDPR 红线。解：报告交付前 grep 一次原文，确认没真名

排错原则：工具报错时把错误信息原样贴给 Codex——它会自己修。不要自己 Google 报错。

Day 3 · 进阶

学会基础后的 4 个进阶玩法

玩法 1 · 竞品对比

同时抓 3 个竞品

把 Notion / Obsidian / Roam 一起跑——出"竞品痛点矩阵"，知道每家相对薄弱点，找差异化空间。

玩法 2 · 趋势跟踪

每周自动跑一次

结合 Day 1 的定时任务能力——每周一自动抓 + 发Codex 通知。用户痛点会随版本更新变化，长期追踪。

玩法 3 · 地区拆分

按市场分别分析

r/productivity 是英语圈，但 r/productivity_es 是西语圈——按地区拆评论，发现不同市场的差异痛点。

玩法 4 · 接你自家产品

抓自己产品的评论

把"竞品名"换成"你自家产品"——直接看自己用户在哪些渠道骂什么，比让客服反馈快 10×。

Day 3 · 落地

怎么把今天学的放进日常工作

1

建一个 user-research 项目目录 · 每个竞品一个子文件夹每周/月跑一次,沉淀长期数据

2

把今天 prompt 存成 research-template.md · 下次只换竞品名3 分钟启动一次完整研究

3

结果直接发产品/创始人 · 不开会,发 .md 报告即可提供数据驱动的产品建议而不是"我觉得"

4

痛点 → 广告 hook 转化 · 让 Codex 把 TOP 3 痛点改写成 3 个广告语用户骂什么,你就攻击什么——这是出海差异化的核心方法

团队效率公式：传统用户研究 ¥5w + 4 周 = 1 份报告。今天的方法 ¥0 + 90 分钟 = 1 份报告。差距是 100×。

Day 3 · 小结

今天 3 个 takeaway

海外用户研究不靠问卷靠"听"——Reddit / Amazon / TikTok 是 3 大公开金矿
Codex 当你的爬虫工程师 + 数据分析师——你描述需求,它自己写代码、跑、修错、出报告
痛点是出海产品的差异化抓手——竞品被骂什么,就是你的卖点

课后作业(明天前完成):跑一遍你的真实竞品的完整研究流程,带着报告 .md 来上 Day 4。明天我们学怎么把痛点转成广告创意 + 落地页文案。

Day 3 · 实操素材

📦 本节素材 + 对 Codex 说的话

不用写代码——把下面这段话（按需替换尖括号里的内容）发给 Codex 就行：

（先从本页下载 raw-data.csv 放到桌面）桌面上有个文件 raw-data.csv，是竞品评论，列是：来源 / 时间 / 用户名 / 内容 / 点赞数。请帮我： 1) 给每条评论标上正面 / 负面 / 中立，并算出三者占比； 2) 把所有负面评论归类，提炼出 TOP 10 痛点，按出现次数从多到少排，每个痛点配一条最有代表性的用户原话； 3) 把结果整理成一份用户研究报告。

📊 raw-data.csv 预览（前 3 行，完整文件见下方下载）：

来源	时间	用户名	内容	点赞数
TikTok #skincareroutin…	2026-04-15	user_5734	Used it for 6 weeks an…	5
TikTok #vitamincserum	2026-05-20	user_5460	Lightweight texture, a…	2
Amazon US	2026-05-07	user_4351	Honestly this serum ch…	3

📎 本节文件（点下载，放到桌面再喂给 Codex）

📊 raw-data.csv — 165 条竞品评论（兜底数据）
📋 research-template.md — 研究报告模板
💬 Codex提示词模板.md — 情感分析+痛点聚类提示词

数据为合成脱敏的竞品公开评论（用户名已脱敏为 user_XXXX），围绕护肤竞品研究场景，可放心演示。

用户研究自动化

先回顾一下昨天

今天 90 分钟你会拿到什么

为什么海外用户研究不能照搬国内？

今天用哪 3 个平台？

爬虫的"红线"在哪？

今天调 Codex 哪几个能力？

今天的完整 pipeline

今日核心 Prompt

完整版 Prompt · 直接复制

这条 Prompt 为什么强？

跑之前的 5 分钟准备

Output 1 · 情感分析

Output 2 · 痛点 TOP 5（部分）

移动端性能极差，加载慢到能让人放弃

离线模式残缺，没网就废了一半功能

定价对个人用户太贵，团队版起步价不友好

Output 3 · Markdown 报告全貌

15 分钟练习

练习时常见的 6 个坑

学会基础后的 4 个进阶玩法

同时抓 3 个竞品

每周自动跑一次

按市场分别分析

抓自己产品的评论

怎么把今天学的放进日常工作

今天 3 个 takeaway

📦 本节素材 + 对 Codex 说的话

📝 讲师备注 · 按 N 切换显示 / 隐藏

用户研究
自动化

为什么海外用户研究
不能照搬国内？