从 GA4 / Mixpanel / Amplitude 拉数据 → 让 Codex 算 p-value 和置信区间 → 自动生成"是否推全量"决策报告。不用学统计学。
开场气氛:Day 10 我们解决海外运营最常被卡的环节——"A/B 测试结果出来了,到底推不推全量?"过去这个判断要么靠拍脑袋,要么找数据团队排期 2 周。今天我们让 Codex 30 秒给答案。
定调:你不需要学统计学。p-value(显著性概率值)/ 置信区间这些词今天只需要会"用",不需要会"算"——Codex 算。
键盘提示:→ 下一页,N 备注,F 全屏。
讲解要点:5 个目标按"概念 → 工具 → 切片 → 报告 → 落地"递进。强调"不学统计学"——这门课目标是运营会用,不是变数据分析师。
互动:可以问"你跑过 A/B 测试吗?结果怎么看?"——大概率会有人答"看哪个转化高就推哪个"。这就是切入点——这种判断错率 50%+。
意味着:你跑了 N 个 A/B 测试,大概率只有 13% 的结论靠谱——但你不知道是哪 13%。
讲解:87% 这个数字来自 Microsoft Experimentation Platform 团队 2019 年公开数据(实际比例可能更高)。14 天来自国内出海团队访谈共识。2.3× 是 Simpson's Paradox(辛普森悖论)的发生概率——一个总指标涨,分 segment 都跌的诡异现象。
类比:A/B 测试不会看就像考完试不看分数——你以为做了功课,其实没积累任何信号。
关键问题:13.9% 提升听起来不错——但够统计显著吗?敢推全量吗?
讲解:13.9% 听起来很大,但这是单次观察。统计学的核心问题是"这个差距是真的,还是抽样巧合?"——下一页用 Codex 一次性回答。
互动:可以让学员先猜——"你觉得这个 13.9% 应不应该推全量?"举手投票。然后告诉他们"答案是:不一定,要看 p-value"。
讲解:4 个指标只需要"会用"。强调不要在课上深挖统计学原理——很多运营听 5 分钟就走神,今天目标是让他们能"看懂 Codex 的输出"。
金句:你不用懂引擎原理,但要会看仪表盘。p-value 就是 A/B 测试的仪表盘。
~/ab-analysis/讲解:5 个工具里 GA4 / Mixpanel / Amplitude 是选其一。讲师演示用 GA4(最普及),Mixpanel / Amplitude 在进阶部分讲。
避坑:不要让学员一开始就纠结哪个工具——本质都是"事件数据",pandas DataFrame 处理逻辑完全一样。
讲解:这个 prompt 也是对着 Codex CLI 直接喂的。强调最后一段"要求"——技术细节越具体,Codex 越不需要追问。
对比 Day 9:Day 9 的 prompt 重在"业务规则"(评分维度),今天的 prompt 重在"统计动作"(p-value / segment / 报告)。同样长,但侧重不同。
讲解:让学员看这段输出 30 秒。3 个看点:(1) Power 84.2% 在测试结果前就 check——这是合格的统计实践;(2) p=0.0312 < 0.05 = 显著;(3) segment 揪出 return user 反向——这才是 AI 给运营的核心价值,单看总数会漏掉这个信号。
金句:13.9% 的总提升,藏着一个 -14.6% 的反向 segment——这就是辛普森悖论的实战版。
这 3 段是统计学课本上的"考点",但你不用记——Codex 写一次后永久存在你脚本里。
讲解:让学员看 30 秒就过。不需要看懂每个函数——只需要知道scipy.stats / statsmodels 是 Python 统计的标准库。Codex 第一次帮你写好后,你只换数字就行。
避坑:proportions_ztest 适合"二分类"指标(注册 / 没注册)。如果指标是连续值(停留时长 / 客单价),用 ttest_ind。Codex 会自动判断指标类型,运营不用纠结。
看起来很美好,赶紧推全量?
新用户大涨,老用户跌——总数被新用户拉起来的
讲解:辛普森悖论是 A/B 测试最容易踩的坑。强调"分段决策"而不是"一刀切"——这是 segment 切片的本质价值。
例子:Airbnb 早期发现新版搜索页对城市用户有效,对乡村度假用户反向——最后做了基于 user_type 的差异化路由。这是 A/B 测试的"高阶玩法"。
Sample Ratio Mismatch(样本比例失衡)是很多 A/B 测试默默失败的根因——分流系统出 bug,一组多分了 5% 流量都看不出来。
讲解:SRM 是 A/B 测试的"血压"——不健康就别看其他指标。Microsoft / Booking.com / Spotify 内部所有 A/B 测试都强制先过 SRM。
避坑:12500 vs 12600 看起来很接近,但具体差异要算卡方——Codex 自动算,你别自己估。
讲解:报告 5 个段落——结论、数据、segment、风险、rollout。这不是模板硬套,是 Codex 根据数据自己生成的——你下次跑别的测试,结构一样,结论自然不同。
给老板看的口吻:第一行就是结论,不绕。老板想看细节往下翻;不想看,第一行够了。
讲解:滚动发布在硅谷大厂是标准实践(Facebook / Google / Netflix 都这么做)。1% holdout 是"事后验证",专门防"测试时赢了但 90 天后输了"的情况——很常见,因为用户行为有学习曲线。
类比:医院新药上市不会全国推广,先 3 个城市试点。A/B 测试 100% 推全量 = 跳过 3 期临床直接上市。
测试中途看到 B 赢了就停——p-value 是基于固定样本量的,提前停 = 假阳性。
→ 预设样本量,到了再看。
只看注册转化,没看后续留存/付费/客单价——B 版可能"骗注册不留存"。
→ 配套 north star 指标。
同时改 UI + 文案 + 视频,赢了不知道是哪个因素。
→ 一次只测一个变量(MVT 例外)。
3 天测出"显著",但只覆盖了 1 个工作日类型——周末 / 月底 / 发薪日都没盖。
→ 至少 1 个完整周期(7 / 14 / 30 天)。
p = 0.08 不是"B 没用",是"样本量不够下不了结论"。要么继续测,要么用更敏感的指标(次留 / 7 日留存)—— 而不是直接放弃。
讲解:5 个误区里"误区 1 偷看"是最隐蔽的——很多团队连什么是"提前停"都不知道。强调"提前定样本量、定时间,到点再看"。
金句:A/B 测试不是赛跑,是烤蛋糕——时间没到打开烤箱,全废。
讲解:MVT 是选学。强调样本量门槛——一般出海团队月流量 < 100k 的不适合 MVT,老老实实跑 A/B。
避坑:MVT 跑出来"按钮 × 标题"有交互效应(比如绿色按钮配 A 标题特别好),这是有价值的信号——但要避免事后挑数据(p-hacking)。
用你最近一次 A/B 测试的数据(或讲师准备的脱敏样本)
喂给 Codex 跑完整分析 → 拿到 Markdown 决策报告 → 当场看 segment 反向有没有
讲解:鼓励用真实数据——只有真实数据才能让学员体会"原来我之前的判断是错的"。脱敏样本是兜底,给没有数据的学员用。
时间分配:(1) 准备数据 CSV:10 分钟。(2) Codex 喂 prompt:5 分钟。(3) 跑通调试:30 分钟。(4) 看 segment 分析 + 报告:10 分钟。(5) Q&A:15 分钟。
user_id, variant (A/B), visit_date, converted (0/1), device, user_type, countrymkdir ~/ab-analysis && cd ~/ab-analysiscodex 把 SLIDE 7 的完整 prompt 喂进去data/ 下,告诉它路径python src/analyze.py --data data/ab_test.csv --reportreports/ab_test_*.md 看完整决策讲解:8 步顺序不能跳。常见卡点:(1) CSV 字段名不一致——让 Codex 自动 rename;(2) variant 列只有 A 没有 B(数据没合并);(3) 时间字段格式不统一。
讲师在场支持:转一圈看谁卡,大概率 90% 卡在数据清洗那一步——告诉学员"把脏数据 CSV 直接发 Codex,让它先清洗再分析"。
matplotlib.use('Agg') 切非 GUI backend讲解:5 类问题里 SRM ALERT 是真实问题不是 bug——这要专门强调,不少学员会以为脚本错了去改脚本,应该去查分流系统。
金句:报错有两种——脚本错和数据错。SRM 是数据错,告诉你测试本身就废了。
Mixpanel / Amplitude 同理 —— 都有 Python SDK,Codex 都能调。
讲解:GA4 接入是选学。零基础学员先跑通 CSV 流程,下周再接 GA4。强调数据延迟——很多人不知道 GA4 不是实时的,半夜跑最新数据。
避坑:GA4 service account 权限要给 Viewer,不要给 Editor——只读最安全。
→ 90% 团队首选
→ SaaS / 移动 APP 推荐
→ 数据驱动文化深的团队
讲解:3 个工具不要让学员纠结。明确说"现有什么用什么"——Codex 脚本是抽象层,换工具不影响分析逻辑。
个人经验:出海 SaaS 团队我见到的分布大概是 GA4 60% + Mixpanel 25% + Amplitude 15%。
讲解:5 步是"从工具到流程"的关键。强调最后一步"决策日志"——3 个月后回看你做的判断对不对,这是团队真正升级的地方。
给野心大的学员:跑通后可以把这套报告系统在公司推广,本身就是个内部产品。
讲解:5 项验收最后一项最关键——能讲出来才是真懂。让学员互讲 30 秒,比讲师问"懂了吗"有效 10 倍。
不到 5 项怎么办:常见卡点是 segment 分析没出来——大概率是字段名问题,让 Codex 自动 rename 解决。
小结口吻:3 个 takeaway 不重复细节。"3 个都达标才能下结论"是金句——重复一次。
作业设计:让学员拿过去决策重新分析——这是最能感受到"原来我之前是瞎做"的瞬间。这种"原来 vs 现在"的反差是学习记忆点。
从 GA4 / Mixpanel 拉用户事件流
让 Codex 自动揪出流失关键节点 + 生成漏斗优化建议
Q&A 引导:先问"你今天跑出来的 segment 里有没有意外发现?"——比"有没有问题"更具体,能听到学员的真实顿悟。
常见提问预案:(1) 我的数据样本量很小怎么办(答:先用 Power 算需要多大样本,再决定测多久);(2) p = 0.06 算不算显著(答:技术上不算,业务上可以"继续测 1 周");(3) 老板等不及怎么办(答:用 Bayesian 方法可以早停——下一阶段课讲)。
结束:"明天我们看用户行为路径,挖出'用户在哪一步走丢的'。"