Day 10

海外运营 × Codex 训练营

A/B 测试
自动数据分析

从数据分析后台拉数据 → 让 Codex 算 p-value 和置信区间 → 自动生成"是否推全量"决策报告。不用学统计学。

讲师 Terrence 时长 90 分钟产物一份完整 A/B 决策报告 + 滚动发布计划

Day 10 · 开场

今天结束，你能做到

看懂 A/B 测试 4 个核心指标：p-value / 置信区间 / 提升幅度 / 显著性
让 Codex 拉数据分析后台数据，30 秒出统计结论
按 segment 切数据：移动端 / 桌面 / 新老用户 / 国家，揪出反向 segment
产出一份带决策结论的 Markdown 报告，告诉老板"推 / 不推 / 继续测"
如果推全量，给一个 10% → 50% → 100% 滚动发布计划

本节关键判断：A/B 测试 90% 的失败不是测错，是"结果出来了不会看"。今天就解决这一步。

Day 10 · 痛点

为什么 A/B 测试是海外运营最大的"假动作"？

87%

A/B 测试在没达到统计显著的情况下就停了，结论不可靠

14d

普通团队从"看到数据"到"敢做决策"平均要 14 天等数据团队排期

2.3×

看"总转化率"和看"segment 分布"会得出完全相反结论的概率（辛普森悖论）

意味着：你跑了 N 个 A/B 测试，大概率只有 13% 的结论靠谱——但你不知道是哪 13%。

Day 10 · 案例

今天的案例 · Landing Page 改版 A/B 测试

A 版 · 控制组

原版 landing page

访问：12,500
注册转化：387
转化率：3.10%

B 版 · 实验组

改版后 landing page（新文案 + Hero 视频）

访问：12,600
注册转化：445
转化率：3.53%

测试时长

14 天

流量分配

50 / 50

观察到的提升

+13.9%

关键问题：13.9% 提升听起来不错——但够统计显著吗？敢推全量吗？

Day 10 · 概念

4 个核心指标 · 60 秒讲完

1

p-value（显著性概率） · 越小越可信p < 0.05 = 这个差距是"巧合"的概率 < 5% → 可以下结论

2

置信区间（CI · Confidence Interval） · 真实提升的可能范围95% CI = [+2.1%, +25.7%] → 真实提升大概率在这个区间里

3

提升幅度（Lift / Uplift） · B 比 A 高多少3.53% / 3.10% - 1 = +13.9%。但看光这一个数会骗自己

4

统计功效（Power） · 测试是否"看得到"显著差异Power = 80%+ 表示样本量够。小于此值说明可能漏掉真实差异

口诀：p-value 看"是不是真的"，置信区间看"有多大"，Lift 看"涨多少"，Power 看"够不够数"。4 个都达标，才能推全量。

Day 10 · Prompt

今天的核心 Prompt（一字不差喂给 Codex）

我跑了一个 A/B 测试（landing page 改版），数据： - A 版（控制组）：访问 12,500，转化 387 - B 版（新版）：访问 12,600，转化 445 - 测试时长 14 天请帮我： 1) 用 Codex 算 p-value / 置信区间 / 提升幅度 / 显著性是否达标（95%） 2) 按 segment 切：移动端 vs 桌面 / 新用户 vs 老用户 / 各国家 → 是否有 segment 反向？ 3) 检查样本偏差（流量分配是否真 50/50） 4) 写一页 Markdown 决策报告： - 结论：推全量 / 不推 / 继续测 - 关键数据 - segment 洞察 - 风险提示（比如 novelty effect 新奇效应） 5) 如果决定推全量，给一个滚动发布计划（10% → 50% → 100%）要求：所有数据用 pandas DataFrame 处理；统计计算用统计工具；报告输出到 ./reports/ab_test_landing_2026-05-26.md；带 matplotlib 生成的对比柱状图嵌入报告。

Day 10 · 切片

辛普森悖论 · 总数赢、分段输的诡异现象

看总数

B 版赢 +13.9%

看起来很美好，赶紧推全量？

A: 387 / 12500 = 3.10%
B: 445 / 12600 = 3.53%
p = 0.031 显著 ✓

切 segment 看

老用户 -14.6%（反向）

新用户大涨，老用户跌——总数被新用户拉起来的

新用户：+47.6% （拉了均值）
老用户：-14.6% （p = 0.09 边缘）
移动端：+28.6%，桌面端：无效

这种情况怎么办？不是"不推"，而是"推但分人群"——新用户走 B 版，老用户继续 A 版，等 2 周再决定老用户怎么处理。

Day 10 · 健康度

SRM 检查 · 流量分配真的 50/50 吗？

Sample Ratio Mismatch（样本比例失衡）是很多 A/B 测试默默失败的根因——分流系统出 bug，一组多分了 5% 流量都看不出来。

# SRM 检查 · 卡方检验 from 统计工具 import chisquare observed = [12500, 12600] # 实际访问 expected = [12550, 12550] # 期望 50/50 chi2, p = chisquare(observed, expected) if p < 0.001: print(f"⚠ SRM ALERT · 流量分配可疑（p={p:.4f}）") print("不要相信任何后续结论，先查分流系统") else: print(f"✓ SRM check passed · 流量分配正常（p={p:.4f}）") # 我们的案例：p = 0.527 → 正常

判断阈值：SRM 检验 p < 0.001 就要警报——比测试本身的 p < 0.05 严格 50 倍。SRM 一失败，所有结论作废。

Day 10 · 报告

Codex 生成的决策报告（节选）

# A/B 测试 · Landing Page 改版 · 决策报告 ## 结论：推全量 ✓（保留 return-user 对照） ## 关键数据 - A 版转化：3.10% (387/12,500) - B 版转化：3.53% (445/12,600) - 提升：+13.9% · p=0.031 (显著) · 95% CI [+1.2%, +27.5%] - Power 84.2% · SRM 检查通过 ✓ ## Segment 洞察 | Segment | A | B | Lift | p | 决策 | |---------|---|---|------|---|------| | 新用户 | 2.1% | 3.1% | +47.6% | 0.003 | ✓ 强烈推 | | 老用户 | 4.8% | 4.1% | -14.6% | 0.09 | ⚠ 保留 A | | 移动端 | 2.8% | 3.6% | +28.6% | 0.018 | ✓ 推 | | 桌面端 | 3.5% | 3.4% | -2.9% | 0.71 | ─ 不显著 | ## 风险提示 1. **新奇效应** (novelty effect)：新版可能在前 14 天有"新鲜感加成"，建议 1 个月后回看老用户数据是否企稳 2. **老用户反向**：p=0.09 接近阈值，不能 100% 排除偶然，建议老用户保留 A 版 4 周追踪 3. **季节性**：14 天测试横跨周末/工作日，未横跨月底/月初，财务相关行为可能未覆盖 ## Rollout Plan - Day 1-3: 新用户 10% 上 B 版 - Day 4-7: 新用户 50% - Day 8: 新用户 100% - Day 9-30: 老用户保留 A 版，监控行为 - Day 30: 决定老用户是否切换

Day 10 · 发布

10% → 50% → 100% · 为什么要滚动？

1

10% 阶段 · Day 1-3 · 真实流量 sanity check（理智检查），监控错误率 / 性能 / 客诉

观察

2

50% 阶段 · Day 4-7 · 扩大覆盖，看复杂场景（支付 / 退款 / 客服）有没有边缘 bug

扩量

3

100% 阶段 · Day 8+ · 全量推送，保留 1% 全程 A 版作为长期对照（holdout）

全量

为什么不直接 100%？

A/B 测试样本量有限，不能覆盖所有长尾场景
突发 bug 影响 100% 用户 vs 影响 10% 用户，损失差 10 倍
需要时间观察老用户的延迟反应（重新登录、订阅续费）

为什么保留 1% holdout？

季度后对比长期效果（不是 14 天那种短期波动）
检测 novelty effect（新奇效应消退）
检测"赢家诅咒"——短期赢的版本长期可能输

Day 10 · 避坑

A/B 测试 · 5 个最常见的"自我欺骗"

误区 1 · Peeking（偷看）

测试中途看到 B 赢了就停——p-value 是基于固定样本量的，提前停 = 假阳性。

→ 预设样本量，到了再看。

误区 2 · 单一 KPI 决策

只看注册转化，没看后续留存/付费/客单价——B 版可能"骗注册不留存"。

→ 配套 north star 指标。

误区 3 · 没控制变量

同时改 UI + 文案 + 视频，赢了不知道是哪个因素。

→ 一次只测一个变量（MVT 例外）。

误区 4 · 测试周期太短

3 天测出"显著"，但只覆盖了 1 个工作日类型——周末 / 月底 / 发薪日都没盖。

→ 至少 1 个完整周期（7 / 14 / 30 天）。

误区 5 · 把"不显著"当"无效"

p = 0.08 不是"B 没用"，是"样本量不够下不了结论"。要么继续测，要么用更敏感的指标（次留 / 7 日留存）—— 而不是直接放弃。

Day 10 · 进阶

MVT · 多变量测试 30 秒入门

A/B 测试

2 版对比

A vs B
测 1 个变量
样本量需求小
适合单点改动（按钮颜色 / 标题）

MVT · 多变量测试

2^N 版对比

标题 (A/B) × 按钮 (A/B) × 视频 (有/无) = 8 版
测多变量交互效应
样本量需求 ×N 倍
适合整体改版（landing 重做）

MVT 何时用：当你不确定哪个元素重要时用——比如改 landing 同时改了 5 处。不要用 MVT 替代 A/B，样本量需求是 A/B 的 4-8 倍，小团队跑不动。

告诉 Codex： "用统计工具跑 MVT 分析：标题（3 种）× 按钮颜色（绿/橙）= 6 个组合，数据见 data/mvt.csv，输出每个组合的 lift + 交互效应"

Day 10 · 实操

现在轮到你

学员练习
用你的真实 A/B 数据跑完整分析

用你最近一次 A/B 测试的数据（或讲师准备的脱敏样本）
喂给 Codex 跑完整分析 → 拿到 Markdown 决策报告 → 当场看 segment 反向有没有

脱敏样本已发群真实数据更好 60 分钟时长完成 = 拿到决策报告

Day 10 · 实操

练习步骤 · 跟着做

准备数据 CSV · 必备字段：user_id, variant (A/B), visit_date, converted (0/1), device, user_type, country
新建工作目录 · mkdir ~/ab-analysis && cd ~/ab-analysis
启动 Codex CLI · codex 把 SLIDE 7 的完整 prompt 喂进去
Codex 会问你数据路径 · 把 CSV 放 data/ 下，告诉它路径
运行 · 让 Codex 跑一次，自动生成报告
看终端输出 · 4 行关键数字：p-value / CI / SRM / segment
打开 Markdown 报告 · reports/ab_test_*.md 看完整决策
关键检验 · segment 里有没有反向 → 这才是 AI 给运营的核心价值

Day 10 · 调试

常见问题 · 5 类

1

p-value = nan · 一组样本量为 0→ 检查 variant 列是否包含 A 和 B，是否大小写一致

2

SRM ALERT 警报 · 流量分配失衡→ 不是工具 bug，是真实问题。查分流系统/Google Optimize/Vercel Edge Config

3

Segment 出现"unknown"占比 30%+ · 字段缺失→ 让 Codex 跳过 unknown 或单独 segment 处理

4

"Power 不够" 警告 · 样本量不足以下结论→ 不是 bug，是数据不够。要么继续测，要么放弃结论

5

报告里图片不显示 · matplotlib backend 问题→ 让 Codex 加 matplotlib.use('Agg') 切非 GUI backend

调试技巧：报错 + 数据头 5 行原样粘 Codex——这是它能修复的最小信息。

Day 10 · 进阶

进阶 · 直接从数据分析后台拉数据

我想让这份 A/B 报告每天自动更新，不用我手动导数据。帮我每天自动取最新的 A/B 实验数据（过去 14 天），喂给前面的分析，更新报告。我不懂技术，你直接帮我设好，并告诉我需要做什么。

注意：数据分析后台有数据延迟（24-48 小时），所以"今天看昨天的数据"才是合理姿势——不要早上 10 点跑期望立刻看到上午的数据。

数据分析后台同理 —— 都有技术 SDK，Codex 都能调。

Day 10 · 工具对比

数据分析后台 · 怎么选

数据分析后台

免费 · 通用

免费（10M event/月内）
覆盖率：90%+ 出海网站都有
API 稳定但有 24-48h 延迟
事件模型适合 web，移动端弱

→ 90% 团队首选

数据分析后台

$25/mo 起 · 产品分析强

funnel / cohort 分析专业
实时数据（< 1 min 延迟）
A/B 测试官方有 Experiments 模块
移动端 SDK 优秀

→ SaaS / 移动 APP 推荐

数据分析后台

免费 10M event · 数据科学向

自助式 SQL 查询
北美 SaaS 行业标准
A/B + Feature Flag 一体
付费版贵（$995/mo 起）

→ 数据驱动文化深的团队

选型原则：现有什么用什么。不要为 A/B 测试换工具——Codex 工具是工具无关的，pandas DataFrame 进去 p-value 出来。

Day 10 · 自动化

让报告每周自动到老板邮箱

1

定时每周一早 6 点跑 · 定时自动运行 schedule '0 6 * * 1'避开工作时间，跑完后老板上班就看到

2

报告输出 PDF · pandoc 把 Markdown 转 PDF老板更喜欢 PDF（手机能开 + 不用 markdown 渲染器）

3

邮件发送 · 用邮件工具 / Resend / Postmark API每周一上午 9 点自动发，附件 PDF + 邮件正文一句话结论

4

团队群通知 · 关键 Lift > 10% 时 #experiments 频道 @产品事件驱动，重要变化不靠老板自己翻邮件

5

历史归档 · 报告存 Notion / Google Drive3 个月后回看历史决策是否成立，建立"决策日志"

价值：跑通这一套后，你团队的 A/B 测试响应速度从 14 天压到 24 小时——这就是 Codex 的杠杆。

Day 10 · 验收

今日成果 · 5 项验收清单

✓

Codex 跑通了 A/B 测试分析工具验收：终端能看到 p-value / CI / Power 三个数字

✓

SRM 检查通过验收：终端 "SRM check passed"，不是 ALERT

✓

看到 segment 切片结果验收：至少 3 个 segment 维度（device / user_type / country）

✓

Markdown 决策报告生成验收：reports/ 下有 .md 文件，含"结论 · 数据 · segment · 风险 · rollout"5 段

✓

自己能读懂报告做决策验收：能向同桌讲 30 秒"该不该推全量，为什么"

最后 10 分钟：找同桌互讲——讲完代表你真的会用了。

Day 10 · 小结

今天 3 个 takeaway

p-value < 0.05 + Power > 80% + SRM 通过——3 个都达标才能下结论，缺一不可
总数赢不等于全员赢——必须切 segment 看，辛普森悖论是 A/B 第一杀手
推全量不是终点——滚动 10% → 50% → 100% + 1% holdout，给自己留后悔的空间

课后作业（明天前完成）：把你过去半年的 A/B 测试找一个出来，用今天的工具重新分析——大概率你会发现当时的决策不对。把"原来的决策 + 现在的决策 + 差异原因"写 3 句话发训练营群。

Day 10 · 实操素材

📦 本节素材 + 对 Codex 说的话

不用写代码——把下面这段话（按需替换尖括号里的内容）发给 Codex 就行：

（先从本页下载 ab_test.csv 放到桌面）桌面上有个文件 ab_test.csv，是落地页 A/B 测试 14 天数据，列：date, variant, visitors, conversions, revenue（A 是旧版、B 是新版）。请帮我： 1) 算出两版各自的总访客、总转化、转化率； 2) 判断两版差异是不是真的显著、新版到底好不好； 3) 给一个明确结论：要不要把新版全量上线，并说清依据。写成一份能直接拿去拍板的报告。

📊 ab_test.csv 预览（前 3 行，完整文件见下方下载）：

date	variant	visitors	conversions	revenue
2026-05-12	A (Control)	893	28	1699.48
2026-05-12	B (New Hero)	900	32	2092.77
2026-05-13	A (Control)	893	27	1776.5

📎 本节文件（点下载，放到桌面再喂给 Codex）

📊 ab_test.csv — A/B 测试 14 天数据
📊 mvt.csv — 多变量测试数据
📋 测试背景与决策标准.md — 决策标准
💬 Codex提示词模板.md — 统计分析提示词

数据均为合成脱敏（邮箱统一 @example.com），围绕虚构品牌 Auratē，可放心演示。

A/B 测试自动数据分析

今天结束，你能做到

为什么 A/B 测试是海外运营最大的"假动作"？

今天的案例 · Landing Page 改版 A/B 测试

原版 landing page

改版后 landing page（新文案 + Hero 视频）

4 个核心指标 · 60 秒讲完

今天的核心 Prompt（一字不差喂给 Codex）

辛普森悖论 · 总数赢、分段输的诡异现象

B 版赢 +13.9%

老用户 -14.6%（反向）

SRM 检查 · 流量分配真的 50/50 吗？

Codex 生成的决策报告（节选）

10% → 50% → 100% · 为什么要滚动？

A/B 测试 · 5 个最常见的"自我欺骗"

MVT · 多变量测试 30 秒入门

2 版对比

2^N 版对比

学员练习用你的真实 A/B 数据跑完整分析

练习步骤 · 跟着做

常见问题 · 5 类

进阶 · 直接从 数据分析后台 拉数据

数据分析后台 · 怎么选

免费 · 通用

$25/mo 起 · 产品分析强

免费 10M event · 数据科学向

让报告每周自动到老板邮箱

今日成果 · 5 项验收清单

今天 3 个 takeaway

📦 本节素材 + 对 Codex 说的话

讲师备注 · 按 N 切换显示 / 隐藏

A/B 测试
自动数据分析

学员练习
用你的真实 A/B 数据跑完整分析

进阶 · 直接从数据分析后台拉数据