SAT Problem-Solving:统计与数据分析
均值 vs. 中位数(及异常值影响)、标准差比较、散点图、双向表,以及 SAT 最爱设的"相关-因果"陷阱。
统计在每场 Digital SAT 出现 2–4 次 —— 均值、中位数、标准差、散点图和抽样。只要记住哪种量对异常值敏感、哪种不敏感,大多数题都很快。
集中趋势的度量
三种平均,三种用途
- 均值 = 总和 / 个数 —— 对异常值敏感
- 中位数 = 中间值(先排序!)—— 抗异常值
- 众数 = 出现最多的值 —— 直接考的机会很少
数据:4, 7, 9, 9, 12, 14, 80均值 = 135 / 7 ≈ 19.3中位数 = 9(排序后 7 个中的第 4 个)众数 = 9(出现两次)异常值 80 抬高了均值,却完全没动中位数。
异常值何时重要
SAT 常考模式:"若最大值再增加 100,均值和中位数各如何变化?" 均值上升 100/n;中位数不动(除非最大值原本就是中位数)。
标准差 = 离散程度
SAT 上不会让你手算标准差 —— 但必须在数据集之间比较。
集合 A:50, 50, 50, 50, 50 → SD = 0(无离散)集合 B:10, 30, 50, 70, 90 → SD 大(很离散)越离散标准差越大。均值是否相同并不重要。
散点图与最佳拟合线
散点图题通常问三种问题之一:
- 最佳拟合线的斜率 —— 解释为"x 每增加 1,y 变化 m"
- 最佳拟合线的 y 截距 —— x = 0 时的预测 y
- 预测某个 y 值 —— 把 x 代入直线方程
相关 vs. 因果
SAT 会用"数据显示 X 导致 Y"设陷。观测数据不足以断言因果 —— 只有实验才支持因果性表述。
误差边界与抽样
SAT 对抽样的考查较宽松。两条规则:
- 样本越大,误差边界越小。 样本翻倍,误差缩小。
- 随机样本才能推广。 非随机(如自愿)样本无论多大都不能推广。
基本概率
P(事件) = 有利结果 / 总结果P(A 且 B,独立) = P(A) · P(B)P(A 或 B,互斥) = P(A) + P(B)双向表概率:读取单元格,按题意除以行、列或总计。
袋中 4 颗红、6 颗蓝。取一颗。P(红) = 4/10 = 2/5P(蓝) = 6/10 = 3/5所有结果的概率相加为 1。
双向表题
双向表是 SAT 最爱的统计道具。诀窍是看清题目在按什么条件问:
- "全体学生中有百分之几是 X?" → 单元格 / 总计
- "十一年级中有百分之几是 X?" → 单元格 / 行(或列)小计
- "已知学生是 X,……" → 条件概率,分母为 X 的合计
已知均值求缺失值
SAT 经典模式:给出均值,让你求一个缺失值。
五次考试均值 84。四次成绩为 78, 82, 90, 88。求第五次。五次总分 = 84 · 5 = 420已知四次之和 = 78 + 82 + 90 + 88 = 338第五次 = 420 − 338 = 82先把均值换成总和 —— 代数瞬间变成一步减法。
常见错误
- 找中位数前忘记排序
- 把标准差(离散)当均值(中心)
- 从散点图直接下因果结论
- 双向表除错总计
- 从非随机样本推广到全体总体