第五章 大数定律和中心极限定理

type
status
date
slug
summary
tags
category
icon
password

Ch5 大数定律与中心极限定理

  • 大数定律
    • 事件发生的频率作为该事件的概率的估计
    • 以样本均值作为总体期望的估计
  • 中心极限定理
    • 正态分布在概率统计中的重要性
    • 大样本统计推断的理论基础

Ch5.1 预备知识

Chebyshev 不等式

设随机变量 的方差 存在,则
或者
  • 证明:
    • 以连续型随机变量为例,设 的概率密度为
      • 时,
        • 从而
        • Chebyshev 不等式是其研究统计规律中提出的一个不等式.
        • Chebyshev 不等式是概率极限理论中非常基础、也非常重要的不等式,是证明大数定律的重要工具和重要理论基础.
        • 利用 Chebyshev 不等式可以在随机变量 的分布未知的情况下,对随机事件 的概率作出估计.
         
        Note: 切比雪夫不等式给出了在随机变量的分布未知,只知道期望方差的情况下估计 的界限。如取 ,估计比较粗糙.
        Note: 一般地, 方差 越大,对相同的 ,由 确定的 的取值范围就越大,即 的分布偏离其均值的程度越大,这也说明了方差是反映随机变量偏离其均值程度的度量.

        依概率收敛

        DEF: 设 是一系列随机变量, 是一常数,若
        则称随机变量序列 依概率收敛于常数 ,记作

        Ch5.2 大数定律

        Bernoulli 大数定律

        次独立重复试验中事件 发生的次数, 是每次试验中 发生的概率,则 ,有
        • 证明:
          • 引入随机变量序列 ,且 .
          • 再由 Chebyshev 不等式可证 依概率收敛于 .
        • Bernoulli 大数定律的意义
          • 在概率的统计定义中,事件 发生的频率 “稳定于”事件 在一次试验中发生的概率是指:频率 有较大偏差 是小概率事件.
          • 因而在 足够大时,可以用频率近似代替 . 这种稳定称为依概率稳定.
        • Note: 在 Bernoulli 定理的证明过程中, 是相互独立的服从 0-1 分布的随机变量序列 的算术平均值, 依概率收敛于其数学期望 .

        一般大数定律的定义

        DEF: 若随机变量序列 满足 ,有
        则称该随机变量序列服从大数定律,即

        Chebyshev 大数定律

        设随机变量序列 两两不相关,它们的方差存在,且有共同的上界,即
        则该序列服从大数定律,即对任意正数 ,有
        • Note: 两两不相关的条件可以去掉,代之以

          Khintchine 大数定律

          相互独立,服从同一分布,且具有相同的数学期望 ,则对任意正数 ,有
          .
          • Note: 定理的意义是当 足够大时,算术平均值几乎就是一个常数. 即如果对同一个指标重复观察时,随着观察次数的增多,可以用算术平均值近似地代替该指标的数学期望. 这是数理统计中统计推断的基础.
          • Note: 设随机变量序列 相互独立,服从同一分布,且 ,则对 ,有
            • ,则
            • 这是矩估计的理论依据

          总结

          用列表的形式梳理这几个大数定律:
          特征
          伯努利大数定律 (Bernoulli)
          切比雪夫大数定律 (Chebyshev)
          辛钦大数定律 (Khinchin)
          核心内容
          事件发生的频率依概率收敛于其概率
          样本均值依概率收敛于期望的均值
          独立同分布样本的均值依概率收敛于总体的期望
          数学表述
          适用条件
          1. 独立重复试验 (伯努利试验)。 2. 事件 发生的概率为
          1. 随机变量序列 两两不相关 (或满足更弱的马尔可夫条件)。 2. 期望 存在。 3. 方差 存在且有共同的上界
          1. 随机变量序列 相互独立。 2. 随机变量序列 服从同一分布 (i.i.d.)。 3. 数学期望 存在。
          代表意义
          1. 频率稳定性的理论解释。 2. 概率统计定义的理论基础。
          1. 在较弱条件下,样本均值具有稳定性。 2. 适用范围比伯努利定律更广。
          1. 样本均值是总体期望的一致估计量。 2. 数理统计中参数估计(如矩估计)和假设检验的理论基础。
          形象记忆
          抛硬币次数多了,正面频率接近
          测量一堆不一定一样但关联不大、波动有上限的物体,平均值接近它们各自期望的平均值。
          同一个袋子里反复独立摸球,记录数字的平均值会接近袋子里所有球的真实平均值。
          关系
          可以看作辛钦大数定律在伯努利分布下的特例。
          条件比辛钦大数定律弱(不要求同分布,不要求独立,仅两两不相关),但结论是收敛到期望的均值。
          条件比切比雪夫大数定律的某些形式更强(要求独立同分布),但结论更直接(收敛到共同的总体期望),且不需要方差存在。
          注意
          频率 “稳定于”概率 ,是“依概率稳定”。
          算术平均值 依概率收敛于其数学期望的算术平均值。
          当 n 足够大时,算术平均值几乎就是一个常数(总体期望 )。是统计推断的基础,矩估计的理论依据。
          总结:
          • 共同点:都描述了当样本量/试验次数趋于无穷时,某种统计量(频率/样本均值)在“依概率”的意义下趋向于某个理论值(概率/期望)。
          • 伯努利 -> 频率与概率 (最简单,针对0-1事件)
          • 切比雪夫 -> 样本均值与期望均值 (条件较宽,不一定同分布/独立)
          • 辛钦 -> i.i.d. 样本均值与总体期望 (统计应用中最核心,独立同分布是关键)

          Ch5.3 中心极限定理

          引例

          相互独立,
          ,观察密度函数曲线我们发现……

          独立同分布中心极限定理

          设随机变量序列 为相互独立同分布的,其期望、方差存在,其中
          则对于任意实数
          其中 的标准化随机变量.
          • Note: 记 ,则 的标准化随机变量,那么有 . 即 足够大时, 的分布函数近似于标准正态随机变量的分布函数.

            DeMoivre-Laplace 中心极限定理

            ,则 ,有
            .
            • Note:
              • 较小时,例如 时,直接用二项分布公式计算.
              • 较大而 较小(或 较小)时,用 Poisson 分布近似计算.
              • 较大,,或 时用正态分布近似.
            即:若 足够大, 之间独立同分布. ……
            .
            (一般情况下我们不需要考虑不等号是否有取等.)

            PPT 例题/案例选摘

            notion image
             
            上一篇
            第四章 随机变量的数字特征
            下一篇
            第六章 数理统计的基本概念
            Loading...