LOADING

進度條正在跑跑中

統計學(一)


隨機變量

定義

  • 隨機變量本質上是個隨機數,它的取值是由隨機現象的結果決定的。

例:
Ω={hhh,hht,htt,hth,ttt,tth,thh,tht}\Omega = \{hhh, hht, htt, hth, ttt, tth, thh, tht\}

隨機變量例子:

  1. X1=出現正面的次數X_1 = \text{出現正面的次數}
  2. X2=出現反面的次數X_2 = \text{出現反面的次數}
  3. X3=出現正反面的次數之差X_3 = \text{出現正反面的次數之差}

pdf & cdf

  • pdf:概率密度函數(probability mass function) / 頻率函數(frequency function)
    • 通常用小寫字母表示,如:f(x)f(x)
  • cdf:累積分佈函數(cumulative distribution function)
    • 通常用大寫字母表示,如:F(x)F(x)

      定義為: F(x)=P(Xx)F(x) = P(X \leq x), <x<-\infty < x < \infty

離散隨機變量

只取有限值或至多可列無限值的隨機變量。

伯努利隨機變量

  • 只取兩個值:0,10, 1

  • 取值概率:P(X=1)=pP(X = 1) = p, P(X=0)=1pP(X = 0) = 1 - p

    p(x)={px(1p)1xif x=0 or x=10otw p(x) = \begin{cases} p^{x}(1-p)^{1-x} & \text{if } x=0 \text{ or } x=1 \\ 0 & \text{otw} \end{cases}

二項分布

  • 伯努利試驗重複進行 nn 次,每次試驗獨立且有相同的成功概率 pp
  • pdf:P(X=k)=Cknpk(1p)nkP(X = k) = C_k^n p^k (1-p)^{n-k}
    • 概念:任何 kk 次成功的特定排列發生的概率都是 pk(1p)nkp^k (1-p)^{n-k},而n次試驗有k次成功的排列數是CnkC_n^k

幾何分布 & 負二項分布

  • 幾何分布:
    • 無窮次伯努利試驗中,第一次成功的次數
    • pdf:P(X=k)=(1p)k1pP(X = k) = (1-p)^{k-1}p, k=1,2,3,...k = 1, 2, 3, ...
      • 概念:前 k1k-1 次失敗,第k次成功的概率是 (1p)k1p(1-p)^{k-1}p
      • 概率和:k=1(1p)k1p=1\sum_{k=1}^{\infty} (1-p)^{k-1}p = 1
  • 負二項分布(一般化的幾何分布):
    • 無窮次伯努利試驗中,第 rr 次成功的次數
    • pdf:P(X=k)=Cr1k1pr(1p)krP(X = k) = C_{r-1}^{k-1} p^r (1-p)^{k-r}, k=r,r+1,...k = r, r+1, ...
      • 概念:前 k1k-1 次中有 r1r-1 次成功,第k次成功的概率是 prp^r ,失敗的概率是 (1p)kr(1-p)^{k-r}

超幾何分布

  • 假設盒中有 nn 個球,其中 rr 個黑球, nrn-r 個白球。從中取出 mm 個球,令 XX 為取出的黑球數。
  • p(X=k)=CkrCmknrCmn\displaystyle p(X=k) = \frac{C_k^r C_{m-k}^{n-r}}{C_m^n}, XXr,n,mr,\, n,\, m 的隨機變量

泊松分布

  • 參數 λ\lambda 的泊松分布:P(X=k)=eλλkk!\displaystyle P(X = k) = \frac{e^{-\lambda} \lambda^k}{k!}, k=0,1,2,...k = 0, 1, 2, ...

  • eλ=k=0λkk!\displaystyle e^{\lambda} = \sum_{k=0}^{\infty} \frac{\lambda^k}{k!}, 頻率和為 11

  • nn 趨近無窮,pp 趨於 00np=λnp = \lambda 時,二項分布近似為泊松分布
    二項分布:P(X=k)=Cknpk(1p)nkP(X = k) = C_k^n p^k (1-p)^{n-k}

    np=λnp = \lambdap=λn\displaystyle p = \frac{\lambda}{n}nn \to \infty
    p(k)=limnCkn(λn)k(1λn)nk=λkk!n!(nk)!1nk(1λn)n(1λn)k=eλλkk!\displaystyle \begin{aligned} p(k) &= \lim_{n \to \infty} C_k^n \left(\frac{\lambda}{n}\right)^k \left(1-\frac{\lambda}{n}\right)^{n-k} \\ &= \frac{\lambda^k}{k!} \frac{n!}{(n-k)!} \frac{1}{n^k} \left(1-\frac{\lambda}{n}\right)^n \left(1-\frac{\lambda}{n}\right)^{-k} = \frac{e^{-\lambda} \lambda^k}{k!} \end{aligned}

    λn0\displaystyle \frac{\lambda}{n} \to 0(1λn)neλ\displaystyle \left(1-\frac{\lambda}{n}\right)^n \to e^{-\lambda}(1λn)k1\displaystyle \left(1-\frac{\lambda}{n}\right)^{-k} \to 1, n!(nk)!nk1\displaystyle \frac{n!}{(n-k)!n^k} \to 1

連續隨機變量

  • 對於連續隨機變量,頻率函數被密度函數(desity function) f(x)f(x) 取代
    f(x)f(x) 滿足:
    1. f(x)0f(x) \geq 0
    2. f(x)dx=1\int_{-\infty}^{\infty} f(x) dx = 1
    3. 如果 XX 是具有密度函數 ff 的隨機變量。對於任意 a<ba<b , XX 落在區間 (a,b)(a,b) 上的概率是密度函數從 aabb 的下方面積。
      P(a<X<b)=abf(x)dxP(a < X < b) = \int_a^b f(x) dx

指數密度

  • pdf
    f(x)={λeλxx00x<0 f(x) = \begin{cases} \lambda e^{-\lambda x} & x \geq 0 \\ 0 & x < 0 \end{cases}
  • cdf
    F(x)={1eλxx00x<0 F(x) = \begin{cases} 1 - e^{-\lambda x} & x \geq 0 \\ 0 & x < 0 \end{cases}

伽瑪密度

  • 依賴兩個參數 α\alphaλ\lambda, pdf在 α>0\alpha > 0 , λ>0\lambda > 0 時定義完好
  • Γ(r)=0xr1exdx\Gamma(r) = \displaystyle \int_0^{\infty} x^{r-1} e^{-x} dx

    f(x)=λrΓ(r)xr1eλx,x>0\displaystyle f(x) = \frac{\lambda^r}{\Gamma(r)} x^{r-1} e^{-\lambda x}, x > 0

正態分佈

  • 依賴兩個參數 μ\muσ\sigma (其中 <μ<,σ>0-\infty < \mu < \infty,\, \sigma > 0
    f(x)=12πσe(xμ)22σ2,<x<\displaystyle f(x) = \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}, -\infty < x < \infty

貝塔密度

  • 用來刻劃隨機變量在 [0,1][0,1] 區間上的分佈

f(u)=Γ(α+β)Γ(α)Γ(β)xα1(1u)β1,0u1\displaystyle f(u) = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)} x^{\alpha-1} (1-u)^{\beta-1}, 0 \leq u \leq 1