티스토리 뷰
정의
서로 독립이며 동일한 분포를 따르는 확률변수 $X_1,X_2,⋯ ,X_n$에 대해, 각각의 평균은 $E(X_i)=\mu$이고 각각의 표준편차는 $\sigma$라 하자. $S_n = X_1 + ... + X_n$ 이면, $\frac{S_n - n\mu} {sigma root(n)}$ 은 N(0,1)을 따른다.
설명
중심 극한 정리는, 어떠한 분포라도 그 분포에서 random하게 N개의 sample을 고르고, 그 평균을 기록하는것을 30번 이상 반복하면
정규분포 모양이 나올 수 있다는 뜻이다.
정규분포가 가지는 두개의 변수인 mean과 variable은 어떤 분포냐에 따라 달라진다.
exponential distribution은 mean은 $1/ \lambda$, variance는 $ 1/\lambda^2$ 를 따른다.
우리가 확실하게 알 수 있는 것은
어떤 분포이든 상관 없이
30번 이상 random하게 뽑은 데이터셋의 평균은 정규분포를 따른다는 점이다!
활용
- 왜 정규분포가 중요하게 다뤄지는지 하나의 근거를 제시한다.
- 내가 수집한 데이터들에 대하여, 수집한 데이터와 모데이터(모집단)과의 관계를 증명함으로써, 내가 수집한 일부의 데이터만으로도 전체 집단을 대표할 수 있다는 대표성을 부여한다.