목록빅데이터 (22)
1 life 2 live

5. 통계적 검정: 오류 1. 유의수준( significance level) 제1종 오류를 범할 확률의 최대 허용한계 2. 유의확률(p-value) 검정통계량 값에 대해 귀무가설을 기각할 수 있는 최소의 유의수준으로 귀무가설이 사실일 확률 α > p-value: 귀무가설 기각 α < p-value: 귀무가설 채택 3. 임계값(critical value) 기각역과 채택역을 나누는 경계값 기각역: 귀무가설을 기각하게 되는 검정통계량의 관측값의 영역 채택역: 귀무가설을 채택하게 되는 검정통계량의 관측값의 영역 검정통계량의 관측값이 기각역에 속하면 귀무가설 기각 5. 통계검정: 절차 5. 통계검정: 양측검정과 단측검정 1. 양측검정(Two-sided) 기각역이 각각 왼쪽과 오른쪽 두 부분으로 구성된 가설검정 양..

7장 - 통계검정 5. 통계검정: 가설 1. 가설 검정 : 설정한 가설이 옳을 때 표본에서의 통계량과 통계량의 분포(sampling distribution***)***에서 이론적으로 얻는 특정 값을 비교하여 가설의 기각/채택 여부를 판정하는 방법 : 확률적 오차 범위를 넘어서면 가설을 기각한다. : 유의수준(α): 기각/채택 여부의 판단 기준 2. 가설의 종류 : 귀무가설(H0) 대립가설과 상반되는 가설로, 일반적인 사실을 귀무가설로 설정 효과가 없다, 차이가 없다 등의 내용 : 대립가설(H1) 입증하고자 하는 가설 효과가 있다, 차이가 있다 등의 내용 → 보통 귀무가설이 옳다 전제 하에 귀무가설에 해당하는 분포를 그리고, 그 분포 안에 데이터를 통해서 구한 통계량을 위치시켜서 기각/채택을 판단한다. 5..

5. 통계적 추정: 구간추정 1. 구간추정 : 표본에서 얻어지는 정보를 이용하여 모수가 속할 것으로 기대되는 범위(신뢰구간)를 택하는 과정 : 통계적 추정은 일반적으로 신뢰구간의 추정을 활용 : 모수 θ에 대하여 P(a < θ < b) = 1 - α일 때 구간 (a, b)을 모수 θ에 대한 100(1 - α)% 신뢰구간이라고 한다. 2. 신뢰구간 : 모수를 포함할 것으로 추정한 구간 3. 신뢰수준 : 신뢰구간이 모수를 포함할 확률 (1 - α) * α: 오차율 : 동일한 표본추출을 통해 구한 신뢰구간들 중 100 X (1 - α)%는 모수를 포함 5. 통계적 추정: 모분산을 아는 경우 - 모분산을 아는 경우 가정) 모분산을 안다. - 모집단의 평균이 μ, 분산이 σ²인 정규분포 Z통계량을 사용(표준정규분..

6장 - 통계적 추정 5. 통계적 추정 1. 통계적 추정 : 표본의 통계량을 기초로 하여 모집단의 모수를 추정하는 방법론 2. 통계적 추정의 종류 1) 점추정 모수를 단일한 값으로 추측하는 방식 신뢰도를 나타낼 수 없음 → ex) 한국의 키 평균은 160이다. 가정, 모델 prediction 2) 구간추정 모수를 포함한다고 추정되는 구간을 구하는 방식 신뢰도를 나타낼 수 있음 → ex) 한국의 키 평균은 140 -150 사이이다. 가정 5. 통계적 추정: 기준 1. 불편성(Unbiasedness) : 모수의 추정량의 기댓값이 모수가 되는 성질 → bias가 없다. θ: 모수, θ^(세타햇): 모수의 추정량 → E(θ^) = θ면 불편성을 만족 → 표본분산을 구할 때, n이 아닌 n-1로 나눠주는 이유가 ..

5. 연속확률분포: 카이제곱 분포의 특징 단봉분포 → 봉이 한 개 오른쪽에 꼬리를 가짐 → skewness가 0을 초과하는 값(양수)를 가진다. 항상 양수값을 가짐 → 표본 분산에 관련된 분포이기 때문 자유도가 커지면 정규분포에 가까워짐 → 데이터의 개수가 많아진다는 뜻이므로 모분산 추정 및 검정에 활용 → 표본 분산을 이용하여 추정 적합성, 동질성, 독립성 검정 등에 사용 → 범주형 자료(수치형 x)에 해당하는 검정 5. 연속확률분포: 카이제곱 분포의 특징 t분포 : X의 분포가 정규분포일 때, 표본평균의 분포에서 모집단의 표준편차를 모를 경우 모표준편차 대신 표본표준편차를 사용 → 표본평균에 대한 분포로 표본 평균을 통해 모평균을 검정하거나 모평균을 추정할 때 사용 : t분포는 자유도에 의해 모양이 ..

5. 연속확률분포: 정규분포의 특징 표본분포(sampling distribution) : 모집단에서 일정한 크기로 뽑을 수 있는 표본을 모두 뽑았을 때, 그 모든 표본의 통계량의 확률분포 → 통계량(평균, 표준편차, 분산, 중위값 등) 표본평균의 평균과 표준편차 : X1, … , Xn이 모평균 μ, 모표준편차 σ인 모집단으로부터의 확률표본(i.i.d)일 때, → X1, … , Xn이 서로 독립이며 같은 분포에서 나왔기 때문에 모평균 μ를 따른다.(E(X1)=μ, … , E(Xn)=μ) → 분산의 경우 원 데이터보다 밀집되어있는 경향이 있음.(중심값을 나타내기 때문) 5. 연속확률분포: 중심극한정리 중심극한정리(central limit theorem, CLT) : 평균이 μ, 표준편차가 σ인 임의의 모집단..

5장 - 연속확률분포 5. 연속확률분포: Uniform Distribution 1. Uniform Distribution : 연속확률분포 중 가장 간단한 분포 2. 확률밀도함수(pdf) 5. 연속확률분포: 정규분포 1. 정규분포(가우스 분포) : 연속확률분포 중 가장 널리 사용 : 표본을 통한 통계적 추정 및 가설검정이론의 기본 2. 확률밀도함수 → X1, … , Xn일 때 각각이 다 정규분포에 따른다면, 분포(모양, 위치, 형태)가 다 다르기 때문에 표준정규분포화 시켜 각 변수를 비교할 수 있다. → 표준정규분포: X ~ N(0, 1) 5. 연속확률분포: 정규분포의 특징 1. Bell Shaped: 평균을 중심으로 좌우 대칭의 종모양 2. 평균 = 중앙값 = 최빈값 3. 평균에 의해 분포의 위치가 결정..