안녕하세요 오늘은 '가설검정, 구간 추정'을 주제로 다루어보았습니다. 통계적 추정, 더욱 정확한 모집단을 추정, 95% 예언 적중 구간으로 가설의 타당성 판단, 검정이란?, 등의 내용을 배웠습니다.
9. 가설검정
● ‘통계적 추정’이란?
- 엄청나게 많은 데이터 세트 중에서 겨우 몇 개의 데이터를 관측
- 관측한 몇 개의 데이터로부터 그 뒷면에 펼쳐져 있는 엄청나게 많은 모든 데이터에 대해서 무엇을 관측할 수 있을까?
- ‘부분으로 전체를 관측하는 것’
- 관측한 데이터 뒷면에 펼쳐져 있는 모든 데이터를 통계학에서는‘모집단’이라고 함
- 통계적 추정은 ‘관측된 데이터로 모집단을 추리’ 하는 것
● 전형적인 예: ‘선거의 출구조사’
- 모집단: ‘투표를 한 모든 사람들의 투표 결과’
- 관측된 데이터: ‘출구조사에서 얻은 투표 결과’
- 그럼에도 불구하고 출구조사에 따른 예측과 선거의 실제 결과가 거의 정확하게 일치
● 모집단을 모두 관측할 수 있는 경우는 거의 없음
- 전수조사
● 더욱 정확한 모집단을 추정
- 아파트를 분양하려고 신문에 광고를 실었다. 모델하우스를 보자고 10명의 문의전화를 받았다. 경험적으로 모델하우스에 오기 전에 절반 정도는 문의전화를 하더라.. 모델하우스에 몇 명 정도 오겠는가?
- 동전 던지기 문제와 비슷
• ‘N개의 동전을 무수히 던져서 나온 앞면의 개수 데이터’
• 이 중 하나에서 데이터 10이 현실에서 관측되었다고 할 때, 우리들은 N을 얼마라고 예상하는 것이 타당할까?
• N은 모집단의 성질에 대한 것으로 ‘모수(parameter)’라고 부름
• 모수란 ‘모집단을 하나로 정하는 것’, ‘실제로는 얼마인지 모르는 추정 대상’ 수치
• ‘N=20’ 은 아주 타당한 추정
• ‘N=21’이나 ‘N=19’는? N=16이라고 추정하면? N=36은?
● 95% 예언 적중 구간으로 가설의 타당성 판단
- ‘모수 N으로 타당한 수치를 어디까지 허용할 수 있을까’를 생각할 때 ‘95% 예언 적중 구간’의 개념을 이용
• ‘N=16’이 타당한 가설인가? 아니면 버려야 할 가설인가? - 거꾸로 생각해봄
• ’ 16개의 동전을 던져서 앞면이 나오는 개수를 예언한다면, 10개는 그 예언의 범위에 들어갈까?’
• 동전 던지기의 평균은 N/2, 표준편차는 𝑵𝑵/𝟐𝟐
• N이 16이면, 평균은 8이고 표준편차는 2인 정규분포를 따름
• 이때, 95% 적중 구간은 4.08 ≤ x ≤ 11.92
• 관측된 앞면이 나오는 개수 10은 이 범위에 들어가는 것.
• 즉 ‘모집단을 모수 N=16이라는 지식을 갖고 있고, 앞면이 나오는 개수를 예측한다면 10은 그 예측의 사정권에 있다’
- N=16은 타당한 가설
- N=36이라면?
• 12.12 ≤ x ≤ 23.88
• 관측된 데이터 10은 예상할 수 없는 예상외의 수치
• 1) 희귀한 일이 일어난 것?
• 2) 가설이 틀린 것? -> 가설을 기각
10. 구간 추정
● 검정이란?
- ‘가설을 바탕으로 하여 모집단에서 나오는 데이터를 95% 예언 적중 구간에서 예언한다고 하면, 현실에서 관측된 데이터가 예언에 들어가 있는가?’ -> 기각 혹은 채택
● 예언 적중 구간을 역이용하여 추정
- 위의 검정을 모든 모수 각각에 대해서 실행하면?
• 버릴 수 없는 가능성으로 두어야 하는 모수의 집합 -> 가능한 모집단의 모수로 추정되는 구간 -> ‘신뢰구간’
• 신뢰구간을 추정하는 것을 ‘구간 추정’
● 신뢰구간 95%의 의미
- 모수 N은 이미 확정된 것이지만 모르는 것
- 확률적인 수치가 나오는 것은 모수 N이 아니라 관측되는 수치(ex. 10)
- 따라서,
• 95%라는 것은 ‘구간 13 ≤ N ≤ 30에 정말 N으로 가능한 것이 95%로 들어간다’ -> 아님
• 구간 추정이라는 과정을 계속 실행하면, 관측값에 대응하는 여러 구간을 구할 수 있지만, 100번 중 95번은 N이 구해지는 구간에 들어간다’ -> 맞음
● 표준편차를 아는 정규 모집단의 평균값에 대한 구간 추정
- 일반적인 사례일까?
- ‘모집단이 정규분포인 것을 알고 있으며, 표준편차(σ)는 알고 있지만, 평균값(μ)을 모를 때, 관측된 데이터로부터 μ를 구간 추정
• 별로 정확하지 않은 온도계로 액체의 온도를 측정한다고 해보자. 측정된 데이터는 실제로 온도 μ°C를 평균으로 하고 표준편차 5°C의 정규분포를 한다. 지금 측정된 온도는 20°C이다. 실제 온도를 95% 신뢰구간에서 구간 추정하시오.
• 측정값이 데이터는 오차를 가지고 있으며 이러한 정확도는
기기의 고유 특성
• 고유한 정확도 = 표준편차
'강의들을건대 1학년 2학기 > 산업통계의기초' 카테고리의 다른 글
산업통계의기초 8주차 (0) | 2021.10.19 |
---|---|
산업통계의기초 7주차 (0) | 2021.10.12 |
산업통계의기초 5주차 (0) | 2021.09.28 |
산업통계의기초 4주차 (0) | 2021.09.27 |
산업통계의기초 3주차 (0) | 2021.09.18 |
댓글