오늘은 모집단과 통계적 추정, 관측된 데이터의 예, 유한 모집단과 무한 모집단, 랜덤 샘플링과 모평균, 데이터의 분포 상태를 파악, 표본 평균 등을 배웠습니다.
모집단과 통계적 추정
모집단(母集團, 영어: population or universe)이란 정보를 얻고자 하는 관심 대상의 전체집합을 말한다. 모집단은 우리가 무엇을 알려고 하느냐에 따라 다르게 정의되기 때문에 모집단을 명확하게 정의하는 것은 매우 중요하다. (위키피디아)
관측된 데이터의 예
-불확실한 현상이 제각각인 수로 나타나는 상태를 데이터라는 형태로 관측함 (->표본)
-나비의 몸길이, 선거에서 유권자들이 투표한 자료, 동전을 36번 던지면 앞면이 나올 개수(0~36까지 다양), 며칠 동안의 가게의 하루 매출액 자료 등등
유한 모집단과 무한 모집단
-유한 모집단 – 모집단의 자료수가 유한한 수로 이루어짐
-무한 모집단 – 모집단의 자료수가 무한한 수로 이루어짐
통계적 추정
-통계적 추정의 목표는 이 모집단 중에서 나오는 몇 가지의 데이터를 가지고 모집단 전체에 대해 어떠한 추측을 하는 일
• 부분으로 전체를 추론
• 된장국의 예?
• 된장국을 잘 저어 양념과 재료가 골고루 섞였다면 한 숟가락이 전체의 맛을 반영할 수 있음
-모집단이라는 가상의 어떤 항아리에서 나오는 데이터가 자의적으로 조정된 것이 아니라 모집단 전체의 상태를 반영한 결과라면 부분으로 전체를 판단할 수 있음
-된장국 전체의 맛과 한 숟가락 맛을 볼 때 조금은 다를 가능성?
• 모집단의 추정은 ‘100% 적중’하는 것이 아니라 얼마만큼은 틀릴 것이라 생각
랜덤 샘플링과 모평균
-관측된 상대 도수가 0.6, 0.3, 0.1?
-‘모집단에서 충분할 정도로 많이 반복해서 데이터 관측을 실행해 히스토그램을 작성하면, 히스토그램은 거의 모집단과 일치한다’
-즉, 현실에서 관측되는 데이터의 상대 도수는 항아리 속 연못 넓이에 그대로 반영
-랜덤 샘플링(무작위 추출)의 가정
모 분산과 모 표준편차
데이터의 분포 상태를 파악
-모평균이 μ라는 것은 모집단을 채우는 데이터가 대략 μ 를 중심으로 제각각 흩어져 있는 수치임을 의미
-‘어느 정도 제각각인가 = 분포한 상태‘ 를 알 필요가 있음
-복습하면
• 편차 = (데이터 수치) – (평균값)
• 분산 = {(편차의 제곱)의 합} ÷ (데이터 수)
• 표준편차 = 분산
• 이 작업을 도수분포표나 히스토그램에서 사용하려면,
• 평균값 = (계급 값 x 상대 도수)의 합계
• 편차 = (데이터 수치) – (평균값)
• 분산 = {(편차의 제곱) x 상대 도수}의 합계
• 표준편차 = 분산
모 분산과 모 표준편차의 계산
-모 표준편차 : 모집단 데이터의 표준편차, σ
-모 분산 : 모집단의 분산, σ2
-‘랜덤 샘플링의 가정‘ 하에서
• 충분한 횟수로 관측하여 히스토그램을 만들면
• 편차 = (데이터 수치) – (모평균 μ)
• 모 분산 σ2 = {(편차의 제곱) x 연못의 넓이)} 의 합계
• 모 표준편차 σ = (모 분산σ2)
표본 평균
모집단 수치 전체의 분포 모습을 모두 정확하게 아는 것은 어려움
-그렇게 많은 횟수로 관측할 수 없다. 비용의 문제 등..
-하나의 데이터 x가 현실에서 관측되었다고 하면?
• ‘모평균 μ는 x와 가까울 것‘이라는 추정은 가능
• 또한 만일 모 표준편차 σ를 어떠한 이유로 알게 되었다면 모평균 μ에 대한 자세한 추정 가능 – 앞에서 다룬 온도계 문제
• 모집단이 정규 분포하는 경우,
표본 평균을 구하는 이유
-관측된 데이터가 x 하나가 아니라 여러 개일 경우
• 모평균 μ에 대한 좀 더 정확한 추정이 가능
• 몇 번 측정한 체온을 평균하거나.. 등등의 일
• n개의 데이터를 관측하고 평균을 내보는 일 등등
• 표본 평균 = (관측된 데이터 합계) ÷ (관측 데이터 총 개수)
• 여러 번 측정할 경우, ‘우연의 장난‘ 이 만드는 효과를 줄일 수 있음
주사위 던지기를 생각해 보면
-한번 던져서 나오는 무한한 숫자를 기록한 모집단 -> 모든 수가 나올 확률이 1/6
-모평균(μ)은 3.5
대수의 법칙
-하나의 모집단에서 n개의 데이터를 관측하고 그 표본 평균 x를 만든다. 이때, n이 크면 클수록 표본 평균은 모평균 μ에 가까운 수치를 가질 가능성이 커진다.
정규분포에서 보이는 표본 평균의 성질
-앞 강의에서 – 데이터를 여러 번 관측하고 기록하는 것을 충분한 횟수로 반복하고 그 뒤 히스토그램을 만들면 모평균 μ에 가까운 수가 많이 나오게 됨
-데이터 x를 여러 번 관측하여 만든 표본의 평균을 x라 함
• 표본 평균 x가 한 번만 관측된 데이터 x에 비하여 모평균 μ에 더욱 가까운 데이터 -> 대수의 법칙
• 다시 말하면, 표본 평균을 이용해 구간 추정을 하면 (한 번만 관측된 데이터 x를 가지고 하는 구간 추정에 비해) 더욱 정확도가 높은 추정을 할 수 있음
• 어느 정도 정확도가 높나? 모집단의 분포와 그 데이터로 만든 표본 평균의 분포에 대한 정확한 지식이 필요
-모집단의 분포와 표본 평균의 분포는 다름
-단 모집단이 정규 분포하고 있는 ‘정규 모집단’의 경우 표본 평균을 만들어도 그 분포는 정규분포 그대로 유지
'강의들을건대 1학년 2학기 > 산업통계의기초' 카테고리의 다른 글
산업통계의기초 11주차 (0) | 2021.11.09 |
---|---|
산업통계의기초 10주차(과제안함) (0) | 2021.11.07 |
산업통계의기초 8주차 (0) | 2021.10.19 |
산업통계의기초 7주차 (0) | 2021.10.12 |
산업통계의기초 6주차 (0) | 2021.10.06 |
댓글