본문 바로가기
강의들을건대 1학년 2학기/산업통계의기초

산업통계의기초 9주차

by 공부해열 2021. 10. 26.

오늘은 모집단과 통계적 추정, 관측된 데이터의 예, 유한 모집단과 무한 모집단, 랜덤 샘플링과 모평균, 데이터의 분포 상태를 파악, 표본 평균 등을 배웠습니다.

 


모집단과 통계적 추정


모집단(母集團, 영어: population or universe)이란 정보를 얻고자 하는 관심 대상의 전체집합을 말한다. 모집단은 우리가 무엇을 알려고 하느냐에 따라 다르게 정의되기 때문에 모집단을 명확하게 정의하는 것은 매우 중요하다. (위키피디아)

관측된 데이터의 예
-불확실한 현상이 제각각인 수로 나타나는 상태를 데이터라는 형태로 관측함 (->표본)
-나비의 몸길이, 선거에서 유권자들이 투표한 자료, 동전을 36번 던지면 앞면이 나올 개수(0~36까지 다양), 며칠 동안의 가게의 하루 매출액 자료 등등

유한 모집단과 무한 모집단
-유한 모집단 – 모집단의 자료수가 유한한 수로 이루어짐
-무한 모집단 – 모집단의 자료수가 무한한 수로 이루어짐

통계적 추정
-통계적 추정의 목표는 이 모집단 중에서 나오는 몇 가지의 데이터를 가지고 모집단 전체에 대해 어떠한 추측을 하는 일
• 부분으로 전체를 추론
• 된장국의 예?
• 된장국을 잘 저어 양념과 재료가 골고루 섞였다면 한 숟가락이 전체의 맛을 반영할 수 있음
-모집단이라는 가상의 어떤 항아리에서 나오는 데이터가 자의적으로 조정된 것이 아니라 모집단 전체의 상태를 반영한 결과라면 부분으로 전체를 판단할 수 있음
-된장국 전체의 맛과 한 숟가락 맛을 볼 때 조금은 다를 가능성?
• 모집단의 추정은 ‘100% 적중’하는 것이 아니라 얼마만큼은 틀릴 것이라 생각

랜덤 샘플링과 모평균
-관측된 상대 도수가 0.6, 0.3, 0.1?
-‘모집단에서 충분할 정도로 많이 반복해서 데이터 관측을 실행해 히스토그램을 작성하면, 히스토그램은 거의 모집단과 일치한다’
-즉, 현실에서 관측되는 데이터의 상대 도수는 항아리 속 연못 넓이에 그대로 반영
-랜덤 샘플링(무작위 추출)의 가정

모 분산과 모 표준편차

데이터의 분포 상태를 파악
-모평균이 μ라는 것은 모집단을 채우는 데이터가 대략 μ 를 중심으로 제각각 흩어져 있는 수치임을 의미
-‘어느 정도 제각각인가 = 분포한 상태‘ 를 알 필요가 있음
-복습하면
• 편차 = (데이터 수치) – (평균값)
• 분산 = {(편차의 제곱)의 합} ÷ (데이터 수)
• 표준편차 = 분산
• 이 작업을 도수분포표나 히스토그램에서 사용하려면,
• 평균값 = (계급 값 x 상대 도수)의 합계
• 편차 = (데이터 수치) – (평균값)
• 분산 = {(편차의 제곱) x 상대 도수}의 합계
• 표준편차 = 분산

모 분산과 모 표준편차의 계산
-모 표준편차 : 모집단 데이터의 표준편차, σ
-모 분산 : 모집단의 분산, σ2
-‘랜덤 샘플링의 가정‘ 하에서
• 충분한 횟수로 관측하여 히스토그램을 만들면
• 편차 = (데이터 수치) – (모평균 μ)
• 모 분산 σ2 = {(편차의 제곱) x 연못의 넓이)} 의 합계
• 모 표준편차 σ = (모 분산σ2)

표본 평균
모집단 수치 전체의 분포 모습을 모두 정확하게 아는 것은 어려움
-그렇게 많은 횟수로 관측할 수 없다. 비용의 문제 등..
-하나의 데이터 x가 현실에서 관측되었다고 하면?
• ‘모평균 μ는 x와 가까울 것‘이라는 추정은 가능
• 또한 만일 모 표준편차 σ를 어떠한 이유로 알게 되었다면 모평균 μ에 대한 자세한 추정 가능 – 앞에서 다룬 온도계 문제
• 모집단이 정규 분포하는 경우,

표본 평균을 구하는 이유
-관측된 데이터가 x 하나가 아니라 여러 개일 경우
• 모평균 μ에 대한 좀 더 정확한 추정이 가능
• 몇 번 측정한 체온을 평균하거나.. 등등의 일
• n개의 데이터를 관측하고 평균을 내보는 일 등등
• 표본 평균 = (관측된 데이터 합계) ÷ (관측 데이터 총 개수)
• 여러 번 측정할 경우, ‘우연의 장난‘ 이 만드는 효과를 줄일 수 있음

주사위 던지기를 생각해 보면
-한번 던져서 나오는 무한한 숫자를 기록한 모집단 -> 모든 수가 나올 확률이 1/6
-모평균(μ)은 3.5

대수의 법칙
-하나의 모집단에서 n개의 데이터를 관측하고 그 표본 평균 x를 만든다. 이때, n이 크면 클수록 표본 평균은 모평균 μ에 가까운 수치를 가질 가능성이 커진다.


정규분포에서 보이는 표본 평균의 성질
-앞 강의에서 – 데이터를 여러 번 관측하고 기록하는 것을 충분한 횟수로 반복하고 그 뒤 히스토그램을 만들면 모평균 μ에 가까운 수가 많이 나오게 됨
-데이터 x를 여러 번 관측하여 만든 표본의 평균을 x라 함
• 표본 평균 x가 한 번만 관측된 데이터 x에 비하여 모평균 μ에 더욱 가까운 데이터 -> 대수의 법칙
• 다시 말하면, 표본 평균을 이용해 구간 추정을 하면 (한 번만 관측된 데이터 x를 가지고 하는 구간 추정에 비해) 더욱 정확도가 높은 추정을 할 수 있음
• 어느 정도 정확도가 높나? 모집단의 분포와 그 데이터로 만든 표본 평균의 분포에 대한 정확한 지식이 필요
-모집단의 분포와 표본 평균의 분포는 다름
-단 모집단이 정규 분포하고 있는 ‘정규 모집단’의 경우 표본 평균을 만들어도 그 분포는 정규분포 그대로 유지

댓글