open:r과-함께하는-통계학의-이해

R과 함께하는 통계학의 이해

지은이: 최용성 부산대학교 자연과학대학 통계학과

(다운로드)

통계학(Statistics)

1장 통계학의 이해 우리 주변에서 먼저 통계가 어떻게 활용되는 지를 살펴보고 여론조사나 실험 계획에 의한 자료의 수집과 자료의 구성요소인 개체(observation)와 변수(variable)에 대한 이해, 그리고 이를 통한 자료의 종류를 소개한다.

2장 자료의 정리 및 요약 표본으로부터 정보를 획득하기 위해 주어진 자료에 대해 효율적인 방법으로 정리 및 요약하는 기법들을 소개한다. 정리 및 요약의 기법에는 표나 그림을 이용할 수도 있고, 수치적 정보를 이용할 수도 있다.

3장 이산활률변수 및 분포 확률변수의 특징을 이해하기 위해 이산형확률변수를 이용하여 기대값과 분산을 계산하는 방법을 익히고, 더불어 이산확률분포 중에 가장 대표적인 이항분포(binomial distribution)를 활용하는 방법을 익힌다.

4장 연속활률변수 및 분포 연속확률변수와 연속확률변수의 확률분포를 나타내는 확률밀도함수(probability density function)의 특징을 익히고, 더불어 연속확률분포 중에 가장 대표적인 정규분포(normal distribution)를 활용하는 방법을 익힌다.

5장 표집분포와 중심극한정리 표본의 반복추출을 통해 나타나는 표본평균이 가질 수 있는 값들의 특징을 파악하고, 표본평균의 기대값과 분산을 파악한다. 더불어 모집단의 확률분포와는 무관하게 표본의 크기가 충분히 큰 경우 표본평균의 확률분포는 정규분포를 따르게 된다는 중심극한정리에 대해 알아본다.

6장 추정 표본으로부터 획득한 수치적 정보 즉, 통계량을 이용하여 실제 관심의 대상인 모수의 참값에 대해 알아가는 추정의 방법을 익힌다.

7장 가설 검정 : 한 집단의 비교 제기된 주장의 타당성을 검정할 때 통계적 가설 검정의 문제를 다루며 한 집다느이 모평균과 모비율을 표본의 크기에 따른 대표본과 소표본에서 다루려 한다. 특히, 기각역을 활용하거나 유의확률 값에 의한 검정방법을 소개한다.

8장 독립표본과 대응표본 : 두 집단의 비교 독립된 두 집단에 독립표본 또는 동일한 한 집단에 대해 두 번 반복 측정한 대응표본을 비교하기 위해선 통계량은 각 집단 또는 두 번 측정한 표본의 평균 또는 비율에 의한 검정을 다루게 된다.

9장 분산분석 : 여러 집단의 비교 여러 집단 또는 여러 처리를 비교할 때 적용되는 분산분석(analysis of variance, ANOVA)에 대해 알아보고 가장 기초가 되는 일원 분산분석에 대해서 논의하고자 한다.

10장 상관분석과 회귀분석 : 두 변수의 관계 여러 분야의 통계분석에서 두 개 혹은 그 이상의 측정변수들의 관계가 중요한 경우가 많다. 이를 측정하기 위한 상관계수(correlation coefficient)와 변수들 간의 관계를 나타내는 함수식을 찾아내고 이를 이용하여 예측 및 추론을 하기 위한 회귀분석(regression analysis)을 소개하고 있다.

11장 분할표 자료분석 : 범주들의 관계 관찰된 자료가 범주형 변수에 따라 정리된 분할표(contingency table)에서 범주간의 독립성 검정(test of independence)과 동질성 검정(test of homogeneity)인 카이제곱 검정을 소개하고 있다.

통계학 : 불확실하고 잘 알려져 있지 않은 사실과 대상에 대한 통계정보를 얻기 위해 이와 관련된 자료(data)를 수집하고, 그 자료를 요약 정리하여 해석하며, 의사결정을 위한 결론이나 일반성 등을 이끌어내는 데 필요한 이론과 방법을 과학적으로 제시하여 주는 학문이다.

기술통계학 : 자료를 정리하여 그림이나 표로 요약하거나 자료들의 수치값을 요약한 대표값이나 자료의 흩어진 형태(분포)와 변동의 크기 등을 구하는 분야.

추측통계학 : 통계적 모형과 구간을 설정하기도 하고 추측하기도 하며 어떤 기존의 사실에 대하여 가설을 세우고 이를 검정하고 예측하는 분야

(보기 1.1) 부산시가 시 전체 노동력 조사를 대신하여 남구와 서구의 각 5개 구별 대상으로 노동력 인구와 이들 중 실업자의 비율을 알고자 한다.

  • 모집단 : 부산시 전체 노동력 인구와 실업자
  • 모수 : 모집단의 노동력 있는 인구 수, 실업자 수, 실업자의 비율
  • 표본 : 남구와 서구의 각 5개 구별 노동력 인구와 실업자
  • 통계량 : 표본의 노동력 있는 인구 수, 실업자 수, 실업자의 비율

(보기 1.2) A 타이어 공장의 5개 공정과정에서 하루에 생산되는 사계절용 타이어 10,000개의 평균 주행 거리를 알고자 실험을 실시하였다. 실제로 각 공정과정에서 10개씩 50개 타이어를 대상으로 평균 주행거리를 계산하였다.

  • 모집단 : A 타이어 공장의 5개 공정과정에서 하루에 생산되는 사계절용 타이어 10,000개
  • 모수 : 모집단의 타이어의 평균 주행거리
  • 표본 : 각 공정과정에서 10개씩 50개 타이어
  • 통계량 : 표본의 타이어의 평균 주행거리

통계자료분석의 단계

  • 모집단(모수) (통계조사/실험계획)
  • 표본(통계량)
  • 요약 정리 (기술통계학)
  • 분석 추론 (추측통계학)
  • 의사결정
  • 개채(observation)
  • 변수(variable)

자료는 측정변수의 설질에 따라 분류

  • 질적 자료(qualitative data)
  • 양적 자료(quantitative data)

질적이란 개체인 측정대상이 어느 범주에 들어가는지를 나타내며 이를 범주형 자료(categorical data)라고도 한다.

양적 자료는 변수가 처음 심장박동수, 나중 심장 박동수, 키(cm), 몸무게(kg)와 같이 양을 나태내는 수치자료를 말한다.

자료를 요약하는 초기 단계에서 양적 자료의 경우 수치값을 이용하므로 평균과 분산과 같은 통계적 계산을 위해 사용되지만 질적 자료의 경우는 범주에 따른 자료의 빈도수를 이용하므로 자료를 요약 정리하는데 용이하다.

자료의 종류

  • 자료
    • 양적 자료
      • 연속형 자료 (예: 키)
      • 이산형 자료 (예: 입장인원 수)
    • 질적 자료
      • 수위형 자료 (예: 선호도)
      • 명목형 자료 (예: 성별)

각각의 범주에 속하는 관측값의 개수 : 도수(frequency)

도수를 나열한 표 : 도수분포표(frequency table)

(보기 2.1) 어느 대학에서 통계학 수업을 수강하는 55명의 학생들을 대상으로 혈액형을 조사한 결과는 다음과 같다. 이 자료를 도수분포표로 요약하라.

B A B A A B O A A A O B AB B AB AB A A O AB O A B O B B A A O A A AB B B O B B B A AB A A B O B B O B O B A A AB A A

혈액형이 A인 학생의 수 즉, 도수는 20이며 이에 대한 상대도수는 (20/55=) 0.364이다.

혈액형도수상대도수
—–—-——
A200.364
B180.327
C100.182
D70.127
합계551.000

일반적으로 중복되는 값이 많으면 2.1절에서 소개한 범주형 자료의 요약기법을 사용하고, 중복되는 값이 적으면 다음 절에서 소개하게 될 연속형 자료(continuous data)의 요약기법을 사용한다.

최소값부터 최대값까지 모든 관측값을 포함하는 범위를 몇 개의 구간으로 나누어 각 구간에 포함되는 관측값의 개수를 도수로 표현하는 방식으로 도수분포표를 작성하게 된다. 이때, 나뉘어진 각 부분을 계급(class)이라 하고 각 계급에 포함되는 값의 범위를 계급구간(class interval)이라 한다.

표본평균은 중심위치의 측도 중에서 가장 많이 사용되는 방법으로 관측값의 총합을 관측값의 개수로 나눈 것이다. 이러한 표본평균을 계산하는 방법은 다음과 같다.

\begin{eqnarray*} \bar{x} = \frac{{x_1}+{x_2}+{...}+{x_n}}{{n}} = \frac{1}{n}\sum_{i=1}^{n}{x_i} \end{eqnarray*}

중위수(median)

관측값을 크기순으로 정렬한 후,

(Ⅰ) 관측값의 개수${(n)}$가 홀수라면, 중위수는
\begin{eqnarray*} \frac{(n+1)}{2}번째 관측값이다. \end{eqnarray*}

(Ⅱ) 관측값의 개수${(n)}$가 짝수라면, 중위수는
$$ \frac{n}{2}번째 관측값과 \frac{n}{2}+1번째 관측값의 평균이다. $$

표본평균을 중심으로 각각의 관측값들이 얼마나 흩어져 있는지를 파악하기 위해서는 두 값의 차이를 계산하면 된다. 즉, ${n}$개의 표본자료를 ${x_1, x_2, ..., x_n}$이라고 하고, 이들의 표본평균을 ${\bar{x}}$ 라고 하면 ${(x_i-\bar{x})}$ 값이 각각의 관측값이 표본평균을 중심으로 훝어진 정도를 나타내는 측도가 된다. 이를 편차(deviation)라고 부른다.

그러나 이들 편차의 합은 언제나 0이 되므로, 편차의 제곱합을 구한 후에 관측값의 개수에서 1을 뺀 값으로 나누계 되면 단 하나의 수치로 전체 관측값들이 평균을 중심으로 얼마나 흩어져 있는가를 나타낼 수 있게 된다. 이러한 값을 표본분산이라고 부르고 ${s^2}$으로 표기한다.

표본분산(sample variance)

${n}$개의 표본자료를 ${x_1, x_2, ..., x_n}$이라 하고, 이들의 표본평균을 $\bar{x}$라고 하면 표본분산은 다음과 같다.

$$ {s^2} = \frac{1}{n-1}\sum_{i=1}^{n}{(x_i-\bar{x})^2} $$

표본분산의 단위는 언제나 관측값의 측정 단위의 제곱이 되므로, 계산된 수치만으로는 흩어짐의 정도에 대한 크기를 가늠하기가 쉽지 않다. 따라서 표본분산의 양의 제곱근을 통해 관측값의 단위와 일치시키게 되는데, 이를 표본표준편차라고 부르고 ${s}$로 표기한다.

표본표준편자(sample standard deviation)

${n}$개의 표본자료 ${x_1, x_2, ..., x_n}$의 분산을 ${s^2}$이라 하면, 표본표준편차는 다음과 같다.
$$ {s} = +\sqrt{s^2} $$

사분위범위(inter-quartile range)

$$ {IQR} = 제 3사분위수 - 제 1사분위수 = {Q_3} - {Q_1} $$

확률(probability)이란 어떠한 실험(experiment)의 결과에 대해 확신하는 정도를 나타낸 수치적 척도(measure)이다. 통계학에서는 실험을 출현 가능한 모든 결과들 중에서 오직 한 가지 결과만이 나타나는 행위를 일컫는다. 이때, 특정 실험에서 나올 수 있는 모든 결과들의 집합을 표본공간(sample space)라고 하며, 일반적으로 ${S}$로 나타낸다.

사건 A가 발생할 확률은 ${P(A)}$로 나타내며, 다음과 같이 정의된다.

$$ {P(A)} = \frac{사건 A 에 속하는 결과의 수}{표본공간에 속하는 결과의 수} $$

확률변수(random variable)는 표본공간에 속하는 각각의 결과들에 대해 실수값을 대응시켜 주는 함수를 의미한다.

확률변수는 가질 수 있는 값에 따라 이산확률변수(discrete random variable)와 연속확률변수(continuous random variable)로 구분한다.

확률변수가 가지는 값과 그 값을 가질 확률을 정해주는 규칙 또는 관계를 확률분포(probability distribution)라고 부른다. 이러한 확률분포는 언제나 나름대로 일련의 규칙을 가지게 되므로, 함수를 이용하여 표현 가능하다. 이를 확률분포함수(probability distribution function)라고 한다.

일반적으로 이산확률변수는 가질 수 있는 값들을 일일이 지칭할 수 있기 때문에 이산확률변수의 확률분포함수 ${f(x))}$는

$$ {f(x)} = {P(X=x)} $$

이산확률분포함수의 성질

  • 모든 ${x}$값에 대해 ${0 \leq f(x) \leq 1}$
  • $\sum_{x}{f(x)} = 1$

3.4 확률변수의 기대값과 표준편차

확률변수가 가질 수 있는 값들에 대한 확률분포 상의 중심위치를 그 확률변수의 기대값(expected vvalue)이라고 한다. 일반적으로 확률변수 X의 기대값은 ${E(X)}$로 나타내며, 이산확률변수의 기대값은 다음과 같이 계산할 수 있다.

\begin{equation} {E(X)} = \sum_{x}{x}{f(x)} \end{equation}

(보기 3.1) 어떤 축구팀은 한 시즌 총 38주 중에 매주 1회 혹은 2회의 경기 일정이 잡혀 있다고 한다. 1주일에 1회의 경기가 있는 비율은 0.5. 2회의 경기가 있는 비율은 0.3이며, 나머지는 경기가 없는 휴식주간이라고 한다. 이 팀은 평균적으로 매주 몇 경기를 수행하여야 하는가?

이 팀이 매주 뛰어야 하는 경기 수를 확률변수 ${X}$라고 하면, 확률변수 ${X}$의 확률분포는 다음과 같다.

x 0 1 2 합계
—— —– —– —– ——
f(x) 0.2 0.5 0.3 1

확률변수 ${X}$ 는 3개의 값만을 가질 수 있으므로 이산확률변수이며, 따라서 이 팀이 평균적으로 매주 수행해야 하는 경기 수 즉, 경기 수에 대한 기대값은 다음과 같이 계산할 수 있다.

\begin{equation} {E(X)} = \sum_{x}{x}{f(x)} = 0 \times 0.2 + 1 \times 0.5 + 2 \times 0.3 = 1.1 \end{equation}

그러므로 이 팀은 평균적으로 매주 1.1회의 경기를 수행하여야 한다.

이처럼 기대값은 종종 평균을 의미하게 된다. 표본평균은 단기적 실험 결과에 대한 평균을 의미하는 반면, 기대값은 장기적 실험 결과에 대한 평균을 의미한다.


  • open/r과-함께하는-통계학의-이해.txt
  • 마지막으로 수정됨: 2020/06/02 09:25
  • 저자 127.0.0.1