loading
본문 바로가기

IT

[빅데이터/통계] T-test, ANOVA, ANCOVA

반응형

t 검정(T-test)

30개 이하의 비교적 적은 수의 표본에 대해서,

모집단의 평균을 모를 때, 독립된 두 그룹(집단)의 평균 차이가 있는지 검사하는 방법입니다. 

이 차이의 유무를 판단하는 기준은 평균과 분산 정보를 이용해 모집단의 평균을 예측하고, 예측한 평균값들이 서로 동일한가를  기준으로 삼습니다. 

 

T검정을 적용하기 위해서는 독립성, 정규성, 등분산성 가정들이 충족되어야 합니다. 

다만, 일반적으로 많은 데이터를 기반으로 분석을 한다면 정규분포를 따른다고 가정합니다. 

 

두 집단의 조건에 따라 t 검정 종류는 아래와 같습니다. 

 

1) 단일표본 t-검정 (One-sample T-test)

모평균에 대한 검증으로 소표본이고 모집단의 표준편차를 모르는 경우에 수행하며,

한 모집단의 평균에 대한 검정하는데 사용

ex) 귀무가설: A핸드폰 무게가 150g 이다. 

      대립가설: A핸드폰 무게가 150g이 아니다. 

 

2) 대응표본 t-검정 (Paired T-test) 

같은 개체 또는 짝을 이루는 개체들에 대해 두 가지 조건 또는 시점 간의 평균 차이를 비교하는 것입니다.

예를 들어, 어떤 약물의 효과를 평가하기 위해 약물 투여 전과 후의 측정값을 비교할 때 사용됩니다.

 

3) 독립표본 t-검정 (Two sample T-test)

두 개의 독립적인 집단의 평균 차이를 비교하는 것입니다.

예를 들어, 한 그룹에 대한 약물 투여 여부에 따라 결과를 측정하고, 두 그룹 간의 평균 차이가 있는지를 확인하고자 할 때 사용됩니다.

 

 

t-검정의 가설은 다음과 같이 설정됩니다:

- 귀무가설(H0): 두 집단의 평균은 같다 (또는 두 조건 간의 평균 차이는 0이다).
- 대립가설(H1): 두 집단의 평균은 다르다 (또는 두 조건 간의 평균 차이는 0이 아니다).

 

 

t-검정은 t-통계량과 p-value를 계산하여 가설을 검정합니다.

t-통계량은 두 집단 또는 조건 간의 평균 차이를 표준오차로 나눈 값이며, p-value는 귀무가설이 참일 때 해당 평균 차이를 얻을 확률입니다. 작은 p-value는 통계적으로 유의미한 평균 차이를 나타내며, 유의수준과 비교하여 가설을 기각하거나 채택합니다.

t-검정은 비교적 작은 샘플 크기에서도 유용하게 사용될 수 있는 간단하면서도 강력한 통계적 분석 방법입니다.

 

ANOVA(Analysis of Variance)

연속형 자료에 대한 3개 이상의 그룹간의 평균 차이가 있는지를 분석하는 통계 방법으로, t-test(2개군, 연속형)에 대한 확장판이라고 할 수 있습니다. 

 

- 종속변수가 서열변수이고, 모수성이 없다고 판단될 때(즉, 정규분포성이 없는 연속변수인 경우)

☞ ANOVA의 비모수 검정인 Kruskal-Wallis H test

 

- 평균 차이를 파악하기 위해 변동성을 이용 : 그룹별 평균이 다르면, 그룹별 평균의 변동성이 크다는 것을 이용

- 요인(factor) : 모집단(그룹)의 구분기준 ex) 색

  처리(level) : 요인을 구성하는 각 모집단 ex) 파랑 노랑 초록

- 요인 개수에 따라 일원분산분석, 이원분산분석 등으로 구분

 

One way ANOVA (일원분산분석)

세 개 이상의 그룹간에 평균 차이가 있는지를 검증하는 통계적인 기법으로, 

그룹들 간의 평균 차이를 분산을 사용하여 그룹 내의 변동과 그룹 간의 변동을 비교하여 그룹 간의 차이가 크면 귀무가설을 기각하고, 그룹 간의 차이가 작다면 귀무가설을 채택합니다.

ex) 세 반의 수학 점수 비교, 세 두통 약의 효과 비교, 생산월에 따른 옷의 치수 비교

 

일원분산분석의 결과는 F-통계량과 p-value로 나타내어집니다. 

F-통계량은 그룹 간의 변동과 그룹 내의 변동의 비율로 계산되며, p-value는 귀무가설이 참일 때 얻을 수 있는 이상한 결과를 얻을 확률입니다. 

만약 p-value가 일정한 유의수준보다 작다면(예를 들어, 0.05보다 작다면) 우리는 귀무가설을 기각하고 대립가설을 채택합니다.

 

 

Two way ANOVA

두 개의 요인(factor)이 결과에 어떤 영향을 미치는지를 분석하는 통계적인 방법입니다. 

이 방법은 두 가지 요인의 조합에 따라 평균 차이가 있는지를 알 수 있으며, 각 요인이 결과에 미치는 개별적인 영향도 알 수 있습니다.

 

ex) 나이, 성별, 나이*성별(교호작용)

     * 변수가 많은 경우, 유효한 변수를 거르기 위함으로 최소 적합모델 찾기~!


이원분산분석에서 사용되는 가설은 다음과 같습니다

귀무가설(H0): 두 요인의 조합에 따른 평균은 동일하다.
대립가설(H1): 적어도 한 요인의 조합에 따른 평균이 다른 조합과 다르다.


이원분산분석은 각 요인이 결과에 미치는 개별적인 영향뿐만 아니라, 두 요인 간의 상호작용도 확인할 수 있습니다. 

상호작용은 두 요인이 함께 작용하여 결과에 영향을 주는 것을 의미합니다.

이원분산분석의 결과는 F-통계량과 p-value로 나타내어집니다. 

F-통계량은 요인들 간의 변동과 오차(잔차) 변동의 비율로 계산되며, p-value는 귀무가설이 참일 때 이상한 결과를 얻을 확률입니다. 

만약 p-value가 일정한 유의수준보다 작다면(예를 들어, 0.05보다 작다면) 우리는 귀무가설을 기각하고 대립가설을 채택합니다.

이렇게 이원분산분석을 사용하여 요인들의 조합에 따른 평균 차이와 상호작용을 분석함으로써, 우리는 통계적으로 유의한 영향을 미치는 요인과 조합을 식별할 수 있습니다.

 

[Ref.] ANOVA Table

Source
Degree of Freedom
SS
MS
F
A
a-1
SSa
MSa
MSa/MSwithin
B
b-1
SSb
MSb
MSb/MSwithin
A*B
(a-1)(b-1)
SSa*b
MSa*b
MSa*b/MSwithin
Within
ab(r-1)
SSwithin
MSwithin
Total
abr-1
SStotal
 
 

 

ANOVA, One way ANOVA , Two way ANOVA를 실시하기 위한 가정

ANOVA(분산분석), 일원분산분석(One-Way ANOVA)을 실시하기 전에 몇 가지 가정들이 충족되어야 합니다.

1. 독립성: 각 그룹은 서로 독립적이어야 합니다. 한 그룹의 관측치는 다른 그룹의 관측치와 관련되어서는 안 됩니다.
2. 정규성: 각 그룹 내의 관측치는 정규 분포를 따라야 합니다. 정규성은 일반적으로 그룹 내의 작은 크기의 표본에 대해서는 큰 문제가 되지 않지만, 그룹이 큰 경우에는 더 중요해집니다.
3. 등분산성: 그룹들 간의 분산은 동일해야 합니다. 즉, 각 그룹 내의 관측치들의 분산이 서로 동일해야 합니다. 등분산성을 위반하는 경우, 일원분산분석 결과에 영향을 줄 수 있습니다.

 

만약 가정을 만족시키지 못하는 경우에는, 분석 이전에 데이터의 변환(transformation)을 고려할 수도 있습니다.

 

 

 ANCOVA(ANalysis of COVAriance)

ANCOVA(ANalysis of COVAriance)는 세 개 이상의 그룹 간에 평균 차이를 비교하는 동시에, 한 개 이상의 연속형 공변량(covariate)을 고려하여 그룹 간 차이를 조정하는 통계적인 방법입니다.

ANCOVA는 ANOVA와 회귀 분석의 특징을 결합한 분석 방법으로, 그룹 간의 차이를 설명하는 변수 외에도 다른 영향을 고려하기 위해 공변량을 추가합니다.

 

A,B,C .. 관심있는 변수, 교란작용을 하는 변수가 있는 독립변수 존재하는데, 

DV(Dependent Variable)라는 것이 결과적으로 알고자 하는 관심변수이면서, 결과변수, 종속변수이며,

CV(Confounding Variable) 교란변수입니다. 

여기에서 교란변수를 없앤 ANOVA가 ANCOVA입니다.

예를 들어, 운동선수타입에 따른 앉아서 먹는 피자갯수에서 교란변수인 나이를 변수에서 통제(제외)하는 것입니다. 

 

ANCOVA는 다음과 같이 사용될 수 있습니다:

1. 일원공분산분석(One-Way ANCOVA): 한 개의 독립 변수(그룹 또는 조건)와 한 개의 연속형 공변량이 있는 경우, 그룹 간의 평균 차이를 비교하면서 공변량의 영향을 조정합니다. 예를 들어, 약물 효과를 비교하는데 그룹 간의 초기 수준을 조정하기 위해 공변량(예: 초기 측정값)을 사용할 수 있습니다.


2. 이원공분산분석(Two-Way ANCOVA): 두 개의 독립 변수(또는 요인)와 한 개 이상의 연속형 공변량이 있는 경우, 그룹 간의 평균 차이와 요인 간의 상호작용을 고려하면서 공변량의 영향을 조정합니다. 예를 들어, 약물 효과를 비교하면서 공변량(예: 연령)의 영향을 고려할 수 있습니다.


ANCOVA의 가설은 일반적으로 ANOVA와 유사하게 설정됩니다. 

ANCOVA는 그룹 간의 평균 차이를 비교하면서 추가적인 공변량의 영향을 조정하는데 초점을 둡니다.

 

 

ANOVA vs ANCOVA

- 공통점

: 둘 다 세 개 이상의 독립 그룹의 평균 간에 통계적으로 유의한 차이가 있는지 여부를 결정하는 데 사용

- 차이점

: ANCOVA가 하나 이상의 공변량을 포함됨

  ANOVA는 세 개 이상의 독립 그룹의 평균 간에 통계적으로 유의한 차이가 있는지 여부를 결정하는 데 사용됨
 반면에 ANCOVA는 ANOVA와 회귀 분석을 결합한 방법으로, 하나 이상의 공변량을 포함합니다.

 공변량을 고려하면 요인이 반응 변수에 미치는 영향을 더 잘 이해할 수 있습니다

 

 

카이제곱 검정

범주형 데이터의 독립성을 검정하는 통계 분석 방법입니다. 

이 방법은 두 개 이상의 범주형 변수 간에 관계가 있는지 여부를 판단하고, 

예상된 빈도와 실제 관찰된 빈도 사이의 차이를 평가합니다.

 

카이제곱은 세 집단 이상에 대해서도 사용할 수 있으며, 

세 집단 이상에서 사용하더라도 다른 변수의 교란 변수에 대해서는 동일한 작업을 진행합니다.

검정방법 종류 설명
적합도 검정
하나의 범주형 변수에 대해 관측 값들이 어떤 분포를 띄는지 검정
- 귀무가설 : 각 범주 별로 주어진 확률이 사실이다.
- 대립가설 : 각 범주 별로 주어진 확률 중 하나 이상은 사실이 아니다.
독립성 검정
서로 다른 두 범주형 변수 간에 연관성이 있는지를 검정
- 귀무가설 : 두 범주형 변수는 서로 독립이다(관계가 없다)
- 대립가설 : 두 범주형 변수는 독립적인 관계가 아니다(관계가 있다)

 

 

반응형