In수

Music GIF

Discovering Statistics Using R - 010 - 2024년12월25일


여러 평균의 비교: 분산분석(GLM 1)

분산분석에 깔린 이론

상승된 오류율

  • 조건이 셋 이상인 상황에서 t 검정을 수행하면 안되는 이유
    > if 실험 조건이 세 가지이고, 모든 그룹 쌍에 대해 각각 t 검정을 수행한다면, 총 3번의 검정이 필요하다.
    > 세 t 검정 모두 .05 수준으로 유의성을 판정한다고 하면, 각 검정에서 제1종 오류를 범하지 않을 확률은 .95이다.
    > 만일 세 검정이 독립이라고 하면 제1종 오류를 범하지 않을 전체 확률은 .95^3 ==.857  이다.
    > 이 결과로 제1종 오류를 범할 확률은 5% 에서 14.3%로 증가했다.
    
  • 집단별 오류 = \(1 - (0.95)^n\) [ n : 자료에 대해 수행한 검정들의 수 ]

F 값의 해석

  • 분산분석은 F 통계량 또는 F-ratio라는 값을 산출한다.

    F는 모형과 오차의 비

  • 분산분석은 총괄검정(omnibus test)에 해당한다.

    즉, 분산분석은 어떤 그룹이 영향을 받았는지에 대한 구체적인 정보를 제공하지 않는다.

총제곱합(\(SS_T\))

  • \(SS_T\) : 관측자료와 Y의 평균의 차이들을 사용

관측된 각 자료점과 총평균의 차이를 계산하고 그 차이들을 제곱해서 모두 합한 것
\(SS_T = \sum_{i=1}^{N}{(x_i - \bar{x_총}^2)}\)
분산과 제곱합의 관계가 \(s^2 = \frac{SS}{N-1}\) 이므로 \(SS = s^2(N-1)\) 이다.

모형제곱합(\(SS_M\))

  • \(SS_M\) = Y의 평균과 모형(그룹 평균)의 차이들을 사용

  • 과정

    1. 그룹마다 그룹 평균과 총평균의 차이를 계산한다.
    2. 그룹마다 그 차이를 제곱한다.
    3. 그룹마다 차이 제곱에 그룹의 참가자 수를 곱한다.
    4. 각 그룹의 결과를 모두 더한다.
\[SS_M = \sum_{n=1}^{k}{(\bar{x}_k - \bar{x}_총)^2}\]

잔차제곱합(\(SS_R\))

  • \(SS_R\) = 관측자료와 모형(그룹 평균)의 차이들을 사용
  1. \[SS_R = SS_T - SS_M\]
  2. \[SS_R = \sum_{i=1}^{n}{(x_{ik} - \bar{x_k}^2)}\]
  3. \[SS_R = \sum{s_k^2(n_k - 1)}\]

평균제곱

  • \(MS_M = \frac{SS_M}{df_M}\) # 모형이 설명하는 변동의 평균량
  • \(MS_R = \frac{SS_R}{df_R}\) # 가외 변수들이 설명하는 변동의 평균량

F 비

모형이 설명하는 변동과 비체계적 요인들이 설명하는 변동의 비
\(F = \frac{MS_M}{MS_R}\)

  • F 비가 1보다 작다는 것은 해당 모형의 효과는 유의하지 않다는 점

    \(MS_R > MS_M\) 이는 곧 비체계적 변동이 체계적 변동보다 많다는 뜻이기 때문
    확신을 가지려면 관측된 F비를 그룹 평균들이 같을 전적으로 우연히 얻을 수 있는 최대 F비와 비교해 봐야 한다.

분산분석의 가정들

  • F 통계량의 신뢰성을 위한 가정
    1. 실험 조건의 분산들이 서로 상당히 비슷해야하고
    2. 관측들이 서로 독립이어야 하며
    3. 종속변수가 적어도 구간 척도에서 측정된 것이어야 한다.

분산의 동질성

t 검정에서처럼, 분산분석은 그룹 분산들이 같다고 가정 -> 이 가정은 레빈 검정으로 검사할 수 있다.
이 레빈 검정은 관측값과 그 관측값이 속한 표본의 평균 또는 중앙값의 차이의 절댓값에 대한 분산분석 검정이다.
If 레빈 검정의 결과가 유희하다면 분산들이 유의하게 서로 다르다고 말할 수 있으며, 분산분석의 여러 가정 중 하나가 깨진 것이므로
문제를 해결한 후 분석을 진행해야 한다.

  • 분산분석의 가정들이 깨졌을 때 몇 가지 해결책
    1. 웰치의 F
    2. 분포의 정규성 가정이 깨졌을 때는, 윌콕스의 강건한 방법들을 사용

계획된 대비

  • 계획된 대비(planned contrast) : 모형이 설명하는 변동을 더 작은 부분들로 나누는 것
  • 사후검정(post hoc test) : 모든 그룹을 비교하되 집단별 오류율이 .05보다 커져서는 안 된다는 좀 더 엄격한 허용 기준을 적용하는 것

수행할 대비의 선택

  • 계획된 대비의 3가지 규칙
    1. 실험에 대조군이 존재한다면, 보통의 경우 그 대조군은 다른 실험군들과의 비교를 위한 것이다.
    2. 각 대비는 반드시 변동의 두 ‘조각’만 비교해야 한다.
    3. 한 대비에서 어떤 한 그룹을 특정해서 선택했다면(=single out), 그 다음의 대비들에서 그 그룹을 다시 사용해서는 안 된다.

가중치를 이용한 대비 정의

  1. 합당한 비교를 선택해야 한다.

    한 대비에서 오직 두 개의 변동 조각만 비교해야 한다는 점과, 한 비교에서 특정하게 선택된 그룹은 이후의 대비에서 사용하지 말아야 한다

  2. 양의 가중치가 배정된 그룹들이 음의 가중치가 배정된 그룹들과 비교된다.

    한 변동 조각에는 양의 가중치를, 다른 변동 조각에는 음의 가중치를 배정해야 한다.

  3. 한 비교에서 가중치들의 합은 0이어야 한다.

    한 대비에서 비교하는 모든 그룹의 가중치를 합하면 0이 되어야 한다.

  4. 비교에 포함되지 않는 그룹에는 무조건 가중치 0을 배정해야 한다.

    가중치가 0인 그룹은 모든 계산에서 제외된다.

  5. 주어진 한 대비에서, 한 변동 조작의 그룹(들)에 배정된 가중치들의 크기(절댓값)는 다른 변동 조각에 있는 그룹의 개수와 같아야 한다.
  • 비직교 대비
  • 표준 대비
  • 다항 대비: 추세분석