spss따라하기
spss따라하기
한울통계컨설팅
2018년
제작 : 한울통계컨설팅
Ⅰ. 데이터 코딩 ············································································································ 4
1. 데이터 코딩 방법 ··········································································································· 4
2. 엑셀과 한글 데이터 SPSS로 옮기기 ········································································· 6
1) 엑셀테이터 SPSS로 옮기기 ····················································································· 6
2) 한글 또는 메모장 데이터 SPSS로 옮기기 ··························································· 8
3. 역코딩 ···························································································································· 13
4. 요인 만들기 ·················································································································· 15
5. 연속형 데이터를 범주형 데이터로 바꾸기 ···························································· 17
6. 이상값 찾기 ·················································································································· 20
Ⅱ. 초급 통계 분석 ··································································································· 21
1. 인구학적 특성에 따른 빈도분석의 팁 ···································································· 21
2. SPSS 아웃풋을 엑셀로 보내는 방법 ······································································ 23
3. 교차분석 ······················································································································ 26
4. 독립 t-test ················································································································· 28
5. 대응 t-test ··················································································································· 30
6. 분산분석(ANOVA) ······································································································ 32
7. 요인분석 ························································································································ 38
8. 신뢰도 분석 ·················································································································· 42
9. 상관분석 ······················································································································ 44
10. 회귀분석 ···················································································································· 46
1) Enter(입력) 방식 다중회귀분석 ··········································································· 46
2) Stepwise(단계선택) 방식 다중회귀분석 ···························································· 48
11. 더미를 활용한 다중회귀분석 ················································································ 51
Ⅲ. 중급 통계 분석 ································································································· 59
1. 위계적 다중회귀분석 ·································································································· 59
2. 위계적 회귀분석을 활용한 조절효과분석 ······························································ 62
3. 회귀분석을 활용한 매개효과 분석 ·········································································· 68
4. 이항로지스틱 회귀분석 ······························································································ 74
5. 공분산분석 ···················································································································· 78
6. 반복측정 분산분석 ······································································································ 84
7. 정규성 검정 ·················································································································· 89
8. 비모수 통계분석 ·········································································································· 91
1) Mann-Whitney U 검정 ························································································· 91
2) Wilcoxon 부호-서열 검정 ···················································································· 93
3) Kruskal-Wallis H 검정 ························································································· 95
Ⅰ. 데이터 코딩
1. 데이터 코딩 방법
- 4 -
복수응답에 대한 팁을 드리면, 복수응답의 경우 엑셀의 경우 문항이 4개라면 4개
의 칸을 만들어서 응답이 되어 있는 것은 모두 입력해야 되며 한글의 경우 4개의
칸을 모두 채워야 합니다.
- 5 -
2. 엑셀과 한글 데이터 SPSS로 옮기기
- 6 -
(주의: 코딩된 워크시트 이름을 꼭 확인해야 합니다.)
- 7 -
2) 한글 또는 메모장 데이터 SPSS로 옮기기
- 8 -
파일(F) → 텍스트 데이터 읽기(D) 클릭
- 9 -
텍스트 가져오기 마법사 6단계 시작 → “다음(N)” 클릭
- 10 -
4단계 이후 6단계 마지막 단계까지 간 이후 “마침”을 누름
- 11 -
변수명은 "변수보기(V)"을 클릭하면 넣을 수 있습니다.
- 12 -
3. 역코딩
- 13 -
스트레스1 문항을 “숫자변수(V)”로 옮기고 “기존값 및 새로운 값(O)"를 클릭합니다.
- 14 -
4. 요인 만들기
변화(T) → 변수계산(C) 클릭
- 15 -
2) 명령문(Syntax)을 활용한 요인 만들기
⇓
compute 요인이름 = 계산식.
execute.
스트레스에 대한 평균의 경우
스트레스_평균 = (스트레스1+스트레스2+스트레스3+스트레스4)/4.
스트레스_총합 = 스트레스1+스트레스2+스트레스3+스트레스4.
마지막에 점(.)은 꼭 넣어줘야 합니다.
- 16 -
5. 연속형 데이터를 범주형 데이터로 바꾸기
분석(A) →빈도분석(F) 을 실시
빈도분석: 통계량 창이 나옵니다. 여기서 사분위수, 평균, 중위수, 최빈값, 합계를 클릭하
여 빈도분석을 실시합니다.
- 17 -
이제 연속형을 범주형으로 만들기 위해 변환(T)→다른 변수로 코딩변경(R)을 클릭합니
다.
- 18 -
연령(age)를 오른쪽으로 옮긴 후 출력변수 이름(N)에 “범주형_연령”이라고 새로운 이름
을 넣고 “기존값 및 새로운 값(O)”를 클릭합니다.
- 19 -
분석(A)→새로만든 “범주형_연령”변수를 선택해서 빈도분석을 실시하면,
6. 이상값 찾기
- 20 -
Ⅱ. 초급 통계 분석
- 21 -
통계량(I) 중 "열N%"를 오른쪽으로 옮기고 “선택한 항목에 적용(S)”을 클릭하면
- 22 -
2. SPSS 아웃풋을 엑셀로 보내는 방법
내보내기(E)를 클릭합니다.
- 23 -
“선택” 클릭되어는지 확인하고 파일을 저장하기 위해 “찾아보기(B)”를 클릭한 후 파일
을 저장합니다.
- 24 -
예제) 대상자의 인구학적 특성 해석
특성 구분 빈도 %
남성 37 25.3%
성별
여성 109 74.7%
60대 24 16.4%
연령(세)
70대 74 50.7%
76.28±6.89
80대 이상 48 32.9%
기독교 43 29.5%
천주교 34 23.3%
종교 불교 33 22.6%
기타 3 2.1%
없음 33 22.6%
기혼 81 55.5%
이혼/별거 4 2.7%
결혼상태
사별 58 39.7%
미혼 3 2.1%
전체 146 100.0%
- 25 -
3. 교차분석
- 26 -
셀(E)를 클릭한 후 셀출력창에 퍼센트에서 “행(R)” 클릭
- 27 -
인구학적 특성(성별, 연령, 종교 등등)에 따른 차이분석의 경우 t-test 및 분산분석
(ANOVA)을 주로 합니다.
두 분석 모두 집단에 따른 평균차이가 있는지 검정할 때 사용하며, t-test는 두집
단(예: 남자, 여자) 이하, 분산분석(ANOVA)은 세 집단(예: 1학년, 2학년, 3학년)이
상일 때 사용합니다.
또한 다중회귀분석이 필요한 연구에선 종속변수에 영향을 주는 변수(통제변수, 독
립변수)를 찾아 보정하려고 차이분석을 실시하기도 합니다.
4. 독립 t-test
- 28 -
독립 t-test 아웃풋이며, 남성의 자기효능감 평균은 47.08점이고 여성은 평균 41.59점
으로 남성이 여성보다 자기효능감 평균이 높았다. 이제 이 평균 차이가 통계적으로 유의
미한지를 살펴봐야 합니다. 독립표본검정을 보면, t=3.533이고 유의확률이 0.001로 유의
수준 0.05보다 작아 통계적으로 유의미한 차이가 나타나고 있었다.
- 29 -
5. 대응 t-test
- 30 -
사전 체중은 67.55kg에서 프로그램 적용 후 65.18kg로 약 2.37kg 감소하였으며, 대응
표분 검정결과 t값이 5.690로 나타났다. 유의확률이 0.000으로 통게적으로 유의미한 차
이가 나타났다는 것을 알 수 있습니다.
체지방량과 근육량도 위와 같이 해석을 할 수 있습니다.
- 31 -
6. 분산분석(ANOVA)
- 32 -
다양한 사후분석이 나타납니다.
- 33 -
통계량을 체크하는 창이 나옵니다.
여기서는 기술통계(D), 분산 동질성 검정:Levene 통계(H), Welch(W)를 클릭합니다.
Welch는 등분산이 가정되지 않았을 때 분산분석표 대신 사용하는 값입니다.
- 34 -
사후검증을 살펴보면, 여기서는 등분산이 가정되었으며, 변인의 수가 다르기 때문에
Scheffe를 사용하면 됩니다. 여기서 평균차(I-J)칸의 숫자뒤에 별이 붙은 것이 유의미한
차이가 있다는 표시입니다.
- 35 -
이를 해석하면 60대와 70대 집단의 자기효능감이 80대 이상 집단보다 높았다는 것을
보여준다고 해석합니다.
- 36 -
예제) t-test 및 분산분석 해석
변인 구 분 M ± SD F/t p Scheffe
남성 47.08 ± 9.46
성별 3.533 0.001
여성 41.59 ± 7.70
60대(a) 48.25 ± 6.96
연령 70대(b) 44.20 ± 7.91 14.462 0.000 c<ba
80대 이상(c) 38.46 ± 8.00
- 37 -
7. 요인분석
- 38 -
변수를 옮긴 후 기술통계(D)를 클릭한 후 일변량 기술통계(U), 계수(C), KMO와
Bartlett의 구형성 검정(K)를 선택한 후 “계속”을 클릭합니다.
- 39 -
옵션(O)를 클릭 후 요인분석 옵션에서 “크기순 정령(S)”를 클릭 한 후 “계속”을 클릭하
면 아웃풋이 나옵니다.
l KMO
※ .90 이상: 상당히 좋은 편 ※ .80~.89: 꽤 좋은 편
※ .70~.79: 좋은 편 ※ .50~.69: 평범한 편
※ .50 미만: 받아들일 수 없음
Bartlett의 구형성 검정값은 .05보다 작아야 변수들이 상호독립적으며 변수간의 상관이
없다고 판단합니다.
- 40 -
회전된 성분행렬을 살펴보면, 1요인은 만족도1~만족도5로 이루어졌으며, 2요인은 디자
인과 승차감, 3요인은 유명한차, 외제차, 고급차로 이루어졌습니다. 이제 묶어진 요인들에
대한 요인이름을 붙어야 합니다. 1요인은 “만족도”로, 2요인은 “자동차이미지”, 3요인은
“자동차 브랜드”로 명명하면 될 듯합니다.
- 41 -
8. 신뢰도 분석
- 42 -
본 요인의 크론바 알파(Cronbach alphe = )값은 .872로 기준으로 보는 .06~.70보다
높아 신뢰도가 있다고 해석됩니다.
만약 크론바 알파값이 0.6~0.7 미만으로 나타났다면, 항목이 삭제된 경우의 크론바 알
파값을 살펴봅니다. 항목이 삭제된 크론바 알파값은 항목이 제외되었을 때의 크론바 알파
값으로 여기서는 SE1이 제거되었을 때 크론바 알파값은 .863이네요.
- 43 -
9. 상관분석
- 44 -
상관관계분석 아웃풋으로
예제) 상관분석 해석
자기효능감 1
영양 .354** 1
** p<.01
대상자의 자기효능감, 건강증진행위 간 관계를 검증한 결과는 다음과 같다. 자아효능감은
건강증진행위 하위 요인 중 대인관계(r=.382)과 가장 큰 양(+)의 상관을 가지고 있었으며,
다음으로 영양(r=.354), 스트레스(r=.230)순으로 나타났다.
- 45 -
10. 회귀분석
1) Enter(입력) 방식 다중회귀분석
- 46 -
R제곱값은 회귀모형의 설명력을 나타내는 것으로 여기서는 22.6%정도 설명력이 있다고
해석합니다.
분산분석에서 F값을 보고 회귀식이 종속변수를 설명하는 유용한지 판단합니다. 여기서
유의확률이 0.000으로 통계적으로 모형이 유의하다고 해석합니다.
Durbin-Watson값은 자기 상관을 보는 값으로 2에 가까우면 종속변수의 오차항은 자기
상관이 없이 서로 독립적이라고 판단합니다.
※ 1.8 < Durbin-Watson < 2.2 à 독립적 자기상관(오차의 독립성이 가정됨)
- 47 -
2) Stepwise(단계선택) 방식 다중회귀분석
- 48 -
Enter(입력)방법 아웃풋과 다르게 2개의 모형이 나왔습니다.
첫 번째 모형의 R제곱값은 .146, 두 번째 모형의 R제곱값은 .201로 두 번째 모형의 R제
곱값 회귀모형의 설명력이 더 컸습니다.
R제곱변화량을 살펴보면, .055가 증가 된 것을 알 수 있습니다. 물론 F 변화량 유의확률
도 .002로 통계적으로 유의했습니다.
분산분석에서 F값을 보고 회귀식이 종속변수를 설명하는 유용한지 판단합니다. 모형1과
모형2 모두 유의확률이 0.000으로 통계적으로 모형이 유의하다고 해석합니다.
- 49 -
예제) 다중회귀분석 해석
Enter방식 다중 회귀분석
변수
Std. 표준화
β t p 공차한계 VIF
Error 베타
- 50 -
11. 더미를 활용한 다중회귀분석
- 51 -
남성이 1, 여성이 2로 코딩되어 있고, 여성을 기준으로 바꾸려면, 여성 2를 0으로 바꾸
고 남성은 그대로 1로 바꿔줍니다.
- 52 -
이번엔 연령을 더미를 만들기 위해, 우선 연령을 “연령더미1” 넣고 바꾸기(H) 후 기존
값 및 새로운 값(O)를 누루고 “60대” 1, “70대” 2, “80대 이상” 3으로 코딩되어 있는
것을 1을→0으로, 2를→1로, 3을→0으로 바꾸어줍니다.
- 53 -
그 결과는 60대는 연령더미1과 연령더미2가 00으로, 70대는 10으로, 80대 이상은 01로
되었습니다. 여기서 중요한 것은 기준이 되는 값을 0으로 만들어주는 것입니다.
- 54 -
위와 같이 연령의 범주가 4개일 때
연령=1 일 때 연령_더미1=0으로, 연령_더미2=0, 연령_더미3=0으로 만든다.
연령=2 일 때 연령_더미1=1로, 연령_더미2=0으로 연령_더미3=0으로 만든다.
연령=3 일 때 연령_더미1=0으로, 연령_더미2=1로 연령_더미3=0으로 만든다.
연령=4 일 때 연령_더미1=0으로, 연령_더미2=0로 연령_더미3=1으로 만든다.
- 55 -
종속변수에 “자기효능감”을 성별과 연령에 따른 차이가 나타나 성별과 연령을 더미로
만들어서 독립변수로 넣고, 이전의 독립변수인 건강증진행위 하위요인을 독립변수로 놓고
“통계량(S)”를 클릭 후 “공선성 진단(L)”과 “Durbin-Watson(U)"를 선택하고 회귀식을
돌립니다.
- 56 -
더미 만들기 명령어(Syntax)
1) 3개 더미 만들기
3) 5개 더미 만들기
if(연령 =1) 연령_더미1=0.
if(연령 =1) 연령_더미2=0. if(연령 =1) 더미1=0.
if(연령 =1) 더미2=0.
if(연령 =2) 연령_더미1=1. if(연령 =1) 더미3=0.
if(연령 =2) 연령_더미2=0. if(연령 =1) 더미4=0.
execute.
- 57 -
예제) 더미변수를 활용한 회귀분석 해석
Enter방식 다중 회귀분석
변수
Std. 표준화
β t p 공차한계 VIF
Error 베타
- 58 -
Ⅲ. 중급 통계 분석
1. 위계적 다중회귀분석
- 59 -
다음 버튼을 클릭하고 독립변수인 “영양”을 넣어 주고 다시 “다음(N)”을 클릭합니다.
- 60 -
그러면 3가지 모델 아웃풋이 나옵니다.
- 61 -
2. 위계적 회귀분석을 활용한 조절효과분석
- 62 -
빨간 사각형을 보시면 상호작용항인 “독립변수X 조절변수”가 생성된 걸 확인할 수 있
습니다.
위계적 다중회귀를 하기 위해 분석(A) → 회귀분석(R) → 선형(L)을 클릭합니다.
- 63 -
“독립변수”를 넣고 “다음(N)”을 클릭
“조절변수”를 넣고 “다음(N)”을 클릭
- 64 -
아웃풋을 살펴보면, 총 4개의 모형이 있습니다. 마지막으로 상호작용항을 넣은 모형이
모형4군요. 여기서 중요한 것은 통제변수를 제외한 독립변수, 조절변수, 상호작용항의 F
변화량 유의확률입니다. 모두 0.05보다 작아 통계적으로 유의미하게 나왔습니다.
이는 종속변수와 독립변수 간의 영향관계를 조절변수가 조절한다고 해석할 수 있습니
다.
- 65 -
예제) 위계적 회귀분석을 활용한 조절효과분석
변수 구분 t t t t
통제
연령 .002 .039 .096 2.192* .164 3.841
***
.161 3.799
***
변수
독립변수 .581 13.244*** .541 12.922*** 1.185 3.618***
- 66 -
타났다. 이는 곧 조절변수가 증가할수록 종속변수는 감소한다는 것을 의미한다. 결국 모형
3에서 보여준 결과는 조절변수가 종속변수에 영향을 미칠 뿐만 아니라 조절효과를 가질 수
있음을 보여준 것이다.
제 4모형은 조절변수가 종속변수와 독립변수와 상호작용하여 조절효과를 가지는지를 실
증한 결과이다. 분석결과 모형 4의 적합성은 통계적으로 유의하였으며(F=61.849, p<.001),
이는 모형 3에 비해 0.7%(p<.05) 증가하여 종속변수와 독립변수의 관계에서 조절변수가 조
절효과가 있음을 보여준다.
이러한 결과는 독립변수가 높아지면 종속변수는 증가하고, 조절변수가 증가할수록 종속변
수는 감소하는 것을 의미한다. 또한 독립변수와 조절변수가 상호작용함으로써 종속변수의
영향력이 높아짐을 보여준다.
- 67 -
3. 회귀분석을 활용한 매개효과 분석
1. 독립변인 → 매개변인
2. 독립변인 → 종속변인
3. 독립변인 + 매개변인 → 종속변인
- 68 -
첫 번째로, 종속변수에 매개변인을 넣고 독립변수에 독립변인을 넣고 “확인”을 클릭하면
아웃풋이 나옵니다.
- 69 -
두 번째로, 종속변수에 종속변인을 넣고 독립변수에 독립변인을 넣고 “확인”을 클릭하면
아웃풋이 나옵니다.
- 70 -
세 번째로, 종속변수에 종속변인을 넣고 독립변수에 독립변인와 매개변인을 넣고 “확인”
을 클릭하면 아웃풋이 나옵니다.
- 71 -
예제) 회귀분석을 활용한 매개효과과분석
***p<.001
- 72 -
매개변인
.546 .540
http://www.danielsoper.com/statcalc/calculator.aspx?id=31
위 사이트에 방문하면 Sobel-test를 할 수 있습니다.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT 매개변인
/METHOD=ENTER 독립변인.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT 종속변인
/METHOD=ENTER 독립변인.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT 종속변인
/METHOD=ENTER 독립변인 매개변인.
여기서
/DEPENDENT 뒤에는 종속변인 이름으로 바꾸고
/METHOD=ENTER 뒤에는 독립변인 이름을 넣으면 됩니다.
( . ) 명령어 맨뒤에 점은 꼭 넣어주세요.
- 73 -
4. 이항로지스틱 회귀분석
- 74 -
다음에는 옵션(O)를 클릭하여 “분류도표(C)", “Hosmer-Lemeshow 적합도(H)”,
“exp(B)에 대한 신뢰구간 95%”를 클릭하고 “계속”을 클릭하여 아웃풋을 출력합니다.
종속변수의 코딩은 선택함이 1번으로, 범주형 독립변수 코딩은 선택요인 있음이 1번으
로 선택되었습니다.
- 75 -
선택하지 않음 집단 90명과 선택함 집단 209명은 모두 선택함 집단에 분류되었고 분류
정확도는 69.9%였습니다.
- 76 -
모형요약에 Nagelkerke R제곱값은 회귀분석의 R제곱값과 같이 모형의 설명력을 나타
냅니다. 여기서는 84.3%의 모형 설명력을 가지고 있네요.
Hosmer와 Lemeshow 검정은 모형의 적합도 검정으로 유의확률이 .05보다 크면 적합
도가 좋다고 해석합니다. 여기서는 .452이니깐 모형이 적합하다고 해석합니다.
가장 중요한 방정식표입니다.
B의 부호가 +이면 변수값이 클수록 내부값이 1인 여기서는 “선택함” 포함될 확률이 크
며, 부호가 -이면 변수값이 클수록 내부값이 0인 “선택하지 않음”에 포함될 확률이 커집
니다.
이 표를 해석하려면, Exp(B)값과 유의확률을 살펴봐야합니다. 모든 독립변수의 유의확
률은 .000으로 모두 통계적으로 유의미했으며, 비연속형변수(1)의 Exp(B)는 20.649로 여
기서 비연속형변수(1)은 “선택요인 있음” 항목으로 선택요인 있음이 있을 때 선택함에
속활 확률이 20.649배가 된다는 뜻이고, 연속형변수 Exp(B)는 12.249로 연속형변수가 1
증가할 때 선택함에 포함될 확률이 12.249배 커진다고 해석합니다.
Exp(B)의 신뢰구간 하한과 상한사이에 1이 포함되지 않아야 통계적으로 유의미한 독립
변수가 됩니다.
- 77 -
5. 공분산분석
- 78 -
Levens의 등분산이 가정되어 사전_몸무게는 유의확률 .047로 통계적으로 유의미한 차
이가 나타났습니다. 그럼 한가지 요건이 충족되었습니다.
- 79 -
집단과 사전_몸무게의 유의확률이 .959로 통계적으로 유의미하지 않았기 때문에 상호작
용 효과가 없습니다. 이는 공분산분석을 해도 된다는 이야기입니다.
- 80 -
Levens의 등분산이 유의수준 .407로 가정되었습니다.
개체-간 효과 검정을 살펴보면, 사전_몸무게는 유의확률 .000으로 몸무게 차이는 사전_
몸무게에 따라 차이가 날수도 있다고 나왔습니다.
집단은 유의확률 .047로 집단에 따라 몸무게 차이가 나타났습니다.
- 81 -
예제) 공분산분석
[표] Leven의 검정
.697 1 62 .407
- 82 -
[표] 몸무게의 공분산 분석 결과
65
64.43
64 64.03
63
62
실험집단
61
비교집단
60 60.05
59 59.17
58
사전 사후
- 83 -
6. 반복측정 분산분석
- 84 -
“개체-내 변수(W)”에는 여러번 측정된 데이터값을 “개체-간 요인(B)”에는 집단을 넣어
주고 도표(T)를 클릭하고 “집단”을 선구분 변수(S)에 “시기”를 수평축 변수(H)에 넣고
추가를 누르고 “계속”을 클릭하고 “확인”을 클릭하여 아웃풋을 생성시킵니다.
- 85 -
여기서는 구성형 가정이 되었으니, 구형성 가정값을 살펴보면, 시기와 시기*집단 모두
유의확률이 .000으로 유의수준 .05보다 작아 통계적으로 유의미한 차이가 있었습니다.
이를 해석하면 시기의 경우 측정시기에 따라 체중의 차이가 있다는 것을 알 수 있으며,
시기*집단의 상호작용효과가 존재한다. 즉, 두 집단에 대한 평균체중이 측정기간에 따라
달라진다는 것을 알 수 있습니다.
구형성이 가정되지 않고, 엡실런 값이 0.7 미만일 경우 “다변량 검정”을 가지고 검정하
게 됩니다.
Pillai의 트레이스 : 표본크기가 작거나 공분산이 동일하지 않고 집단크기 차이 있을 때
Wiks의 람다 : 표본크기가 충분하고 가정도 어느정도 충족하고 집단크기가 유사할 때
Roy의 최대근 : 가장 보수적, 모든 가정을 가장 엄격하게 충족시킬 때
- 86 -
예제) 반복측정분산분석
실험집단 비교집단
측정 차시
Mean SD Mean SD
- 87 -
집단간 차이를 알아보기 위해 구체적으로 본 실험의 Maychly의 구형성 검정을 실시
[표 87] 개체-내 효과 검정
제 III 유형 유의
소스 엡실런 자유도 평균제곱 F
제곱합 확율
구형성 가정 26.940 3 8.980 18.123 .000
측정 Greenhouse-Geisser 26.940 2.595 10.382 18.123 .000
차시 Huynh-Feldt 26.940 2.985 9.024 18.123 .000
Lower-bound 26.940 1.000 26.940 18.123 .000
- 88 -
7. 정규성 검정
- 89 -
정규성 검정 아웃풋을 보면, “Kolmogorov-Smirnov”와 “Shapiro-Wilk”값이 나옵니다.
만약 정균성 검정을 통과
하지 못한다면, 왜도와
첨도를 종합적으로 검토
합니다.
조금 느슨하게 본다면 3
을 기준으로 볼수도 있습
니다.
또한 첨도는 8까지 본다
는 논문들도 있습니다.
- 90 -
8. 비모수 통계분석
비모수 통계 기법 모수 통계 기법
Mann-Whitney U 검정 독립표본 t-test
Wilcoxon 부호-서열 검정 대응표본 t-test
Kruskal-Wallis H 검정 ANOVA(분산분석)
교차분석 두 변인 모두 명목척도
Spearman 서열상관관계분석 두 변인 모두 서열척도
1) Mann-Whitney U 검정
- 91 -
검정변수에 종속변수를 넣고 집단변수에 “집단”을 넣고 “집단정의” 클릭한 후
집단1과 집단2를 나누어 줍니다. 하는 방법은 독립 t-test와 같습니다.
Mann-Whitney의 U(M)을 체크하고 “확인”을 클릭하면 아웃풋이 나옵니다.
- 92 -
2) Wilcoxon 부호-서열 검정
- 93 -
순위표를 보면, N칸의 음의 순위는 6개, 양의 순위는 22개, 동률은 1개로 표시되어 있
습니다. 이는 사전보다 사후에 점수가 떨어진 것은 음의 순위로, 사전보다 사후에 점수가
오른 것은 양의 순위로, 사전과 사후가 같으면 동률로 표시되는 것입니다.
양의 순위가 음의 순위보다 많은 것을 보더라도 사후점수가 높을 것이라는 것을 예측할
수 있습니다.
검정 통계량을 보시면,
근사 유의확률(양측)값이 .029로 유의수준 .05보다 작아 통계적으로 유의미하게 차이가
있는 것을 확인할 수 있었습니다.
- 94 -
3) Kruskal-Wallis H 검정
- 95 -
평균순위가 높을수록 평균이 높습니다.
여기서는 실험집단2가 가장 평균순위가 높고 비교집단이 가장 평균순위가 낮습니다.
검정 통계량을 보시면,
근사 유의확률을 보면 됩니다. .048로 유의수준 .05보다 작아 통계적으로 유의미하게
차이가 있는 것을 확인할 수 있었습니다.
하지만 사후검증이 되지 않기 때문에 통계적으로 유의미한 차이가 있다는 것만 알 수
있습니다.
정규성과 표본수가 아닌 등분산성이 성립하지 않았을 때는 등분산을 가정하지 않는 사
후분석을 사용합니다. 이 방법은 분산분석(ANOVA)에서 자세히 다루었으니 참고하시면
됩니다.
- 96 -
예제) 비모수 통계분석
1) Mann-Whitney U 검정
실험집단(n=8) 비교집단(n=8)
평균순위 평균순위 z p
평균±표준편차 평균±표준편차
(순위합) (순위합)
2) Wilcoxon 부호-서열 검정
N 평균순위 순위합
Negative Ranks
6a 17.83 107.00
(음의 순위)
Positive Ranks
22b 13.59 229.00
(양의 순위) z p
사전-사후
Ties
1c
(동률)
Total
29
(합계)
a. 사후점수<사전점수
b. 사후점수>사전점수 -2.187 0.029
c. 사후점수=사전점수
- 97 -
3) Kruskal-Wallis H 검정
집단 평균순위 평균±표준편차 p
- 98 -