반응형

SPSS 통계 이용방법 가이드: 10일차 - 로지스틱 회귀 분석 (Logistic Regression Analysis)

**로지스틱 회귀 분석(Logistic Regression)**은 이진형 또는 범주형 종속 변수를 예측하는 데 사용되는 통계 기법입니다. 예를 들어, "구매 여부(Yes/No)"나 "합격 여부(Pass/Fail)"를 예측하는 데 매우 유용합니다. 오늘은 SPSS를 활용해 로지스틱 회귀 분석을 실행하고, 결과를 해석하는 방법을 알아보겠습니다.


1. 로지스틱 회귀 분석이란?

로지스틱 회귀 분석의 특징:

  • 종속 변수: 이진형(예: Yes/No, 0/1) 또는 범주형 데이터.
  • 독립 변수: 연속형 또는 범주형 변수 모두 가능.
  • 결과 해석: 종속 변수를 특정 범주로 분류할 확률(예: 구매할 확률)을 계산.

활용 사례:

  1. 마케팅: 고객이 상품을 구매할 확률 예측.
  2. 의료: 특정 질병 진단 여부 예측.
  3. 교육: 학생의 시험 합격 여부 예측.

2. SPSS에서 로지스틱 회귀 분석 실행하기

실습: 구매 여부 예측

독립 변수(연령, 월 소득, 광고 노출 횟수)가 고객의 구매 여부(구매=1, 미구매=0)에 미치는 영향을 분석해보겠습니다.

  1. 데이터 준비:
    • 종속 변수: Purchase (구매 여부, 1=구매, 0=미구매)
    • 독립 변수: Age (연령), Income (월 소득), Ad_Exposure (광고 노출 횟수)
  2. 로지스틱 회귀 분석 실행:
    • 메뉴에서 Analyze > Regression > Binary Logistic을 클릭합니다.
  3. 변수 설정:
    • "Dependent"에 Purchase를 추가합니다.
    • "Covariates"에 Age, Income, Ad_Exposure를 추가합니다.
  4. 옵션 설정:
    • "Categorical" 버튼을 클릭하여 범주형 독립 변수가 있다면 설정합니다(예: 성별).
    • "Save" 버튼을 클릭하여 예측 확률(Predicted Probability)을 저장할 수 있습니다.
  5. 결과 확인:
    • "OK"를 클릭하면 로지스틱 회귀 분석 결과가 출력됩니다.

3. 결과 해석하기

A. 모형 적합도(Model Fit):

  • -2 Log Likelihood: 모델이 데이터를 얼마나 잘 설명하는지 나타냅니다. 값이 작을수록 적합도가 높습니다.
  • Hosmer-Lemeshow Test:
    • p-값 > 0.05이면 모델이 데이터를 잘 설명한다고 볼 수 있습니다.

B. 변수의 유의성(Significance):

  • Wald 통계량과 p-값(Sig.):
    • p < 0.05인 변수는 종속 변수에 통계적으로 유의미한 영향을 미칩니다.

C. Exp(B) 값 (오즈비, Odds Ratio):

  • Exp(B): 독립 변수가 종속 변수에 미치는 영향을 비율로 나타냅니다.
    • Exp(B) > 1: 독립 변수가 증가할수록 종속 변수가 발생할 확률이 증가.
    • Exp(B) < 1: 독립 변수가 증가할수록 종속 변수가 발생할 확률이 감소.

4. 예측 확률 계산하기

SPSS에서 로지스틱 회귀 분석 결과를 활용해 고객의 구매 확률을 예측할 수 있습니다.

실습:

  1. "Save" 버튼에서 Predicted Probability를 선택했다면, 데이터 뷰에 예측 확률 변수가 추가됩니다.
  2. 예: 고객의 구매 확률이 0.75라면, 해당 고객이 구매할 가능성이 75%라는 의미입니다.

5. 로지스틱 회귀 분석 결과 시각화

ROC 곡선 (Receiver Operating Characteristic Curve):

  1. 메뉴에서 Analyze > ROC Curve를 클릭합니다.
  2. 종속 변수(Purchase)와 예측 확률(Predicted Probability)을 선택합니다.
  3. "OK"를 클릭하면 ROC 곡선과 AUC(Area Under Curve) 값이 출력됩니다.
    • AUC 값이 0.7 이상이면 모델의 예측력이 양호함을 의미합니다.

6. 로지스틱 회귀 분석 결과 활용하기

활용 사례:

  1. 마케팅: 구매 확률이 높은 고객을 타겟팅하여 맞춤형 광고 캠페인 실행.
  2. 의료: 질병 발생 확률이 높은 환자를 조기에 발견하고 예방 조치 시행.
  3. 교육: 시험 합격 가능성이 낮은 학생을 대상으로 추가 학습 지원 제공.

7. 오늘의 실습 목표

  1. SPSS에서 로지스틱 회귀 분석을 실행하고, 주요 변수의 유의성을 평가하세요.
  2. Exp(B) 값을 활용해 변수의 영향을 해석하세요.
  3. ROC 곡선을 통해 모델의 예측력을 검증해보세요.

8. 마무리

로지스틱 회귀 분석은 이진형 결과를 예측하는 데 매우 강력한 도구입니다. 오늘 배운 내용을 바탕으로 데이터를 분석하고, 예측 모델을 활용해 보세요. 다음 11일차에서는 **생존 분석(Survival Analysis)**을 다룰 예정입니다.

궁금한 점이나 어려운 부분이 있다면 댓글로 남겨주세요! 😊 함께 해결하겠습니다.

반응형

+ Recent posts