반응형

SPSS 통계 이용방법 가이드: 17일차 - 군집 분석(Cluster Analysis) 고급 활용

오늘은 SPSS의 **군집 분석(Cluster Analysis)**을 고급 수준으로 활용하는 방법을 알아보겠습니다. 기본적인 군집 분석(계층적 군집 분석, K-Means 분석)은 이미 6일차에서 다뤘습니다. 이번에는 더 복잡한 데이터 구조를 분석하거나 군집 품질을 평가하는 심화 기법을 소개합니다.


1. 군집 분석 고급 활용이란?

기본 군집 분석에서 고급으로 확장하기

  • 특징:
    • 데이터 전처리(표준화)와 변수 선택 최적화.
    • 군집 품질 평가와 해석 강화.
    • 혼합 데이터(명목형 + 연속형)를 포함한 군집 분석.
  • 활용 분야:
    • 고객 세분화(마케팅).
    • 유전자 데이터 분석(의학).
    • 소비 패턴 군집화(소매업).

2. 고급 군집 분석 실행 전 준비

A. 데이터 전처리:

  1. 표준화(Standardization):
    • 연속형 변수가 서로 다른 단위를 가지고 있다면, Z-점수(Standardized Scores)로 변환하여 분석합니다.
    • 메뉴에서 Analyze > Descriptive Statistics > Descriptives 선택 후 Save standardized values as variables 옵션 활성화.
  2. 변수 선택:
    • 군집 분석에 필요한 변수만 선택하여 분석에 포함.
    • 분석 목적과 관계없는 변수는 제외.

B. 군집 품질 평가:

  1. 군집 간 거리:
    • 군집 간 거리가 클수록 서로 다른 군집으로 명확히 분리된 것으로 평가.
  2. 내부 일관성:
    • 군집 내 데이터가 얼마나 밀집되어 있는지 확인합니다(군집의 응집성).

3. 혼합 데이터에 대한 군집 분석: 두 Step Approach

SPSS에서는 명목형 변수와 연속형 변수를 동시에 다룰 수 있는 TwoStep Cluster Analysis를 제공합니다.

실습: 소비자 프로파일 군집화

고객 데이터를 활용해 나이, 월 소득(연속형)과 구매 채널(명목형)을 기반으로 군집을 생성하겠습니다.

  1. 데이터 준비:
    • 연속형 변수: Age, Income
    • 명목형 변수: Channel (Online, Offline)
  2. TwoStep 군집 분석 실행:
    • 메뉴에서 Analyze > Classify > TwoStep Cluster를 클릭합니다.
  3. 변수 설정:
    • 분석할 모든 변수(Age, Income, Channel)를 "Variables" 창에 추가합니다.
  4. 옵션 설정:
    • "Number of Clusters"에서 Auto-cluster를 선택하거나, 원하는 군집 수를 지정합니다.
    • "Measure"에서 혼합 데이터에 적합한 거리 척도(Euclidean Distance for continuous, Log-likelihood for categorical)를 선택합니다.
  5. 결과 확인:
    • "OK"를 클릭하면 군집 분석 결과가 출력됩니다.

4. 고급 군집 분석 결과 해석하기

A. 군집 요약 표:

  • 각 군집의 크기(빈도)와 주요 특성을 요약.
    • 예: 군집 1 = "고소득 온라인 구매자", 군집 2 = "저소득 오프라인 구매자".

B. 변수 중요도:

  • 군집 형성에 가장 기여한 변수 확인.
    • 예: 구매 채널(Channel)이 Age, Income보다 군집 구분에 더 중요한 변수로 나타날 수 있음.

C. 군집 품질 평가:

  • Silhouette Measure of Cohesion and Separation:
    • 값이 1에 가까울수록 군집 품질이 높음.
  • Cluster Distances:
    • 군집 간 거리가 클수록 서로 잘 구분된 군집임.

5. 군집 분석 결과 시각화

A. 군집 프로파일 그래프 그리기:

  1. 메뉴에서 Graphs > Chart Builder를 클릭합니다.
  2. Clustered Bar Chart를 선택하고, x축에 군집 변수, y축에 주요 연속형 변수를 추가합니다.
  3. 명목형 변수는 색상으로 그룹화하여 표현합니다.

B. 군집 간 거리 시각화:

  • SPSS의 Dendrogram(계층적 군집 분석 결과)이나 Scatter Plot을 활용해 군집 간의 분포를 확인합니다.

6. 고급 군집 분석의 활용 사례

1) 고객 세분화:

  • 목표: 고객의 연령, 소득, 구매 채널을 바탕으로 VIP 고객 그룹 식별.
  • 활용: 각 그룹에 맞춘 맞춤형 마케팅 캠페인 실행.

2) 의료 데이터 분석:

  • 목표: 환자의 건강 상태 데이터를 바탕으로 질병 유형 분류.
  • 활용: 군집별 맞춤형 치료 방법 제안.

3) 소비 패턴 분석:

  • 목표: 소비자의 쇼핑 행동 데이터를 기반으로 군집을 생성.
  • 활용: 오프라인 구매자와 온라인 구매자에게 다른 할인 전략 적용.

7. 오늘의 실습 목표

  1. SPSS에서 TwoStep Cluster Analysis를 실행해 혼합 데이터를 분석하세요.
  2. 군집 품질(Silhouette, Cluster Distances)을 평가해 군집의 적합성을 확인하세요.
  3. 군집 결과를 시각화하고, 각 군집의 특성을 해석하세요.

8. 마무리

고급 군집 분석은 데이터를 세분화하고, 데이터 간의 관계를 이해하며, 전략적 의사결정을 내리는 데 강력한 도구입니다. 오늘 배운 내용을 활용해 더 깊이 있는 데이터 분석을 수행해보세요. 다음 18일차에서는 요인 분석(Factor Analysis)의 고급 활용을 다룰 예정입니다.

궁금한 점이나 도움이 필요하다면 댓글로 남겨주세요! 😊 함께 해결하겠습니다.

반응형

+ Recent posts