SPSS 통계 이용방법 가이드: 17일차 - 군집 분석(Cluster Analysis) 고급 활용
오늘은 SPSS의 **군집 분석(Cluster Analysis)**을 고급 수준으로 활용하는 방법을 알아보겠습니다. 기본적인 군집 분석(계층적 군집 분석, K-Means 분석)은 이미 6일차에서 다뤘습니다. 이번에는 더 복잡한 데이터 구조를 분석하거나 군집 품질을 평가하는 심화 기법을 소개합니다.
1. 군집 분석 고급 활용이란?
기본 군집 분석에서 고급으로 확장하기
- 특징:
- 데이터 전처리(표준화)와 변수 선택 최적화.
- 군집 품질 평가와 해석 강화.
- 혼합 데이터(명목형 + 연속형)를 포함한 군집 분석.
- 활용 분야:
- 고객 세분화(마케팅).
- 유전자 데이터 분석(의학).
- 소비 패턴 군집화(소매업).
2. 고급 군집 분석 실행 전 준비
A. 데이터 전처리:
- 표준화(Standardization):
- 연속형 변수가 서로 다른 단위를 가지고 있다면, Z-점수(Standardized Scores)로 변환하여 분석합니다.
- 메뉴에서 Analyze > Descriptive Statistics > Descriptives 선택 후 Save standardized values as variables 옵션 활성화.
- 변수 선택:
- 군집 분석에 필요한 변수만 선택하여 분석에 포함.
- 분석 목적과 관계없는 변수는 제외.
B. 군집 품질 평가:
- 군집 간 거리:
- 군집 간 거리가 클수록 서로 다른 군집으로 명확히 분리된 것으로 평가.
- 내부 일관성:
- 군집 내 데이터가 얼마나 밀집되어 있는지 확인합니다(군집의 응집성).
3. 혼합 데이터에 대한 군집 분석: 두 Step Approach
SPSS에서는 명목형 변수와 연속형 변수를 동시에 다룰 수 있는 TwoStep Cluster Analysis를 제공합니다.
실습: 소비자 프로파일 군집화
고객 데이터를 활용해 나이, 월 소득(연속형)과 구매 채널(명목형)을 기반으로 군집을 생성하겠습니다.
- 데이터 준비:
- 연속형 변수: Age, Income
- 명목형 변수: Channel (Online, Offline)
- TwoStep 군집 분석 실행:
- 메뉴에서 Analyze > Classify > TwoStep Cluster를 클릭합니다.
- 변수 설정:
- 분석할 모든 변수(Age, Income, Channel)를 "Variables" 창에 추가합니다.
- 옵션 설정:
- "Number of Clusters"에서 Auto-cluster를 선택하거나, 원하는 군집 수를 지정합니다.
- "Measure"에서 혼합 데이터에 적합한 거리 척도(Euclidean Distance for continuous, Log-likelihood for categorical)를 선택합니다.
- 결과 확인:
- "OK"를 클릭하면 군집 분석 결과가 출력됩니다.
4. 고급 군집 분석 결과 해석하기
A. 군집 요약 표:
- 각 군집의 크기(빈도)와 주요 특성을 요약.
- 예: 군집 1 = "고소득 온라인 구매자", 군집 2 = "저소득 오프라인 구매자".
B. 변수 중요도:
- 군집 형성에 가장 기여한 변수 확인.
- 예: 구매 채널(Channel)이 Age, Income보다 군집 구분에 더 중요한 변수로 나타날 수 있음.
C. 군집 품질 평가:
- Silhouette Measure of Cohesion and Separation:
- 값이 1에 가까울수록 군집 품질이 높음.
- Cluster Distances:
- 군집 간 거리가 클수록 서로 잘 구분된 군집임.
5. 군집 분석 결과 시각화
A. 군집 프로파일 그래프 그리기:
- 메뉴에서 Graphs > Chart Builder를 클릭합니다.
- Clustered Bar Chart를 선택하고, x축에 군집 변수, y축에 주요 연속형 변수를 추가합니다.
- 명목형 변수는 색상으로 그룹화하여 표현합니다.
B. 군집 간 거리 시각화:
- SPSS의 Dendrogram(계층적 군집 분석 결과)이나 Scatter Plot을 활용해 군집 간의 분포를 확인합니다.
6. 고급 군집 분석의 활용 사례
1) 고객 세분화:
- 목표: 고객의 연령, 소득, 구매 채널을 바탕으로 VIP 고객 그룹 식별.
- 활용: 각 그룹에 맞춘 맞춤형 마케팅 캠페인 실행.
2) 의료 데이터 분석:
- 목표: 환자의 건강 상태 데이터를 바탕으로 질병 유형 분류.
- 활용: 군집별 맞춤형 치료 방법 제안.
3) 소비 패턴 분석:
- 목표: 소비자의 쇼핑 행동 데이터를 기반으로 군집을 생성.
- 활용: 오프라인 구매자와 온라인 구매자에게 다른 할인 전략 적용.
7. 오늘의 실습 목표
- SPSS에서 TwoStep Cluster Analysis를 실행해 혼합 데이터를 분석하세요.
- 군집 품질(Silhouette, Cluster Distances)을 평가해 군집의 적합성을 확인하세요.
- 군집 결과를 시각화하고, 각 군집의 특성을 해석하세요.
8. 마무리
고급 군집 분석은 데이터를 세분화하고, 데이터 간의 관계를 이해하며, 전략적 의사결정을 내리는 데 강력한 도구입니다. 오늘 배운 내용을 활용해 더 깊이 있는 데이터 분석을 수행해보세요. 다음 18일차에서는 요인 분석(Factor Analysis)의 고급 활용을 다룰 예정입니다.
궁금한 점이나 도움이 필요하다면 댓글로 남겨주세요! 😊 함께 해결하겠습니다.
'APA, EXCEL, & SPSS' 카테고리의 다른 글
SPSS 통계 이용방법 가이드: 19일차 - 회귀 분석 (Regression Analysis) 고급 활용 (0) | 2025.01.09 |
---|---|
SPSS 통계 이용방법 가이드: 18일차 - 요인 분석(Factor Analysis) 고급 활용 (0) | 2025.01.09 |
SPSS 통계 이용방법 가이드: 16일차 - 다차원 척도법 (Multidimensional Scaling, MDS) (0) | 2025.01.09 |
SPSS 통계 이용방법 가이드: 15일차 - 판별 분석 (Discriminant Analysis) (0) | 2025.01.09 |
SPSS 통계 이용방법 가이드: 14일차 - 혼합 설계 분산 분석 (Mixed Design ANOVA) (0) | 2025.01.09 |