반응형
SPSS 통계 이용방법 가이드: 6일차 - 군집 분석 (Cluster Analysis)
오늘은 SPSS에서 **군집 분석(Cluster Analysis)**을 사용하는 방법을 알아보겠습니다. 군집 분석은 데이터를 비슷한 특성을 가진 그룹으로 나누는 데 사용됩니다. 이를 통해 데이터의 숨겨진 구조를 파악하거나 특정 패턴을 발견할 수 있습니다.
1. 군집 분석(Cluster Analysis)이란?
군집 분석은 데이터를 서로 비슷한 특성을 가진 그룹(군집)으로 분류하는 비지도 학습 방법입니다.
- 활용 분야:
- 고객 세분화 (마케팅)
- 학생 성적 유형 분석
- 질병 특성 분류 (의학)
- 상품 분류 (소매업)
SPSS에서 사용 가능한 군집 분석 유형:
- 계층적 군집 분석(Hierarchical Clustering):
- 데이터를 계층 구조로 분류하며, 군집 간의 거리(유사성)에 따라 병합하거나 분리.
- 비계층적 군집 분석(K-Means Clustering):
- 데이터가 미리 지정한 군집 수(k)로 나뉘며, 반복적으로 군집을 최적화.
2. 계층적 군집 분석 실행하기
실습: 학생의 시험 점수 데이터를 군집으로 분류하기
학생들의 국어 점수(Score_KR), 수학 점수(Score_Math), 영어 점수(Score_Eng)를 기준으로 그룹을 만들어 보겠습니다.
- 데이터 준비:
- 세 개의 변수: Score_KR, Score_Math, Score_Eng
- 계층적 군집 분석 실행:
- 메뉴에서 Analyze > Classify > Hierarchical Cluster를 클릭합니다.
- 변수 설정:
- "Variables" 창에 분석할 변수(Score_KR, Score_Math, Score_Eng)를 추가합니다.
- 방법 설정(Method):
- Cluster Method: Between-groups linkage (군집 간의 평균 거리 계산)
- Measure: Euclidean distance (유클리드 거리)
- 옵션 설정:
- "Statistics"에서 Agglomeration Schedule을 선택합니다.
- "Plots"에서 Dendrogram(덴드로그램)을 선택하여 군집 결과를 시각화합니다.
- 결과 확인:
- "OK"를 클릭하면 덴드로그램과 군집 결과가 출력됩니다.
결과 해석:
- 덴드로그램:
- 데이터를 트리 구조로 나타내며, 비슷한 데이터가 어떻게 군집화되었는지 보여줍니다.
- 덴드로그램을 통해 최적의 군집 수를 선택할 수 있습니다.
- Agglomeration Schedule:
- 군집이 병합되는 과정과 거리 정보를 제공합니다.
3. 비계층적 군집 분석(K-Means Clustering) 실행하기
실습: 고객 데이터를 3개의 그룹으로 나누기
고객의 연령(Age), 월 소득(Income), 구매 빈도(Frequency)를 기준으로 세 그룹으로 분류해보겠습니다.
- 데이터 준비:
- 세 개의 변수: Age, Income, Frequency
- K-Means 군집 분석 실행:
- 메뉴에서 Analyze > Classify > K-Means Cluster를 클릭합니다.
- 변수 설정:
- "Variables" 창에 Age, Income, Frequency를 추가합니다.
- "Number of Clusters"에 원하는 군집 수(k)를 입력합니다(예: 3).
- 결과 확인:
- "OK"를 클릭하면 군집 분석 결과가 출력됩니다.
결과 해석:
- Final Cluster Centers:
- 각 군집의 중심점(평균값)이 제공되며, 군집 간의 차이를 이해하는 데 유용합니다.
- ANOVA:
- 각 변수와 군집 간 차이가 유의미한지 확인합니다(p-값 확인).
4. 시각화를 통한 결과 이해
군집 결과를 그래프로 표현하기:
- 메뉴에서 Graphs > Chart Builder를 클릭합니다.
- Scatter/Dot 그래프를 선택한 뒤, x축과 y축에 분석 변수(Age, Income)를 배치합니다.
- 군집 변수(Cluster)를 색상으로 구분하여 군집 간의 차이를 시각적으로 표현할 수 있습니다.
5. 군집 분석 결과를 활용하기
실제 사례 활용:
- 마케팅: 고객 세분화를 통해 맞춤형 광고 캠페인을 진행.
- 교육: 학생의 학습 유형에 따라 맞춤형 학습 전략 수립.
- 의학: 환자를 질병 유형별로 분류하여 치료 방법 최적화.
6. 오늘의 실습 목표
- 계층적 군집 분석을 통해 데이터를 덴드로그램으로 시각화하세요.
- 비계층적 군집 분석(K-Means)을 사용해 데이터를 그룹화하고 결과를 해석하세요.
- 군집 분석 결과를 그래프로 표현하여 데이터를 쉽게 이해해 보세요.
7. 마무리
군집 분석은 데이터에 숨겨진 패턴을 발견하고, 이를 통해 의미 있는 그룹을 만들어내는 데 유용한 기법입니다. 오늘 배운 계층적 군집 분석과 K-Means 군집 분석을 활용하여 데이터를 효과적으로 분류해 보세요. 다음 7일차에서는 **요인 분석(Factor Analysis)**을 다룰 예정입니다.
궁금한 점이 있다면 댓글로 남겨주세요! 😊 함께 해결해 드리겠습니다.
반응형
'APA, EXCEL, & SPSS' 카테고리의 다른 글
SPSS 통계 이용방법 가이드: 8일차 - 신뢰도 분석 (Reliability Analysis) (0) | 2025.01.09 |
---|---|
SPSS 통계 이용방법 가이드: 7일차 - 요인 분석 (Factor Analysis) (0) | 2025.01.09 |
SPSS 통계 이용방법 가이드: 5일차 - 회귀 분석 (Regression Analysis) (0) | 2025.01.09 |
SPSS 통계 이용방법 가이드: 4일차 - 가설 검정 (t-검정, ANOVA) (0) | 2025.01.09 |
SPSS 통계 이용방법 가이드: 3일차 - 기초 통계 분석 (0) | 2025.01.09 |