반응형

SPSS 통계 이용방법 가이드: 6일차 - 군집 분석 (Cluster Analysis)

오늘은 SPSS에서 **군집 분석(Cluster Analysis)**을 사용하는 방법을 알아보겠습니다. 군집 분석은 데이터를 비슷한 특성을 가진 그룹으로 나누는 데 사용됩니다. 이를 통해 데이터의 숨겨진 구조를 파악하거나 특정 패턴을 발견할 수 있습니다.


1. 군집 분석(Cluster Analysis)이란?

군집 분석은 데이터를 서로 비슷한 특성을 가진 그룹(군집)으로 분류하는 비지도 학습 방법입니다.

  • 활용 분야:
    • 고객 세분화 (마케팅)
    • 학생 성적 유형 분석
    • 질병 특성 분류 (의학)
    • 상품 분류 (소매업)

SPSS에서 사용 가능한 군집 분석 유형:

  1. 계층적 군집 분석(Hierarchical Clustering):
    • 데이터를 계층 구조로 분류하며, 군집 간의 거리(유사성)에 따라 병합하거나 분리.
  2. 비계층적 군집 분석(K-Means Clustering):
    • 데이터가 미리 지정한 군집 수(k)로 나뉘며, 반복적으로 군집을 최적화.

2. 계층적 군집 분석 실행하기

실습: 학생의 시험 점수 데이터를 군집으로 분류하기

학생들의 국어 점수(Score_KR), 수학 점수(Score_Math), 영어 점수(Score_Eng)를 기준으로 그룹을 만들어 보겠습니다.

  1. 데이터 준비:
    • 세 개의 변수: Score_KR, Score_Math, Score_Eng
  2. 계층적 군집 분석 실행:
    • 메뉴에서 Analyze > Classify > Hierarchical Cluster를 클릭합니다.
  3. 변수 설정:
    • "Variables" 창에 분석할 변수(Score_KR, Score_Math, Score_Eng)를 추가합니다.
  4. 방법 설정(Method):
    • Cluster Method: Between-groups linkage (군집 간의 평균 거리 계산)
    • Measure: Euclidean distance (유클리드 거리)
  5. 옵션 설정:
    • "Statistics"에서 Agglomeration Schedule을 선택합니다.
    • "Plots"에서 Dendrogram(덴드로그램)을 선택하여 군집 결과를 시각화합니다.
  6. 결과 확인:
    • "OK"를 클릭하면 덴드로그램과 군집 결과가 출력됩니다.

결과 해석:

  • 덴드로그램:
    • 데이터를 트리 구조로 나타내며, 비슷한 데이터가 어떻게 군집화되었는지 보여줍니다.
    • 덴드로그램을 통해 최적의 군집 수를 선택할 수 있습니다.
  • Agglomeration Schedule:
    • 군집이 병합되는 과정과 거리 정보를 제공합니다.

3. 비계층적 군집 분석(K-Means Clustering) 실행하기

실습: 고객 데이터를 3개의 그룹으로 나누기

고객의 연령(Age), 월 소득(Income), 구매 빈도(Frequency)를 기준으로 세 그룹으로 분류해보겠습니다.

  1. 데이터 준비:
    • 세 개의 변수: Age, Income, Frequency
  2. K-Means 군집 분석 실행:
    • 메뉴에서 Analyze > Classify > K-Means Cluster를 클릭합니다.
  3. 변수 설정:
    • "Variables" 창에 Age, Income, Frequency를 추가합니다.
    • "Number of Clusters"에 원하는 군집 수(k)를 입력합니다(예: 3).
  4. 결과 확인:
    • "OK"를 클릭하면 군집 분석 결과가 출력됩니다.

결과 해석:

  • Final Cluster Centers:
    • 각 군집의 중심점(평균값)이 제공되며, 군집 간의 차이를 이해하는 데 유용합니다.
  • ANOVA:
    • 각 변수와 군집 간 차이가 유의미한지 확인합니다(p-값 확인).

4. 시각화를 통한 결과 이해

군집 결과를 그래프로 표현하기:

  1. 메뉴에서 Graphs > Chart Builder를 클릭합니다.
  2. Scatter/Dot 그래프를 선택한 뒤, x축과 y축에 분석 변수(Age, Income)를 배치합니다.
  3. 군집 변수(Cluster)를 색상으로 구분하여 군집 간의 차이를 시각적으로 표현할 수 있습니다.

5. 군집 분석 결과를 활용하기

실제 사례 활용:

  • 마케팅: 고객 세분화를 통해 맞춤형 광고 캠페인을 진행.
  • 교육: 학생의 학습 유형에 따라 맞춤형 학습 전략 수립.
  • 의학: 환자를 질병 유형별로 분류하여 치료 방법 최적화.

6. 오늘의 실습 목표

  1. 계층적 군집 분석을 통해 데이터를 덴드로그램으로 시각화하세요.
  2. 비계층적 군집 분석(K-Means)을 사용해 데이터를 그룹화하고 결과를 해석하세요.
  3. 군집 분석 결과를 그래프로 표현하여 데이터를 쉽게 이해해 보세요.

7. 마무리

군집 분석은 데이터에 숨겨진 패턴을 발견하고, 이를 통해 의미 있는 그룹을 만들어내는 데 유용한 기법입니다. 오늘 배운 계층적 군집 분석과 K-Means 군집 분석을 활용하여 데이터를 효과적으로 분류해 보세요. 다음 7일차에서는 **요인 분석(Factor Analysis)**을 다룰 예정입니다.

궁금한 점이 있다면 댓글로 남겨주세요! 😊 함께 해결해 드리겠습니다.

반응형

+ Recent posts