📖 챕터 소개

17강에서 비지도 학습과 군집화의 개념을 확실히 잡았으니, 이제 직접 코드를 실행해 볼 시간입니다! 이번 시간에는 PyCaret의 익숙한 함수들이 '정답 없는 데이터'를 만나 어떻게 변화하는지 확인해 볼 겁니다. setup 함수를 타겟 변수 없이 실행하고, 가장 대표적인 군집 알고리즘인 K-Means를 create_model로 생성하여 우리 고객 데이터에 숨겨진 그룹을 찾아보겠습니다. 또한, 군집이 얼마나 잘 형성되었는지 평가하는 새로운 '성적표'를 읽는 법도 배우게 될 겁니다!

🎯 챕터 목표

target 파라미터 없이 setup() 함수를 사용하여 군집화 실험 환경을 초기화할 수 있습니다.
create_model() 함수를 사용하여 K-Means(kmeans) 군집 모델을 생성할 수 있습니다.
Silhouette, Calinski-Harabasz, Davies-Bouldin과 같은 군집 모델 평가 지표를 이해합니다.

💻 이번 챕터의 전체 코드 및 프로젝트 구조

이번 챕터의 핵심 코드

💡 지도 학습과 달리, setup에 target이 없고 compare_models 대신 create_model을 바로 사용합니다.

# 1. 라이브러리 준비
from pycaret.datasets import get_data
from pycaret.clustering import setup, create_model

# 2. 데이터 불러오기
wholesale_df = get_data('wholesale')

# 3. 군집화 실험 환경 설정
# Target 변수가 없으므로 target 파라미터를 지정하지 않습니다!
clu_experiment = setup(data=wholesale_df, session_id=123)

# 4. K-Means 군집 모델 생성
# PyCaret의 기본 설정에 따라 4개의 군집(n_clusters=4)을 생성합니다.
kmeans_model = create_model('kmeans')

# 5. 생성된 모델 확인
# create_model이 반환하는 테이블은 Jupyter Notebook에서 자동으로 출력됩니다.
# 아래 코드는 생성된 모델 객체 자체를 확인하는 코드입니다.
print(kmeans_model)

코드 실행 결과 미리보기

`setup()` 실행 후 나타나는 정보 테이블

Target 관련 항목이 없고, 데이터를 학습/테스트용으로 나누지 않아 train set shape 항목이 없는 것을 볼 수 있습니다.

	Description	Value
0	Session id	123
1	Original data shape	(440, 8)
2	Transformed data shape	(440, 8)
3	Numeric features	8
...	...	...
12	USI	0437

`create_model('kmeans')` 실행 결과

K-Means 모델이 생성된 후, 군집 모델을 위한 새로운 평가지표들이 담긴 테이블이 출력됩니다.