📖 챕터 소개

앞선 두 프로젝트에서 우리는 '정답'이 있는 데이터를 가지고 미래를 예측하는 **지도 학습(Supervised Learning)**의 세계를 탐험했습니다. 하지만 만약 우리에게 정답지가 없다면 어떨까요? 데이터 속에 숨겨진 보물을 직접 찾아내야 한다면요? 이번 시간부터 우리는 **비지도 학습(Unsupervised Learning)**이라는 새로운 영역에 도전합니다. 첫 번째 과제는 도매업자의 고객 데이터를 바탕으로, 비슷한 구매 패턴을 가진 고객 그룹을 찾아내는 '고객 세분화(Customer Segmentation)' 프로젝트입니다. 정답 없는 데이터 속에서 숨겨진 질서를 발견하는 흥미로운 여정을 시작해 봅시다!

🎯 챕터 목표

**지도 학습(Supervised Learning)**과 **비지도 학습(Unsupervised Learning)**의 근본적인 차이점을 설명할 수 있습니다.
**군집화(Clustering)**를 비지도 학습의 한 종류로 이해하고, 비즈니스 적용 사례를 설명할 수 있습니다.
pycaret.clustering 모듈을 사용하여 비지도 학습 프로젝트를 시작할 준비를 할 수 있습니다.

💻 이번 챕터의 전체 코드 및 프로젝트 구조

이번 챕터의 핵심 코드

💡 이번 시간은 개념 이해가 중요하므로 코드는 간단합니다. 데이터를 불러와 구조를 살펴보며, 가장 중요한 특징인 **'타겟 변수의 부재'**를 직접 확인합니다.

# 1. 라이브러리 준비
from pycaret.datasets import get_data
# 이번엔 군집 분석이므로 clustering 모듈을 사용합니다.
from pycaret.clustering import *

# 2. 데이터 불러오기 ('wholesale' 데이터셋)
wholesale_df = get_data('wholesale')

# 3. 데이터 확인
# 'Channel', 'Region' 외에는 모두 제품 카테고리별 연간 지출액입니다.
# 우리가 예측해야 할 '정답(Target)' 컬럼이 존재하지 않습니다!
print(wholesale_df.head())

코드 실행 결과 미리보기

`wholesale_df.head()` 실행 결과

Fresh, Milk, Grocery 등 각 고객이 상품 카테고리별로 얼마나 지출했는지에 대한 데이터만 있을 뿐, 이 고객이 '우수 고객'인지 '이탈 위험 고객'인지 알려주는 정답 컬럼이 없습니다.

   Channel  Region  Fresh  Milk  Grocery  Frozen  Detergents_Paper  Delicassen
0        2       3  12669  9656     7561     214              2674        1338
1        2       3   7057  9810     9568    1762              3293        1776
2        2       3   6353  8808     7684    2405              3516        7844
3        1       3  13265  1196     4221    6404               507        1788
4.       2       3  22615  5410     7198    3915              1777        5185

지도 학습 vs 비지도 학습

graph TD
    subgraph "지도 학습 (Supervised Learning) 🧠"
        A["입력 데이터 (Features)"] -- 정답과 함께 --> C{모델 학습};
        B["정답 (Target)"] --> C;
        C --> D[예측 모델];
    end

    subgraph "비지도 학습 (Unsupervised Learning) 🗺️"
        E["입력 데이터 (Features only)"] -- 정답 없이 --> F{모델 학습};
        F --> G["데이터의 구조 발견 (예: 고객 그룹)"];
    end