📖 챕터 소개

10강에서 우리는 비즈니스 문제를 정의하고, 데이터에 대한 깊은 이해를 얻었습니다. 이제 드디어, 우리가 Part 2에서 갈고닦은 핵심 워크플로우(setup -> compare_models)를 실제 분류 프로젝트에 적용해 볼 시간입니다! 회귀 분석 때와 동일한 워크플로우를 사용하지만, 이번에는 '분류 문제'의 성능을 평가하는 새로운 지표들을 만나게 될 겁니다. 이 지표들을 이해하는 것이 이번 강의의 핵심입니다. 준비되셨나요? 다시 한번 마법 같은 자동화의 힘을 경험해 봅시다!

🎯 챕터 목표

setup() 함수를 사용하여 분류(Classification) 실험 환경을 올바르게 초기화할 수 있습니다.
compare_models() 함수를 사용하여 여러 분류 모델을 한 번에 학습하고 성능을 비교할 수 있습니다.
분류 모델 평가의 핵심 5대 지표인 Accuracy, AUC, Recall, Precision, F1-Score의 의미를 이해하고 해석할 수 있습니다.
주어진 문제 상황에 가장 적합한 평가지표를 기준으로 최고의 모델을 선택할 수 있습니다.

💻 이번 챕터의 전체 코드 및 프로젝트 구조

이번 챕터의 핵심 코드

💡 Part 2에서 배운 워크플로우와 거의 동일합니다. 단, 이제 pycaret.classification 모듈을 사용하고, sort의 기준이 분류 평가지표로 바뀐 점을 주목하세요.

# 1. 라이브러리 준비
from pycaret.datasets import get_data
from pycaret.classification import setup, compare_models

# 2. 데이터 불러오기
juice_df = get_data('juice')

# 3. 분류 실험 환경 설정
# target='Purchase'는 텍스트(CH/MM)이므로 PyCaret이 자동으로 '분류' 문제로 인식합니다.
clf_experiment = setup(data=juice_df, target='Purchase', session_id=786)

# 4. 모든 분류 모델 학습 및 비교
# Precision과 Recall의 조화평균인 F1 Score를 기준으로 정렬하여 최적 모델을 찾습니다.
best_model = compare_models(sort='F1')

코드 실행 결과 미리보기

`setup()` 실행 후 나타나는 정보 테이블

다른 것은 회귀 때와 비슷하지만, Target Type이 Binary로 설정된 것을 확인할 수 있습니다.

	Description	Value
0	Session id	786
1	Target	Purchase
2	Target type	Binary
3	Target mapping	CH: 0, MM: 1
4	Original data shape	(1070, 19)
5	Transformed data shape	(1070, 19)
6	Transformed train set shape	(749, 19)
7	Transformed test set shape	(321, 19)
...	...	...
22	USI	6510

📖 챕터 소개

🎯 챕터 목표

💻 이번 챕터의 전체 코드 및 프로젝트 구조

이번 챕터의 핵심 코드

코드 실행 결과 미리보기

setup() 실행 후 나타나는 정보 테이블

compare_models() 실행 후 나타나는 성능 비교 그리드

`setup()` 실행 후 나타나는 정보 테이블

`compare_models()` 실행 후 나타나는 성능 비교 그리드