📖 챕터 소개

지금까지 우리는 데이터를 준비하고, 수많은 모델을 비교하고, 챔피언 모델을 튜닝하고, 그 성능을 다각도로 분석했습니다. 정말 긴 여정이었죠! 이제 그 모든 노력의 결실을 맺을 시간입니다. 이번 시간에는 우리가 만든 최고의 모델을 가지고 실제 예측을 수행하는 방법과, 모델을 실제 서비스에 배포할 수 있는 상태로 '패키징'하는 방법을 배울 겁니다. 분석에서 실제 가치 창출로 이어지는, 가장 실용적이고 중요한 마지막 단계에 오신 것을 환영합니다!

🎯 챕터 목표

predict_model() 함수를 사용해 홀드아웃(테스트) 데이터와 완전히 새로운 데이터에 대한 예측을 수행할 수 있습니다.
모델 배포 전, 전체 데이터로 모델을 다시 학습시키는 finalize_model()의 목적과 중요성을 이해합니다.
save_model()과 load_model()을 사용하여, 전처리 과정을 포함한 전체 모델 파이프라인을 저장하고 불러올 수 있습니다.

💻 이번 챕터의 전체 코드 및 프로젝트 구조

이번 챕터의 핵심 코드

💡 7강에서 튜닝한 모델을 가지고 최종 성능을 검증하고, 새로운 데이터에 대한 예측을 수행한 뒤, 배포를 위해 파일로 저장하고 다시 불러와 검증하는 전체 과정을 다룹니다.

# 1. 라이브러리 준비
import pandas as pd
from pycaret.datasets import get_data
from pycaret.regression import setup, create_model, tune_model, predict_model, finalize_model, save_model, load_model

# 2. 데이터 로드 및 실험 환경 설정
df = get_data('insurance')
setup(data=df, target='charges', session_id=123, fold_shuffle=True)

# 3. 모델 생성 및 튜닝
base_model = create_model('gbr', verbose=False) # 표 중복 출력을 막기 위해 verbose=False
tuned_model = tune_model(base_model, optimize = 'R2', n_iter=200, verbose=False)

# 4. 홀드아웃 데이터로 최종 성능 검증
print("--- 1. 홀드아웃 데이터셋 성능 검증 ---")
holdout_predictions = predict_model(tuned_model)

# 5. 배포를 위한 모델 최종 확정
final_model = finalize_model(tuned_model)

# 6. 모델 파이프라인 저장
save_model(final_model, 'final_insurance_model_pipeline')

# 7. 저장된 모델 불러오기 및 신규 데이터 예측
saved_pipeline = load_model('final_insurance_model_pipeline')

# 가상의 신규 데이터 생성 (target 컬럼이 없음)
new_data = pd.DataFrame({
    'age': [35, 50], 'sex': ['male', 'female'], 'bmi': [25.5, 30.2],
    'children': [1, 2], 'smoker': ['no', 'yes'], 'region': ['southwest', 'northeast']
})

new_predictions = predict_model(saved_pipeline, data=new_data)
print("\n--- 2. 저장된 파이프라인으로 신규 데이터 예측 결과 ---")
print(new_predictions)

코드 실행 결과 미리보기

1. `predict_model()` 실행 결과 (홀드아웃 데이터)

setup() 시 분리해 두었던 테스트 데이터에 대한 최종 성적표입니다. R2 점수가 0.8824로 매우 높게 나왔습니다.

--- 1. 홀드아웃 데이터셋 성능 검증 ---
                             Model      MAE           MSE        RMSE      R2  RMSLE   MAPE
0  Gradient Boosting Regressor  2460.3846  1.679865e+07   4098.6157  0.8824  0.3826  0.2926

`save_model()` & `load_model()` 실행 메시지

모델 파이프라인이 성공적으로 저장되고 다시 불러와졌음을 확인합니다.