<aside>

</aside>


πŸ“– 챕터 μ†Œκ°œ

λ“œλ””μ–΄ PyCaret의 심μž₯이라 ν•  수 μžˆλŠ” setup() ν•¨μˆ˜λ₯Ό λ§Œλ‚  μ‹œκ°„μž…λ‹ˆλ‹€! setup()은 μš°λ¦¬κ°€ μ§„ν–‰ν•  λͺ¨λ“  λ¨Έμ‹ λŸ¬λ‹ μ‹€ν—˜μ˜ '섀계도'λ₯Ό κ·Έλ¦¬λŠ” κ³Όμ •μž…λ‹ˆλ‹€. μ–΄λ–€ 데이터λ₯Ό μ‚¬μš©ν• μ§€, 무엇을 μ˜ˆμΈ‘ν• μ§€, λ°μ΄ν„°λŠ” μ–΄λ–»κ²Œ λ‚˜λˆŒμ§€ λ“± λΆ„μ„μ˜ 큰 λ°©ν–₯을 κ²°μ •ν•˜λŠ” κ°€μž₯ μ€‘μš”ν•œ 첫 단좔이죠. 이번 μ‹œκ°„μ—λŠ” 이 κ°•λ ₯ν•œ ν•¨μˆ˜μ˜ 기본적인 μ‚¬μš©λ²•μ„ λ§ˆμŠ€ν„°ν•˜μ—¬, 우리의 뢄석 ν”„λ‘œμ νŠΈλ₯Ό μœ„ν•œ μ™„λ²½ν•œ 청사진을 κ·Έλ €λ³΄κ² μŠ΅λ‹ˆλ‹€. 이제 μ§„μ§œ λΆ„μ„μ˜ μ„Έκ³„λ‘œ λ›°μ–΄λ“€μ–΄λ³ΌκΉŒμš”?


🎯 챕터 λͺ©ν‘œ


πŸ’» 이번 μ±•ν„°μ˜ 전체 μ½”λ“œ 및 ν”„λ‘œμ νŠΈ ꡬ쑰

이번 μ±•ν„°μ˜ 핡심 μ½”λ“œ

πŸ’‘ insurance 데이터셋을 μ‚¬μš©ν•΄ νšŒκ·€(regression) 뢄석을 μœ„ν•œ μ‹€ν—˜ ν™˜κ²½μ„ μ„€κ³„ν•©λ‹ˆλ‹€. setup() ν•¨μˆ˜μ— λ‹€μ–‘ν•œ νŒŒλΌλ―Έν„°λ₯Ό λ„˜κ²¨μ£Όλ©° μ–΄λ–»κ²Œ μ‹€ν—˜μ΄ κ΅¬μ²΄ν™”λ˜λŠ”μ§€ 확인해 λ³΄μ„Έμš”.

# 1. 라이브러리 μ€€λΉ„
from pycaret.datasets import get_data
# μ΄λ²ˆμ—” νšŒκ·€ λΆ„μ„μ΄λ―€λ‘œ regression λͺ¨λ“ˆμ—μ„œ setup을 λΆˆλŸ¬μ˜΅λ‹ˆλ‹€.
from pycaret.regression import setup

# 2. 데이터 뢈러였기
insurance_df = get_data('insurance')
print(insurance_df.head()) # 원본 데이터λ₯Ό λ¨Όμ € ν™•μΈν•©λ‹ˆλ‹€.

# 3. μ‹€ν—˜ 섀계 및 ν™˜κ²½ μ„€μ •
# charges(λ³΄ν—˜λ£Œ)λ₯Ό μ˜ˆμΈ‘ν•˜λŠ” νšŒκ·€ λͺ¨λΈ μ‹€ν—˜μ„ μ„€κ³„ν•©λ‹ˆλ‹€.
reg_experiment = setup(
    data = insurance_df,                   # μ‚¬μš©ν•  λ°μ΄ν„°ν”„λ ˆμž„
    target = 'charges',                    # μ˜ˆμΈ‘ν•  λͺ©ν‘œ λ³€μˆ˜
    session_id = 123,                      # κ²°κ³Ό μž¬ν˜„μ„ μœ„ν•œ μ‹œλ“œ(seed) κ°’
    train_size = 0.8,                      # ν•™μŠ΅ 데이터 λΉ„μœ¨ 80%
    categorical_features = ['smoker'],     # 'smoker'λŠ” λ²”μ£Όν˜• λ³€μˆ˜μž„μ„ λͺ…μ‹œ
    numeric_features = ['age', 'bmi'],     # 'age', 'bmi'λŠ” μˆ˜μΉ˜ν˜• λ³€μˆ˜μž„μ„ λͺ…μ‹œ
    ignore_features = ['region']           # 'region' λ³€μˆ˜λŠ” λΆ„μ„μ—μ„œ μ œμ™Έ
)

μ½”λ“œ μ‹€ν–‰ κ²°κ³Ό 미리보기

원본 데이터 확인 (insurance_df.head())

   age     sex     bmi  children smoker     region      charges
0   19  female  27.900         0    yes  southwest  16884.92400
1   18    male  33.770         1     no  southeast   1725.55230
2   28    male  33.000         3     no  southeast   4449.46200
3   33    male  22.705         0     no  northwest  21984.47061
4   32    male  28.880         0     no  northwest   3866.85520

setup() μ‹€ν–‰ ν›„ λ‚˜νƒ€λ‚˜λŠ” 정보 ν…Œμ΄λΈ”

μš°λ¦¬κ°€ μ„€μ •ν•œ νŒŒλΌλ―Έν„°μ— 따라 μ‹€ν—˜ ν™˜κ²½μ΄ μ–΄λ–»κ²Œ κ΅¬μ„±λ˜μ—ˆλŠ”μ§€ μƒμ„Έν•œ '리포트'λ₯Ό λ³΄μ—¬μ€λ‹ˆλ‹€.