<aside>
</aside>
4๊ฐ์์ ์ฐ๋ฆฌ ์คํ์ '์ค๊ณ๋'๋ฅผ ๊ทธ๋ ธ๋ค๋ฉด, ์ด๋ฒ ์๊ฐ์๋ ๊ทธ ์ค๊ณ๋๋ฅผ ๋ฐํ์ผ๋ก ์ต์ฒจ๋จ '์๋ํ ์ค๋น'๋ฅผ ๊ตฌ์ถํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์๋๋ค. ์ค์ ๋ฐ์ดํฐ๋ ๊ฒฐ์ธก์น, ์ด์์น ๋ฑ ์ ์ ๋์ง ์์ ๊ฒฝ์ฐ๊ฐ ๋๋ถ๋ถ์ด์ฃ . setup()
ํจ์๊ฐ ์ ๊ณตํ๋ ๊ฐ๋ ฅํ ์ ์ฒ๋ฆฌ ๊ธฐ๋ฅ๋ค์ ํ์ฉํด ์ด๋ฐ ๋ฌธ์ ๋ค์ ํด๊ฒฐํ๊ณ , ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ต๋ํ์ผ๋ก ๋์ด์ฌ๋ฆด ์ ์๋ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ๋ง๋ค์ด ๋ณด๊ฒ ์ต๋๋ค. ์ด์ ์ฌ๋ฌ๋ถ์ ๋ถ์์ ํ ๋จ๊ณ ๋ ์ ๊ตํด์ง ๊ฒ๋๋ค!
numeric_imputation
, categorical_imputation
ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค.get_config()
ํจ์๋ฅผ ์ฌ์ฉํด ์ ์ฒ๋ฆฌ๊ฐ ์๋ฃ๋ ๋ฐ์ดํฐ๋ฅผ ์ง์ ๋์ผ๋ก ํ์ธํ๊ณ , ๋ณํ๋ฅผ ์ค๋ช
ํ ์ ์์ต๋๋ค.๐ก 4๊ฐ์ setup() ์ฝ๋์ ๊ณ ๊ธ ์ ์ฒ๋ฆฌ ํ๋ผ๋ฏธํฐ๋ฅผ ์ถ๊ฐํ์ฌ, ๋์ฑ ์ ๊ตํ ์คํ ํ๊ฒฝ์ ๊ตฌ์ถํฉ๋๋ค. get_config()๋ก ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ๋ ๊ฒ์ด ์ด๋ฒ ๊ฐ์์ ํต์ฌ์ ๋๋ค!
# 1. ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ค๋น
from pycaret.datasets import get_data
from pycaret.regression import setup, get_config
# 2. ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ
insurance_df = get_data('insurance')
# 3. ๊ณ ๊ธ ์ ์ฒ๋ฆฌ๊ฐ ํฌํจ๋ ์คํ ํ๊ฒฝ ์ค์
# ๋จผ์ ๊ธฐ๋ณธ ์ ์ฒ๋ฆฌ๋ง ์ ์ฉ๋ ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ๊ณ ,
# ์ดํ normalize, transformation ๋ฑ ๊ณ ๊ธ ํ๋ผ๋ฏธํฐ์ ํจ๊ณผ๋ฅผ ์์๋ด
๋๋ค.
pro_reg_experiment = setup(
data = insurance_df,
target = 'charges',
session_id = 123,
# --- 5๊ฐ์์ ์ถ๊ฐ/๋ณ๊ฒฝ๋๋ ํ๋ผ๋ฏธํฐ๋ค ---
numeric_imputation = 'mean', # ์์นํ ๊ฒฐ์ธก์น๋ 'ํ๊ท ๊ฐ'์ผ๋ก ์ฑ์ฐ๊ธฐ
ignore_features = ['region'], # region ๋ณ์๋ ๋ถ์์์ ์ ์ธ
# ์๋ ํ๋ผ๋ฏธํฐ๋ค์ ๊ฐ๋
ํ์ต ํ, ์ ์ฉํ์ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณ๋๋ก ํ์ธํฉ๋๋ค.
# normalize = True,
# transformation = True,
# remove_outliers = True,
)
# 4. ๋ณํ๋ ํ์ต ๋ฐ์ดํฐ ํ์ธํ๊ธฐ
transformed_train_df = get_config('X_train_transformed')
print("--- ์๋ณธ ๋ฐ์ดํฐ ---")
print(insurance_df.head())
print("\\n--- ๋ณํ ํ ๋ฐ์ดํฐ (๊ธฐ๋ณธ ์ ์ฒ๋ฆฌ) ---")
print(transformed_train_df.head())
insurance_df.head()
) age sex bmi children smoker region charges
0 19 female 27.900 0 yes southwest 16884.92400
1 18 male 33.770 1 no southeast 1725.55230
2 28 male 33.000 3 no southeast 4449.46200
3 33 male 22.705 0 no northwest 21984.47061
4. 32 male 28.880 0 no northwest 3866.85520
setup()
์คํ ํ ๋ํ๋๋ ์ ๋ณด ํ
์ด๋ธ (๊ธฐ๋ณธ ์ ์ฒ๋ฆฌ)Numeric imputation์ด mean์ผ๋ก ์ค์ ๋๊ณ , ์์ง ๋ค๋ฅธ ๊ณ ๊ธ ๊ธฐ๋ฅ์ ์ ์ฉ๋์ง ์์ ์ํ์ ๋๋ค.