<aside>
</aside>
λλμ΄ PyCaretμ μ¬μ₯μ΄λΌ ν μ μλ setup()
ν¨μλ₯Ό λ§λ μκ°μ
λλ€! setup()
μ μ°λ¦¬κ° μ§νν λͺ¨λ λ¨Έμ λ¬λ μ€νμ 'μ€κ³λ'λ₯Ό 그리λ κ³Όμ μ
λλ€. μ΄λ€ λ°μ΄ν°λ₯Ό μ¬μ©ν μ§, 무μμ μμΈ‘ν μ§, λ°μ΄ν°λ μ΄λ»κ² λλμ§ λ± λΆμμ ν° λ°©ν₯μ κ²°μ νλ κ°μ₯ μ€μν 첫 λ¨μΆμ΄μ£ . μ΄λ² μκ°μλ μ΄ κ°λ ₯ν ν¨μμ κΈ°λ³Έμ μΈ μ¬μ©λ²μ λ§μ€ν°νμ¬, μ°λ¦¬μ λΆμ νλ‘μ νΈλ₯Ό μν μλ²½ν μ²μ¬μ§μ κ·Έλ €λ³΄κ² μ΅λλ€. μ΄μ μ§μ§ λΆμμ μΈκ³λ‘ λ°μ΄λ€μ΄λ³ΌκΉμ?
setup()
ν¨μμμ μμλλ€λ κ²μ μ΄ν΄ν©λλ€.data
, target
, session_id
λ± μ€νμ μ μνλ ν΅μ¬ νλΌλ―Έν°μ μν μ μ€λͺ
ν μ μμ΅λλ€.train_size
νλΌλ―Έν°λ₯Ό μ΄μ©ν΄ νμ΅ λ° ν
μ€νΈ λ°μ΄ν°μ λΆν λΉμ¨μ μ§μ μ μ΄ν μ μμ΅λλ€.categorical_features
, numeric_features
λ±μ μ¬μ©ν΄ PyCaretμ μλ λ°μ΄ν° νμ
μΆλ‘ μ μλμΌλ‘ 보μ ν μ μμ΅λλ€.π‘ insurance λ°μ΄ν°μ μ μ¬μ©ν΄ νκ·(regression) λΆμμ μν μ€ν νκ²½μ μ€κ³ν©λλ€. setup() ν¨μμ λ€μν νλΌλ―Έν°λ₯Ό λ겨주며 μ΄λ»κ² μ€νμ΄ κ΅¬μ²΄νλλμ§ νμΈν΄ 보μΈμ.
# 1. λΌμ΄λΈλ¬λ¦¬ μ€λΉ
from pycaret.datasets import get_data
# μ΄λ²μ νκ· λΆμμ΄λ―λ‘ regression λͺ¨λμμ setupμ λΆλ¬μ΅λλ€.
from pycaret.regression import setup
# 2. λ°μ΄ν° λΆλ¬μ€κΈ°
insurance_df = get_data('insurance')
print(insurance_df.head()) # μλ³Έ λ°μ΄ν°λ₯Ό λ¨Όμ νμΈν©λλ€.
# 3. μ€ν μ€κ³ λ° νκ²½ μ€μ
# charges(보νλ£)λ₯Ό μμΈ‘νλ νκ· λͺ¨λΈ μ€νμ μ€κ³ν©λλ€.
reg_experiment = setup(
data = insurance_df, # μ¬μ©ν λ°μ΄ν°νλ μ
target = 'charges', # μμΈ‘ν λͺ©ν λ³μ
session_id = 123, # κ²°κ³Ό μ¬νμ μν μλ(seed) κ°
train_size = 0.8, # νμ΅ λ°μ΄ν° λΉμ¨ 80%
categorical_features = ['smoker'], # 'smoker'λ λ²μ£Όν λ³μμμ λͺ
μ
numeric_features = ['age', 'bmi'], # 'age', 'bmi'λ μμΉν λ³μμμ λͺ
μ
ignore_features = ['region'] # 'region' λ³μλ λΆμμμ μ μΈ
)
insurance_df.head()
) age sex bmi children smoker region charges
0 19 female 27.900 0 yes southwest 16884.92400
1 18 male 33.770 1 no southeast 1725.55230
2 28 male 33.000 3 no southeast 4449.46200
3 33 male 22.705 0 no northwest 21984.47061
4 32 male 28.880 0 no northwest 3866.85520
setup()
μ€ν ν λνλλ μ 보 ν
μ΄λΈμ°λ¦¬κ° μ€μ ν νλΌλ―Έν°μ λ°λΌ μ€ν νκ²½μ΄ μ΄λ»κ² ꡬμ±λμλμ§ μμΈν '리ν¬νΈ'λ₯Ό 보μ¬μ€λλ€.