<aside>
</aside>
์ฒซ ๋ฒ์งธ ๋ถ๋ฅ ํ๋ก์ ํธ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์์ํ์ ๊ฒ์ ์ถํํฉ๋๋ค! ์ด์ ์ฐ๋ฆฌ๋ ์๋ก์ด ๋์ ์ ์์ํฉ๋๋ค. ์ด๋ฒ์๋ ๊ณ ๊ฐ์ ํน์ฑ์ ๋ฐํ์ผ๋ก ๋ฏธ๋์ ์๋ฃ ๋ณดํ๋น๋ฅผ ์์ธกํ๋ ํ๊ท(Regression) ํ๋ก์ ํธ์ ๋๋ค. ๋ถ๋ฅ๊ฐ '์นดํ ๊ณ ๋ฆฌ'๋ฅผ ๋ง์ถ๋ ๋ฌธ์ ์๋ค๋ฉด, ํ๊ท๋ '์ฐ์๋ ์ซ์'๋ฅผ ์์ธกํ๋ ๋ฌธ์ ์ฃ . ํ๋ก์ ํธ์ ์ฒซ ๋จ์ถ๋ ์ธ์ ๋ ๊ทธ๋ ๋ฏ, ๋ฌธ์ ๋ฅผ ๋ช ํํ ์ ์ํ๊ณ **ํ์์ ๋ฐ์ดํฐ ๋ถ์(EDA)**์ ํตํด ๋ฐ์ดํฐ๋ฅผ ๊น์ด ์ดํดํ๋ ๊ฒ์ ๋๋ค. ์ด๋ฒ ๋ฐ์ดํฐ์๋ ์ด๋ค ์จ๊ฒจ์ง ์ด์ผ๊ธฐ๊ฐ ์์์ง ํจ๊ป ํํค์ณ ๋ด ์๋ค!
insurance
๋ฐ์ดํฐ์
์ ๋ํด ydata-profiling
์ ์ฌ์ฉํ์ฌ EDA๋ฅผ ์ํํ ์ ์์ต๋๋ค.setup
ํจ์์ transform_target
ํ๋ผ๋ฏธํฐ์ ์ญํ ์ ์ดํดํฉ๋๋ค.๐ก 10๊ฐ์์์ ๋ง์ฐฌ๊ฐ์ง๋ก, ์ด๋ฒ ์๊ฐ์ ๋ชฉํ๋ ๋ชจ๋ธ๋ง์ด ์๋ ๋ฐ์ดํฐ ์์ฒด๋ฅผ ์ดํดํ๋ ๊ฒ์ ๋๋ค. ydata-profiling์ ์ฌ์ฉํด ์๋ก์ด ๋ฐ์ดํฐ์ ์ ํ์ํฉ๋๋ค.
# 1. ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ค๋น
from pycaret.datasets import get_data
from ydata_profiling import ProfileReport
# ydata-profiling์ด ์ค์น๋์ด ์์ง ์๋ค๋ฉด, ๋จผ์ ์ค์นํด์ฃผ์ธ์.
# !pip install ydata-profiling
# 2. ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ (ํ๊ท ์์ 'insurance' ๋ฐ์ดํฐ์
)
insurance_df = get_data('insurance')
# 3. EDA ๋ฆฌํฌํธ ์์ฑ
profile = ProfileReport(insurance_df, title="์๋ฃ ๋ณดํ๋น ๋ฐ์ดํฐ EDA ๋ฆฌํฌํธ")
# 4. ๋ฆฌํฌํธ ํ์ธ (Jupyter Notebook ํ๊ฒฝ)
profile
profile
์คํ ๊ฒฐ๊ณผydata-profiling ๋ฆฌํฌํธ๊ฐ ์์ฑ๋ฉ๋๋ค. ํนํ charges ๋ณ์์ ๋ถํฌ(Distribution)๋ฅผ ์ ์ฌํ ์ดํด๋ณด์ธ์.
charges
๋ณ์์ ๋ถํฌ๋ฆฌํฌํธ์์ ๋ณผ ์ ์๋ฏ์ด, ๋๋ถ๋ถ์ ์ฌ๋๋ค์ ์๋ฃ๋น๊ฐ ๋ฎ๊ณ (์ผ์ชฝ์ผ๋ก ์น์ฐ์นจ), ์ผ๋ถ ์์์ ์ฌ๋๋ค๋ง ๋งค์ฐ ๋์ ์๋ฃ๋น๋ฅผ ์ง์ถํ๋ ์ค๋ฅธ์ชฝ์ผ๋ก ๊ธด ๊ผฌ๋ฆฌ(right-skewed) ํํ๋ฅผ ๋ฑ๋๋ค.