<aside>
</aside>
ํต์ฌ ์ํฌํ๋ก์ฐ ๋ง์คํฐ ๊ณผ์ ์ ํต๊ณผํ์ ๊ฒ์ ์ถํํฉ๋๋ค! ์ด์ ์ฌ๋ฌ๋ถ์ PyCaret์ ๊ธฐ๋ณธ๊ธฐ๋ฅผ ๋ชจ๋ ๊ฐ์ท์ต๋๋ค. ์ง๊ธ๋ถํฐ๋ ๊ทธ ๊ธฐ์ ๋ค์ ์ค์ ๋น์ฆ๋์ค ๋ฌธ์ ์ ์ ์ฉํ๋ ์ค์ ํ๋ก์ ํธ๋ฅผ ์์ํฉ๋๋ค. ์ฒซ ๋ฒ์งธ ํ๋ก์ ํธ๋ ๋ฐ๋ก '๊ณ ๊ฐ์ ์ฃผ์ค ๊ตฌ๋งค ์๋๋ฅผ ์์ธก'ํ๋ ๊ฒ์ ๋๋ค. ์ด๋ฒ ์๊ฐ์๋ ํ๋ก์ ํธ์ ๋ชฉํ๋ฅผ ๋ช ํํ ์ ์ํ๊ณ , ๋ณธ๊ฒฉ์ ์ธ ๋ชจ๋ธ๋ง์ ์์ ๋ฐ์ดํฐ์ ์์ด์ ๊น์ด ๋ค์ฌ๋ค๋ณด๋ **ํ์์ ๋ฐ์ดํฐ ๋ถ์(EDA)**์ ์ํํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ๊ฒ ์ต๋๋ค. ์ง์ ํ ๋ฐ์ดํฐ ๊ณผํ์๋ก์ ์ฒซ๊ฑธ์, ํจ๊ป ๋ด๋๋ ๋ณผ๊น์?
pycaret.regression
๋ชจ๋์์ pycaret.classification
๋ชจ๋๋ก ์ ํํ์ฌ ์ฌ์ฉํ ์ ์์ต๋๋ค.ydata-profiling
๊ณผ ๊ฐ์ ์ ๋ฌธ์ ์ธ ์ธ๋ถ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ์ฌ ์๋ํ๋ **ํ์์ ๋ฐ์ดํฐ ๋ถ์(EDA)**์ ์ํํ ์ ์์ต๋๋ค.๐ก ์ด ์ฑํฐ์์๋ ๋ชจ๋ธ๋ง์ ํ์ง ์์ต๋๋ค. ๋์ , ๋ฐ์ดํฐ ์์ฒด๋ฅผ ์ดํดํ๋ ๋ฐ ์ง์คํฉ๋๋ค. ydata-profiling ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ ๋จ ๋ช ์ค์ ์ฝ๋๋ก ๋งค์ฐ ์์ธํ ๋ฐ์ดํฐ ๋ถ์ ๋ฆฌํฌํธ๋ฅผ ์์ฑํฉ๋๋ค.
# 1. ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ค๋น
import pandas as pd
from pycaret.datasets import get_data
from ydata_profiling import ProfileReport # EDA๋ฅผ ์ํ ์ ๋ฌธ ๋๊ตฌ
# ydata-profiling์ด ์ค์น๋์ด ์์ง ์๋ค๋ฉด, ๋จผ์ ์ค์นํด์ฃผ์ธ์.
# !pip install ydata-profiling
# 2. ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ (๋ถ๋ฅ ์์ 'juice' ๋ฐ์ดํฐ์
)
juice_df = get_data('juice')
# 3. EDA ๋ฆฌํฌํธ ์์ฑ
# ๋ฐ์ดํฐ์ ๋ชจ๋ ํต๊ณ, ๋ถํฌ, ๊ด๊ณ๋ฅผ ๋ถ์ํ ๋ฆฌํฌํธ๋ฅผ ์์ฑํฉ๋๋ค.
profile = ProfileReport(juice_df, title="์ฃผ์ค ๊ตฌ๋งค ๋ฐ์ดํฐ EDA ๋ฆฌํฌํธ")
# 4. ๋ฆฌํฌํธ ํ์ธ (Jupyter Notebook ํ๊ฒฝ)
# ์์ฑ๋ ๋ฆฌํฌํธ๋ฅผ ์ธํฐ๋ํฐ๋ธ ์์ ฏ ํํ๋ก ์ถ๋ ฅํฉ๋๋ค.
profile
profile
์คํ ๊ฒฐ๊ณผ์๋์ ๊ฐ์ด Jupyter Notebook ์ ์์์ ๋ฐ์ดํฐ์ ๊ฐ์, ๋ณ์๋ณ ์์ธ ์ ๋ณด, ๋ณ์ ๊ฐ ์ํธ์์ฉ, ์๊ด๊ด๊ณ, ๊ฒฐ์ธก์น ๋ฑ์ ๋ชจ๋ ํ์ํ ์ ์๋ ์ธํฐ๋ํฐ๋ธ HTML ๋ฆฌํฌํธ๊ฐ ์์ฑ๋ฉ๋๋ค.