<aside>
</aside>
๋ชจ๋ ๋ฐ์ดํฐ ๋ถ์์ '๋ฐ์ดํฐ' ๊ทธ ์์ฒด์์ ์์ํฉ๋๋ค. ํ๋ฅญํ ์๋ฆฌ์ฌ๊ฐ ์ข์ ์ฌ๋ฃ๋ฅผ ๊ณ ๋ฅด๋ ๊ฒ์ฒ๋ผ, ์ฐ๋ฆฌ๋ ๋ถ์์ ์ฌ์ฉํ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ๋ฒ์ ์์์ผ ํ์ฃ . ์ด๋ฒ ์๊ฐ์๋ PyCaret์ด ์ ๊ณตํ๋ ํธ๋ฆฌํ ๋ด์ฅ ๋ฐ์ดํฐ์ ์ ๋ถ๋ฌ์ค๋ ๋ฐฉ๋ฒ๊ณผ, ์ ๋ฌธ๊ฐ๋ผ๋ฉด ๋ฐ๋์ ์์์ผ ํ ๋ฐ์ดํฐ ์ ์๊ถ์ ๋ํด ๊น์ด ์๊ฒ ๋ค๋ค๋ณผ ๊ฒ๋๋ค. ์์นซํ๋ฉด ๊ฐ๊ณผํ๊ธฐ ์ฝ์ง๋ง, ์ฌ๋ฌ๋ถ์ ์ง์ ํ ํ๋กํ์ ๋๋ก ๋ง๋ค์ด ์ค ์์ฃผ ์ค์ํ ๋ด์ฉ์ด๋ ์ง์คํด ์ฃผ์ธ์!
get_data()
ํจ์๋ฅผ ์ฌ์ฉํ์ฌ PyCaret์ ๋ด์ฅ๋ ์ฐ์ต์ฉ ๋ฐ์ดํฐ์
๋ชฉ๋ก์ ํ์ธํ๊ณ ๋ถ๋ฌ์ฌ ์ ์์ต๋๋ค.๐ก get_data() ํจ์ ํ๋๋ง์ผ๋ก PyCaret์ด ์ ๊ณตํ๋ 50๊ฐ ์ด์์ ๋ค์ํ ๋ฐ์ดํฐ์ ์ ์์ ๋กญ๊ฒ ํ์ํ๊ณ ๋ถ๋ฌ์ฌ ์ ์์ต๋๋ค.
# 1. ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ค๋น
from pycaret.datasets import get_data
# 2. ์ฌ์ฉ ๊ฐ๋ฅํ ์ ์ฒด ๋ฐ์ดํฐ์
๋ชฉ๋ก ํ์ธํ๊ธฐ
# ๊ฒฐ๊ณผ๋ pandas DataFrame ํํ๋ก ์ ๊ณต๋ฉ๋๋ค.
available_datasets = get_data('index')
print(available_datasets)
# 3. ํน์ ๋ฐ์ดํฐ์
(juice) ๋ถ๋ฌ์ค๊ธฐ
# 'juice' ๋ฐ์ดํฐ์
์ ๋ถ๋ฌ์ juice_df ๋ณ์์ ์ ์ฅํฉ๋๋ค.
juice_df = get_data('juice')
# 4. ๋ถ๋ฌ์จ ๋ฐ์ดํฐ ํ์ธํ๊ธฐ (์์ 5๊ฐ ํ)
# ์ผ๋ฐ์ ์ธ pandas DataFrame๊ณผ ๋๊ฐ์ด ๋ค๋ฃฐ ์ ์์ต๋๋ค.
print(juice_df.head())
get_data('index')
์คํ ๊ฒฐ๊ณผ์ ์ฒด ๋ฐ์ดํฐ์ ๋ชฉ๋ก๊ณผ ๊ฐ ๋ฐ์ดํฐ์ ์ ๋ณด๊ฐ DataFrame์ผ๋ก ์ถ๋ ฅ๋ฉ๋๋ค.
Dataset Data Types ... # Attributes Missing Values
0 anomaly Multivariate ... 10 N
1 france Multivariate ... 8 N
2 germany Multivariate ... 8 N
3 bank Multivariate ... 17 N
4 blood Multivariate ... 5 N
.. ... ... ... ... ...
51 gold Multivariate ... 121 N
52 house Multivariate ... 81 Y
53 insurance Multivariate ... 7 N
54 parkinsons Multivariate ... 22 N
55 traffic Multivariate ... 8 N
[56 rows x 8 columns]
get_data('juice').head()
์คํ ๊ฒฐ๊ณผ'juice' ๋ฐ์ดํฐ์ ์ด ์ฑ๊ณต์ ์ผ๋ก ๋ก๋๋์ด ์์ 5๊ฐ ํ์ด ์ถ๋ ฅ๋ฉ๋๋ค.