์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Kaggle
- ๋ฆฌ์กํธ
- ๋ฐ์ดํฐ๋ถ์
- ๋ค์ดํฐ๋ธ
- react
- ๋จธ์ ๋ฌ๋
- ๋ถ์
- nlp
- ์ธํ๋ฐ
- ๋ฅ๋ฌ๋
- ๋ฐ์ดํฐ
- AI
- ๊นํ
- cs231n
- ์ํ์ฝ๋ฉ
- ์๋ฒ ๋ฉ
- ๋ฐฑ์ค
- ํ์ดํ๋
- c++
- Titanic
- ๋์
- ์๋๋ก์ด๋์คํ๋์ค
- Git
- linearalgebra
- native
- ์๊ณ ๋ฆฌ์ฆ
- ์ ํ๋์ํ
- ๊ฒฐ์ ํธ๋ฆฌ
- ๋ฐ์ดํฐ์๊ฐํ
- ํ๊ตญ์ด์๋ฒ ๋ฉ
- Today
- Total
yeon's ๐ฉ๐ป๐ป
[kaggle] ํ์ดํ๋(titanic) | 1. Dataset Check ๋ณธ๋ฌธ
[kaggle] ํ์ดํ๋(titanic) | 1. Dataset Check
yeon42 2021. 7. 26. 07:17์ฒ์ ๋ค๋ค๋ณด๋ kaggle
์๋ youtube๋ฅผ ์ฐธ๊ณ ํ์ฌ ๋ฐ๋ผํ๋ ์ค์ต์ ๋๋ค.
๋ฐ์ดํฐ ๋ถ์์ ๊ณต๋ถํ๊ธฐ๋ก ๋ง์ ๋จน์์ง ๋ช ์ฃผ๊ฐ ๋์๊ณ ์ธํ๋ฐ์์ ๊ธฐ์ด ๊ฐ์๋ฅผ ๋ฃ๋ ์ค์ธ๋ฐ
์๋ก ๋ค์ด๊ฐ ์คํฐ๋์์ ์กฐ์ ๋ถ์ด ์ถ์ฒํ์ ์ฌ์ดํธ๋ฅผ ์ฐธ๊ณ ํ์ฌ ๋ชจ๋ธ๋ง์ ํด๋ณด๋ฉฐ ์ง์ ์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ค๋ค๋ณด๊ธฐ ์ํด ์ค์ต์ ํด๋ณด๋ ค๊ณ ํ๋ค.
https://www.youtube.com/watch?v=_iqz7tFhox0&list=PLC_wC_PMBL5MnqmgTLqDgu4tO8mrQakuF&index=1
- ๋ฐ์ดํฐ ๋ถ์ ๋๊ตฌ(pandas, numpy), ์ฌ๋ฌ ์๊ฐํ ๋๊ตฌ(matplotlib, seaborn, plotly) ๋ชจ๋ import ํ๊ธฐ
- ์์ผ๋ก ๋์ฌ warnings๋ฅผ ๋ฌด์
1. Dataset ํ์ธ
- null data๋ฅผ ํ์ธํ๊ธฐ
- df_train์์ ์ฐ๋ฆฌ๊ฐ ์์ธกํ๋ ค๋ target label์ Survived์ด๋ค.
- describe()์ผ๋ก ํต๊ณ์น๋ฅผ ํ์ธํด๋ณด๋, null data๊ฐ ์กด์ฌํ๋ ์ด(feature)์ด ์๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.
1.1 Null data check
- Train Set : Age(19.87%), Cabin(77.10%), Embarked(0.22%)
- Test Set : Age(20.57%), Cabin(78.23%)
์์ null data ์กด์ฌ
* msno ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ด์ฉํด null data ํ์ธํ๊ธฐ
- iloc (index location) : pandas์ ๋ฌธ๋ฒ ์ค ํ๋
- ๋ด๊ฐ ์ํ๋ ์์น์ dataframe์ ๊ฐ์ ธ์ด
- iloc[:, :] : ์ฒ์๋ถํฐ ๋๊น์ง
'Computer ๐ป > ๋ฐ์ดํฐ ๋ถ์' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๋ฐ์ดํฐ ๋ถ์] ์ฐ๋๋ณ/์ง์ญ๋ณ ์๊ฐํ (0) | 2021.07.26 |
---|---|
[๋ฐ์ดํฐ ๋ถ์] concat์ผ๋ก ํฉ์น๊ธฐ, heatmap (0) | 2021.07.26 |
[๋ฐ์ดํฐ ๋ถ์] ๋ถ๋ฆฌํ๊ธฐ (์ฐ/์) (0) | 2021.07.24 |
[๋ฐ์ดํฐ ๋ถ์] ๋ฐ์ดํฐ ํฉ์น๊ธฐ (melt) (0) | 2021.07.24 |
[๋ฐ์ดํฐ ๋ถ์] ๋ฐ์ดํฐ ์๊ฐํ | ํ์คํ ๊ทธ๋จ, distplot(displot) (0) | 2021.07.24 |