๊ด€๋ฆฌ ๋ฉ”๋‰ด

yeon's ๐Ÿ‘ฉ๐Ÿป‍๐Ÿ’ป

[kaggle] ํƒ€์ดํƒ€๋‹‰(titanic) | 1. Dataset Check ๋ณธ๋ฌธ

Computer ๐Ÿ’ป/๋ฐ์ดํ„ฐ ๋ถ„์„

[kaggle] ํƒ€์ดํƒ€๋‹‰(titanic) | 1. Dataset Check

yeon42 2021. 7. 26. 07:17
728x90

์ฒ˜์Œ ๋‹ค๋ค„๋ณด๋Š” kaggle

์•„๋ž˜ youtube๋ฅผ ์ฐธ๊ณ ํ•˜์—ฌ ๋”ฐ๋ผํ•˜๋Š” ์‹ค์Šต์ž…๋‹ˆ๋‹ค.

 

๋ฐ์ดํ„ฐ ๋ถ„์„์„ ๊ณต๋ถ€ํ•˜๊ธฐ๋กœ ๋งˆ์Œ ๋จน์€์ง€ ๋ช‡ ์ฃผ๊ฐ€ ๋˜์—ˆ๊ณ  ์ธํ”„๋Ÿฐ์—์„œ ๊ธฐ์ดˆ ๊ฐ•์˜๋ฅผ ๋“ฃ๋Š” ์ค‘์ธ๋ฐ

์ƒˆ๋กœ ๋“ค์–ด๊ฐ„ ์Šคํ„ฐ๋””์—์„œ ์กฐ์› ๋ถ„์ด ์ถ”์ฒœํ•˜์‹  ์‚ฌ์ดํŠธ๋ฅผ ์ฐธ๊ณ ํ•˜์—ฌ ๋ชจ๋ธ๋ง์„ ํ•ด๋ณด๋ฉฐ ์ง์ ‘์ ์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ค„๋ณด๊ธฐ ์œ„ํ•ด ์‹ค์Šต์„ ํ•ด๋ณด๋ ค๊ณ  ํ•œ๋‹ค.

 

https://www.youtube.com/watch?v=_iqz7tFhox0&list=PLC_wC_PMBL5MnqmgTLqDgu4tO8mrQakuF&index=1 


 

- ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ(pandas, numpy), ์—ฌ๋Ÿฌ ์‹œ๊ฐํ™” ๋„๊ตฌ(matplotlib, seaborn, plotly) ๋ชจ๋“ˆ import ํ•˜๊ธฐ

- ์•ž์œผ๋กœ ๋‚˜์˜ฌ warnings๋ฅผ ๋ฌด์‹œ

 

 

 


 

 

1. Dataset ํ™•์ธ

- null data๋ฅผ ํ™•์ธํ•˜๊ธฐ

 

 

- df_train์—์„œ ์šฐ๋ฆฌ๊ฐ€ ์˜ˆ์ธกํ•˜๋ ค๋Š” target label์€ Survived์ด๋‹ค.

 

 

 

- describe()์œผ๋กœ ํ†ต๊ณ„์น˜๋ฅผ ํ™•์ธํ•ด๋ณด๋‹ˆ, null data๊ฐ€ ์กด์žฌํ•˜๋Š” ์—ด(feature)์ด ์žˆ๋Š” ๊ฒƒ์œผ๋กœ ๋ณด์ธ๋‹ค.

 

 

 

 

1.1 Null data check

 

 

- Train Set : Age(19.87%), Cabin(77.10%), Embarked(0.22%)

- Test Set : Age(20.57%), Cabin(78.23%)

  ์—์„œ null data ์กด์žฌ

 

 

 

 

 

* msno ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์ด์šฉํ•ด null data ํ™•์ธํ•˜๊ธฐ

 

- iloc (index location) : pandas์˜ ๋ฌธ๋ฒ• ์ค‘ ํ•˜๋‚˜

  - ๋‚ด๊ฐ€ ์›ํ•˜๋Š” ์œ„์น˜์˜ dataframe์„ ๊ฐ€์ ธ์˜ด

  - iloc[:, :] : ์ฒ˜์Œ๋ถ€ํ„ฐ ๋๊นŒ์ง€

 

Comments