๊ด€๋ฆฌ ๋ฉ”๋‰ด

yeon's ๐Ÿ‘ฉ๐Ÿป‍๐Ÿ’ป

[kaggle] ํƒ€์ดํƒ€๋‹‰(titanic) | 2. EDA - Pclass ๋ณธ๋ฌธ

Computer ๐Ÿ’ป/๋ฐ์ดํ„ฐ ๋ถ„์„

[kaggle] ํƒ€์ดํƒ€๋‹‰(titanic) | 2. EDA - Pclass

yeon42 2021. 7. 26. 22:25
728x90

1.2  Target label ํ™•์ธ

- target label์ด ์–ด๋–ค distribution์„ ๊ฐ€์ง€๋Š”์ง€ (์–ผ๋งˆ๋‚˜ balance์žˆ๊ฒŒ dataset์— ์žˆ๋А๋ƒ / ์—†๋А๋ƒ)

- 'Survived'์˜ 1๊ณผ 0์˜ ๋ถ„ํฌ๋ฅผ ์‚ดํŽด๋ณด์ž

 

 

 

* ์ฝ”๋“œ ํ•ด์„

f, ax = plt.subplots(1, 2, figsize=(18, 8))

  - ๋„ํ™”์ง€์— subplot์„ ๊ทธ๋ฆฐ๋‹ค๊ณ  ์ƒ๊ฐํ•˜์ž

  - 1ํ–‰ 2์—ด, ์ฆ‰ ํ•˜๋‚˜์˜ ํ–‰์— ๋‘ ๊ฐœ์˜ ๊ทธ๋ฆผ์ด ๊ทธ๋ ค์ง

 

df_train['Survived'].value_counts()

  - Survived๋œ value๋“ค์˜ ๊ฐœ์ˆ˜

  - ์ด๊ฒƒ์˜ type์€ Series -> plot์„ ๊ทธ๋ฆด ์ˆ˜ ์žˆ๋‹ค.

 

df_train['Survived'].value_counts().plot.pie()

 

df_train['Survived'].value_counts().plot.pie(explode=[0, 0.1])

 

df_train['Survived'].value_counts().plot.pie(explode=[0, 0.1], autopct='%1.1f%%')

 

df_train['Survived'].value_counts().plot.pie(explode=[0, 0.1], autopct='%1.1f%%', ax=ax[0], shadow=True)

  - ๋‚˜๋Š” ์™œ ์ด๋ ‡๊ฒŒ ๊ทธ๋ฆฌ๋ฉด ์•ˆ ๊ทธ๋ ค์ง€๋Š” ์ค„ ๋ชจ๋ฅด๊ฒ ์ง€๋งŒ . . .. . . .. . ..

  - ax=ax[0] : ์ด pie plot์„ ์ฒซ ๋ฒˆ์งธ ํŒŒํŠธ์— ๊ทธ๋ฆฌ๊ฒ ๋‹ค.

  - shadow=True : ๊ทธ๋ฆผ์ž๋„ ๊ทธ๋ฆฌ๊ธฐ

 

ax[0].set_title('์ œ๋ชฉ')
ax[0].set_ylabel('')

  - y์ถ•์˜ ์ด๋ฆ„์€ ์—†๋‹ค.

 

sns.countplot('Survived', data=df_train, ax=ax[1])

  - countplot์˜ input์œผ๋กœ๋Š” 'Survived'๋ฅผ ๋„ฃ์–ด์ฃผ๊ณ , data๋กœ๋Š” df_train์„ ์“ฐ๊ฒ ๋‹ค.

 

 

 

 


 

 

2.1 Pclass

- ordinal (์„œ์ˆ˜ํ˜•) ๋ฐ์ดํ„ฐ

- ์นดํ…Œ๊ณ ๋ฆฌ์ด๋ฉด์„œ, ์ˆœ์„œ๊ฐ€ ์žˆ๋Š” ๋ฐ์ดํ„ฐ ํƒ€์ž…

 

 

  • count()

- ๊ฐ class์— ๋ช‡ ๋ช…์ด ์žˆ๋Š”์ง€ ํ™•์ธ ๊ฐ€๋Šฅ

  - ์—ฌ๋Ÿฌ col์„ ๊ฐ€์ ธ์˜ฌ ๋•Œ๋Š” ๋ฐ˜๋“œ์‹œ list๋กœ ๋ฌถ๊ธฐ !! [[ ]]

 

 

  • sum()

- ์ƒ์กดํ•œ ์‚ฌ๋žŒ์˜ ์ด ํ•ฉ ํ™•์ธ ๊ฐ€๋Šฅ

 

  - ์™œ๋ƒํ•˜๋ฉด 'Survived'๋Š” 0๊ณผ 1๋กœ๋งŒ ์ด๋ฃจ์–ด์ ธ์žˆ์œผ๋ฏ€๋กœ ์‚ด์•„๋‚จ์€ ์‚ฌ๋žŒ(1)์˜ ์ดํ•ฉ์ด sum()์˜ ๊ฒฐ๊ณผ์ด๋‹ค!

 

 


 

* Crosstab

  - ์œ„์˜ ๊ฒฐ๊ณผ๋ฅผ ์ข€ ๋” ํ•œ ๋ˆˆ์— ๋ณผ ์ˆ˜ ์žˆ์Œ

  - style.background_gradient๋ฅผ ํ†ตํ•ด ์ƒ‰ ์ง€์ • ๊ฐ€๋Šฅ!

 

 

 

* ์ƒ์กด์œจ

index์™€ ํ•จ๊ป˜ ํ‘œ์‹œ
Survived๋กœ ์˜ค๋ฆ„์ฐจ์ˆœ ์ •๋ ฌ

 

  - mean์€ ํ‰๊ท ์„ ๋œปํ•˜๋Š”๋ฐ ์ƒ์กด์œจ๊ณผ ๊ฐ™๋‹ค.

ex) Pclass 1์˜ ์ด ์ธ์›์€ 216๋ช…, ๊ทธ ์ค‘ Survivedํ•œ ์‚ฌ๋žŒ์˜ ์ˆ˜๋Š” 136๋ช…

  -> 0.6296630 = (0*80 + 1*136) / 216

 

 

  - as_index=True๋ผ๊ณ  ๋‘๋ฉด, index(Pclass)๋„ ๊ฐ™์ด ๊ทธ๋ ค์ง€๋ฏ€๋กœ ๋ฐ”๋žŒ์งํ•˜์ง€ x => 'as_index=False' ๋ผ๊ณ  ๋‘๊ธฐ

  - Pclass๊ฐ€ ๋†’์„์ˆ˜๋ก ์ƒ์กด์œจ์ด ๋†’์€ ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

 

  - passenger ์ˆ˜ (total count)๋กœ๋งŒ ๋ณด๋ฉด 3๋ฒˆ์งธ class์˜ ์ธ์› ์ˆ˜๊ฐ€ ์ œ์ผ ๋งŽ์ง€๋งŒ,

   ํด๋ž˜์Šค๊ฐ€ ๋†’์„์ˆ˜๋ก ์ƒ์กด ํ™•๋ฅ ์ด ๋” ๋†’์€ ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. (์˜ค๋ฅธ์ชฝ)

 

- ์‹ค์ œ ๋ชจ๋ธ์„ ์„ธ์šธ ๋•Œ class๋ฅผ ์“ฐ๋ฉด ์ข‹์€ ๋ชจ๋ธ์ด ๋  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.

Comments