์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- ๋จธ์ ๋ฌ๋
- ์๋๋ก์ด๋์คํ๋์ค
- Titanic
- ํ๊ตญ์ด์๋ฒ ๋ฉ
- linearalgebra
- ๋ฅ๋ฌ๋
- nlp
- ๊ฒฐ์ ํธ๋ฆฌ
- ํ์ดํ๋
- cs231n
- ๋ฆฌ์กํธ
- ๋ฐฑ์ค
- ๋ค์ดํฐ๋ธ
- ๋์
- ์๊ณ ๋ฆฌ์ฆ
- react
- Git
- ๋ฐ์ดํฐ๋ถ์
- native
- ๋ถ์
- c++
- ๊นํ
- AI
- ์ธํ๋ฐ
- ์๋ฒ ๋ฉ
- ์ ํ๋์ํ
- ๋ฐ์ดํฐ์๊ฐํ
- ์ํ์ฝ๋ฉ
- Kaggle
- ๋ฐ์ดํฐ
- Today
- Total
yeon's ๐ฉ๐ป๐ป
[kaggle] ํ์ดํ๋(titanic) | 2. EDA - Pclass ๋ณธ๋ฌธ
[kaggle] ํ์ดํ๋(titanic) | 2. EDA - Pclass
yeon42 2021. 7. 26. 22:251.2 Target label ํ์ธ
- target label์ด ์ด๋ค distribution์ ๊ฐ์ง๋์ง (์ผ๋ง๋ balance์๊ฒ dataset์ ์๋๋ / ์๋๋)
- 'Survived'์ 1๊ณผ 0์ ๋ถํฌ๋ฅผ ์ดํด๋ณด์
* ์ฝ๋ ํด์
f, ax = plt.subplots(1, 2, figsize=(18, 8))
- ๋ํ์ง์ subplot์ ๊ทธ๋ฆฐ๋ค๊ณ ์๊ฐํ์
- 1ํ 2์ด, ์ฆ ํ๋์ ํ์ ๋ ๊ฐ์ ๊ทธ๋ฆผ์ด ๊ทธ๋ ค์ง
df_train['Survived'].value_counts()
- Survived๋ value๋ค์ ๊ฐ์
- ์ด๊ฒ์ type์ Series -> plot์ ๊ทธ๋ฆด ์ ์๋ค.
df_train['Survived'].value_counts().plot.pie()
df_train['Survived'].value_counts().plot.pie(explode=[0, 0.1])
df_train['Survived'].value_counts().plot.pie(explode=[0, 0.1], autopct='%1.1f%%')
df_train['Survived'].value_counts().plot.pie(explode=[0, 0.1], autopct='%1.1f%%', ax=ax[0], shadow=True)
- ๋๋ ์ ์ด๋ ๊ฒ ๊ทธ๋ฆฌ๋ฉด ์ ๊ทธ๋ ค์ง๋ ์ค ๋ชจ๋ฅด๊ฒ ์ง๋ง . . .. . . .. . ..
- ax=ax[0] : ์ด pie plot์ ์ฒซ ๋ฒ์งธ ํํธ์ ๊ทธ๋ฆฌ๊ฒ ๋ค.
- shadow=True : ๊ทธ๋ฆผ์๋ ๊ทธ๋ฆฌ๊ธฐ
ax[0].set_title('์ ๋ชฉ')
ax[0].set_ylabel('')
- y์ถ์ ์ด๋ฆ์ ์๋ค.
sns.countplot('Survived', data=df_train, ax=ax[1])
- countplot์ input์ผ๋ก๋ 'Survived'๋ฅผ ๋ฃ์ด์ฃผ๊ณ , data๋ก๋ df_train์ ์ฐ๊ฒ ๋ค.
2.1 Pclass
- ordinal (์์ํ) ๋ฐ์ดํฐ
- ์นดํ ๊ณ ๋ฆฌ์ด๋ฉด์, ์์๊ฐ ์๋ ๋ฐ์ดํฐ ํ์
- count()
- ๊ฐ class์ ๋ช ๋ช ์ด ์๋์ง ํ์ธ ๊ฐ๋ฅ
- ์ฌ๋ฌ col์ ๊ฐ์ ธ์ฌ ๋๋ ๋ฐ๋์ list๋ก ๋ฌถ๊ธฐ !! [[ ]]
- sum()
- ์์กดํ ์ฌ๋์ ์ด ํฉ ํ์ธ ๊ฐ๋ฅ
- ์๋ํ๋ฉด 'Survived'๋ 0๊ณผ 1๋ก๋ง ์ด๋ฃจ์ด์ ธ์์ผ๋ฏ๋ก ์ด์๋จ์ ์ฌ๋(1)์ ์ดํฉ์ด sum()์ ๊ฒฐ๊ณผ์ด๋ค!
* Crosstab
- ์์ ๊ฒฐ๊ณผ๋ฅผ ์ข ๋ ํ ๋์ ๋ณผ ์ ์์
- style.background_gradient๋ฅผ ํตํด ์ ์ง์ ๊ฐ๋ฅ!
* ์์กด์จ
- mean์ ํ๊ท ์ ๋ปํ๋๋ฐ ์์กด์จ๊ณผ ๊ฐ๋ค.
ex) Pclass 1์ ์ด ์ธ์์ 216๋ช , ๊ทธ ์ค Survivedํ ์ฌ๋์ ์๋ 136๋ช
-> 0.6296630 = (0*80 + 1*136) / 216
- as_index=True๋ผ๊ณ ๋๋ฉด, index(Pclass)๋ ๊ฐ์ด ๊ทธ๋ ค์ง๋ฏ๋ก ๋ฐ๋์งํ์ง x => 'as_index=False' ๋ผ๊ณ ๋๊ธฐ
- Pclass๊ฐ ๋์์๋ก ์์กด์จ์ด ๋์ ๊ฒ์ ํ์ธํ ์ ์๋ค.
- passenger ์ (total count)๋ก๋ง ๋ณด๋ฉด 3๋ฒ์งธ class์ ์ธ์ ์๊ฐ ์ ์ผ ๋ง์ง๋ง,
ํด๋์ค๊ฐ ๋์์๋ก ์์กด ํ๋ฅ ์ด ๋ ๋์ ๊ฒ์ ํ์ธํ ์ ์๋ค. (์ค๋ฅธ์ชฝ)
- ์ค์ ๋ชจ๋ธ์ ์ธ์ธ ๋ class๋ฅผ ์ฐ๋ฉด ์ข์ ๋ชจ๋ธ์ด ๋ ์ ์์ ๊ฒ์ด๋ค.
'Computer ๐ป > ๋ฐ์ดํฐ ๋ถ์' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[kaggle] ํ์ดํ๋(titanic) | 4. EDA - Age (0) | 2021.07.27 |
---|---|
[kaggle] ํ์ดํ๋(titanic) | 3. EDA - Sex (์ฑ๋ณ) (0) | 2021.07.27 |
[๋ฐ์ดํฐ ๋ถ์] ์ฐ๋๋ณ/์ง์ญ๋ณ ์๊ฐํ (0) | 2021.07.26 |
[๋ฐ์ดํฐ ๋ถ์] concat์ผ๋ก ํฉ์น๊ธฐ, heatmap (0) | 2021.07.26 |
[kaggle] ํ์ดํ๋(titanic) | 1. Dataset Check (0) | 2021.07.26 |