์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- ๋ถ์
- c++
- ๊นํ
- ์ ํ๋์ํ
- ๋ฐฑ์ค
- Kaggle
- ๋ฐ์ดํฐ๋ถ์
- react
- ์๊ณ ๋ฆฌ์ฆ
- ๊ฒฐ์ ํธ๋ฆฌ
- ํ์ดํ๋
- ์๋ฒ ๋ฉ
- ๋จธ์ ๋ฌ๋
- Titanic
- ์ํ์ฝ๋ฉ
- ์๋๋ก์ด๋์คํ๋์ค
- ๋ค์ดํฐ๋ธ
- ๋ฐ์ดํฐ
- nlp
- native
- cs231n
- ๋ฐ์ดํฐ์๊ฐํ
- AI
- ๋ฅ๋ฌ๋
- linearalgebra
- ํ๊ตญ์ด์๋ฒ ๋ฉ
- ๋์
- ์ธํ๋ฐ
- Git
- ๋ฆฌ์กํธ
- Today
- Total
๋ชฉ๋กTitanic (7)
yeon's ๐ฉ๐ป๐ป

์ฒ์์ด๋ผ ์ง์ง ์ฌ์ํ ๊ฒ ํ๋ ํ๋ ๊ธฐ๋กํ๋ ์ค ... ๋์ค์ ํํํ๊ธฐ ์ซ๋ค 2.2 Sex ์ฑ๋ณ๋ก ์์กด๋ฅ ์ด ์ด๋ป๊ฒ ๋ฌ๋ผ์ง๋์ง ํ์ธํด๋ณด๊ธฐ f, ax = plt.subplots(1, 2, figsize=(18, 8)) df_train[['Sex', 'Survived']].groupby(['Sex'], as_index=True).mean().plot.bar(ax=ax[0]) ax[0].set_title('Survived vs Sex') sns.countplot('Sex', hue='Survived', data=df_train, ax=ax[1]) ax[1].set_title('Sex: Survived vs Dead') plt.show() * ๊ฒฐ๊ณผ ๋ถ์ - ์ฌ์๊ฐ ์์กดํ ํ๋ฅ ์ด ๋๊ตฌ๋ ..! * ์ฝ๋๋ถ์ df_t..

1.2 Target label ํ์ธ - target label์ด ์ด๋ค distribution์ ๊ฐ์ง๋์ง (์ผ๋ง๋ balance์๊ฒ dataset์ ์๋๋ / ์๋๋) - 'Survived'์ 1๊ณผ 0์ ๋ถํฌ๋ฅผ ์ดํด๋ณด์ * ์ฝ๋ ํด์ f, ax = plt.subplots(1, 2, figsize=(18, 8)) - ๋ํ์ง์ subplot์ ๊ทธ๋ฆฐ๋ค๊ณ ์๊ฐํ์ - 1ํ 2์ด, ์ฆ ํ๋์ ํ์ ๋ ๊ฐ์ ๊ทธ๋ฆผ์ด ๊ทธ๋ ค์ง df_train['Survived'].value_counts() - Survived๋ value๋ค์ ๊ฐ์ - ์ด๊ฒ์ type์ Series -> plot์ ๊ทธ๋ฆด ์ ์๋ค. df_train['Survived'].value_counts().plot.pie() df_train['Survived'].val..

์ฒ์ ๋ค๋ค๋ณด๋ kaggle ์๋ youtube๋ฅผ ์ฐธ๊ณ ํ์ฌ ๋ฐ๋ผํ๋ ์ค์ต์ ๋๋ค. ๋ฐ์ดํฐ ๋ถ์์ ๊ณต๋ถํ๊ธฐ๋ก ๋ง์ ๋จน์์ง ๋ช ์ฃผ๊ฐ ๋์๊ณ ์ธํ๋ฐ์์ ๊ธฐ์ด ๊ฐ์๋ฅผ ๋ฃ๋ ์ค์ธ๋ฐ ์๋ก ๋ค์ด๊ฐ ์คํฐ๋์์ ์กฐ์ ๋ถ์ด ์ถ์ฒํ์ ์ฌ์ดํธ๋ฅผ ์ฐธ๊ณ ํ์ฌ ๋ชจ๋ธ๋ง์ ํด๋ณด๋ฉฐ ์ง์ ์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ค๋ค๋ณด๊ธฐ ์ํด ์ค์ต์ ํด๋ณด๋ ค๊ณ ํ๋ค. https://www.youtube.com/watch?v=_iqz7tFhox0&list=PLC_wC_PMBL5MnqmgTLqDgu4tO8mrQakuF&index=1 - ๋ฐ์ดํฐ ๋ถ์ ๋๊ตฌ(pandas, numpy), ์ฌ๋ฌ ์๊ฐํ ๋๊ตฌ(matplotlib, seaborn, plotly) ๋ชจ๋ import ํ๊ธฐ - ์์ผ๋ก ๋์ฌ warnings๋ฅผ ๋ฌด์ 1. Dataset ํ์ธ - null data๋ฅผ ํ์ธํ๊ธฐ - d..