์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- ๋ฐ์ดํฐ๋ถ์
- cs231n
- ๋ฐ์ดํฐ์๊ฐํ
- ๋จธ์ ๋ฌ๋
- nlp
- ์๋ฒ ๋ฉ
- ๋ถ์
- ๋์
- react
- c++
- ์ธํ๋ฐ
- ๊นํ
- ๊ฒฐ์ ํธ๋ฆฌ
- ์ํ์ฝ๋ฉ
- Titanic
- ๋ฆฌ์กํธ
- ๋ฐ์ดํฐ
- ์ ํ๋์ํ
- ๋ฅ๋ฌ๋
- ์๋๋ก์ด๋์คํ๋์ค
- Git
- native
- ํ๊ตญ์ด์๋ฒ ๋ฉ
- linearalgebra
- ์๊ณ ๋ฆฌ์ฆ
- ๋ฐฑ์ค
- ํ์ดํ๋
- ๋ค์ดํฐ๋ธ
- Kaggle
- AI
- Today
- Total
๋ชฉ๋กTitanic (7)
yeon's ๐ฉ๐ป๐ป

3.3 Change Initial, Embarked and Sex (string to numerical) * Initial์ ์์นํ ๋ฐ์ดํฐ๋ก ๋ฐ๊พธ๊ธฐ df_train.Initial.unique() - ํ์ฌ Initial์๋ Mr, Mrs, Miss, Master, Other ์ด 5๊ฐ์ ๊ฐ์ด ๋ด๊ฒจ์๋ค. - ์ด๋ฐ ์นดํ ๊ณ ๋ฆฌ๋ก ํํ๋ ๋ฐ์ดํฐ๋ฅผ input์ผ๋ก ๋ฃ์ด์ฃผ๋ ค๋ฉด ์์นํ ๊ฐ ํ์ df_train['Initial'] = df_train['Initial'].map({'Master': 0, 'Miss': 1, 'Mr': 2, 'Mrs': 3, 'Other': 4}) df_test['Initial'] = df_test['Initial'].map({'Master': 0, 'Miss': 1, 'Mr': 2, 'Mrs':..

3.1.2 Fill Null in Embarked df_train['Embarked'].isnull().sum() - Embarked์ null data๋ ํ์ฌ 2๊ฐ์ด๋ค. -> ์ด null data๋ค์ ๋ค๋ฅธ ๊ฐ์ผ๋ก ์ฑ์ฐ๊ฒ ๋ค ! - ํ์ฌ S์์ ๊ฐ์ฅ ๋ง์ ํ์น๊ฐ์ด ์์ผ๋ฏ๋ก, nulld data๋ฅผ S๋ก ์ฑ์ฐ๊ฒ ๋ค. fillna df_train['Embarked'.fillna('S', inplace=True) 3.2 Change Age (continuous to categorical) - Age๋ ํ์ฌ continuous feature - Age๋ฅผ ๋ช ๊ฐ์ ๊ทธ๋ฃน์ผ๋ก ๋๋์ด categoryํ ์์ผ์ฃผ์ ์๋ก์ด column ์์ฑ df_train['Age_cat'] = 0 loc์ ์ฌ์ฉํด 10์ด ๊ฐ๊ฒฉ์ผ๋ก ๋๋๊ธฐ df_..

3. Feature Engineering - dataset์ ์กด์ฌํ๋ null data ์ฑ์ฐ๊ธฐ -> null data๋ฅผ ํฌํจํ๋ feature๋ค์ statistics๋ฅผ ์ฐธ๊ณ ํ์ฌ ์ฑ์๋ณด์ - Feature Engineering์ ์ค์ ๋ชจ๋ธ์ ํ์ต์ ์ฐ๋ ค๊ณ ํ๋ ๊ฒ์ด๋ฏ๋ก, train ๋ฟ๋ง ์๋๋ผ test์๋ ๋๊ฐ์ด ์ ์ฉํด์ค์ผ ํจ! 3.1 Fill Null df_train['Age'].isnull().sum() - Age์๋ 177๊ฐ์ null data๊ฐ ์กด์ฌํ๋ค. -> title(Mr., Miss., ...)๋ฅผ ์ฌ์ฉํด null data๋ฅผ ์ฑ์์ฃผ์ ! df_train['Name'] - Name์์ title๋ง ์ถ์ถํ์ df_train['Initial'] = df_train['Name'].str.extract(..

2. 8 Fare : ํ์น์๊ธ * Skewness(์๋) - ์๋ฃ์ ๋ถํฌ๋ชจ์์ด ํ๊ท ์ ์ค์ฌ์ผ๋ก ํ ์ชฝ์ผ๋ก ์น์ฐ์ณ์ ธ ์๋ ๊ฒฝํฅ์ ๋ํ๋ด๋ ์ฒ๋ - ์๋ฃ์ ๋ถํฌ๊ฐ ๋์นญ์ธ์ง ์๋์ง๋ฅผ ์ธก์ ํด์ฃผ๋ ๊ฐ - distribution์ด ์ผ๋ง๋ ์ ๋ ธ๋ (๋น๋์นญ์ด๋) - skew = 0 : ์ ๊ท๋ถํฌ - skew > 0 : ์ข์ธก์ผ๋ก ์น์ฐ์นจ - skew < 0 : ์ฐ์ธก์ผ๋ก ์น์ฐ์นจ fig, ax = plt.subplots(1, 1, figsize=(8, 8)) g = sns.distplot(df_train['Fare'], color='b', label='Skewness: {:.2f}'.format(df_train['Fare'].skew()), ax=ax) g = g.legend(loc='best') - ๊ทธ๋ํ๊ฐ ํ ์ชฝ์ผ๋ก ๋๋ฌด ..