Notice
Recent Posts
Recent Comments
Link
์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- linearalgebra
- AI
- ์ํ์ฝ๋ฉ
- ๊นํ
- ๋ฐฑ์ค
- ์ ํ๋์ํ
- ๋ฐ์ดํฐ์๊ฐํ
- ๋ฅ๋ฌ๋
- ๋ถ์
- cs231n
- ๋ฐ์ดํฐ๋ถ์
- ๋ฆฌ์กํธ
- nlp
- native
- ์ธํ๋ฐ
- ์๋ฒ ๋ฉ
- ๋ฐ์ดํฐ
- ์๋๋ก์ด๋์คํ๋์ค
- ๋์
- ํ๊ตญ์ด์๋ฒ ๋ฉ
- ๋จธ์ ๋ฌ๋
- ํ์ดํ๋
- ๋ค์ดํฐ๋ธ
- ์๊ณ ๋ฆฌ์ฆ
- Kaggle
- Git
- react
- ๊ฒฐ์ ํธ๋ฆฌ
- c++
- Titanic
Archives
- Today
- Total
yeon's ๐ฉ๐ป๐ป
[ํ๋์ฐจ์ด์ฆ ์ ์ ๋ถ์] ํน์ ์ํธ๋ง ์ถ์ถ ๋ณธ๋ฌธ
Computer ๐ป/๋ฐ์ดํฐ ๋ถ์
[ํ๋์ฐจ์ด์ฆ ์ ์ ๋ถ์] ํน์ ์ํธ๋ง ์ถ์ถ
yeon42 2021. 8. 5. 12:38728x90
8. ๋ฐฐ์คํจ๋ผ๋น์ค, ๋ํจ๋๋์ธ ์์น ๋ถ์
8.1 ํน์ ์ํธ๋ง ๊ฐ์ ธ์ค๊ธฐ
- ์ํธ๋ช ์์ ๋ธ๋๋๋ช ์ ์ถ์ถํ๊ธฐ
- ๋์๋ฌธ์๊ฐ ์์ฌ ์์ ์ ์๊ธฐ ๋๋ฌธ์ ๋ณํ์ด ํ์ *
- ๋ฌธ์์ด์ ์๋ฌธ์๋ก ๋ณ๊ฒฝํ๋ ๋ฉ์๋ : lower()
- ์๋ก์ด ์ปฌ๋ผ์ ์์ฑํ๋ค.
df_seoul["์ํธ๋ช
_์๋ฌธ์"] = df_seoul["์ํธ๋ช
"].str.lower()
- ๋ฐฐ์คํจ๋ผ๋น์ค์ ์ปฌ๋ผ๋ง ๊ฐ์ ธ์ค๊ธฐ : str.contains
- ๋์ด์ฐ๊ธฐ, ๋ง์ถค๋ฒ ๋ฑ์ ๋ค๋ฅธ ์ ์ด ์์ ์ ์์ผ๋ฏ๋ก ๋ค์๊ณผ ๊ฐ์ด ์์ฑํ์
df_seoul[df_seoul["์ํธ๋ช
_์๋ฌธ์"].str.contains("(๋ฒ |๋ฐฐ)์คํจ๋ผ๋น์ค|baskinrobbins")]
df_seoul[df_seoul["์ํธ๋ช
_์๋ฌธ์"].str.contains("๋ฒ ์คํจ๋ผ๋น์ค|๋ฐฐ์คํจ๋ผ๋น์ค|baskinrobbins")]
df_seoul["์ํธ๋ช
_์๋ฌธ์"].str.extract("(๋ฒ |๋ฐฐ)์คํจ๋ผ๋น์ค|baskinrobbins")[0].value_counts()
df_seoul.loc[df_seoul["์ํธ๋ช
_์๋ฌธ์"].str.contains("(๋ฒ |๋ฐฐ)์คํจ๋ผ๋น์ค|baskinrobbins"), "์ํธ๋ช
_์๋ฌธ์"].shape
- ๋ฐฐ์คํจ๋ผ๋น์ค ํ์ ์ด 466๊ฐ์ธ ๊ฒ ํ์ธ!!
- ๋ง์ฐฌ๊ฐ์ง๋ก ๋ํจ๋๋์ธ ๊ฐ์ ธ์ค๊ธฐ
df_seoul.loc[df_seoul["์ํธ๋ช
_์๋ฌธ์"].str.contains("๋ํจ|dunkin"), "์ํธ๋ช
_์๋ฌธ์"]
- ๋ฐฐ์คํจ๋ผ๋น์ค ์ ๋ํจ๋๋์ธ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์ ์๋ก์ด ๋ณ์์ ๋ด๊ธฐ
df_31 = df_seoul[df_seoul["์ํธ๋ช
_์๋ฌธ์"].str.contains("๋ฐฐ์คํจ๋ผ๋น์ค|๋ฒ ์คํจ๋ผ๋น์ค|baskinrobbins|๋ํจ|dunkin")].copy()
- ์ด 657๊ฐ์ ํ!!
- '๋ธ๋๋๋ช ' ์ด๋ผ๋ ์๋ก์ด col ๋ง๋ค๊ธฐ
- ์ํธ๋ช ์ด '๋ฐฐ์คํจ๋ผ๋น์ค' ์ธ ์ด์ ๋ธ๋๋๋ช ์ถ๊ฐ
df_31.loc[df_31["์ํธ๋ช
_์๋ฌธ์"].str.contains("๋ฐฐ์คํจ๋ผ๋น์ค|๋ฒ ์คํจ๋ผ๋น์ค|baskinrobbins"), "๋ธ๋๋๋ช
"] = "๋ฐฐ์คํจ๋ผ๋น์ค"
df_31[["์ํธ๋ช
", "๋ธ๋๋๋ช
"]]
- ๋๋จธ์ง๋ '๋ํจ๋๋์ธ '๋ผ๊ณ ๋ธ๋๋๋ช ์ฑ์ฐ๊ธฐ
df_31["๋ธ๋๋๋ช
"] = df_31["๋ธ๋๋๋ช
"].fillna("๋ํจ๋๋์ธ ")
df_31["๋ธ๋๋๋ช
"]
- ์๊ถ์ ์ข ๋๋ถ๋ฅ๋ช ์ ๋น๋์ ๊ณ์ฐํด๋ณด๊ธฐ
df_31["์๊ถ์
์ข
์๋ถ๋ฅ๋ช
"].value_counts()
- ์์ ์ธ์ ์ํ์๋น์ค์ ์๋งค ๋ผ๋ column์ด ์๋ค?
-> ์๋ ์ง์์ฃผ์
- isin์ ์ฌ์ฉํด '์๋งค', '์ํ์๋น์ค' ๋ ์ ์ธํ์
df_31 = df_31[~df_31["์๊ถ์
์ข
๋๋ถ๋ฅ๋ช
"].isin(["์๋งค", "์ํ์๋น์ค"])].copy()
- ํ์ด 2๊ฐ ์ค์ด๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
'Computer ๐ป > ๋ฐ์ดํฐ ๋ถ์' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ํ๋์ฐจ์ด์ฆ ์ ์ ๋ถ์] Folium | MarkerCluster (0) | 2021.08.05 |
---|---|
[ํ๋์ฐจ์ด์ฆ ์ ์ ๋ถ์] countplot, scatterplot, jointplot (0) | 2021.08.05 |
[ํ๋์ฐจ์ด์ฆ ์ ์ ๋ถ์] ์ ์ฒ๋ฆฌ ํ์ผ ์ ์ฅํ๊ธฐ (0) | 2021.08.05 |
[๋ฐ์ดํฐ ๋ถ์] Folium | ์ง๋ ํ์ฉํ๊ธฐ (0) | 2021.08.04 |
[๋ฐ์ดํฐ ๋ถ์] ๊ฒฝ๋์ ์๋๋ก scatterplot ๊ทธ๋ฆฌ๊ธฐ (0) | 2021.08.04 |
Comments