๊ด€๋ฆฌ ๋ฉ”๋‰ด

yeon's ๐Ÿ‘ฉ๐Ÿป‍๐Ÿ’ป

[ํ”„๋žœ์ฐจ์ด์ฆˆ ์ž…์ ๋ถ„์„] ํŠน์ • ์ƒํ˜ธ๋งŒ ์ถ”์ถœ ๋ณธ๋ฌธ

Computer ๐Ÿ’ป/๋ฐ์ดํ„ฐ ๋ถ„์„

[ํ”„๋žœ์ฐจ์ด์ฆˆ ์ž…์ ๋ถ„์„] ํŠน์ • ์ƒํ˜ธ๋งŒ ์ถ”์ถœ

yeon42 2021. 8. 5. 12:38
728x90

8. ๋ฐฐ์Šคํ‚จ๋ผ๋นˆ์Šค, ๋˜ํ‚จ๋„๋„ˆ์ธ  ์œ„์น˜ ๋ถ„์„

 

8.1 ํŠน์ • ์ƒํ˜ธ๋งŒ ๊ฐ€์ ธ์˜ค๊ธฐ

 

- ์ƒํ˜ธ๋ช…์—์„œ ๋ธŒ๋žœ๋“œ๋ช…์„ ์ถ”์ถœํ•˜๊ธฐ

- ๋Œ€์†Œ๋ฌธ์ž๊ฐ€ ์„ž์—ฌ ์žˆ์„ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋ณ€ํ™˜์ด ํ•„์ˆ˜ *

 

 

 

 

  • ๋ฌธ์ž์—ด์„ ์†Œ๋ฌธ์ž๋กœ ๋ณ€๊ฒฝํ•˜๋Š” ๋ฉ”์†Œ๋“œ : lower()

- ์ƒˆ๋กœ์šด ์ปฌ๋Ÿผ์„ ์ƒ์„ฑํ•œ๋‹ค.

df_seoul["์ƒํ˜ธ๋ช…_์†Œ๋ฌธ์ž"] = df_seoul["์ƒํ˜ธ๋ช…"].str.lower()

 

 

 

 

 

  • ๋ฐฐ์Šคํ‚จ๋ผ๋นˆ์Šค์˜ ์ปฌ๋Ÿผ๋งŒ ๊ฐ€์ ธ์˜ค๊ธฐ : str.contains

- ๋„์–ด์“ฐ๊ธฐ, ๋งž์ถค๋ฒ• ๋“ฑ์˜ ๋‹ค๋ฅธ ์ ์ด ์žˆ์„ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ž‘์„ฑํ•˜์ž

 

df_seoul[df_seoul["์ƒํ˜ธ๋ช…_์†Œ๋ฌธ์ž"].str.contains("(๋ฒ |๋ฐฐ)์Šคํ‚จ๋ผ๋นˆ์Šค|baskinrobbins")]
df_seoul[df_seoul["์ƒํ˜ธ๋ช…_์†Œ๋ฌธ์ž"].str.contains("๋ฒ ์Šคํ‚จ๋ผ๋นˆ์Šค|๋ฐฐ์Šคํ‚จ๋ผ๋นˆ์Šค|baskinrobbins")]

 

 

df_seoul["์ƒํ˜ธ๋ช…_์†Œ๋ฌธ์ž"].str.extract("(๋ฒ |๋ฐฐ)์Šคํ‚จ๋ผ๋นˆ์Šค|baskinrobbins")[0].value_counts()

 

 

df_seoul.loc[df_seoul["์ƒํ˜ธ๋ช…_์†Œ๋ฌธ์ž"].str.contains("(๋ฒ |๋ฐฐ)์Šคํ‚จ๋ผ๋นˆ์Šค|baskinrobbins"), "์ƒํ˜ธ๋ช…_์†Œ๋ฌธ์ž"].shape

  - ๋ฐฐ์Šคํ‚จ๋ผ๋นˆ์Šค ํ–‰์€ ์ด 466๊ฐœ์ธ ๊ฒƒ ํ™•์ธ!!

 

 

 

 

 


 

 

 

 

  • ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๋˜ํ‚จ๋„๋„ˆ์ธ  ๊ฐ€์ ธ์˜ค๊ธฐ
df_seoul.loc[df_seoul["์ƒํ˜ธ๋ช…_์†Œ๋ฌธ์ž"].str.contains("๋˜ํ‚จ|dunkin"), "์ƒํ˜ธ๋ช…_์†Œ๋ฌธ์ž"]

 

 

 

 

 

  • ๋ฐฐ์Šคํ‚จ๋ผ๋นˆ์Šค ์™€ ๋˜ํ‚จ๋„๋„ˆ์ธ  ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ ธ์™€ ์ƒˆ๋กœ์šด ๋ณ€์ˆ˜์— ๋‹ด๊ธฐ
df_31 = df_seoul[df_seoul["์ƒํ˜ธ๋ช…_์†Œ๋ฌธ์ž"].str.contains("๋ฐฐ์Šคํ‚จ๋ผ๋นˆ์Šค|๋ฒ ์Šคํ‚จ๋ผ๋นˆ์Šค|baskinrobbins|๋˜ํ‚จ|dunkin")].copy()

  - ์ด 657๊ฐœ์˜ ํ–‰!!

 

 

 

 

 

 

  • '๋ธŒ๋žœ๋“œ๋ช…' ์ด๋ผ๋Š” ์ƒˆ๋กœ์šด col ๋งŒ๋“ค๊ธฐ

- ์ƒํ˜ธ๋ช…์ด '๋ฐฐ์Šคํ‚จ๋ผ๋นˆ์Šค' ์ธ ์—ด์— ๋ธŒ๋žœ๋“œ๋ช… ์ถ”๊ฐ€

df_31.loc[df_31["์ƒํ˜ธ๋ช…_์†Œ๋ฌธ์ž"].str.contains("๋ฐฐ์Šคํ‚จ๋ผ๋นˆ์Šค|๋ฒ ์Šคํ‚จ๋ผ๋นˆ์Šค|baskinrobbins"), "๋ธŒ๋žœ๋“œ๋ช…"] = "๋ฐฐ์Šคํ‚จ๋ผ๋นˆ์Šค"
df_31[["์ƒํ˜ธ๋ช…", "๋ธŒ๋žœ๋“œ๋ช…"]]

 

 

 

 

 

  • ๋‚˜๋จธ์ง€๋Š” '๋˜ํ‚จ๋„๋„ˆ์ธ '๋ผ๊ณ  ๋ธŒ๋žœ๋“œ๋ช… ์ฑ„์šฐ๊ธฐ
df_31["๋ธŒ๋žœ๋“œ๋ช…"] = df_31["๋ธŒ๋žœ๋“œ๋ช…"].fillna("๋˜ํ‚จ๋„๋„ˆ์ธ ")
df_31["๋ธŒ๋žœ๋“œ๋ช…"]

 

 

 

 

 

  • ์ƒ๊ถŒ์—…์ข…๋Œ€๋ถ„๋ฅ˜๋ช…์˜ ๋นˆ๋„์ˆ˜ ๊ณ„์‚ฐํ•ด๋ณด๊ธฐ
df_31["์ƒ๊ถŒ์—…์ข…์†Œ๋ถ„๋ฅ˜๋ช…"].value_counts()

  - ์Œ์‹ ์™ธ์— ์ƒํ™œ์„œ๋น„์Šค์™€ ์†Œ๋งค ๋ผ๋Š” column์ด ์žˆ๋„ค?

  -> ์–˜๋Š” ์ง€์›Œ์ฃผ์ž

 

 

 

 

 

  • isin์„ ์‚ฌ์šฉํ•ด '์†Œ๋งค', '์ƒํ™œ์„œ๋น„์Šค' ๋Š” ์ œ์™ธํ•˜์ž
df_31 = df_31[~df_31["์ƒ๊ถŒ์—…์ข…๋Œ€๋ถ„๋ฅ˜๋ช…"].isin(["์†Œ๋งค", "์ƒํ™œ์„œ๋น„์Šค"])].copy()

  - ํ–‰์ด 2๊ฐœ ์ค„์–ด๋“  ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

 

Comments