๊ด€๋ฆฌ ๋ฉ”๋‰ด

yeon's ๐Ÿ‘ฉ๐Ÿป‍๐Ÿ’ป

[๋ฐ์ดํ„ฐ ๋ถ„์„] ๋ฐ์ดํ„ฐ ๋กœ๋“œ 1 | ๊ฒฐ์ธก์น˜, ๋ฐ์ดํ„ฐ ํƒ€์ž… ๋ณ€๊ฒฝ, ์š”์•ฝ ๋ณธ๋ฌธ

Computer ๐Ÿ’ป/๋ฐ์ดํ„ฐ ๋ถ„์„

[๋ฐ์ดํ„ฐ ๋ถ„์„] ๋ฐ์ดํ„ฐ ๋กœ๋“œ 1 | ๊ฒฐ์ธก์น˜, ๋ฐ์ดํ„ฐ ํƒ€์ž… ๋ณ€๊ฒฝ, ์š”์•ฝ

yeon42 2021. 7. 18. 17:53
728x90
ํŒŒ์ผ ๋กœ๋“œํ•˜๊ธฐ

df_last = pd.read_csv("ํŒŒ์ผ.csv", encoding="euc-kr")
df_last.shape

- ํŒŒ์ผ ํ˜•์‹์ด utf-8์ด ์•„๋‹ˆ๋ผ๋ฉด ์ธ์ฝ”๋”ฉ์„ ์ง€์ •ํ•ด์ค˜์•ผ ํ•œ๋‹ค.
- 'euc-kr' ๋˜๋Š” 'cp-949'
- shape์˜ ๊ฒฐ๊ณผ๋Š” ์ˆœ์„œ๋Œ€๋กœ (ํ–‰, ์—ด)


ํŒŒ์ผ ๋ฏธ๋ฆฌ๋ณด๊ธฐ
df_last.head()
df_last.tail()

- head์™€ tail์„ ํ†ตํ•ด ์ฒ˜์Œ๋ถ€ํ„ฐ/๋์—์„œ๋ถ€ํ„ฐ 5๊ฐœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฏธ๋ฆฌ๋ณด๊ธฐ ํ•  ์ˆ˜ ์žˆ๋‹ค.



๋ฐ์ดํ„ฐ ์š”์•ฝํ•˜๊ธฐ

df_last.info()

- ์š”์•ฝ๋œ ๋ฐ์ดํ„ฐ ์ •๋ณด๋ฅผ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.


๊ฒฐ์ธก์น˜
df_last.isnull()
df_last.isna()
df_last.isnull().sum()

- isnull ๋˜๋Š” isna๋ฅผ ํ†ตํ•ด ๊ฒฐ์ธก์น˜๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.
- ๊ฒฐ์ธก์น˜๋Š” True๋กœ ํ‘œ์‹œ๋˜๋Š”๋ฐ, True==1์ด๋ฏ€๋กœ ์ด ๊ฐ’์„ ๋ชจ๋‘ ๋”ํ•˜๋ฉด ๊ฒฐ์ธก์น˜์˜ ์ˆ˜



๋ฐ์ดํ„ฐ ํƒ€์ž… ๋ณ€๊ฒฝ


- object(๋ฌธ์ž) ํƒ€์ž…์œผ๋กœ ๋˜์–ด์žˆ๋Š” ๋ฐ์ดํ„ฐ๋Š” ๊ณ„์‚ฐํ•  ์ˆ˜ ์—†์œผ๋ฏ€๋กœ ์ˆ˜์น˜ ๋ฐ์ดํ„ฐ๋กœ ๋ณ€๊ฒฝํ•ด์•ผ ํ•œ๋‹ค.
- pandas์—์„œ๋Š” pd.to_numeric์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์˜ ํƒ€์ž…์„ ๋ณ€๊ฒฝํ•œ๋‹ค.

df_last["OO"] = pd.to_numeric(df_last["OO(ใŽก)"], errors='coerce')

- 'coerce' : ๊ฐ•์ œ๋กœ ๊ฐ’์„ ๋‹ค ๋ฐ”๊พธ๊ฒ ๋‹ค.
- ๊ฒฐ๊ณผ ๊ฐ’์€ float๋กœ ๋‚˜์˜จ๋‹ค.
-> ์• ์ดˆ์— pandas์—์„œ ๊ฒฐ์ธก์น˜(nan) ๊ฐ’์€ float ํ˜•ํƒœ์ด๋‹ค.

Comments