์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- ๋ถ์
- linearalgebra
- Kaggle
- ๋์
- ์ํ์ฝ๋ฉ
- c++
- ์๋ฒ ๋ฉ
- ์ธํ๋ฐ
- ๊นํ
- nlp
- ๋ฐ์ดํฐ
- ๊ฒฐ์ ํธ๋ฆฌ
- ํ์ดํ๋
- ์๊ณ ๋ฆฌ์ฆ
- ์๋๋ก์ด๋์คํ๋์ค
- react
- ์ ํ๋์ํ
- cs231n
- Git
- ๋ฐ์ดํฐ์๊ฐํ
- ๋ฐฑ์ค
- native
- ๋ค์ดํฐ๋ธ
- ํ๊ตญ์ด์๋ฒ ๋ฉ
- ๋ฅ๋ฌ๋
- ๋ฐ์ดํฐ๋ถ์
- Titanic
- ๋ฆฌ์กํธ
- ๋จธ์ ๋ฌ๋
- AI
- Today
- Total
yeon's ๐ฉ๐ป๐ป
[๋ฐ์ดํฐ ๋ถ์] ๋ฐ์ดํฐ ๋ก๋ 1 | ๊ฒฐ์ธก์น, ๋ฐ์ดํฐ ํ์ ๋ณ๊ฒฝ, ์์ฝ ๋ณธ๋ฌธ
[๋ฐ์ดํฐ ๋ถ์] ๋ฐ์ดํฐ ๋ก๋ 1 | ๊ฒฐ์ธก์น, ๋ฐ์ดํฐ ํ์ ๋ณ๊ฒฝ, ์์ฝ
yeon42 2021. 7. 18. 17:53ํ์ผ ๋ก๋ํ๊ธฐ
df_last = pd.read_csv("ํ์ผ.csv", encoding="euc-kr")
df_last.shape
- ํ์ผ ํ์์ด utf-8์ด ์๋๋ผ๋ฉด ์ธ์ฝ๋ฉ์ ์ง์ ํด์ค์ผ ํ๋ค.
- 'euc-kr' ๋๋ 'cp-949'
- shape์ ๊ฒฐ๊ณผ๋ ์์๋๋ก (ํ, ์ด)
ํ์ผ ๋ฏธ๋ฆฌ๋ณด๊ธฐ
df_last.head()
df_last.tail()
- head์ tail์ ํตํด ์ฒ์๋ถํฐ/๋์์๋ถํฐ 5๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ๋ฏธ๋ฆฌ๋ณด๊ธฐ ํ ์ ์๋ค.
๋ฐ์ดํฐ ์์ฝํ๊ธฐ
df_last.info()
- ์์ฝ๋ ๋ฐ์ดํฐ ์ ๋ณด๋ฅผ ๋ณผ ์ ์๋ค.
๊ฒฐ์ธก์น
df_last.isnull()
df_last.isna()
df_last.isnull().sum()
- isnull ๋๋ isna๋ฅผ ํตํด ๊ฒฐ์ธก์น๋ฅผ ํ์ธํ ์ ์๋ค.
- ๊ฒฐ์ธก์น๋ True๋ก ํ์๋๋๋ฐ, True==1์ด๋ฏ๋ก ์ด ๊ฐ์ ๋ชจ๋ ๋ํ๋ฉด ๊ฒฐ์ธก์น์ ์
๋ฐ์ดํฐ ํ์ ๋ณ๊ฒฝ
- object(๋ฌธ์) ํ์
์ผ๋ก ๋์ด์๋ ๋ฐ์ดํฐ๋ ๊ณ์ฐํ ์ ์์ผ๋ฏ๋ก ์์น ๋ฐ์ดํฐ๋ก ๋ณ๊ฒฝํด์ผ ํ๋ค.
- pandas์์๋ pd.to_numeric์ ํตํด ๋ฐ์ดํฐ์ ํ์
์ ๋ณ๊ฒฝํ๋ค.
df_last["OO"] = pd.to_numeric(df_last["OO(ใก)"], errors='coerce')
- 'coerce' : ๊ฐ์ ๋ก ๊ฐ์ ๋ค ๋ฐ๊พธ๊ฒ ๋ค.
- ๊ฒฐ๊ณผ ๊ฐ์ float๋ก ๋์จ๋ค.
-> ์ ์ด์ pandas์์ ๊ฒฐ์ธก์น(nan) ๊ฐ์ float ํํ์ด๋ค.