์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- ์๊ณ ๋ฆฌ์ฆ
- ๊นํ
- ๋ฐ์ดํฐ์๊ฐํ
- native
- ๋จธ์ ๋ฌ๋
- ์๋ฒ ๋ฉ
- ๋์
- AI
- Kaggle
- ๋ฐฑ์ค
- ๊ฒฐ์ ํธ๋ฆฌ
- ์๋๋ก์ด๋์คํ๋์ค
- react
- Titanic
- ๋ฐ์ดํฐ๋ถ์
- ๋ค์ดํฐ๋ธ
- c++
- Git
- ๋ฐ์ดํฐ
- cs231n
- ์ ํ๋์ํ
- linearalgebra
- ๋ฆฌ์กํธ
- ์ํ์ฝ๋ฉ
- ํ๊ตญ์ด์๋ฒ ๋ฉ
- ์ธํ๋ฐ
- ๋ถ์
- ํ์ดํ๋
- ๋ฅ๋ฌ๋
- nlp
- Today
- Total
๋ชฉ๋กComputer ๐ป/๋ฐ์ดํฐ ๋ถ์ (55)
yeon's ๐ฉ๐ป๐ป
๋ฐ์ดํฐ ์์ฝ df_last["OO(ใก)"].describe() -> object ๋ฐ์ดํฐ df_last["OO"].describe() -> ์์น ๋ฐ์ดํฐ object ์์ฝ - count / unique / top / freq / name - freq : ๊ฐ์ฅ ๋น๋ฒํ๊ฒ ๋ฑ์ฅํ๋ ๋ฌธ์(object)๊ฐ ๋ช ๋ฒ ๋ฑ์ฅํ๋์ง ์์น ๋ฐ์ดํฐ ์์ฝ - count / mean / std / min / 25% / 50% / 75% / name ์ปฌ๋ผ๊ฐ ๋ณ๊ฒฝ df_last["OO"] = df_last["OO"].str.replace("OO", "") df_last["OO"] = df_last["OO"].str.replace(" ", "").str.strip() - replace : ํ ์คํธ๊ฐ ์์ ํ ์ผ์นํด์ผ๋ง ๋ฐ๋๋ฏ๋ก string ..
ํ์ผ ๋ก๋ํ๊ธฐ df_last = pd.read_csv("ํ์ผ.csv", encoding="euc-kr") df_last.shape - ํ์ผ ํ์์ด utf-8์ด ์๋๋ผ๋ฉด ์ธ์ฝ๋ฉ์ ์ง์ ํด์ค์ผ ํ๋ค. - 'euc-kr' ๋๋ 'cp-949' - shape์ ๊ฒฐ๊ณผ๋ ์์๋๋ก (ํ, ์ด) ํ์ผ ๋ฏธ๋ฆฌ๋ณด๊ธฐ df_last.head() df_last.tail() - head์ tail์ ํตํด ์ฒ์๋ถํฐ/๋์์๋ถํฐ 5๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ๋ฏธ๋ฆฌ๋ณด๊ธฐ ํ ์ ์๋ค. ๋ฐ์ดํฐ ์์ฝํ๊ธฐ df_last.info() - ์์ฝ๋ ๋ฐ์ดํฐ ์ ๋ณด๋ฅผ ๋ณผ ์ ์๋ค. ๊ฒฐ์ธก์น df_last.isnull() df_last.isna() df_last.isnull().sum() - isnull ๋๋ isna๋ฅผ ํตํด ๊ฒฐ์ธก์น๋ฅผ ํ์ธํ ์ ์๋ค. - ๊ฒฐ์ธก์น๋ True๋ก..
์ ๊ตญ ์ ๊ท ๋ฏผ๊ฐ ์ํํธ ๋ถ์๊ฐ๊ฒฉ ๋ํฅ ๊ณต๊ณต๋ฐ์ดํฐ ๋ค๋ฃจ๊ธฐ Jupyter์ nbextensions ์ค์นํ๊ธฐ conda install -c conda-forge jupyter_contrib_nbextensions %mv /Users/๋ค์ด๋ฐ์ํ์ผ.csv ์ํด๋ - ๋ค์ด๋ก๋ ๋ฐ์ ํ์ผ์ ์ ํด๋๋ก ์์น ๋ณ๊ฒฝํ๋ค. import pandas as pd - ๋ฐ์ดํฐ๋ฅผ ๋ก๋ํ ๋ค shape์ ํตํด ํ/์ด์ ๊ฐฏ์ ์ถ๋ ฅ