์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- c++
- ํ๊ตญ์ด์๋ฒ ๋ฉ
- ์๋ฒ ๋ฉ
- Titanic
- ๋ฐ์ดํฐ์๊ฐํ
- ์๊ณ ๋ฆฌ์ฆ
- ๋ฐฑ์ค
- cs231n
- ๋ฐ์ดํฐ๋ถ์
- ํ์ดํ๋
- Kaggle
- ๋ฆฌ์กํธ
- AI
- ์ ํ๋์ํ
- ์ธํ๋ฐ
- react
- ๋จธ์ ๋ฌ๋
- ์๋๋ก์ด๋์คํ๋์ค
- linearalgebra
- ๋ฐ์ดํฐ
- nlp
- ๊ฒฐ์ ํธ๋ฆฌ
- native
- ์ํ์ฝ๋ฉ
- Git
- ๋ฅ๋ฌ๋
- ๋ค์ดํฐ๋ธ
- ๊นํ
- ๋์
- ๋ถ์
- Today
- Total
๋ชฉ๋ก๋ฐ์ดํฐ (7)
yeon's ๐ฉ๐ป๐ป

4.4 ํน์ ๊ณต์๊ตฌ๋ถ ๊ฐ์ ธ์ค๊ธฐ ๊ณต์๊ตฌ๋ถ ๋น๋์ ๊ตฌํ๊ธฐ df["๊ณต์๊ตฌ๋ถ"].value_counts() ํน์ ํ ์คํธ๊ฐ ๋ค์ด๊ฐ๋ ๊ณต์๋ง ๊ฐ์ ธ์ค๊ธฐ: str.match park_type = r'.*((์ญ์ฌ|์ฒด์ก|์๋ณ|๋ฌธํ)๊ณต์).*' park = df[df["๊ณต์๊ตฌ๋ถ"].str.match(park_type)] park.shape - . : ๋ชจ๋ ๋ฌธ์ - * : 0๋ฒ ์ด์ ๋ฐ๋ณต --> .* : ๋ชจ๋ ๋ฌธ์๊ฐ 0๋ฒ ์ด์ ๋ฐ๋ณต๋๋ค. var_numbers ๋ฆฌ์คํธ์ "๊ณต์๊ตฌ๋ถ" ์์ ์ถ๊ฐํ๊ธฐ -> "๊ณต์๊ตฌ๋ถ"์ ๋ฐ๋ผ ์์ ๋ค๋ฅด๊ฒ ํํํ๊ธฐ ์ํด ๋ฆฌ์คํธ์ ์์ ์ ๊ฑฐํ๊ธฐ var_pair = var_numbers var_pair.append("๊ณต์๊ตฌ๋ถ") var_pair.remove("์ง์ ๊ณ ์์ผ") var_pair.remove("..

4. ์๋๋ณ ๊ณต์ ๋ถํฌ 4.1 ์๋๋ณ ๊ณต์ ๋น์จ ์๋๋ณ๋ก ํฉ๊ณ ๋ฐ์ดํฐ ์ถ๋ ฅ city_count = df["์๋"].value_counts().to_frame() city_mean = df["์๋"].value_counts(normalize=True).to_frame() - normalize=True : ๋น์จ๋ก ๊ตฌํ๊ธฐ - ๋์ ํฉ์ณ์ฃผ๊ธฐ ์ํด dataframe ํํ๋ก ๋ฐ๊พธ์๋ค. ํฉ๊ณ์ ๋น์จ ํจ๊ป ๊ตฌํ๊ธฐ: merge city = city_count.merge(city_mean, left_index=True, right_index=True) city.columns = ["ํฉ๊ณ", "๋น์จ"] city.style.background_gradient() 4.2 ๊ณต์๊ตฌ๋ถ๋ณ ๋ถํฌ "๊ณต์๊ตฌ๋ถ" ๋ณ๋ก ์์ ๋ค๋ฅด๊ฒ, "๊ณต์๋ฉด..

3. ๋ฐ์ดํฐ ์์ฝํ๊ธฐ 3.1 ์์นํ, ๋ฒ์ฃผํ ๋ณ์ ๊ตฌ๋ถํ๊ธฐ ๋ฐ์ดํฐ ํ์ ๋ง ๋ฐ๋ก ๋ชจ์ผ๊ธฐ data_types = df.dtypes 3.2 ์์นํ ๋ณ์ ์์ฝ ์์นํ ๋ณ์ ๊ตฌํ๊ธฐ var_numbers = data_types[data_types != "object"] var_numbers = var_numbers.index.tolist() var_numbers ํ์คํ ๊ทธ๋จ์ผ๋ก ๋ถํฌ ํ์ธํ๊ธฐ h = df.hist(figsize=(12, 10)) 3.3 ๋ฒ์ฃผํ ๋ณ์ ์์ฝ var_objects = data_types[data_types == object] var_objects = var_objects.index.tolist() var_objects[:5] ๋ฌธ์์ด ํ์ ์ ๋ฐ์ดํฐ ์์ฝํ๊ธฐ df[var_objects].des..

2.7 ํน์ ์ ๋ณด ๋ง์คํน 2.7.1 ์ ํ๋ฒํธ ๋ง์คํน - ์ ํ๋ฒํธ ๋ง์คํน : ์ผ๋ถ ๋ฌธ์๋ฅผ *๋ก ๋์ฒดํ์ ๊ฐ์ด๋ฐ๊ฐ 4์๋ฆฌ์ผ ๋ re.sub("(\d{3})-(\d{2})(\d{2})-(\d{2})(\d{2})", r"\1-\2**-**\5", "010-1234-5678") - 010-1234-5678 ์ 010 / 12 / 23 / 56 / 78 ๋ก ๋๋์ด ๋ง์คํนํ๊ธฐ (3-2-2-2-2) ๊ฐ์ด๋ฐ๊ฐ 3์๋ฆฌ์ผ ๋ res.sub("(\d{3})-(\d{1,2})(\d{2})-(\d{2})(\d{2}), r"\1-\2**-**\5", "010-123-5678") - 010-123-5678์ 010 / 1 / 23 / 56 / 78 ๋ก ๋๋์ด ๋ง์คํนํ๊ธฐ (3-(1,2)-2-2-2) ๊ตญ๊ฐ๋ฒํธ๊ฐ ๋ค์ด๊ฐ ๋ re.sub(..