์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- nlp
- ์๋ฒ ๋ฉ
- ์ธํ๋ฐ
- ๊นํ
- ๋ค์ดํฐ๋ธ
- ๊ฒฐ์ ํธ๋ฆฌ
- ํ๊ตญ์ด์๋ฒ ๋ฉ
- native
- ๋ฐฑ์ค
- ๋ฐ์ดํฐ
- ์ํ์ฝ๋ฉ
- ๋ถ์
- ํ์ดํ๋
- ๋ฆฌ์กํธ
- ์ ํ๋์ํ
- ๋ฅ๋ฌ๋
- c++
- ๋ฐ์ดํฐ๋ถ์
- react
- ์๋๋ก์ด๋์คํ๋์ค
- Kaggle
- linearalgebra
- Titanic
- ๋ฐ์ดํฐ์๊ฐํ
- cs231n
- ์๊ณ ๋ฆฌ์ฆ
- Git
- ๋จธ์ ๋ฌ๋
- AI
- ๋์
- Today
- Total
yeon's ๐ฉ๐ป๐ป
KNN (K-Nearest Neighbor) ๋ณธ๋ฌธ
๋จธ์ ๋ฌ๋ - 6. K-์ต๊ทผ์ ์ด์(KNN)
K-์ต๊ทผ์ ์ด์(K-Nearest Neighbor, KNN)์ ์ง๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ ์ค ํ๋์ ๋๋ค. ๊ต์ฅํ ์ง๊ด์ ์ด๊ณ ๊ฐ๋จํฉ๋๋ค. ์ด๋ค ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ง๋ฉด ๊ทธ ์ฃผ๋ณ(์ด์)์ ๋ฐ์ดํฐ๋ฅผ ์ดํด๋ณธ ๋ค ๋ ๋ง์ ๋ฐ์ดํฐ๊ฐ ํฌํจ๋์ด
bkshin.tistory.com
์ ๋ธ๋ก๊ทธ๋ฅผ ํ์ฌํ๋ฉฐ ๊ณต๋ถ
* ๋ชจ๋ ํ ์คํธ์ ์ด๋ฏธ์ง์ ์ถ์ฒ๋ ์ ๋ธ๋ก๊ทธ์ ๋๋ค.
KNN(K-Nearest Neighbor)์ ์ง๋ํ์ต ์๊ณ ๋ฆฌ์ฆ ์ค ํ๋
- ์ด๋ค ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ง๋ฉด ๊ทธ ์ฃผ๋ณ(์ด์)์ ๋ฐ์ดํฐ๋ฅผ ์ดํด๋ณธ ๋ค ๋ ๋ง์ ๋ฐ์ดํฐ๊ฐ ํฌํจ๋์ด ์๋ ๋ฒ์ฃผ๋ก ๋ถ๋ฅํ๋ ๋ฐฉ์
์๋ก์ด ๋ฐ์ดํฐ (๋นจ๊ฐ ์ )์ด ์ฃผ์ด์ก์ ๋, ์ด๋ฅผ Class A๋ก ๋ถ๋ฅํ ์ง, Class B๋ก ๋ถ๋ฅํ ์ง๋ฅผ ํ๋จํ๋ ๋ฌธ์
k=3์ผ ๋, ์ฆ ์ ์ชฝ ์์ ์ดํด๋ณด์.
- k=3์ด๋ผ๋ ๋ป์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ฃผ๋ณ์ 3๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ณธ ๋ค, 3๊ฐ์ ์ฃผ๋ณ ๋ฐ์ดํฐ๊ฐ ๋ ๋ง์ด ํฌํจ๋์ด ์๋ ๋ฒ์ฃผ๋ก ๋ถ๋ฅํ๊ฒ ๋ค๋ ๋ป์ด๋ค.
- ๋นจ๊ฐ ์ ์ฃผ๋ณ์ ๋ ธ๋์ ์ (Class A) 1๊ฐ์ ๋ณด๋ผ์ ์ (Class B) 2๊ฐ๊ฐ ์๋ค.
- ๋ฐ๋ผ์ k=3์ผ ๋๋ ํด๋น ๋ฐ์ดํฐ๊ฐ Class B(๋ณด๋ผ์ ์ ) ์ผ๋ก ๋ถ๋ฅ๋๋ค.
k=6์ผ ๋, ์ฆ ๋ฐ๊นฅ์ชฝ ์์ ๋ณด์.
- ์ ์์ ๋ ธ๋์ ์ 4๊ฐ์ ๋ณด๋ผ์ ์ 2๊ฐ๊ฐ ์๋ค. -> k=6์ผ ๋๋ ๋ ธ๋์ ์ ์ผ๋ก ใ ๋๋ฅ
KNN์ K๋ฅผ ์ด๋ป๊ฒ ์ ํ๋๋์ ๋ฐ๋ผ ๊ฒฐ๊ณผ ๊ฐ์ด ๋ฐ๋ ์ ์๋ค.
- K๊ฐ ๋๋ฌด ์์์๋, ๋๋ฌด ์ปค์๋ ์ ๋๋ค.
- K์ default ๊ฐ์ 5 -> ๊ฐ์ฅ ๊ฐ๊น์ด 5๊ฐ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ถ๋ฅ
- ์ผ๋ฐ์ ์ผ๋ก K๋ ํ์๋ฅผ ์ฌ์ฉํจ
Lazy Model
- KNN์ ํน์ง์ ๋ฐ๋ก ํ๋ จ์ด ํ์ ์๋ค๋ ๊ฒ
(๋ค๋ฅธ ๋ชจ๋ธ๋ค์ clf.fit(x_train, y_train)์ ์ฝ๋๋ฅผ ํตํด ํ๋ จ์ํจ๋ค.
์ฆ, ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋ธ์ ๋ง๋๋ก ํ ์คํธ ๋ฐ์ดํฐ๋ก ํ ์คํธ๋ฅผ ํจ)
- ํ์ง๋ง KNN์ ํ๋ จ์ด ๋ฐ๋ก ํ์ํ์ง ์๊ณ , ๊ทธ๋ฅ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๋๊ฒ ํ๋ จ์ ์ ๋ถ
ex. SVM
-> ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก Decision Boundary๋ฅผ ๋ง๋ค๊ณ , ๊ทธ๋ ๊ฒ ๋ง๋ Decision Boundary๋ฅผ ํตํด ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํจ
- KNN์ ์ ๊ทธ๋ฆผ์ฒ๋ผ ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ง๋ฉด ๊ทธ์ ์ผ ์ฃผ๋ณ์ K๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ณ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํด์ค๋ค.
- ๋ฐ๋ผ์ ์ฌ์ ๋ชจ๋ธ๋ง์ด ํ์ x. real-time ์์ธก์ด ์ด๋ฃจ์ด์ง
- ๋ชจ๋ธ์ ๋ณ๋๋ก ๊ตฌ์ถํ์ง ์๋๋ค๋ ๋ป์ผ๋ก ๊ฒ์ผ๋ฅธ ๋ชจ๋ธ (lazy model)์ด๋ผ๊ณ ๋ถ๋ฆ
- SVM์ด๋ ์ ํ ํ๊ท๋ณด๋ค ๋น ๋ฆ
๊ฑฐ๋ฆฌ ๊ณ์ฐ
- KNN์๋ ๋ฐ์ดํฐ์ ๋ฐ์ดํฐ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ตฌํ๋ 2๊ฐ์ง ๋ฐฉ์์ด ์์
1. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ (Euclidean Distance)
2. ๋งจํดํผ ๊ฑฐ๋ฆฌ (Manhatten Distance)
- ์ ๊ณผ ์ ์ฌ์ด์ ์ง์ ๊ฑฐ๋ฆฌ๊ฐ ์๋ X์ถ, Y์ถ์ ๋ฐ๋ผ ๊ฐ ๊ฑฐ๋ฆฌ
- ์๋ ์์๋ฅผ ๋ณด๋ฉด Route 1, Route 2, Route3๋ ์๋ก ๋ค๋ฅธ ๊ธธ๋ก ๊ฐ์ง๋ง
X์ถ์ผ๋ก ๊ฐ ๊ฑฐ๋ฆฌ, Y์ถ์ผ๋ก ๊ฐ ๊ฑฐ๋ฆฌ๊ฐ ๋๊ฐ์ ๋งจํดํผ ๊ฑฐ๋ฆฌ๋ก๋ ๋๊ฐ์
'Computer ๐ป > Machine Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Frequent Patterns, Association Rules, Closed Pattern, Max Pattern (Data Mining) (0) | 2021.11.19 |
---|---|
K-means Clustering (K-ํ๊ท ํด๋ฌ์คํฐ๋ง) (0) | 2021.11.09 |
๊ทธ๋ผ๋์ธํธ ๋ถ์คํธ (Gradient Boost) (0) | 2021.11.07 |
์์ด๋ค ๋ถ์คํธ (AdaBoost) (0) | 2021.11.07 |
๋์ด๋ธ ๋ฒ ์ด์ฆ (Naive Bayes Classification) (0) | 2021.11.05 |