๊ด€๋ฆฌ ๋ฉ”๋‰ด

yeon's ๐Ÿ‘ฉ๐Ÿป‍๐Ÿ’ป

๋ฆฟ์ง€(Ridge)์™€ ๋ผ์˜(Lasso) ํšŒ๊ท€ ๋ณธ๋ฌธ

Computer ๐Ÿ’ป/Machine Learning

๋ฆฟ์ง€(Ridge)์™€ ๋ผ์˜(Lasso) ํšŒ๊ท€

yeon42 2021. 8. 25. 15:16
728x90

https://rk1993.tistory.com/entry/Ridge-regression์™€-Lasso-regression-์‰ฝ๊ฒŒ-์ดํ•ดํ•˜๊ธฐ

 

Ridge regression(๋ฆฟ์ง€ ํšŒ๊ท€)์™€ Lasso regression(๋ผ์˜ ํšŒ๊ท€) ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

Ridge regression์™€ Lasso regression๋ฅผ ์ดํ•ดํ•˜๋ ค๋ฉด ์ผ๋‹จ ์ •๊ทœํ™”(regularization)๋ฅผ ์•Œ์•„์•ผํ•ฉ๋‹ˆ๋‹ค. ์ฒซ๋ฒˆ์งธ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด ์ง์„  ๋ฐฉ์ •์‹์„ ์ด์šฉํ•˜์—ฌ ์„ ์„ ๊ทธ์—ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ์™€ ์ง์„ ์˜ ์ฐจ์ด๊ฐ€ ๊ฝค ๋‚˜๋„ค์š”. ์ •ํ™•ํ•œ

rk1993.tistory.com

๋ฅผ ๋”ฐ๋ผ ํ•„์‚ฌํ•˜๋ฉฐ ๊ณต๋ถ€

 

* ๋ชจ๋“  ์ด๋ฏธ์ง€๋Š” ์œ„ ๋ธ”๋กœ๊ทธ์—์„œ ์ฐธ์กฐํ•˜์˜€์Šต๋‹ˆ๋‹ค. *

 


 

 

* ์ •๊ทœํ™” (Regularization)

 

์ถœ์ฒ˜: ์œ„ ๋ธ”๋กœ๊ทธ

- ์ฒซ ๋ฒˆ์งธ ๊ทธ๋ฆผ: ๋ฐ์ดํ„ฐ์™€ ์ง์„ ์˜ ์ฐจ์ด๊ฐ€ ๊ฝค ๋‚œ๋‹ค.

  - ์ •ํ™•ํ•œ ์˜ˆ์ธกx

  - underfitted / high bias

 

  - bias๊ฐ€ ํฐ ๋ชจ๋ธ์€ test data๋ฅผ ์œ„ํ•œ ํ•™์Šต์ด ๋œ ๋œ ๊ฒƒ์ด ์›์ธ

  - ์ด๋Š” train data์™€ test data๊ฐ„์˜ ์ฐจ์ด๊ฐ€ ๋„ˆ๋ฌด ์ปค train data๋กœ๋งŒ ํ•™์Šตํ•œ ๋ชจ๋ธ์€ test data๋ฅผ ๋งž์ถ”๊ธฐ๊ฐ€ ์–ด๋ ค์›€

 

- ์„ธ ๋ฒˆ์งธ ๊ทธ๋ฆผ: ํ˜„์žฌ ๋ฐ์ดํ„ฐ๋กœ๋Š” ์ž˜ ๋งž์ง€๋งŒ, ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•œ ๊ฒฝ์šฐ ์ •ํ™•ํ•œ ์˜ˆ์ธก x

  - overfitting / high variance

 

  - variance๊ฐ€ ํฐ ๋ชจ๋ธ์€ train data์— overfitting๋œ ๊ฒƒ์ด ์›์ธ

  - ์ด๋Š” train data์— ๋„ˆ๋ฌด fitting๋œ ๋ชจ๋ธ์„ ๋งŒ๋“ค์–ด test data์—์„œ ์˜ค์ฐจ๊ฐ€ ๋ฐœ์ƒํ•จ

 

- ๋‘ ๋ฒˆ์งธ ๊ทธ๋ฆผ : ์–ด๋А ์ •๋„ ๋ฐ์ดํ„ฐ์— ์ ํ•ฉํ•˜๋ฉฐ bias์™€ variance์— ๋Œ€ํ•ด์„œ๋„ ์ ์ ˆํ•จ

 


- ๋ชจ๋ธ์„ ๋งŒ๋“ค ๋•Œ bias์™€ variance๋ฅผ ๋‘˜ ๋‹ค ์ค„์—ฌ์ฃผ๋ฉด ์ œ์ผ ์ข‹๊ฒ ์ง€๋งŒ, ํ•˜๋‚˜๋ฅผ ํฌ๊ธฐํ•˜๊ธฐ๋„ ํ•ด์•ผ ํ•œ๋‹ค.

  -> bias๋ฅผ ์กฐ๊ธˆ ๊ฐ€์ง€๋”๋ผ๋„ ์ œ์ผ ์ž‘์€ variance๋ฅผ ๊ฐ€์ง€๋Š” ๋ชจ๋ธ์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ์ข‹์ง€ ์•Š์„๊นŒ?

  -> overfitting์„ ํ•ด๊ฒฐํ•จ์œผ๋กœ์จ ํšจ๊ณผ๋ฅผ ๋ณผ ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ?

 

 

 

* overfitting์„ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐฉ๋ฒ•

1. ํŠน์„ฑ(feature)์˜ ๊ฐœ์ˆ˜ ์ค„์ด๊ธฐ

  - ์ฃผ์š” ํŠน์ง•์„ ์ง์ ‘ ์„ ํƒํ•˜๊ณ  ๋‚˜๋จธ์ง€๋Š” ๋ฒ„๋ฆฌ๊ธฐ

  - model selection algorithm(?)์„ ์‚ฌ์šฉํ•˜๊ธฐ

2. ์ •๊ทœํ™”(regularization)์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ

  - ๋ชจ๋“  ํŠน์„ฑ์„ ์‚ฌ์šฉํ•˜๋˜, ํŒŒ๋ผ๋ฏธํ„ฐ(์„ธํƒ€)์˜ ๊ฐ’์„ ์ค„์ด๊ธฐ (?)

 

 

 

 


 

 

* ์ •๊ทœํ™”(Regularization)

 

์ถœ์ฒ˜: ์œ„ ๋ธ”๋กœ๊ทธ

 

- ์ฒซ ๋ฒˆ์งธ ๊ทธ๋ž˜ํ”„ : overfitting๋˜์–ด ๋ชจ๋ธ์— ์ ํ•ฉํ•˜์ง€ ๋ชปํ•จ

  - ๋‘ ๋ฒˆ์งธ ๊ทธ๋ž˜ํ”„์™€ ๊ฐ™์€ ๋ชจ๋ธ ์‚ฌ์šฉํ•ด์•ผ ํ•จ

 

 

์ถœ์ฒ˜: ์œ„ ๋ธ”๋กœ๊ทธ

- ์ „์ฒด์‹์ด ์ตœ์†Œํ™”๊ฐ€ ๋˜๋ ค๋ฉด B3๊ณผ B4๊ฐ€ 0์œผ๋กœ ๋  ๋•Œ ๊ฐ€์žฅ ์ž‘์€์‹์ด ๋œ๋‹ค. : ์ •๊ทœํ™” ์ปจ์…‰

- ๋ฒ ํƒ€๊ฐ’(ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ’)์— ์ œ์•ฝ์„ ์คŒ์œผ๋กœ์จ ๋ชจ๋ธ์„ ์ •๋ˆ ํ•ด์คฌ๋‹ค.

- ๊ณผ์ ํ•ฉ์ด ์•„๋‹Œ ์ผ๋ฐ˜์„ฑ์„ ๋„๊ฒŒ ํ•ด์ฃผ๋Š” ๊ฒƒ

 

 

์ถœ์ฒ˜: ์œ„ ๋ธ”๋กœ๊ทธ

 

- ํ˜„์žฌ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์˜ˆ์ธก๋ ฅ๋„ ์ค‘์š”ํ•˜์ง€๋งŒ ๋ฏธ๋ž˜์— ์˜ˆ์ธกํ•  ๋ฐ์ดํ„ฐ๋„ ์ค‘์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ผ๋ฐ˜ํ™”๋Š” ์ค‘์š”ํ•˜๋‹ค.

 

- (1) ๋งŒ ์žˆ์œผ๋ฉด ์ตœ์†Œ์ œ๊ณฑ๋ฒ•๊ณผ ๋‹ค๋ฅธ๊ฒŒ ์—†๋Š”๋ฐ,

- (2) ๊ฐ€ ์ถ”๊ฐ€๋˜๋ฉด์„œ ๋ฒ ํƒ€์— ์ œ์•ฝ์„ ์ค„ ์ˆ˜ ์žˆ์–ด ์ •๊ทœํ™”๊ฐ€ ๊ฐ€๋Šฅํ•ด์ง„๋‹ค.

- ์ด๋ ‡๊ฒŒ ๊ณ„์ˆ˜ ์ถ”์ •์น˜๋ฅผ ์ค„์—ฌ์ฃผ๋Š” ์ •๊ทœํ™” ๋ฐฉ๋ฒ•์„ shrinkage method๋ผ๊ณ  ๋งํ•œ๋‹ค.

 

- ๊ทธ๋ฆฌ๊ณ  ์ด๋Ÿฐ ์ •๊ทœํ™”(regularization) ์ปจ์…‰์„ ์ฒ˜์Œ ๋„์ž…ํ•œ ๋ชจ๋ธ์ด ridge regression์ด๋‹ค.

 

 

 

 


 

* Ridge Regression (๋ฆฟ์ง€ ํšŒ๊ท€, L2 Regression)

์ถœ์ฒ˜: ์œ„ ๋ธ”๋กœ๊ทธ

 

- ๋ฆฟ์ง€ ํšŒ๊ท€์‹์€ 'RSS(residual sum of squares) + ํŒจ๋„ํ‹ฐ ํ•ญ(๋ฒ ํƒ€ ๊ฐ’)์˜ ํ•ฉ' ์œผ๋กœ ์ด๋ฃจ์–ด์ ธ์žˆ๋‹ค.

  - ๋ฆฟ์ง€ ํšŒ๊ท€์˜ ํŒจ๋„ํ‹ฐ ํ•ญ์€ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ œ๊ณฑ์„ ๋”ํ•ด์ค€ ๊ฒƒ

 

- ์ด๊ฒƒ์€ ๋ฏธ๋ถ„๊ฐ€๋Šฅํ•ด Gradient Descent ์ตœ์ ํ™”๊ฐ€ ๊ฐ€๋Šฅํ•˜๊ณ , ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ํฌ๊ธฐ๊ฐ€ ์ž‘์€ ๊ฒƒ๋ณด๋‹ค ํฐ ๊ฒƒ์„ ๋” ๋น ๋ฅธ ์†๋„๋กœ ์ค„์—ฌ์ค€๋‹ค.

- ์ฆ‰, λ(๋žŒ๋‹ค)๊ฐ€ ํด์ˆ˜๋ก ๋ฆฟ์ง€ ํšŒ๊ท€์˜ ๊ณ„์ˆ˜ ์ถ”์ •์น˜๋Š” 0์— ๊ฐ€๊นŒ์›Œ์ง€๋Š” ๊ฒƒ์ด๋‹ค.

- ์ฆ‰, λ(๋žŒ๋‹ค)๊ฐ€ ํŒจ๋„ํ‹ฐ๋ฅผ ์–ผ๋งˆ๋‚˜ ๋ถ€๊ณผํ•˜๋Š”๊ฐ€๋ฅผ ์กฐ์ ˆํ•˜๋Š” ์กฐ์ ˆ๋ฒ„ํŠผ์ด๋‹ค.

 

 


 

์ถœ์ฒ˜: ์œ„ ๋ธ”๋กœ๊ทธ

 

- ๋ฆฟ์ง€ ํšŒ๊ท€๋Š” β0^2+β1^2 ์˜ ์ œ์•ฝ์กฐ๊ฑด์ธ ์›์ด ์žˆ๋‹ค.

- ๊ธฐ์กด์˜ OLS (Ordinary Least Squares)๊ฐ€ ์œ„์— ๋ณด์ด๋Š” ์ œ์•ฝ์กฐ๊ฑด๊นŒ์ง€ ์™€์•ผ ์ตœ์ ๊ฐ’์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

- ๊ทธ๋ ‡๋‹ค๋ฉด OLS๊ฐ€ ์ œ์•ฝ์กฐ๊ฑด๊ฐ€์ง€ ์˜ค๊ธฐ ์œ„ํ•ด์„œ๋Š” RSS์˜ ํฌ๊ธฐ๋ฅผ ํ‚ค์›Œ์ฃผ๋ฉด ๋œ๋‹ค.

- bias๊ฐ€ ์•ฝ๊ฐ„ ํฌ์ƒ์€ ํ•˜์ง€๋งŒ variance๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด์„  ์•„๋ž˜์˜ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ ์ œ์•ฝ์กฐ๊ฑด๊นŒ์ง€ ์˜ค๋Š” ๊ฐ€์žฅ ์ž‘์€ RSS๋ฅผ ๊ณ ๋ฅด๋ฉด ๋œ๋‹ค. (?)

 

 


 

* Lasso Regression (๋ผ์˜ ํšŒ๊ท€, L1 Regression)

 

์ถœ์ฒ˜: ์œ„ ๋ธ”๋กœ๊ทธ

 

- ๋ผ์˜ ํšŒ๊ท€๋Š” ๋ฆฟ์ง€ ํšŒ๊ท€์™€ ๋น„์Šทํ•˜๊ฒŒ ์ƒ๊ฒผ์ง€๋งŒ ํŒจ๋„ํ‹ฐ ํ•ญ์— ์ ˆ๋Œ€๊ฐ’์˜ ํ•ฉ์„ ์ทจํ•ด์ฃผ์—ˆ๋‹ค.

- ๋ผ์˜๋Š” ์ œ์•ฝ์กฐ๊ฑด์ด ์ ˆ๋Œ€๊ฐ’์ด๋ผ ์•„๋ž˜์˜ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ ๋งˆ๋ฆ„๋ชจ๊ผด์˜ ํ˜•ํƒœ๋กœ ๋‚˜ํƒ€๋‚œ๋‹ค.

 

- ๋ฆฟ์ง€ ํšŒ๊ท€์™€ ๋น„์Šทํ•˜๊ฒŒ OLS์˜ RSS ๊ฐ’์„ ํฌ๊ฒŒ ๋Š˜๋ ค์ค€๋‹ค.

- ๋ผ์˜ ํšŒ๊ท€์˜ ๊ฒฝ์šฐ ์ตœ์ ๊ฐ’์€ ๋ชจ์„œ๋ฆฌ ๋ถ€๋ถ„์—์„œ ๋‚˜ํƒ€๋‚  ํ™•๋ฅ ์ด ๋ฆฟ์ง€์— ๋น„ํ•ด ๋†’์•„ ๋ช‡๋ช‡ ์œ ์˜๋ฏธํ•˜์ง€ ์•Š์€ ๋ณ€์ˆ˜๋“ค์— ๋Œ€ํ•ด ๊ณ„์ˆ˜๋ฅผ 0์— ๊ฐ€๊น๊ฒŒ ์ถ”์ •ํ•ด์ฃผ์–ด ๋ณ€์ˆ˜ ์„ ํƒ ํšจ๊ณผ๋ฅผ ๊ฐ€์ ธ์˜ค๊ฒŒ ๋œ๋‹ค.

- ๋ผ์˜ ํšŒ๊ท€๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ํฌ๊ธฐ์— ๊ด€๊ณ„์—†์ด ๊ฐ™์€ ์ˆ˜์ค€์˜ Regularization์„ ์ ์šฉํ•˜์˜€๊ธฐ ๋•Œ๋ฌธ์— ์ž‘์€ ๊ฐ’์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ 0์œผ๋กœ ๋งŒ๋“ค์–ด ํ•ด๋‹น ๋ณ€์ˆ˜๋ฅผ ๋ชจ๋ธ์—์„œ ์‚ญ์ œํ•˜๊ณ , ๋”ฐ๋ผ์„œ ๋ชจ๋ธ์„ ๋‹จ์ˆœํ•˜๊ฒŒ ๋งŒ๋“ค์–ด์ฃผ๊ณ  ํ•ด์„์— ์šฉ์ดํ•˜๊ฒŒ ๋งŒ๋“ค์–ด์ค€๋‹ค. (?)

 

 

์ถœ์ฒ˜: ์œ„ ๋ธ”๋กœ๊ทธ

 

- ๋ฐ˜๋ฉด ๋ฆฟ์ง€์˜ ๊ฒฝ์šฐ ์–ด๋А ์ •๋„ ์ƒ๊ด€์„ฑ์„ ๊ฐ€์ง€๋Š” ๋ณ€์ˆ˜๋“ค์— ๋Œ€ํ•ด pulling ์ด ๋˜๋Š” ํšจ๊ณผ๋ฅผ ๋ณด์—ฌ์ค˜ ๋ณ€์ˆ˜ ์„ ํƒ๋ณด๋‹ค๋Š” ์ƒ๊ด€์„ฑ์ด ์žˆ๋Š” ๋ณ€์ˆ˜๋“ค์— ๋Œ€ํ•ด ์ ์ ˆํ•œ ๊ฐ€์ค‘์น˜ ๋ฐฐ๋ถ„์„ ํ•˜๊ฒŒ ๋œ๋‹ค.

- ๋”ฐ๋ผ์„œ ๋ฆฟ์ง€์˜ ๊ฒฝ์šฐ PCA์™€ ์ƒ๋‹นํ•œ ๊ด€๋ จ์„ฑ์ด ์žˆ๊ฒŒ ๋œ๋‹ค.

 

์ถœ์ฒ˜: ์œ„ ๋ธ”๋กœ๊ทธ

 

Comments