๊ด€๋ฆฌ ๋ฉ”๋‰ด

yeon's ๐Ÿ‘ฉ๐Ÿป‍๐Ÿ’ป

[๋„์„œ] ํ•œ๊ตญ์–ด ์ž„๋ฒ ๋”ฉ - 2์žฅ. ์–ธ์–ด ๋ชจ๋ธ, n-gram ๋ณธ๋ฌธ

NLP

[๋„์„œ] ํ•œ๊ตญ์–ด ์ž„๋ฒ ๋”ฉ - 2์žฅ. ์–ธ์–ด ๋ชจ๋ธ, n-gram

yeon42 2022. 11. 13. 23:02
728x90

2.3 ๋‹จ์–ด๊ฐ€ ์–ด๋–ค ์ˆœ์„œ๋กœ ์“ฐ์˜€๋Š”๊ฐ€

2.3.1 ํ†ต๊ณ„ ๊ธฐ๋ฐ˜ ์–ธ์–ด ๋ชจ๋ธ

์–ธ์–ด ๋ชจ๋ธ(langguage model): ๋‹จ์–ด ์‹œํ€€์Šค์— ํ™•๋ฅ ์„ ๋ถ€์—ฌํ•˜๋Š” ๋ชจ๋ธ

- ๋“ฑ์žฅ ์ˆœ์„œ๋ฅผ ๋ฌด์‹œํ•˜๋Š” ๋ฐฑ์˜ค๋ธŒ์›Œ์ฆˆ์™€ ๋‹ฌ๋ฆฌ ์‹œํ€€์Šค ์ •๋ณด๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ํ•™์Šต

(+ ์‹œํ€€์Šค๋ž€ ์ˆœ์„œ ์ •๋ณด๋„ ์ €์žฅ๋˜์–ด ์žˆ๋Š” ๊ฒƒ์ž„!)

- ๋ฐฑ์˜ค๋ธŒ์›Œ์ฆˆ์˜ ๋Œ€์ฒ™์ 

 

๋‹จ์–ด๊ฐ€ n๊ฐœ ์ฃผ์–ด์ง€๋ฉด ์–ธ์–ด ๋ชจ๋ธ์€ n๊ฐœ์˜ ๋‹จ์–ด๊ฐ€ ๋™์‹œ์— ๋‚˜ํƒ€๋‚  ํ™•๋ฅ , ์ฆ‰ P(w1, ..., 2n)์„ ๋ฐ˜ํ™˜ํ•จ

- ๋ง๋ญ‰์น˜์— ํ•ด๋‹น ๋‹จ์–ด ์‹œํ€€์Šค๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ž์ฃผ ๋“ฑ์žฅํ•˜๋Š”์ง€ ๋นˆ๋„๋ฅผ ์„ธ์–ด ํ•™์Šตํ•จ

 

์ž์—ฐ์Šค๋Ÿฌ์šด ๋ฌธ์žฅ์— ๋†’์€ ํ™•๋ฅ  ๊ฐ’์„ ๋ถ€์—ฌํ•˜์—ฌ ์ž˜ ํ•™์Šต๋œ ์–ธ์–ด ๋ชจ๋ธ์ด ์žˆ๋‹ค๋ฉด ์–ด๋–ค ๋ฌธ์žฅ์ด ๊ทธ๋Ÿด๋“ฏํ•œ์ง€ ์•Œ ์ˆ˜ ์žˆ์Œ

 

 

 

n-gram: n๊ฐœ ๋‹จ์–ด๋ฅผ ๋œปํ•˜๋Š” ์šฉ์–ด

- ๋ง๋ญ‰์น˜ ๋‚ด ๋‹จ์–ด๋“ค์„ n๊ฐœ์”ฉ ๋ฌถ์–ด ๊ทธ ๋นˆ๋„๋ฅผ ํ•™์Šตํ–ˆ๋‹ค๋Š” ์˜๋ฏธ

 

ex) ๋„์–ด์“ฐ๊ธฐ ๋‹จ์œ„์ธ ์–ด์ ˆ์„ ํ•˜๋‚˜์˜ ๋‹จ์–ด๋กœ ๋ณด๊ณ  ๋นˆ๋„๋ฅผ ์„ผ ํ‘œ

- ๋ฌธ๋ฒ•์ , ์˜๋ฏธ์ ์œผ๋กœ ๊ฒฐํ•จ์ด ์—†๋Š” ํ›Œ๋ฅญํ•œ ๋ฌธ์žฅ์ž„์—๋„ ๋ง๋ญ‰์น˜์— ๋“ฑ์žฅํ•˜์ง€ ์•Š๋Š”๋‹ค๋ฉด ํ•ด๋‹น ํ‘œํ˜„์„ ๋ง์ด ๋˜์ง€ ์•Š๋Š” ๋ฌธ์žฅ์œผ๋กœ ์ทจ๊ธ‰ํ•จ

 

 

Q1. '๋‚ด ๋งˆ์Œ ์†์— ์˜์›ํžˆ ๊ธฐ์–ต๋  ์ตœ๊ณ ์˜' ๋ผ๋Š” ํ‘œํ˜„ ๋’ค์— '๋ช…์ž‘์ด๋‹ค' ๋ผ๋Š” ๋‹จ์–ด๊ฐ€ ๋‚˜ํƒ€๋‚  ํ™•๋ฅ 

-> ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์˜ ์ •์˜๋ฅผ ํ™œ์šฉํ•ด ์ตœ๋Œ€์šฐ๋„์ถ”์ •๋ฒ•์œผ๋กœ ์œ ๋„ํ•˜๊ธฐ

 

 

-> ํ•˜์ง€๋งŒ ์œ„ ์‹์˜ ์šฐ๋ณ€์˜ ๋ถ„์ž๊ฐ€ 0์ด๊ธฐ ๋•Œ๋ฌธ์— (๋ง์ด ๋˜์ง€๋งŒ ๋ง๋ญ‰์น˜์— ๋“ฑ์žฅํ•˜์ง€ ์•Š์Œ) ์ „์ฒด ๊ฐ’์€ 0์ด ๋œ๋‹ค.

 

 

n-gram ๋ชจ๋ธ์„ ์“ฐ๋ฉด ์ด๋Ÿฐ ๋ฌธ์ œ์˜ ์ผ๋ถ€๋ฅผ ํ•ด๊ฒฐ ๊ฐ€๋Šฅํ•จ

- ์ง์ „ n-1๊ฐœ ๋‹จ์–ด์˜ ๋“ฑ์žฅ ํ™•๋ฅ ๋กœ ์ „์ฒด ๋‹จ์–ด ์‹œํ€€์Šค ๋“ฑ์žฅ ํ™•๋ฅ ์„ ๊ทผ์‚ฌํ•จ

- ๋งˆ๋ฅด์ฝ”ํ”„ ๊ฐ€์ •(Markov assumption)์— ๊ธฐ๋ฐ˜

    - ํ•œ ์ƒํƒœ์˜ ํ™•๋ฅ ์€ ๊ทธ ์ง์ „ ์ƒํƒœ์—๋งŒ ์˜์กดํ•จ

    - xi+1์€ ์ง์ „ xi์—๋งŒ ์˜ํ–ฅ์„ ๋ฐ›๊ณ , ๊ทธ ์ด์ „ x1, ..., xi-1๊ณผ๋Š” ํ†ต๊ณ„์  ๋…๋ฆฝ

 

 

 

Q2. '๋‚ด ๋งˆ์Œ ์†์— ์˜์›ํžˆ ๊ธฐ์–ต๋  ์ตœ๊ณ ์˜' ๋’ค์— '๋ช…์ž‘์ด๋‹ค' ๊ฐ€ ๋‚˜ํƒ€๋‚  ํ™•๋ฅ ์„ ๋ฐ”์ด๊ทธ๋žจ ๋ชจ๋ธ๋กœ ๊ทผ์‚ฌํ•˜๊ธฐ

- ๋ฐ”์ด๊ทธ๋žจ = 2-gram

 

 

 

Q3. ๋ฐ”์ด๊ทธ๋žจ ๋ชจ๋ธ์—์„œ '๋‚ด ๋งˆ์Œ ์†์— ์˜์›ํžˆ ๊ธฐ์–ต๋  ์ตœ๊ณ ์˜ ๋ช…์ž‘์ด๋‹ค ๋ผ๋Š” ๋‹จ์–ด ์‹œํ€€์Šค๊ฐ€ ๋‚˜ํƒ€๋‚  ํ™•๋ฅ ์€ ์–ด๋–จ๊นŒ?

 

 

n-gram ๋ชจ๋ธ์€ ๋ฐ”์ด๊ทธ๋žจ ๋ชจ๋ธ์˜ ํ™•์žฅํŒ์œผ๋กœ ์ „์ฒด ๋‹จ์–ด ์‹œํ€€์Šค ๋“ฑ์žฅ ํ™•๋ฅ  ๊ณ„์‚ฐ ์‹œ ์ง์ „ n-1๊ฐœ ๋‹จ์–ด์˜ ํžˆ์Šคํ† ๋ฆฌ๋ฅผ ๋ด„

 

 

 

Pbl) ํ•œ ๋ฒˆ๋„ ๋“ฑ์žฅํ•˜์ง€ ์•Š์€ n-gram ์ด ์กด์žฌํ•  ๋•Œ ์˜ˆ์ธก ๋‹จ๊ณ„์—์„œ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Œ

ex) '๋˜๋ฐ”๊ธฐ'๋Š” '์–ธ์ œ๋‚˜ ํ•œ๊ฒฐ๊ฐ™์ด ๊ผญ ๊ทธ๋ ‡๊ฒŒ' ๋ผ๋Š” ๋œป์„ ๊ฐ€์ง„ ํ•œ๊ตญ์–ด ๋ถ€์‚ฌ

-> ์˜ˆ์ธก ๋‹จ๊ณ„์—์„œ '๊ทธ ์•„์ด๋Š” ๋˜๋ฐ”๊ธฐ ์ธ์‚ฌ๋ฅผ ์ž˜ํ•œ๋‹ค'๋ผ๋Š” ๋ฌธ์žฅ์ด ๋“ฑ์žฅํ•  ํ™•๋ฅ ์„ 0์œผ๋กœ ๋ถ€์—ฌํ•˜๊ฒŒ ๋จ

 

Sol) ๋ฐฑ์˜คํ”„(back-off), ์Šค๋ฌด๋”ฉ(smoothing)

- ๋ฐฑ์˜คํ”„: n-gram ๋“ฑ์žฅ ๋นˆ๋„๋ฅผ n๋ณด๋‹ค ์ž‘์€ ๋ฒ”์œ„์˜ ๋‹จ์–ด ์‹œํ€€์Šค ๋นˆ๋„๋กœ ๊ทผ์‚ฌํ•˜๋Š” ๋ฐฉ์‹

   - n์ด ํด์ˆ˜๋ก ๋“ฑ์žฅํ•˜์ง€ ์•Š๋Š” ์ผ€์ด์Šค๊ฐ€ ๋งŽ์•„์งˆ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๊ธฐ ๋•Œ๋ฌธ

   - ์—ฌ๊ธฐ์„œ alpha, beta๋Š” ์‹ค์ œ ๋นˆ๋„์™€์˜ ์ฐจ์ด๋ฅผ ๋ณด์ •ํ•ด์ฃผ๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ

 

- ์Šค๋ฌด๋”ฉ: ๋“ฑ์žฅ ๋นˆ๋„ ํ‘œ์— ๋ชจ๋‘ k๋งŒํผ ๋”ํ•˜๋Š” ๊ธฐ๋ฒ•

   - 0์ด์—ˆ๋˜ ๋นˆ๋„๊ฐ€ k๊ฐ€ ๋จ

   - Add-k ์Šค๋ฌด๋”ฉ์ด๋ผ๊ณ ๋„ ๋ถ€๋ฆ„

   - ๋งŒ์•ฝ k=1์ด๋ผ๋ฉด ์ด๋ฅผ ๋ผํ”Œ๋ผ์Šค ์Šค๋ฌด๋”ฉ์ด๋ผ๊ณ ๋„ ๋ถ€๋ฆ„

   - ๋†’์€ ๋นˆ๋„๋ฅผ ๊ฐ€์ง„ ๋ฌธ์ž์—ด ๋“ฑ์žฅ ํ™•๋ฅ ์„ ์ผ๋ถ€ ๊นŽ๊ณ , ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์ „ํ˜€ ๋“ฑ์žฅํ•˜์ง€ ์•Š๋Š” ์ผ€์ด์Šค๋“ค์—๊ฒŒ๋Š” ์ž‘๊ฒŒ๋‚˜๋งˆ ์ผ๋ถ€ ํ™•๋ฅ ์„ ๋ถ€์—ฌ

 

 

 

2.3.2 ๋‰ด๋Ÿด ๋„คํŠธ์›Œํฌ ๊ธฐ๋ฐ˜ ์–ธ์–ด ๋ชจ๋ธ

ํ†ต๊ณ„ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค์€ ๋‹จ์–ด๋“ค์˜ ๋นˆ๋„๋ฅผ ์„ธ์–ด ํ•™์Šตํ•œ๋‹ค.

-> ์ด๋ฅผ ๋‰ด๋Ÿด ๋„คํˆฌ์›Œํฌ๋กœ ํ•™์Šตํ•  ์ˆ˜๋„ ์žˆ์Œ

 

๋‰ด๋Ÿด ๋„คํŠธ์›Œํฌ๋Š” ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ์œ ์—ฐํ•˜๊ฒŒ ํฌ์ฐฉํ•˜๊ณ , ๊ทธ ์ž์ฒด๋กœ ํ™•๋ฅ  ๋ชจ๋ธ๋กœ ๊ธฐ๋Šฅํ•  ์ˆ˜ ์žˆ๋‹ค.

 

* ๋‰ด๋Ÿด ๋„คํŠธ์›Œํฌ ๊ธฐ๋ฐ˜ ์–ธ์–ด ๋ชจ๋ธ์€ ์ฃผ์–ด์ง„ ๋‹จ์–ด ์‹œํ€€์Šค๋ฅผ ๊ฐ€์ง€๊ณ  ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ๋งž์ถ”๋Š”(prediction) ๊ณผ์ •์—์„œ ํ•™์Šต ๋จ

- ํ•™์Šต์ด ์™„๋ฃŒ๋˜๋ฉด ์ด๋ฅผ ๋ชจ๋ธ์˜ ์ค‘๊ฐ„ or ๋ง๋‹จ ๊ณ„์‚ฐ ๊ฒฐ๊ณผ๋ฌผ์„ ๋‹จ์–ด๋‚˜ ๋ฌธ์žฅ์˜ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ํ™œ์šฉ

ex) ELMo, GPT ๋“ฑ

 

๋ฐœ ์—†๋Š” ๋ง์ด -> '์–ธ์–ด ๋ชจ๋ธ' -> ์ฒœ๋ฆฌ

 

 

๋งˆ์Šคํฌ ์–ธ์–ด ๋ชจ๋ธ(masked language model)

: ๋ฌธ์žฅ ์ค‘๊ฐ„์— ๋งˆ์Šคํฌ๋ฅผ ์”Œ์šฐ๊ณ , ํ•ด๋‹น ๋งˆ์Šคํฌ ์œ„์น˜์— ์–ด๋–ค ๋‹จ์–ด๊ฐ€ ์˜ฌ์ง€ ์˜ˆ์ธกํ•˜๋Š” ๊ณผ์ •์—์„œ ํ•™์Šตํ•จ

 

๋ฐœ ์—†๋Š” ๋ง์ด [MASK] ๊ฐ„๋‹ค -> '์–ธ์–ด ๋ชจ๋ธ' -> ์ฒœ๋ฆฌ

 

์–ธ์–ด ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๊ธฐ๋ฒ•

- ๋‹จ์–ด๋ฅผ ์ˆœ์ฐจ์ ์œผ๋กœ ์ž…๋ ฅ ๋ฐ›์•„ ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ๋งž์ถ”๊ธฐ ๋•Œ๋ฌธ์— '์ผ๋ฐฉํ–ฅ'

 

ํ•˜์ง€๋งŒ ๋งˆ์Šคํฌ ์–ธ์–ด ๋ชจ๋ธ ๊ธฐ๋ฒ•

- ๋ฌธ์žฅ ์ „์ฒด๋ฅผ ๋‹ค ๋ณด๊ณ , ์ค‘๊ฐ„์— ์žˆ๋Š” ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๊ธฐ ๋•Œ๋ฌธ์— '์–‘๋ฐฉํ–ฅ'

- ๊ธฐ์กด ์–ธ์–ด ๋ชจ๋ธ ๊ธฐ๋ฒ•๋“ค ๋Œ€๋น„ ์ž„๋ฒ ๋”ฉ ํ’ˆ์งˆ์ด ์ข‹์Œ

ex) BERT

Comments