๊ด€๋ฆฌ ๋ฉ”๋‰ด

๋ชฉ๋ก์ž„๋ฒ ๋”ฉ (3)

yeon's ๐Ÿ‘ฉ๐Ÿป‍๐Ÿ’ป

[๋„์„œ] ํ•œ๊ตญ์–ด ์ž„๋ฒ ๋”ฉ - 2์žฅ. ๋ถ„ํฌ ๊ฐ€์ •, PMI, Word2Vec

2.4 ์–ด๋–ค ๋‹จ์–ด๊ฐ€ ๊ฐ™์ด ์“ฐ์˜€๋Š”๊ฐ€ 2.4.1 ๋ถ„ํฌ ๊ฐ€์ • ๋ถ„ํฌ(distribution): ํŠน์ • ๋ฒ”์œ„, ์ฆ‰ ์œˆ๋„์šฐ(window) ๋‚ด์— ๋™์‹œ์— ๋“ฑ์žฅํ•˜๋Š” ๋‹จ์–ด์˜ ์ด์›ƒ ๋‹จ์–ด or ๋ฌธ๋งฅ์˜ ์ง‘ํ•ฉ ๋ถ„ํฌ ๊ฐ€์ •์˜ ์ „์ œ - ์–ด๋–ค ๋‹จ์–ด ์Œ์ด ๋น„์Šทํ•œ ๋ฌธ๋งฅ ํ™˜๊ฒฝ์—์„œ ์ž์ฃผ ๋“ฑ์žฅํ•œ๋‹ค๋ฉด, ๊ทธ ์˜๋ฏธ ๋˜ํ•œ ์œ ์‚ฌํ•  ๊ฒƒ์ด๋‹ค. - '๋‹จ์–ด์˜ ์˜๋ฏธ๋Š” ๊ณง ๊ทธ ์–ธ์–ด์—์„œ์˜ ํ™œ์šฉ์ด๋‹ค' ex) '๋นจ๋ž˜' ์™€ '์„ธํƒ'์˜ ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ํŒŒ์•…ํ•˜๊ธฐ ์œ„ํ•ด์„œ -> ๋ฌธ์„œ ๋‚ด ์ฃผ๋ณ€์— ๋“ฑ์žฅํ•˜๋Š” ๋ฌธ๋งฅ ๋‹จ์–ด๋ฅผ ํ†ตํ•ด ํ™•์ธํ•œ ๊ฒฐ๊ณผ ์ด์›ƒํ•œ ๋‹จ์–ด๋“ค์ด ์„œ๋กœ ๋น„์Šทํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํƒ€๊นƒ ๋‹จ์–ด('๋นจ๋ž˜', '์„ธํƒ') ๋˜ํ•œ ๋น„์Šทํ•œ ์˜๋ฏธ๋ผ๊ณ  ์—ฌ๊ธด๋‹ค. But, ๊ฐœ๋ณ„ ๋‹จ์–ด์˜ ๋ถ„ํฌ ์ •๋ณด์™€ ๊ทธ ์˜๋ฏธ ์‚ฌ์ด์— ๋…ผ๋ฆฌ์ ์œผ๋กœ ์ง์ ‘์ ์ธ ์—ฐ๊ด€์„ฑ์ด ์žˆ์–ด๋ณด์ด์ง€ ์•Š๋Š”๋‹ค. -> ๋ถ„ํฌ ์ •๋ณด๊ฐ€ ๊ณง ์˜๋ฏธ๋ผ๋Š” ๋ถ„ํฌ ๊ฐ€์ •์— ์˜๋ฌธ์ ์ด ์ œ..

NLP 2022. 11. 13. 23:20
[๋„์„œ] ํ•œ๊ตญ์–ด ์ž„๋ฒ ๋”ฉ - 2์žฅ. ๋ฐฑ์˜ค๋ธŒ์›Œ์ฆˆ, TF-IDF

2.1 ์ž์—ฐ์–ด ๊ณ„์‚ฐ๊ณผ ์ดํ•ด ์ž„๋ฒ ๋”ฉ์— ์ž์—ฐ์–ด ์˜๋ฏธ๋ฅผ ์–ด๋–ป๊ฒŒ ํ•จ์ถ•ํ• ๊นŒ. - ์ž์—ฐ์–ด์˜ ํ†ต๊ณ„์  ํŒจํ„ด ์ •๋ณด๋ฅผ ํ†ต์งธ๋กœ ์ž„๋ฒ ๋”ฉ์— ๋„ฃ์ž. ์ž„๋ฒ ๋”ฉ์„ ๋งŒ๋“ค ๋•Œ ์“ฐ๋Š” ํ†ต๊ณ„ ์ •๋ณด 1) ๋ฌธ์žฅ์— ์–ด๋–ค ๋‹จ์–ด๊ฐ€ (๋งŽ์ด) ์“ฐ์˜€๋Š”์ง€ 2) ๋‹จ์–ด๊ฐ€ ์–ด๋–ค ์ˆœ์„œ๋กœ ๋“ฑ์žฅํ•˜๋Š”์ง€ 3) ๋ฌธ์žฅ์— ์–ด๋–ค ๋‹จ์–ด๊ฐ€ ๊ฐ™์ด ๋‚˜ํƒ€๋‚ฌ๋Š”์ง€ ๋ฐฑ์˜ค๋ธŒ์›Œ์ฆˆ ๊ฐ€์ • ์–ธ์–ด ๋ชจ๋ธ ๋ถ„ํฌ ๊ฐ€์ • ๋‚ด์šฉ ์–ด๋–ค ๋‹จ์–ด๊ฐ€ (๋งŽ์ด) ์“ฐ์˜€๋Š”๊ฐ€ ๋‹จ์–ด๊ฐ€ ์–ด๋–ค ์ˆœ์„œ๋กœ ์“ฐ์˜€๋Š”๊ฐ€ ์–ด๋–ค ๋‹จ์–ด๊ฐ€ ๊ฐ™์ด ์“ฐ์˜€๋Š”๊ฐ€ ๋Œ€ํ‘œ ํ†ต๊ณ„๋Ÿ‰ TF-IDF PMI ๋Œ€ํ‘œ ๋ชจ๋ธ Deep Averaging Network ELMo, GPT Word2Vec * ๋ฐฑ์˜ค๋ธŒ์›Œ์ฆˆ(bag of words) ๊ฐ€์ • - ์–ด๋–ค ๋‹จ์–ด๊ฐ€ (๋งŽ์ด) ์“ฐ์˜€๋Š”์ง€ ์ •๋ณด๋ฅผ ์ค‘์‹œ - ์ €์ž์˜ ์˜๋„๋Š” ๋‹จ์–ด ์‚ฌ์šฉ ์—ฌ๋ถ€ or ๊ทธ ๋นˆ๋„์—์„œ ๋“œ๋Ÿฌ๋‚œ๋‹ค๊ณ  ๊ฐ€์ • - ๋‹จ์–ด์˜ ์ˆœ์„œ ์ •๋ณด๋Š” ๋ฌด์‹œ ..

NLP 2022. 11. 13. 22:57
[๋„์„œ] ํ•œ๊ตญ์–ด ์ž„๋ฒ ๋”ฉ - 1์žฅ. ๋‹ค์–‘ํ•œ ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ•๋“ค

1.3 ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ•์˜ ์—ญ์‚ฌ์™€ ์ข…๋ฅ˜ 1.3.1 ํ†ต๊ณ„ ๊ธฐ๋ฐ˜์—์„œ ๋‰ด๋Ÿด ๋„คํŠธ์›Œํฌ ๊ธฐ๋ฐ˜์œผ๋กœ ์ดˆ๊ธฐ ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ•: ์ž ์žฌ ์˜๋ฏธ ๋ถ„์„(Latent Semantic Analysis) : ๋‹จ์–ด ์‚ฌ์šฉ ๋นˆ๋„ ๋“ฑ ๋ง๋ญ‰์น˜์˜ ํ†ต๊ณ„๋Ÿ‰ ์ •๋ณด๊ฐ€ ๋“ค์–ด ์žˆ๋Š” ์ปค๋‹ค๋ž€ ํ–‰๋ ฌ์— ํŠน์ด๊ฐ’ ๋ถ„ํ•ด(SVD) ๋“ฑ ์ˆ˜ํ•™์  ๊ธฐ๋ฒ•์„ ์ ์šฉํ•ด ํ–‰๋ ฌ์— ์†ํ•œ ๋ฒกํ„ฐ๋“ค์˜ ์ฐจ์›์„ ์ถ•์†Œํ•˜๋Š” ๋ฐฉ๋ฒ• -> ์ด ๊ฒฐ๊ณผ๋กœ ๋ง๋ญ‰์น˜์˜ ์ฃผ์ œ๋ฅผ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ๋‹ค. ex) ๋‹จ์–ด-๋ฌธ์„œ ํ–‰๋ ฌ์— ์ž ์žฌ ์˜๋ฏธ ๋ถ„์„์„ ์ ์šฉ - ๋Œ€๋ถ€๋ถ„์˜ ํ–‰๋ ฌ์€ ํฌ์†Œ ํ–‰๋ ฌ(๋Œ€๋ถ€๋ถ„์˜ ์š”์†Œ ๊ฐ’์ด 0์ธ ํ–‰๋ ฌ)์ธ๋ฐ, ์ด๋Ÿฐ ํฌ์†Œ ํ–‰๋ ฌ์ด ๋‹ค๋ฅธ ๋ชจ๋ธ์˜ ์ž…๋ ฅ๊ฐ’์œผ๋กœ ์“ฐ์ด๊ฒŒ ๋˜๋ฉด ๊ณ„์‚ฐ๋Ÿ‰, ๋ฉ”๋ชจ๋ฆฌ ์†Œ๋น„๋Ÿ‰์ด ๋„ˆ๋ฌด ์ปค์ง -> ์ด๋Ÿฐ ์ด์œ ๋กœ ์›๋ž˜ ํ–‰๋ ฌ์˜ ์ฐจ์›์„ ์ถ•์†Œํ•œ ๋’ค ์‚ฌ์šฉํ•œ๋‹ค. - ๋‹จ์–ด or ๋ฌธ์„œ๋ฅผ ๊ธฐ์ค€์œผ๋กœ ์ฐจ์›์„ ์ถ•์†Œํ•  ์ˆ˜ ์žˆ์Œ - ๋‹จ์–ด ๊ธฐ์ค€์œผ๋กœ ..

NLP 2022. 11. 13. 03:06