λͺ©λ‘λ„μ„œ (5)

yeon's πŸ‘©πŸ»‍πŸ’»

[λ„μ„œ] ν•œκ΅­μ–΄ μž„λ² λ”© - 3μž₯. ν•œκ΅­μ–΄ μ „μ²˜λ¦¬ - λΉ„/지도 ν•™μŠ΅ 기반 ν˜•νƒœμ†Œ 뢄석 (KoNLPy, Khaiii, soynlp, SentencePiece)

3μž₯. ν•œκ΅­μ–΄ μ „μ²˜λ¦¬ κ΅μž¬μ—μ„œ μ‚¬μš©ν•˜λŠ” ν•œκ΅­μ–΄ 데이터셋 - ν•œκ΅­μ–΄ μœ„ν‚€ λ°±κ³Ό - KorQuAD - 넀이버 μ˜ν™” 리뷰 λ§λ­‰μΉ˜ 3.2 지도 ν•™μŠ΅ 기반 ν˜•νƒœμ†Œ 뢄석 ν•œκ΅­μ–΄λŠ” 쑰사와 μ–΄λ―Έκ°€ λ°œλ‹¬λ˜μ–΄ 있기 λ•Œλ¬Έμ— ν•˜λ‚˜μ˜ λ™μ‚¬μ΄μ§€λ§Œ λ‹€μ–‘ν•˜κ²Œ ν™œμš©λ  수 μžˆλ‹€. ex) κ°€κ² λ‹€, 가더라 λ”°λΌμ„œ μƒˆλ‘œμš΄ ν™œμš©ν˜•μ΄ λ‚˜νƒ€λ‚  λ•Œλ§ˆλ‹€ μ–΄νœ˜ 집합을 계속 λŠ˜λ €μ•Ό ν•˜λŠ” 단점이 μžˆλ‹€. -> 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ ν˜•νƒœμ†Œ 뢄석 기법을 μ‚¬μš©ν•œλ‹€. κ°€κ² λ‹€ > κ°€, κ² , λ‹€ 가더라 > κ°€, 더라 λ§Œμ•½ μΆ”κ°€λ‘œ '가겠더라' λΌλŠ” ν™œμš©ν˜•μ΄ λ§λ­‰μΉ˜μ— μΆ”κ°€λ˜μ—ˆλ‹€κ³  κ°€μ •ν•˜μž. '가겠더라'λŠ” 'κ°€, κ² , 더라'둜 λΆ„μ„λ˜κΈ° λ•Œλ¬Έμ— μ–΄νœ˜μ§‘ν•©μ„ μˆ˜μ •ν•˜μ§€ μ•Šκ³ λ„ '가겠더라' λΌλŠ” ν™œμš©ν˜•μ„ μ²˜λ¦¬ν•  수 있게 λœλ‹€. ꡐ착어인 ν•œκ΅­μ–΄λŠ” ν•œμ •λœ μ’…λ₯˜μ˜ 쑰사와 μ–΄λ―Έλ₯Ό μ‚¬μš©ν•˜κΈ° ..

NLP 2022. 12. 2. 12:29
[λ„μ„œ] ν•œκ΅­μ–΄ μž„λ² λ”© - 2μž₯. 뢄포 κ°€μ •, PMI, Word2Vec

2.4 μ–΄λ–€ 단어가 같이 μ“°μ˜€λŠ”κ°€ 2.4.1 뢄포 κ°€μ • 뢄포(distribution): νŠΉμ • λ²”μœ„, 즉 μœˆλ„μš°(window) 내에 λ™μ‹œμ— λ“±μž₯ν•˜λŠ” λ‹¨μ–΄μ˜ 이웃 단어 or λ¬Έλ§₯의 μ§‘ν•© 뢄포 κ°€μ •μ˜ μ „μ œ - μ–΄λ–€ 단어 쌍이 λΉ„μŠ·ν•œ λ¬Έλ§₯ ν™˜κ²½μ—μ„œ 자주 λ“±μž₯ν•œλ‹€λ©΄, κ·Έ 의미 λ˜ν•œ μœ μ‚¬ν•  것이닀. - 'λ‹¨μ–΄μ˜ μ˜λ―ΈλŠ” κ³§ κ·Έ μ–Έμ–΄μ—μ„œμ˜ ν™œμš©μ΄λ‹€' ex) '빨래' 와 '세탁'의 λ‹¨μ–΄μ˜ 의미λ₯Ό νŒŒμ•…ν•˜κΈ° μœ„ν•΄μ„œ -> λ¬Έμ„œ λ‚΄ 주변에 λ“±μž₯ν•˜λŠ” λ¬Έλ§₯ 단어λ₯Ό 톡해 ν™•μΈν•œ κ²°κ³Ό μ΄μ›ƒν•œ 단어듀이 μ„œλ‘œ λΉ„μŠ·ν•˜κΈ° λ•Œλ¬Έμ— 타깃 단어('빨래', '세탁') λ˜ν•œ λΉ„μŠ·ν•œ 의미라고 μ—¬κΈ΄λ‹€. But, κ°œλ³„ λ‹¨μ–΄μ˜ 뢄포 정보와 κ·Έ 의미 사이에 λ…Όλ¦¬μ μœΌλ‘œ 직접적인 연관성이 μžˆμ–΄λ³΄μ΄μ§€ μ•ŠλŠ”λ‹€. -> 뢄포 정보가 κ³§ μ˜λ―ΈλΌλŠ” 뢄포 가정에 의문점이 제..

NLP 2022. 11. 13. 23:20
[λ„μ„œ] ν•œκ΅­μ–΄ μž„λ² λ”© - 2μž₯. λ°±μ˜€λΈŒμ›Œμ¦ˆ, TF-IDF

2.1 μžμ—°μ–΄ 계산과 이해 μž„λ² λ”©μ— μžμ—°μ–΄ 의미λ₯Ό μ–΄λ–»κ²Œ ν•¨μΆ•ν• κΉŒ. - μžμ—°μ–΄μ˜ 톡계적 νŒ¨ν„΄ 정보λ₯Ό ν†΅μ§Έλ‘œ μž„λ² λ”©μ— λ„£μž. μž„λ² λ”©μ„ λ§Œλ“€ λ•Œ μ“°λŠ” 톡계 정보 1) λ¬Έμž₯에 μ–΄λ–€ 단어가 (많이) μ“°μ˜€λŠ”μ§€ 2) 단어가 μ–΄λ–€ μˆœμ„œλ‘œ λ“±μž₯ν•˜λŠ”μ§€ 3) λ¬Έμž₯에 μ–΄λ–€ 단어가 같이 λ‚˜νƒ€λ‚¬λŠ”μ§€ λ°±μ˜€λΈŒμ›Œμ¦ˆ κ°€μ • μ–Έμ–΄ λͺ¨λΈ 뢄포 κ°€μ • λ‚΄μš© μ–΄λ–€ 단어가 (많이) μ“°μ˜€λŠ”κ°€ 단어가 μ–΄λ–€ μˆœμ„œλ‘œ μ“°μ˜€λŠ”κ°€ μ–΄λ–€ 단어가 같이 μ“°μ˜€λŠ”κ°€ λŒ€ν‘œ ν†΅κ³„λŸ‰ TF-IDF PMI λŒ€ν‘œ λͺ¨λΈ Deep Averaging Network ELMo, GPT Word2Vec * λ°±μ˜€λΈŒμ›Œμ¦ˆ(bag of words) κ°€μ • - μ–΄λ–€ 단어가 (많이) μ“°μ˜€λŠ”μ§€ 정보λ₯Ό μ€‘μ‹œ - μ €μžμ˜ μ˜λ„λŠ” 단어 μ‚¬μš© μ—¬λΆ€ or κ·Έ λΉˆλ„μ—μ„œ λ“œλŸ¬λ‚œλ‹€κ³  κ°€μ • - λ‹¨μ–΄μ˜ μˆœμ„œ μ •λ³΄λŠ” λ¬΄μ‹œ ..

NLP 2022. 11. 13. 22:57
[λ„μ„œ] ν•œκ΅­μ–΄ μž„λ² λ”© - 1μž₯. λ‹€μ–‘ν•œ μž„λ² λ”© 기법듀

1.3 μž„λ² λ”© κΈ°λ²•μ˜ 역사와 μ’…λ₯˜ 1.3.1 톡계 κΈ°λ°˜μ—μ„œ λ‰΄λŸ΄ λ„€νŠΈμ›Œν¬ 기반으둜 초기 μž„λ² λ”© 기법: 잠재 의미 뢄석(Latent Semantic Analysis) : 단어 μ‚¬μš© λΉˆλ„ λ“± λ§λ­‰μΉ˜μ˜ ν†΅κ³„λŸ‰ 정보가 λ“€μ–΄ μžˆλŠ” μ»€λ‹€λž€ 행렬에 νŠΉμ΄κ°’ λΆ„ν•΄(SVD) λ“± μˆ˜ν•™μ  기법을 μ μš©ν•΄ 행렬에 μ†ν•œ λ²‘ν„°λ“€μ˜ 차원을 μΆ•μ†Œν•˜λŠ” 방법 -> 이 결과둜 λ§λ­‰μΉ˜μ˜ 주제λ₯Ό μΆ”μΆœν•  수 μžˆλ‹€. ex) 단어-λ¬Έμ„œ 행렬에 잠재 의미 뢄석을 적용 - λŒ€λΆ€λΆ„μ˜ 행렬은 ν¬μ†Œ ν–‰λ ¬(λŒ€λΆ€λΆ„μ˜ μš”μ†Œ 값이 0인 ν–‰λ ¬)인데, 이런 ν¬μ†Œ 행렬이 λ‹€λ₯Έ λͺ¨λΈμ˜ μž…λ ₯κ°’μœΌλ‘œ μ“°μ΄κ²Œ 되면 κ³„μ‚°λŸ‰, λ©”λͺ¨λ¦¬ μ†ŒλΉ„λŸ‰μ΄ λ„ˆλ¬΄ 컀짐 -> 이런 이유둜 μ›λž˜ ν–‰λ ¬μ˜ 차원을 μΆ•μ†Œν•œ λ’€ μ‚¬μš©ν•œλ‹€. - 단어 or λ¬Έμ„œλ₯Ό κΈ°μ€€μœΌλ‘œ 차원을 μΆ•μ†Œν•  수 있음 - 단어 κΈ°μ€€μœΌλ‘œ ..

NLP 2022. 11. 13. 03:06