yeon's πŸ‘©πŸ»‍πŸ’»

[λ„μ„œ] ν•œκ΅­μ–΄ μž„λ² λ”© - 2μž₯. λ°±μ˜€λΈŒμ›Œμ¦ˆ, TF-IDF λ³Έλ¬Έ

NLP

[λ„μ„œ] ν•œκ΅­μ–΄ μž„λ² λ”© - 2μž₯. λ°±μ˜€λΈŒμ›Œμ¦ˆ, TF-IDF

yeon42 2022. 11. 13. 22:57
728x90

2.1 μžμ—°μ–΄ 계산과 이해

μž„λ² λ”©μ— μžμ—°μ–΄ 의미λ₯Ό μ–΄λ–»κ²Œ ν•¨μΆ•ν• κΉŒ.

- μžμ—°μ–΄μ˜ 톡계적 νŒ¨ν„΄ 정보λ₯Ό ν†΅μ§Έλ‘œ μž„λ² λ”©μ— λ„£μž.

 

μž„λ² λ”©μ„ λ§Œλ“€ λ•Œ μ“°λŠ” 톡계 정보

1) λ¬Έμž₯에 μ–΄λ–€ 단어가 (많이) μ“°μ˜€λŠ”μ§€

2) 단어가 μ–΄λ–€ μˆœμ„œλ‘œ λ“±μž₯ν•˜λŠ”μ§€

3) λ¬Έμž₯에 μ–΄λ–€ 단어가 같이 λ‚˜νƒ€λ‚¬λŠ”μ§€

 

  λ°±μ˜€λΈŒμ›Œμ¦ˆ κ°€μ • μ–Έμ–΄ λͺ¨λΈ 뢄포 κ°€μ •
λ‚΄μš© μ–΄λ–€ 단어가 (많이) μ“°μ˜€λŠ”κ°€ 단어가 μ–΄λ–€ μˆœμ„œλ‘œ μ“°μ˜€λŠ”κ°€ μ–΄λ–€ 단어가 같이 μ“°μ˜€λŠ”κ°€
λŒ€ν‘œ ν†΅κ³„λŸ‰ TF-IDF   PMI
λŒ€ν‘œ λͺ¨λΈ Deep Averaging Network ELMo, GPT Word2Vec

 

* λ°±μ˜€λΈŒμ›Œμ¦ˆ(bag of words) κ°€μ • - μ–΄λ–€ 단어가 (많이) μ“°μ˜€λŠ”μ§€ 정보λ₯Ό μ€‘μ‹œ

- μ €μžμ˜ μ˜λ„λŠ” 단어 μ‚¬μš© μ—¬λΆ€ or κ·Έ λΉˆλ„μ—μ„œ λ“œλŸ¬λ‚œλ‹€κ³  κ°€μ •

- λ‹¨μ–΄μ˜ μˆœμ„œ μ •λ³΄λŠ” λ¬΄μ‹œ

ex) TF-IDF

 

* μ–Έμ–΄ λͺ¨λΈ - λ‹¨μ–΄μ˜ λ“±μž₯ μˆœμ„œλ₯Ό ν•™μŠ΅ν•΄ μ£Όμ–΄μ§„ 단어 μ‹œν€€μŠ€κ°€ μ–Όλ§ˆλ‚˜ μžμ—°μŠ€λŸ¬μš΄μ§€ ν™•λ₯ μ„ λΆ€μ—¬

ex) ELMo, GPT λ“±

 

* 뢄포 κ°€μ • - λ¬Έμž₯μ—μ„œ μ–΄λ–€ 단어가 같이 μ“°μ˜€λŠ”μ§€λ₯Ό μ€‘μš”ν•˜κ²Œ μ—¬κΉ€

- λ‹¨μ–΄μ˜ μ˜λ―ΈλŠ” κ·Έ μ£Όλ³€ λ¬Έλ§₯을 톡해 μœ μΆ”ν•΄λ³Ό 수 μžˆλ‹€κ³  μ—¬κΉ€

ex) Word2Vec

 

-> μ„Έ 철학은 μ„œλ‘œ μƒν˜Έ 보완적

 

 

 

2.2 μ–΄λ–€ 단어가 많이 μ“°μ˜€λŠ”κ°€

2.2.1 λ°±μ˜€λΈŒμ›Œμ¦ˆ κ°€μ •

λ°±(bag): 쀑볡 μ›μ†Œλ₯Ό ν—ˆμš©ν•œ μ§‘ν•© -> μˆ˜ν•™μ—μ„œ set이라고 μƒκ°ν•˜λ©΄ 될 λ“―!

- μ›μ†Œμ˜ μˆœμ„œλŠ” κ³ λ €ν•˜μ§€ x

 

λ°±μ˜€λΈŒμ›Œμ¦ˆ(bag of words)

: λ‹¨μ–΄μ˜ λ“±μž₯ μˆœμ„œμ— 관계 없이 λ¬Έμ„œ λ‚΄ λ‹¨μ–΄μ˜ λ“±μž₯ λΉˆλ„λ₯Ό μž„λ² λ”©μœΌλ‘œ μ“°λŠ” 기법

 

κ°€μ •: 'μ €μžκ°€ μƒκ°ν•œ μ£Όμ œκ°€ λ¬Έμ„œμ—μ„œμ˜ 단어 μ‚¬μš©μ— λ…Ήμ•„ μžˆλ‹€'

- μ£Όμ œκ°€ λΉ„μŠ·ν•œ λ¬Έμ„œλΌλ©΄ 단어 λΉˆλ„ or 단어 λ“±μž₯ μ—¬λΆ€κ°€ λΉ„μŠ·ν•  것 -> λ°±μ˜€λΈŒμ›Œμ¦ˆ μž„λ² λ”© μ—­μ‹œ μœ μ‚¬ν•  것

 

 

2.2.2 TF-IDF

단어 λΉˆλ„ or λ“±μž₯ μ—¬λΆ€λ₯Ό κ·ΈλŒ€λ‘œ μž„λ² λ”©μœΌλ‘œ μ‚¬μš©ν•¨μ˜ 단점

: ν•΄λ‹Ή 단어가 λ¬Έμ„œμ—μ„œ 많이 λ“±μž₯ν•œλ‹€ ν•˜λ”λΌλ„ λ¬Έμ„œμ˜ 주제λ₯Ό κ°€λŠ ν•˜κΈ° μ–΄λ €μš΄ κ²½μš°κ°€ 있음

ex) 쑰사 ('을/λ₯Ό', '이/κ°€') 만으둜 λ¬Έμ„œμ˜ 주제λ₯Ό μΆ”μΈ‘ν•˜κΈ° 어렀움

 

TF-IDF (Term Frequency-Inverse Document Frequency)

- 단어-λ¬Έμ„œ 행렬에 μ•„λž˜μ™€ 같이 κ°€μ€‘μΉ˜λ₯Ό 계산해 ν–‰λ ¬ μ›μ†Œλ₯Ό λ°”κΏˆ

TF(Term Frequency): μ–΄λ–€ 단어가 νŠΉμ • λ¬Έμ„œμ— μ–Όλ§ˆλ‚˜ 많이 μ“°μ˜€λŠ”μ§€μ˜ λΉˆλ„

- 많이 쓰인 단어가 μ€‘μš”ν•˜λ‹€λŠ” κ°€μ •

 

DF(Document Frequency): νŠΉμ • 단어가 λ‚˜νƒ€λ‚œ λ¬Έμ„œμ˜ 수

- DFκ°€ 클수둝 μ—¬λŸ¬ λ¬Έμ„œμ— μ“°μ΄λŠ” λ²”μš©μ μΈ λ‹¨μ–΄κ΅¬λ‚˜

 

IDF(Inverse Document Frequency): 전체 λ¬Έμ„œ 수(N)λ₯Ό ν•΄λ‹Ή λ‹¨μ–΄μ˜ DF둜 λ‚˜λˆˆ λ’€ 둜그λ₯Ό μ·¨ν•œ κ°’

- 이 값이 클수둝 νŠΉμ΄ν•œ λ‹¨μ–΄κ΅¬λ‚˜

-> λ‹¨μ–΄μ˜ 주제 예츑 λŠ₯λ ₯κ³Ό 직결됨

 

즉, μ–΄λ–€ λ‹¨μ–΄μ˜ 주제 예츑 λŠ₯λ ₯(IDF)이 κ°•ν• μˆ˜λ‘ κ°€μ€‘μΉ˜κ°€ 컀지고, κ·Έ λ°˜λŒ€μ˜ 경우 μž‘μ•„μ§„λ‹€.

+ 단어 μ‚¬μš© λΉˆλ„λŠ” μ €μžκ°€ μƒμ •ν•œ μ£Όμ œμ™€ 관련을 λ§Ίκ³  μžˆλ‹€κ³  κ°€μ •ν•œλ‹€.

 

 

TF-IDF λ₯Ό μ μš©ν•˜λ©΄ 정보성이 μ—†λŠ” λ‹¨μ–΄λ“€μ˜ κ°€μ€‘μΉ˜λŠ” 쀄어듀어 λΆˆν•„μš”ν•œ 정보가 사라진닀.

(IDFλ₯Ό 톡해 νŠΉμ΄ν•œ λ‹¨μ–΄λ“€λ§Œ λ‚¨κ²Œ λ˜λ―€λ‘œ 쑰사와 같은 자주 λ“±μž₯ν•˜μ§€λ§Œ λΆˆν•„μš”ν•œ 정보듀은 μ‚¬λΌμ§ˆ 것이닀.)

 

 

2.2.3 Deep Averaging Network

λ°±μ˜€λΈŒμ›Œμ¦ˆ κ°€μ •μ˜ λ‰΄λŸ΄ λ„€νŠΈμ›Œν¬ 버전

 

ex) 'μ• λΉ„λŠ” μ’…μ΄μ—ˆλ‹€' -> {μ• λΉ„, λŠ”, μ’…, 이, μ—ˆ, λ‹€} 에 μ†ν•œ λ‹¨μ–΄μ˜ μž„λ² λ”©μ„ 평균을 μ·¨ν•΄ λ§Œλ“¬

 

λ¬Έμž₯ 내에 μ–΄λ–€ 단어가 μ“°μ˜€λŠ”μ§€, μ“°μ˜€λ‹€λ©΄ μ–Όλ§ˆλ‚˜ 많이 μ“°μ˜€λŠ”μ§€ κ·Έ λΉˆλ„λ§Œμ„ 따짐

- λ¬Έμž₯ μž„λ² λ”©μ„ μž…λ ₯ λ°›μ•„ ν•΄λ‹Ή λ¬Έμ„œκ°€ μ–΄λ–€ 범주인지 λΆ„λ₯˜ν•¨

 

 

Comments