μΌ | μ | ν | μ | λͺ© | κΈ | ν |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Kaggle
- μ νλμν
- λ¨Έμ λ¬λ
- cs231n
- 리μ‘νΈ
- Git
- μλ² λ©
- μΈνλ°
- native
- κΉν
- λ°±μ€
- λμ
- λ€μ΄ν°λΈ
- νκ΅μ΄μλ² λ©
- Titanic
- μλλ‘μ΄λμ€νλμ€
- linearalgebra
- λ°μ΄ν°λΆμ
- AI
- λ₯λ¬λ
- λ°μ΄ν°
- λΆμ
- c++
- nlp
- νμ΄νλ
- react
- μκ³ λ¦¬μ¦
- λ°μ΄ν°μκ°ν
- μνμ½λ©
- κ²°μ νΈλ¦¬
- Today
- Total
yeon's π©π»π»
[λμ] νκ΅μ΄ μλ² λ© - 2μ₯. λ°±μ€λΈμμ¦, TF-IDF λ³Έλ¬Έ
2.1 μμ°μ΄ κ³μ°κ³Ό μ΄ν΄
μλ² λ©μ μμ°μ΄ μλ―Έλ₯Ό μ΄λ»κ² ν¨μΆν κΉ.
- μμ°μ΄μ ν΅κ³μ ν¨ν΄ μ 보λ₯Ό ν΅μ§Έλ‘ μλ² λ©μ λ£μ.
μλ² λ©μ λ§λ€ λ μ°λ ν΅κ³ μ 보
1) λ¬Έμ₯μ μ΄λ€ λ¨μ΄κ° (λ§μ΄) μ°μλμ§
2) λ¨μ΄κ° μ΄λ€ μμλ‘ λ±μ₯νλμ§
3) λ¬Έμ₯μ μ΄λ€ λ¨μ΄κ° κ°μ΄ λνλ¬λμ§
λ°±μ€λΈμμ¦ κ°μ | μΈμ΄ λͺ¨λΈ | λΆν¬ κ°μ | |
λ΄μ© | μ΄λ€ λ¨μ΄κ° (λ§μ΄) μ°μλκ° | λ¨μ΄κ° μ΄λ€ μμλ‘ μ°μλκ° | μ΄λ€ λ¨μ΄κ° κ°μ΄ μ°μλκ° |
λν ν΅κ³λ | TF-IDF | PMI | |
λν λͺ¨λΈ | Deep Averaging Network | ELMo, GPT | Word2Vec |
* λ°±μ€λΈμμ¦(bag of words) κ°μ - μ΄λ€ λ¨μ΄κ° (λ§μ΄) μ°μλμ§ μ 보λ₯Ό μ€μ
- μ μμ μλλ λ¨μ΄ μ¬μ© μ¬λΆ or κ·Έ λΉλμμ λλ¬λλ€κ³ κ°μ
- λ¨μ΄μ μμ μ 보λ 무μ
ex) TF-IDF
* μΈμ΄ λͺ¨λΈ - λ¨μ΄μ λ±μ₯ μμλ₯Ό νμ΅ν΄ μ£Όμ΄μ§ λ¨μ΄ μνμ€κ° μΌλ§λ μμ°μ€λ¬μ΄μ§ νλ₯ μ λΆμ¬
ex) ELMo, GPT λ±
* λΆν¬ κ°μ - λ¬Έμ₯μμ μ΄λ€ λ¨μ΄κ° κ°μ΄ μ°μλμ§λ₯Ό μ€μνκ² μ¬κΉ
- λ¨μ΄μ μλ―Έλ κ·Έ μ£Όλ³ λ¬Έλ§₯μ ν΅ν΄ μ μΆν΄λ³Ό μ μλ€κ³ μ¬κΉ
ex) Word2Vec
-> μΈ μ² νμ μλ‘ μνΈ λ³΄μμ
2.2 μ΄λ€ λ¨μ΄κ° λ§μ΄ μ°μλκ°
2.2.1 λ°±μ€λΈμμ¦ κ°μ
λ°±(bag): μ€λ³΅ μμλ₯Ό νμ©ν μ§ν© -> μνμμ setμ΄λΌκ³ μκ°νλ©΄ λ λ―!
- μμμ μμλ κ³ λ €νμ§ x
λ°±μ€λΈμμ¦(bag of words)
: λ¨μ΄μ λ±μ₯ μμμ κ΄κ³ μμ΄ λ¬Έμ λ΄ λ¨μ΄μ λ±μ₯ λΉλλ₯Ό μλ² λ©μΌλ‘ μ°λ κΈ°λ²
κ°μ : 'μ μκ° μκ°ν μ£Όμ κ° λ¬Έμμμμ λ¨μ΄ μ¬μ©μ λ Ήμ μλ€'
- μ£Όμ κ° λΉμ·ν λ¬ΈμλΌλ©΄ λ¨μ΄ λΉλ or λ¨μ΄ λ±μ₯ μ¬λΆκ° λΉμ·ν κ² -> λ°±μ€λΈμμ¦ μλ² λ© μμ μ μ¬ν κ²
2.2.2 TF-IDF
λ¨μ΄ λΉλ or λ±μ₯ μ¬λΆλ₯Ό κ·Έλλ‘ μλ² λ©μΌλ‘ μ¬μ©ν¨μ λ¨μ
: ν΄λΉ λ¨μ΄κ° λ¬Έμμμ λ§μ΄ λ±μ₯νλ€ νλλΌλ λ¬Έμμ μ£Όμ λ₯Ό κ°λ νκΈ° μ΄λ €μ΄ κ²½μ°κ° μμ
ex) μ‘°μ¬ ('μ/λ₯Ό', 'μ΄/κ°') λ§μΌλ‘ λ¬Έμμ μ£Όμ λ₯Ό μΆμΈ‘νκΈ° μ΄λ €μ
TF-IDF (Term Frequency-Inverse Document Frequency)
- λ¨μ΄-λ¬Έμ νλ ¬μ μλμ κ°μ΄ κ°μ€μΉλ₯Ό κ³μ°ν΄ νλ ¬ μμλ₯Ό λ°κΏ
TF(Term Frequency): μ΄λ€ λ¨μ΄κ° νΉμ λ¬Έμμ μΌλ§λ λ§μ΄ μ°μλμ§μ λΉλ
- λ§μ΄ μ°μΈ λ¨μ΄κ° μ€μνλ€λ κ°μ
DF(Document Frequency): νΉμ λ¨μ΄κ° λνλ λ¬Έμμ μ
- DFκ° ν΄μλ‘ μ¬λ¬ λ¬Έμμ μ°μ΄λ λ²μ©μ μΈ λ¨μ΄κ΅¬λ
IDF(Inverse Document Frequency): μ 체 λ¬Έμ μ(N)λ₯Ό ν΄λΉ λ¨μ΄μ DFλ‘ λλ λ€ λ‘κ·Έλ₯Ό μ·¨ν κ°
- μ΄ κ°μ΄ ν΄μλ‘ νΉμ΄ν λ¨μ΄κ΅¬λ
-> λ¨μ΄μ μ£Όμ μμΈ‘ λ₯λ ₯κ³Ό μ§κ²°λ¨
μ¦, μ΄λ€ λ¨μ΄μ μ£Όμ μμΈ‘ λ₯λ ₯(IDF)μ΄ κ°ν μλ‘ κ°μ€μΉκ° 컀μ§κ³ , κ·Έ λ°λμ κ²½μ° μμμ§λ€.
+ λ¨μ΄ μ¬μ© λΉλλ μ μκ° μμ ν μ£Όμ μ κ΄λ ¨μ λ§Ίκ³ μλ€κ³ κ°μ νλ€.
TF-IDF λ₯Ό μ μ©νλ©΄ μ 보μ±μ΄ μλ λ¨μ΄λ€μ κ°μ€μΉλ μ€μ΄λ€μ΄ λΆνμν μ λ³΄κ° μ¬λΌμ§λ€.
(IDFλ₯Ό ν΅ν΄ νΉμ΄ν λ¨μ΄λ€λ§ λ¨κ² λλ―λ‘ μ‘°μ¬μ κ°μ μμ£Ό λ±μ₯νμ§λ§ λΆνμν μ 보λ€μ μ¬λΌμ§ κ²μ΄λ€.)
2.2.3 Deep Averaging Network
λ°±μ€λΈμμ¦ κ°μ μ λ΄λ΄ λ€νΈμν¬ λ²μ
ex) 'μ λΉλ μ’ μ΄μλ€' -> {μ λΉ, λ, μ’ , μ΄, μ, λ€} μ μν λ¨μ΄μ μλ² λ©μ νκ· μ μ·¨ν΄ λ§λ¬
λ¬Έμ₯ λ΄μ μ΄λ€ λ¨μ΄κ° μ°μλμ§, μ°μλ€λ©΄ μΌλ§λ λ§μ΄ μ°μλμ§ κ·Έ λΉλλ§μ λ°μ§
- λ¬Έμ₯ μλ² λ©μ μ λ ₯ λ°μ ν΄λΉ λ¬Έμκ° μ΄λ€ λ²μ£ΌμΈμ§ λΆλ₯ν¨