λͺ©λ‘AIFFEL πŸ‘©πŸ»‍πŸ’» (15)

yeon's πŸ‘©πŸ»‍πŸ’»

[Exploration 19] μ„ ν˜• νšŒκ·€ & λ‘œμ§€μŠ€ν‹± νšŒκ·€

19-1. νšŒκ·€(Regression) πŸ”† νšŒκ·€λΆ„μ„μ΄λž€? λΆ€λͺ¨μ˜ 킀와 μžμ‹μ˜ ν‚€ μ‚¬μ΄μ˜ 관계 1인당 κ΅­λ―Ό μ΄μ†Œλ“κ³Ό λ°°κΈ°κ°€μŠ€ λ°°μΆœλŸ‰ μ‚¬μ΄μ˜ 관계 예츑 μœ„ μ˜ˆμ‹œ λͺ¨λ‘ λ…λ¦½λ³€μˆ˜(independent variable)와 μ’…μ†λ³€μˆ˜(dependent variable) μ‚¬μ΄μ˜ μƒν˜Έ 관련성이 μžˆλ‹€. 영ꡭ의 μš°μƒν•™μž F. Galton은 아버지와 μžμ‹μ˜ ν‚€μ˜ 관계에 λŒ€ν•΄ 뢄석을 ν•˜λ©΄μ„œ 아버지 ν‚€ x와 μžμ‹μ˜ ν‚€ y μ‚¬μ΄μ˜ κΈ°μšΈκΈ°κ°€ 1보닀 μž‘λ‹€ λΌλŠ” 것에 μ£Όλͺ©ν•˜μ—¬ κ²°κ΅­ μ„ΈλŒ€κ°€ κ±°λ“­λ μˆ˜λ‘ μ•„λ²„μ§€μ˜ 킀와 λ¬΄κ΄€ν•˜κ²Œ μžμ‹μ˜ ν‚€λŠ” 전체 평균에 μˆ˜λ ΄ν•œλ‹€λŠ” 것을 λ°ν˜€λƒˆλ‹€. ** ν†΅κ³„μ μœΌλ‘œ ν‰κ· μœΌλ‘œ νšŒκ·€(regression) ν•œλ‹€λŠ” λœ»μ—μ„œ νšŒκ·€μ˜ κ°œλ…μ„ 처음 μ œμ‹œν•¨ ** μ˜€λŠ˜λ‚  νšŒκ·€λŠ” λ‹¨μˆœνžˆ ν‰κ· μœΌλ‘œ νšŒκΈ°ν•˜λŠ” 것이 μ•„λ‹Œ, 두 개 μ΄μƒμ˜ λ³€..

ν…μŠ€νŠΈ 감성 뢄석 (Text Sentimental Analysis)

졜근 SNS와 같은 μ†Œμ…œλ―Έλ””μ–΄μ˜ ν™œμ„±ν™”λ‘œ 인해 λ§Žμ€ λŒ€μ€‘λ“€μ€ 인터넷 상에 μžμ‹ μ˜ 감성과 νƒœλ„λ₯Ό ν‘œμΆœν•˜κ³ , 이에 λ”°λ₯Έ '감성 뢄석'에 높은 관심이 μ§€μ†λ˜κ³  μžˆλ‹€. λŒ€ν‘œμ μΈ 예둜 'Hungerithm' μ΄λΌλŠ” λ°°κ³ ν””(Hunger) + μ•Œκ³ λ¦¬μ¦˜(Algorithm) 을 ν•©μ„±ν•œ 단어가 μžˆλŠ”λ°, μ΄λŠ” μŠ€λ‹ˆμ»€μ¦ˆ μ‹ν’ˆνšŒμ‚¬κ°€ SNSμ—μ„œ μ‹μ‚¬μ‹œκ°„ 이전이 μ‹μ‚¬μ‹œκ°„ 이후보닀 μ‚¬λžŒλ“€μ˜ ν”Όλ“œμ— 뢀정적인 글이 많이 μ˜¬λΌμ˜¨λ‹€λŠ” μ μ—μ„œ μ°©μ•ˆν•΄ λ§Œλ“  μœ λ¨ΈλŸ¬μŠ€ν•œ 단어이닀. μ΄λŠ” λŒ€ν‘œμ μΈ ν…μŠ€νŠΈ 감성 λΆ„μ„μ˜ 예둜, μ‚¬λžŒλ“€μ˜ μ½”λ©˜νŠΈλ₯Ό μ‹€μ‹œκ°„μœΌλ‘œ 뢄석해 λ§ˆμΌ€νŒ…μ„ νŽΌμ³€λ‹€. 🧀 κ°μ„±λΆ„μ„μ΄λž€? : ν…μŠ€νŠΈμ— λ‚˜νƒ€λ‚˜λŠ” 주관적 μš”μ†ŒμΈ 긍정적 감정과 뢀정적 감정을 νŒλ³„ν•΄ 이λ₯Ό μˆ˜μΉ˜λ‚˜ 도식, λ“±κΈ‰ λ“±μœΌλ‘œ μ •λŸ‰ν™”ν•˜λŠ” μž‘μ—…. λ‹¨μˆœνžˆ 긍정/뢀정을 νŒλ³„ν•˜λŠ” 것 뿐..

[Exploration 04] RNN, 토큰화 λ“± κ°œλ… 정리

μ‹œν€€μŠ€ Sequential 인곡지λŠ₯이 μ–΄λ– ν•œ '예츑'을 ν•˜λ €λ©΄ μ–΄λŠ μ •λ„λŠ” 연관성이 μžˆμ–΄μ€˜μ•Ό ν•œλ‹€. -> 톡계에 κΈ°λ°˜ν•΄ μ˜ˆμΈ‘μ„ ν•΄λ³΄μž μˆœν™˜μ‹ κ²½λ§(RNN) ex) 'λ‚˜λŠ” λ°₯을 [ ]' -> [ ]μ—λŠ” 'λ¨Ήμ—ˆλ‹€' κ°€ λ“€μ–΄κ°€κ² κ΅¬λ‚˜! βœ”οΈ μ—¬κΈ°μ„œ 'λ‚˜λŠ”' 은 μ–΄λ–»κ²Œ λ§Œλ“€κΉŒ ? -> λΌλŠ” νŠΉμˆ˜ν•œ 토큰을 맨 μ•žμ— μΆ”κ°€ν•΄ μ£ΌκΈ° βœ”οΈ 'λ°₯을 λ¨Ήμ—ˆλ‹€' κΉŒμ§€ μƒμ„±ν•˜κ³  λ‚œ λ’€λŠ” -> λΌλŠ” νŠΉμˆ˜ν•œ 토큰을 μƒμ„±ν•œλ‹€. 이런 μˆœν™˜μ μΈ νŠΉμ„±μ„ μ‚΄λ € μˆœν™˜μ‹ κ²½λ§μ΄λΌκ³  ν•œλ‹€. 🌱 즉, λ¬Έμž₯의 μ‹œμž‘μ— κ°€ μžˆλŠ” μž…λ ₯ 데이터와 λ¬Έμž₯의 끝에 λΌλŠ” 좜λ ₯ 데이터가 ν•„μš”ν•˜λ‹€! μ–Έμ–΄ λͺ¨λΈ (Language Model) ex) GPT-2 βœ”οΈ μ—¬κΈ°μ„œ 'λ‚˜λŠ”' 뒀에 'λ°₯을' 은 μ–΄λ–»κ²Œ μ˜€λŠ” 걸까? -> μˆœμ „νžˆ 운 이라고 ν•  수 μžˆλ‹€. -> 'λ‚˜λŠ”' 뒀에 ..