나이브 베이즈 (Naive Bayes Classification)

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

yeon's 👩🏻‍💻

나이브 베이즈 (Naive Bayes Classification) 본문

Computer 💻/Machine Learning

나이브 베이즈 (Naive Bayes Classification)

yeon42 2021. 11. 5. 18:13

728x90

https://bkshin.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-1%EB%82%98%EC%9D%B4%EB%B8%8C-%EB%B2%A0%EC%9D%B4%EC%A6%88-%EB%B6%84%EB%A5%98-Naive-Bayes-Classification

머신러닝 - 1. 나이브 베이즈 분류 (Naive Bayes Classification)

나이브 베이즈는 스팸 메일 필터, 텍스트 분류, 감정 분석, 추천 시스템 등에 광범위하게 활용되는 분류 기법입니다. 나이브 베이즈 분류에 대해서 배우기 위해서는 베이즈 정리를 먼저 알아야

bkshin.tistory.com

위 블로그를 필사하며 공부

* 모든 텍스트와 이미지의 출처는 위 블로그입니다.

나이브 베이즈는 스팸 메일 필터, 텍스트 분류, 감정 분석, 추천 시스템 등에 광범위하게 활용되는 분류 기법

머신러닝을 통해 어떤 동물의 사진이 있을 시 그 동물이 개인지 고양이인지 얼룩말인지 구분할 수 있다.

사전에 수많은 개, 고양이, 얼룩말 사진에 대한 다양한 자세, 표정, 생김새, 털의 색 등을 학습시킨다.

학습된 머신러닝 모델은 이후 개, 고양이, 얼룩말을 정확히 분류할 수 있고, 이젠 학습시 사용되었던 사진 뿐 아니라 새로운 사진으로도 정확히 분류 가능하다.

이렇게 사전 데이터를 기반으로 충분히 학습시키는 방법을 지도학습(Supervised Learning)이라고 한다.

지도학습을 하기 위한 첫 단계는 Feature와 Label을 파악하는 것이다.

- Label은 우리가 원하는 분류 결과 (ex. 개, 고양이, 얼룩말)

- 이 Label 결과에 영향을 주는 요소: Feature (ex. 동물의 자세, 표정, 생김새, 털의 색 등)

즉 수많은 동물의 자세, 표정, 생김새, 털의 색(Feature)을 기반으로 그 동물이 개인지 고양이인지 얼룩말인지(Label) 분류하는 것

나이브 베이즈 분류 또한 지도학습의 일종

- 따라서 Feature과 Label이 필요하다.

- Feature에 따라 Label을 분류하는데 베이즈 정리를 사용하는 것이 특징

- 또한 모든 Feature가 서로 독립적이어야 한다는 가정이 필요

Classification Workflow

- 분류의 첫 스텝은 feature과 label을 파악하는 것

label -> 스팸 메일인지 아닌지의 여부

feature -> 스팸 메일의 제목 및 내용에 기재된 광고성 단어, 비속어, 성적 용어 등

분류는 두 단계로 나누어짐: 훈련 단계 & 테스트 단계

- 훈련 단계에서는 주어진 training data set을 통해 classifier 모델을 훈련시키고,

테스트 단계에서는 classifier 모델의 성능(performance)을 평가

- 성능(performance)는 정밀도(accuracy), 정확성(precision), 재현율(recall) 등으로 측정 가능하다.

나이브 베이즈 분류기(Navie Bayes Classifier)이란?

- 나이브 베이즈 분류는 베이즈 정리에 기반한 통계적 분류 기법

- 가장 단순한 지도학습(supervised learning) 중 하나

- 빠르고, 정확하며, 믿을만한 알고리즘; 정확성도 높고 대용량 데이터에 대해 속도도 빠름

- 나이브 베이즈는 feature끼리 서로 독립이라는 조건이 필요한다.

- 즉, 스펨 메일 분류에서 광고성 단어의 개수와 비속어 개수가 서로 연관이 있어서는 안됨

나이브 베이즈의 동작

ex. 날씨 정보와 축구 경기 여부에 대한 데이터 -> 날씨에 대한 정보를 기반으로 축구를 할 것인지, 안 할 것인지 확률 구하기

- 맨 왼쪽 테이블: 날씨에 따라 축구를 했는지 안했는지 보여주는 과거 데이터

- 이 과거 데이터를 먼저 training시켜 모델을 만든 뒤 그 모델을 기반으로 어떤 날씨가 주어졌을 때 축구를 할지 안 할지 판단하는 것이 목적

- Frequency Table: 주어진 과거 데이터를 횟수로 표현한 것

- Likelihood Table1은 각 feature(날씨)에 대한 확률, 각 label(축구 여부)에 대한 확률을 나타낸 것

- Likelihood Table2은 각 feature에 대한 사후 확률을 구한 것

* Feature가 1개일 때 나이브 베이즈 분류

Q1. 날씨가 overcast일 때 경기를 할 확률?

P(Yes|Overcast) = P(Overcast|Yes)*P(Yes) / P(Overcast) <- 베이즈 정리에 의해

1. 사전 확률

P(Overcast) = 4/14 = 0.29

P(Yes) = 9/14 = 0.64

2. 사후 확률

P(Overcast|Yes) = 4/9 = 0.44

3. 베이즈 정리 공식에 대입

P(Yes|Overcast) = 0.44*0.64 / 0.29 = 0.98

Q2. 날씨가 Overcast일 때 경기를 하지 않은 확률?

P(No|Overcast) = P(Overcast|No)*P(No) / P(Overcast)

1. 사전 확률

P(Overcast) = 4/14 = 0.29

P(No) = 5/14 = 0.36

2. 사후 확률

P(Overcast|No) = 0/5 = 0

3. 베이즈 정리 공식에 대입

P(No|Overcast) = 0*0.36 / 0.29 = 0

-> P(Yes|Overcast) = 0.98, P(No|Overcast) = 0

즉, 날씨가 Overcast일 때 축구를 할 확률은 0.98, 축구를 하지 않을 확률은 0

-> 두 확률을 비교한 뒤 더 높은 확률의 label로 분류하면 된다.

-> 나이브 베이즈 분류기는 날씨가 Overcast일 때는 축구를 할 것이라고 판단

* Feature가 multiple일 때 나이브 베이즈 분류

Q1. 날씨가 overcast & 기온이 mild일 때 경기를 할 확률은?

P(Yes | Overcast, Mild) = P(Overcast, Mild | Yes)*P(Yes) / P(Overcast, Mild)

P(Overcast, Mild | Yes) = P(Overcast|Yes) * P(Mild|Yes)

P(Overcast, Mild) = P(Overcast) * P(Mild) = (4/14) * (6/14) = 0.1224

1. 사전 확률

P(Yes) = 9/14 = 0.64

2. 사후 확률

P(Overcast|Yes) = 4/9 = 0.44

P(Mild|Yes) = 4/9 = 0.44

3. 베이즈 공식에 대입

P(Overcast, Mild | Yes) = P(Overcast|Yes) * P(Mild|Yes) = 0.44 * 0.44 = 0.1936

P(Yes | Overcast, Mild) = 0.1936 * 0.64 / 0.1224 = 1

Q2. 날씨가 overcast & 기온이 mild일 때 경기를 하지 않을 확률은?

P(No | Overcast, Mild) = P(Overcast, Mild | No) * P(No) / P(Overcast, Mild)

P(Overcast, Mild | No) = P(Overcast | No) * P(Mild | No)

1. 사전 확률

P(No) = 5/14 = 0.36

2. 사후 확률

P(Overcast | No) = 0/5 = 0

P(Mild | No) = 2/5 = 0.4

3. 베이즈 공식에 대입

P(Overcast, Mild | No) = 0 * 0.4 = 0

P(No | Overcast, Mild) = 0 * 0.36 / 0.1224 = 0

-> 축구를 할 확률은 1이고, 축구를 하지 않을 확률은 0

- 축구를 할 확률이 더 크기 때문에 날씨가 overcast이고 기온이 mild일 때는 축구를 할 것이라고 분류한다.

- 이렇듯 나이브 베이즈는 베이즈 정리를 활용해 확률이 더 큰 label로 분류한다.

나이브 베이즈 (naive bayes) 의 장단점

* 장점

1. 간단, 빠르고 정확한 모델

2. computation cost가 적음 (빠름)

3. 큰 데이터셋에 적합

4. 연속형보다 이산형 데이터에서 성능이 좋음

5. multiple class 예측을 위해서도 사용 가능

* 단점

feature간 독립성이 있어야 한다.

- but, 실제 데이터에서 모든 feature가 독립인 경우는 드물다.

(feature간 독립성이 있다: feature간 서로 상관관계가 없다는 뜻)

- so 실생활에서 바로 적용하기는 어려움이 있음

저작자표시

'Computer 💻 > Machine Learning' 카테고리의 다른 글

그라디언트 부스트 (Gradient Boost) (0)	2021.11.07
에이다 부스트 (AdaBoost) (0)	2021.11.07
베이즈 추정 (Bayesian Estimation) (0)	2021.11.05
수업 들은 기념 결정 트리(Decision Tree) 다시 정리하기 호호 (0)	2021.11.03
앙상블 모델 (0)	2021.11.03