BERT란

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

yeon's 👩🏻‍💻

BERT란 본문

Computer 💻/Deep Learning

BERT란

yeon42 2022. 2. 19. 10:49

728x90

Reference

AIFFEL LMS Exploration 13
https://ebbnflow.tistory.com/151

트랜스포머(transformer)

: 2017년 구글이 제안한 seq2seq 모델

- 최근 자연어 처리에서 BERT나 GPT같은 트랜스포머 기반 언어모델이 각광받고 있음

🥕 seq2seq: 특정 속성을 지닌 시퀀스를 다른 속성의 시퀀스로 변환하는 작업

BERT

- BERT 등장 이전에는 데이터 전처리 임베딩을 Word2Vec 등을 많이 사용했지만, 요즘은 대부분 BERT를 많이 사용함

🥕 임베딩

: 자연어를 숫자의 나열인 (계산 가능한) 벡터(vector)로 바꾸는 것

[ 텍스트 분류 모델을 만든다고 가정 ]

🥑 BERT를 사용하지 않는다면

: 분류를 원하는 데이터 -> LSTM, CNN 등의 머신러닝 모델 -> 분류

🥑 BERT를 사용한 모델링

: 관련 대량 코퍼스(말뭉치) -> BERT -> 분류를 원하는 데이터 -> LSTM, CNN 등의 머신러닝 모델 -> 분류

대량 코퍼스로 BERT 언어모델을 적용하고, 출력에 추가적인 모델 (RNN, CNN 등의 머신러닝 모델)을 쌓아 원하는 Task를 수행하는 것.

[ BERT Input: Token Embedding + Segment Embedding + Position Embedding ]

Token Embedding

BERT는 텍스트의 tokenizer로 Word Piece model이라는 subword tokenizer를 사용한다. 문자(char) 단위로 임베딩하는 것이 기본이지만, 자주 등장하는 긴 길이의 subword도 하나의 단위로 만들어준다. 자주 등장하지 않는 단어는 다시 subword 단위로 쪼개준다. 이는 자주 등장하지 않는 단어가 OOV(Out-of-vocabulary) 처리되는 것을 방지해주는 장점도 있다. 그래서 최종적으로 Word Piece 모델의 각 임베딩이 입력된다.

Segment Embedding

- 기존 Transformer에 없던 독특한 임베딩. 이는 각 단어가 어느 문장에 포함되는지 그 역할을 규정하는 것. 이전 스텝에서 KorQuAD 데이터셋을 분석하며 살펴보았지만, 특히 QA 문제처럼 이 단어가 Question 문장에 속하는지, Context 문장에 속하는지 구분이 필요한 경우 이 임베딩은 매우 유용하게 사용된다.

- Sentence Embedding이라고도 불리며, 토큰시킨 단어들을 다시 하나의 문장으로 만드는 작업이다. BERT에서는 두 개의 문장을 구분자([SEP])를 넣어 구분하고, 그 두 문장을 하나의 Segment로 지정하여 입력한다. BERT에서는 이 한 Segment를 512 sub-word 길이로 제한하는데, 한국어는 보통 20 sub-word가 한 문장을 이룬다고 하며 대부분의 문장은 60 sub-word가 넘지 않는다고 하니 BERT를 사용할 때 하나의 Segment에 128로 제한하여도 충분히 학습이 가능하다고 한다.

Position Embedding

- 이 임베딩은 기존의 Transformer에서 사용되던 position embedding과 동일하다.

- BERT의 저자는 이전에 Transformer 모델을 발표하였는데, Transformer란 CNN, RNN과 같은 모델 대신 Self-Attention이란 모델을 사용하는 모델이다. BERT는 Transformer의 인코더, 디코더 중 인코더만 사용한다.

- Token 순서대로 인코딩을 한다.

> BERT는 이미 총 3.3억개의 단어(BookCorpus + Wikipedia Data)의 거대 코퍼스를 정제하고, 임베딩하여 학습시킨 모델이다.

Pre-training

: 데이터들을 임베딩하여 훈련시킬 데이터들을 모두 인코딩하였으면, 사전 훈련을 시킬 단계이다. 보통 기존에는 문장을 왼쪽 -> 오른쪽으로 학습해 다음 단어를 예측하는 방식이거나, 예측할 단어의 좌우 문맥을 고려해 예측하는 방식을 사용한다.

하지만 BERT는 언어의 특성을 잘 학습하도록,

- MLM (Masked Language Model)

- NSP (Next Sentence Prediction)

의 두 가지 방법을 사용한다.

MLM (Masked Language Model)

- 입력 데이터가 '나는 <mask> 먹었다' 일 때 BERT 모델이 '<mask>'가 '밥을' 임을 맞출 수 있도록 하는 단어 모델. 이전의 Next Token Prediction Language Model과 대비시켜 이른바 '다음 빈칸에 알맞은 말은' 문제를 엄청나게 풀어보는 언어 모델을 구현할 것이다.

- 입력 문장에서 임의의 토큰(<mask>)을 버리고, 그 토큰을 맞추는 방식으로 학습 진행

NSP (Next Sentence Prediction)

- 입력 데이터가 '나는 밥을 먹었다. <SEP> 그래서 지금 배가 부르다.' 가 주어졌을 때 <SEP>를 경계로 좌우 두 문장이 순서대로 이어지는 문장이 맞는지를 맞추는 문제. BERT 모델은 이 두 문장을 입력으로 받았을 때 첫 번째 바이트에 NSP 결괏값을 리턴하게 됨.

- BERT 모델의 입력 부분을 보면 텍스트 입력이 [Input] 처럼 주어졌을 때, 실제 모델에 입력되는 것은 Token, Segment, Position Embedding 3가지가 더해진 형태이다. 실제로는 그 이후 layer normaliation과 dropout이 추가로 적용된다.

거 너무 어렵다 어려워 ,, !

저작자표시

'Computer 💻 > Deep Learning' 카테고리의 다른 글

[도서] 파이토치 첫 걸음 - Chap 03. 선형회귀분석 (0)	2023.01.04
[밑바닥부터 시작하는 딥러닝] 2. 퍼셉트론 (0)	2022.05.06
[Pytorch] 9-4. Batch Normalization (0)	2022.02.17
[Pytorch] 9-3. Dropout (0)	2022.02.17
[cs231n] 10강. RNN (Recurrent Neural Networks) (0)	2022.02.12