# BERT


- [BERT: Pre-training of Deep Bidirectional Transformers for
Language Understanding](https://arxiv.org/pdf/1810.04805.pdf)
- [Attention Is All You Need](https://arxiv.org/pdf/1706.03762.pdf)
- [인공지능(AI) 언어모델 ‘BERT(버트)'는 무엇인가](http://www.aitimes.kr/news/articleView.html?idxno=13117)
- [[딥러닝 기반 자연어 언어모델 BERT]]

### Bert

Bi-directional Encoder Representations from Transformers

  - BERT는 bi-directional [[Transformer]]로 이루어진 언어모델
  - 잘 만들어진 BERT 언어모델 위에 1개의 classification layer만 부착하여 다양한 [[NLP]] task를 수행
  - 영어권에서 11개의 NLP task에 대해 state-of-art (SOTA) 달성

### BERT의 WordPiece tokenizing

  - Byte Pair Encoding ([[BPE]]) 알고리즘 이용
  - `빈도수`에 기반해 단어를 의미 있는 패턴(Subword)으로 잘라서 tokenizing

^  W2V vocabs  ^ - ^ - ^ - ^  BPE vocabs  ^
| 고양경찰서 | 고양 | ##경찰 | ##서 | 고양 |
| 고양시 | | ##시 | | ##경찰 |
| 종로경찰서 | 종로 | ##경찰 | ##서 | ##서 |
| 경찰 | | 경찰 | | ##시 |
| 경찰서 | | 경찰 | ##서 | 경찰 |


### BERT 적용 실험 - 감성 분석

  - 네이버 영화 리뷰 코퍼스 (https://github.com/e9t/nsmc)로 감성 분석 진행
  - 학습 : 150,000 문장 / 평가 : 50,000 문장 (긍정: 1, 부정: 0)

![](https://i.imgur.com/oTgwpVt.jpg)

### BERT 성능에 영향을 미치는 요인

  - Corpus 사이즈
  - Corpus 도메인
  - Corpus tokenizing (어절, BPE, 형태소)
  - Vocal 사이즈


### 출처

- [인공지능(AI) 언어모델 ‘BERT(버트)'는 무엇인가](http://www.aitimes.kr/news/articleView.html?idxno=13117)
- https://github.com/eagle705/pytorch-bert-crf-ner
- https://www.youtube.com/watch?v=riGc8z3YIgQ
- https://tacademy.skplanet.com/live/player/onlineLectureDetail.action?seq=164
- https://github.com/graykode/toeicbert?fbclid=IwAR2hoCQE02CaR00m-RZCHwQM_kYd1LgxxMSrucYSTtA52ZUhtvq5i_G2tFk