open:bert

BERT

Bi-directional Encoder Representations from Transformers

  • BERT는 bi-directional Transformer로 이루어진 언어모델
  • 잘 만들어진 BERT 언어모델 위에 1개의 classification layer만 부착하여 다양한 NLP task를 수행
  • 영어권에서 11개의 NLP task에 대해 state-of-art (SOTA) 달성
  • Byte Pair Encoding (BPE) 알고리즘 이용
  • 빈도수에 기반해 단어를 의미 있는 패턴(Subword)으로 잘라서 tokenizing
W2V vocabs - - - BPE vocabs
고양경찰서 고양 ##경찰 ##서 고양
고양시 ##시 ##경찰
종로경찰서 종로 ##경찰 ##서 ##서
경찰 경찰 ##시
경찰서 경찰 ##서 경찰
  • 네이버 영화 리뷰 코퍼스 (https://github.com/e9t/nsmc)로 감성 분석 진행
  • 학습 : 150,000 문장 / 평가 : 50,000 문장 (긍정: 1, 부정: 0)

  • Corpus 사이즈
  • Corpus 도메인
  • Corpus tokenizing (어절, BPE, 형태소)
  • Vocal 사이즈
  • open/bert.txt
  • 마지막으로 수정됨: 2021/06/16 23:56
  • 저자 127.0.0.1