open:딥-러닝을-이용한-자연어-처리-입문

딥 러닝을 이용한 자연어 처리 입문

  • 3) 어간 추출(Stemming) and 표제어 추출(Lemmatization)
  • 4) 불용어(Stopword)
  • 8) 원-핫 인코딩 (One-Hot Encoding)
  • 9) 데이터의 분리 (Splitting Data)
  • 10) 단어 분리하기(Byte Pair Encoding, BPE)

1) 다양한 단어의 표현 방법

  • Word Representation
    • Local Representation (국소 표현)
      • One-hot Vector
      • N-gram
      • Count Based
    • Continuous Representation (연속 표현)

4) TF-IDF (Term Frequency-Inverse Document Frequency)

2) 여러가지 유사도 기법

토픽(Topic)은 한국어로 주제라고 합니다. 토픽 모델링이란 기계 학습 및 자연어 처리 분야에서 토픽이라는 문서 집합의 추상적인 주제를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미 구조를 발견하기 위해 사용되는 텍스트 마이닝 기법입니다.

1) 잠재 의미 분석(Latent Semantic Analysis, LSA)

과적합 Overfitting을 막는 방법

  • open/딥-러닝을-이용한-자연어-처리-입문.txt
  • 마지막으로 수정됨: 2020/07/19 11:52
  • 저자 127.0.0.1