open:딥-러닝을-이용한-자연어-처리-입문 [Various Ways]

open:딥-러닝을-이용한-자연어-처리-입문

3) 어간 추출(Stemming) and 표제어 추출(Lemmatization)
4) 불용어(Stopword)
8) 원-핫 인코딩 (One-Hot Encoding)
9) 데이터의 분리 (Splitting Data)
10) 단어 분리하기(Byte Pair Encoding, BPE)

1) 다양한 단어의 표현 방법

Word Representation
- Local Representation (국소 표현)
  - One-hot Vector
  - N-gram
  - Count Based
    - Bag of Words (BoW) (DTM 또는 TDM)
- Continuous Representation (연속 표현)
  - Prediction Based
    - Word2Vec (FastText)
  - Count Based
    - Full Document
      - LSA
    - Windows
      - Glove

4) TF-IDF (Term Frequency-Inverse Document Frequency)

2) 여러가지 유사도 기법

토픽(Topic)은 한국어로 주제라고 합니다. 토픽 모델링이란 기계 학습 및 자연어 처리 분야에서 토픽이라는 문서 집합의 추상적인 주제를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미 구조를 발견하기 위해 사용되는 텍스트 마이닝 기법입니다.

1) 잠재 의미 분석(Latent Semantic Analysis, LSA)

옵티마이저 (Optimizer)
역전파 (BackPropagation)
과적합 (Overfitting)
케라스 (Keras)

과적합 Overfitting을 막는 방법

https://wikidocs.net/21707

Machine Learning

open/딥-러닝을-이용한-자연어-처리-입문.txt
마지막으로 수정됨: 2020/07/19 11:52
저자 127.0.0.1