TF-IDF (term frequency-inverse document frequency)
from sklearn.feature_extraction.text import TfidfVectorizer vec = TfidfVectorizer() X = vec.fit_transform(sample) X.toarray()
tf(w) = 문서에서 w라는 단어가 출현하는 횟수 / 문서에 있는 전체 단어 개수
tdf(w) = log(문서 개수 / w라는 단어를 담은 문서 개수)
자연어 처리를 위한 1D CNN
많은 NLP 문제에서, CNN이 잘 작동할 뿐만 아니라 LSTM보다 빠르다는 점이 밝혀졌다. RNN/LSTM을 언제 사용하고 CNN을 언제 사용할지에 대한 정확한 규칙을 제시하기는 어렵다. 일반적으로 문제에 어떤 상태가 필요하거나 시쿼스 중 한참 지나온 부분에서 무언가를 학습해야 한다면 LSTM을 사용하는 편이 더 나을 수 있다. 문제가 텍스트를 설명하는 특정 단어 집합을 감지해야 한다거나 문서에 대한 의미론적 정서를 감지해야 하는 경우라면 CNN을 사용해야 문제를 더 빠르고 효과적으로 해결할 수 있다.