# BOW, bag of words ## Bag of Words란? Bag of Words란 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법입니다. 전체 말뭉치에 대해 BOW 표현을 계산하려면 다음 세 단계를 거칩니다. 1. [[토큰화]]. 각 문서를 문서에 포함된 단어(토큰)로 나눕니다. 예를 들어 공백이나 구두점 등을 기준으로 분리합니다. 2. [[어휘 사전 구축]]. 모든 문서에 나타난 모든 다너의 어휘를 모으고 번호를 매깁니다.(아파벳 순서) 3. [[인코딩]]. 어휘 사전에 단어가 문서마다 몇 번이나 나타나는지를 헤아립니다.