open:bow

BOW, bag of words

Bag of Words란 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법입니다.

전체 말뭉치에 대해 BOW 표현을 계산하려면 다음 세 단계를 거칩니다.

  1. 토큰화. 각 문서를 문서에 포함된 단어(토큰)로 나눕니다. 예를 들어 공백이나 구두점 등을 기준으로 분리합니다.
  2. 어휘 사전 구축. 모든 문서에 나타난 모든 다너의 어휘를 모으고 번호를 매깁니다.(아파벳 순서)
  3. 인코딩. 어휘 사전에 단어가 문서마다 몇 번이나 나타나는지를 헤아립니다.

  • open/bow.txt
  • 마지막으로 수정됨: 2020/07/04 11:28
  • 저자 127.0.0.1