문서 단어 행렬(Document-Term Matrix, DTM)
행과 열을 반대로 선택하면 TDM이라고 부르기도 합니다.
문서 단어 행렬(Document-Term Matrix, DTM)의 표기법
문서1 : 먹고 싶은 사과
문서2 : 먹고 싶은 바나나
문서3 : 길고 노란 바나나 바나나
문서4 : 저는 과일이 좋아요
이를 문서 단어 행렬로 표현하면 다음과 같습니다.
과일이 | 길고 | 노란 | 먹고 | 바나나 | 사과 | 싶은 | 저는 | 좋아요 | |
---|---|---|---|---|---|---|---|---|---|
문서1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 0 |
문서2 | 0 | 0 | 0 | 1 | 1 | 0 | 1 | 0 | 0 |
문서3 | 0 | 1 | 1 | 0 | 2 | 0 | 0 | 0 | 0 |
문서4 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 |
문서 단어 행렬(Document-Term Matrix)의 한계
- 희소 표현(Sparse representation)
- 단어 빈도 수 기반 접근