open:nlp

NLP

자연어 처리 ⇒ 자연어를 컴퓨터가 해독하고 그 의미를 이해하는 기술

  • Symbolic approach
    • 규칙/지식 기반 접근법
  • Statistical approach
    • 확률/통계 기반 접근법
    • TF-IDF를 이요한 키워드 추출
  • 전처리
    • 개행문자 제거, 특수문자 제거, 공백 제거
    • 중복 표현 제어
    • 이메일, 링크 제거, 제목 제거
    • 불용어 (의미가 없는 용어) 제거
    • 조사 제거
    • 띄어쓰기, 문장분리 보정
    • 사전 구축
  • Tokenizing : 어절, 형태소, n-gram, WordPiece
  • Lexical analysis : 어휘, 형태소, 개체명 인식, 상호 참조
  • Syntactic analysis : 구문 분석
  • Semantic analysis : 의미 분석
  • 문서 분류
  • 문법, 오타 교정
  • 정보 추출
  • 음성 인식결과 보정
  • 음성 합성 텍스트 보정
  • 정보 검색
  • 요약문 생성
  • 기계 번역
  • 질의 응답
  • 기계 독해
  • 챗봇
  • 형태소 분석
  • 개체명 분석
  • 구문 분석
  • 감성 분석
  • 관계 추출
  • 의도 파악

NLTK(National Language Toolkit for Python)
파이썬의 가장 대표적인 NLP 패키지
NLP의 거의 모든 영역 커버
많은 NLP 패키지가 NLTK의 영향을 받아 작성
수행 속도 측면에서 아쉬운 부분이 있어 대량 데이터셋에서 제대로 활용되지 못함

Gensim
토픽 모델링 분야에서 가장 두각을 나타내는 패키지

SpaCy
뛰어난 수행 성능으로 최근 주목받는 패키지

  • GLUE datasets
    • MNLI: Multi-Genre Natural Language Inference
      • 현재 문장 다음에 이어지는 문장이 문맥상 이어지는 문장인지, 반대되는 문장인지, 상관 없는 문장인지 분류를 위한 데이터셋
    • QQP: Quora Question Pairs
      • 두 질문이 의미상 같은지 다른지 분류를 위한 데이터셋
    • QNLI: Question Natural Language Inference
      • 질의응답 데이터셋
    • SST-2: The Stanford Sentiment Treebank
      • 영화 리뷰 문장에 관한 감성 분석을 위한 데이터셋
    • ColA: The Corpus of Linguistic Acceptability
      • 문법적으로 맞는 문장인지 틀린 문장인지 분류를 위한 데이터셋
    • STS-B: The Semantic Textual Similarity Benchmark
      • 뉴스 헤드라인과 사람이 만든 paraphrasing 문장이 의미상 같은 문장인지 비료를 위한 데이터셋
    • MRPC: Microsoft Research Paraphrase Corpus
      • 뉴스의 내용과 사람이 만든 문장이 의미상 같은 문장인지 비교를 위한 데이터셋
    • RTE: Recognizing Textual Entailment
      • MNLI와 유사하나, 상대적으로 훨씬 적은 학습 데이터셋
    • WNLI: Winograd NLI
      • 문장 분류 데이터셋
  • SQuAD v1.1 - 질의응답 데이터셋
  • CoNLL 2003 Named Entity Recognition datasets - 개체명 분류 데이터셋
  • SWAG: Situation With Adversarial Generations
  • open/nlp.txt
  • 마지막으로 수정됨: 2021/06/17 00:59
  • 저자 127.0.0.1