1. 자연어처리

2022. 4. 8. 10:13STUDY/NLP

자연어처리에 대한 간략한 소개


자연어처리(NLP)

  • NLU(Understanding) : 사람이 일상적으로 사용하는 자연어를 컴퓨터가 이해하는 값으로 변경
  • NLG(Generation) : 컴퓨터가 이해하는 값을 사람이 이해하는 값으로 변경

자연어처리의 어려움

  • Ambiguity 모호성/중의성 존재
    - 최대한 짧은 문장내에 많은 정보를 담고자하기에, 정보량이 낮은 내용은 생략가능
    - 사람은 모호한 부분을 쉽게 채울수 있지만, 컴퓨터는 힘듦

  • Paraphrase (다른말로 바꾸어 표현가능)
    - 같은 의미를 지니는 말인데 표현할수 있는 방법이 많음

 

한국어 처리의 어려움

  • 한국어는 교착어다. (어간에 접사가 붙어 단어를 이루고 의미와 문법적 기능이 정해짐)
    - 잡 + 히 + 다
    - 잡 + 히 + 었 + 겠 + 다
  • 유연한 단어 순서 규칙
    - 나는 밥을 먹으러 간다
    - 간다 나는 밥을 먹으러
    - 나는 먹으러 간다 밥을
  • 모호한 띄어쓰기
    - 근대 이전까지 동양권 언어에는 띄어쓰기가 존재하지 않음
    - 띄어쓰기가 없어도 대충 알아들음
  • 한자 기반의 언어
    - 표의문자인 한자를 표음문자인 한글로 랩핑하였음
    - 표의문자 : 의미 또는 사물의 형상을 글씨로 나타냄
    - 표음문자 : 사람이 말하는 소리, 음성을 글씨로 나타냄
  • 단어의 중의성 많음
    - 차 : car, tea ...
  • 평서문/의문문 차이 부재 및 주어의 부재
    - 평서문 : 점심먹었어 == i ate my lunch
    - 의문문 : 점심먹었어? == Did you ate lunch?