자연어처리(2)
-
3. Embedding
Embedding 에 대하여 Vector 의 이해 Vector의 종류 1. Sparse Vector 벡터의 값이 대부분 0으로 표현되는 것 대표적인게 One-hot vector 강아지 = [ 0 0 0 0 1 0 0 ] 단어간의 유사도를 알 수 없음 2. Dense Vector 벡터의 값이 대부분이 0이아니라 실수값을 가지는 것 강아지 = [ 0.1 0.5 -2 1 1.2 0.7 0.3 ] 단어간의 유사도를 알 수 있음 Embedding Embedding 은 데이터를 벡터로 바꾸는 작업 Embedding 종류 CountVectorizer TfidfVectorizer Word2Vec Keras.Embedding layer Dense layer
2022.04.08 -
1. 자연어처리
자연어처리에 대한 간략한 소개 자연어처리(NLP) NLU(Understanding) : 사람이 일상적으로 사용하는 자연어를 컴퓨터가 이해하는 값으로 변경 NLG(Generation) : 컴퓨터가 이해하는 값을 사람이 이해하는 값으로 변경 자연어처리의 어려움 Ambiguity 모호성/중의성 존재 - 최대한 짧은 문장내에 많은 정보를 담고자하기에, 정보량이 낮은 내용은 생략가능 - 사람은 모호한 부분을 쉽게 채울수 있지만, 컴퓨터는 힘듦 Paraphrase (다른말로 바꾸어 표현가능) - 같은 의미를 지니는 말인데 표현할수 있는 방법이 많음 한국어 처리의 어려움 한국어는 교착어다. (어간에 접사가 붙어 단어를 이루고 의미와 문법적 기능이 정해짐) - 잡 + 히 + 다 - 잡 + 히 + 었 + 겠 + 다 유연..
2022.04.08