2. 전처리

2. 전처리

2022. 4. 8. 10:27ㆍ카테고리 없음

자연어처리의 전처리과정

자연어처리 작업흐름

데이터수집

데이터 수집 방법 4가지

구입
- 정제 및 레이블링 완료된 양질의 데이터획득가능
- 양이 매우 제한적
외주
무료 공개 데이터
- AI-HUB
- WMT competetion
- Kaggle
- OPUS (http://opus.nlpl.eu/)
크롤링을 통한 데이터 수집
- 무한한 양의 코퍼스 수집 가능
- 도메인별로 데이터 수집가능
- 정제과정에 많은 노력필요
- 아직은 회색지대이지만, 적법한 절차에 따른 크롤링 필수

데이터 전처리

데이터 전처리 과정

1. 정제과정

2. 레이블링

3. Tokenization 분절

[라인 분절]

보통 학습시 우리가 원하는 입력데이터는 "한 라인당 한 문장"이어야 한다.

한 라인에 여러문장이 들어있거나, 한문장이 여러 라인에 들어있을 경우 분할수행필요

[문장 분절]

두개 이상의 다른 token들의 결합으로 이루어진 단어를 쪼개어

vocabulary 숫자를 줄이고, 희소성(sparseness)을 낮추기 위해 필요

[형태소 분석 및 품사 태깅]

형태소 분석 : 형태소를 비롯하여, 어근/접두사/접미사/품사 등 다양한 언어적 속성의 구조를 파악

품사 태깅 : 형태소의 뜻과 문맥을 고려하여 각 단어에 품사를 붙이는 일

[분절길이에 따른 장단점]

토큰 평균길이에 따른 성격과 특징

분절길이가 짧을수록

Vocabulary 크기 감소
희소성 문제감소
Oov ( Out of Vocabulary ) 줄어듦
- train data로 학습하였는데, test할때 모르는 단어가 있을경우 해당 단어를 Oov 라고함
- 이런 Oov 는 <UNK> 토큰으로 대체
Sequence 길이가 길어짐
- 분절된 한 토큰당 한 Sequence 로 취급하여서
- 모델의 부담도 증가

분절의 길이가 길수록

4. Subword segementation (optional)

나중에 추가

5. 사전 구축

6. word2index

CW HISTORY