반응형 텍스트 전처리1 토큰화(Tokenization)란? 문장을 최소 의미 단위로 잘라서 컴퓨터가 인식하도록 돕는 방법이다. 문장 형태의 문자 데이터를 전처리할 때 많이 사용되는 방법이다. 말뭉치(코퍼스 corpus)를 어떤 토큰의 단위로 분할하냐에 따라 단어 집합의 크기, 단어 집합이 표현하는 토크의 형태가 다르게 나타나며 이는 모델의 성능을 좌지우지하기도 한다. 이때 텍스트를 토큰의 단위로 분할하는 작업을 토큰화라고 한다. 토큰의 단위는 보통 의미를 가지는 최소 의미 단위로 선정되며, 토큰의 단위를 단어로 잡으면 Word Tokenization이라고 하고, 문장으로 잡으면 Sentence Tokeniazation이라고 한다. 영어는 주로 띄어쓰기 기준으로 나누고, 한글은 단어 안의 형태소를 최소 의미 단위로 인식해 적용한다. Reference [개념] 토큰.. 2021. 6. 26. 이전 1 다음 반응형