본문 바로가기
02. Robotics & AI

토큰화(Tokenization)란?

by Yunnie_ 2021. 6. 26.
반응형

문장을 최소 의미 단위로 잘라서 컴퓨터가 인식하도록 돕는 방법이다.

Photo by Davide Santillo on Unsplash


문장 형태의 문자 데이터를 전처리할 때 많이 사용되는 방법이다. 말뭉치(코퍼스 corpus)를 어떤 토큰의 단위로 분할하냐에 따라 단어 집합의 크기, 단어 집합이 표현하는 토크의 형태가 다르게 나타나며 이는 모델의 성능을 좌지우지하기도 한다. 이때 텍스트를 토큰의 단위로 분할하는 작업을 토큰화라고 한다.

토큰의 단위는 보통 의미를 가지는 최소 의미 단위로 선정되며, 토큰의 단위를 단어로 잡으면 Word Tokenization이라고 하고, 문장으로 잡으면 Sentence Tokeniazation이라고 한다. 영어는 주로 띄어쓰기 기준으로 나누고, 한글은 단어 안의 형태소를 최소 의미 단위로 인식해 적용한다.



Reference

[개념] 토큰화

출처 : wikidocs.net/21667 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 1. 자연어 처리(natural language processing)란? 자연어(natural language)란 우리가 일상 생활에서 사용하는 언어이..

sw-data.tistory.com

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

반응형

댓글0