티스토리 뷰
반응형
문장을 최소 의미 단위로 잘라서 컴퓨터가 인식하도록 돕는 방법이다.
문장 형태의 문자 데이터를 전처리할 때 많이 사용되는 방법이다. 말뭉치(코퍼스 corpus)를 어떤 토큰의 단위로 분할하냐에 따라 단어 집합의 크기, 단어 집합이 표현하는 토크의 형태가 다르게 나타나며 이는 모델의 성능을 좌지우지하기도 한다. 이때 텍스트를 토큰의 단위로 분할하는 작업을 토큰화라고 한다.
토큰의 단위는 보통 의미를 가지는 최소 의미 단위로 선정되며, 토큰의 단위를 단어로 잡으면 Word Tokenization이라고 하고, 문장으로 잡으면 Sentence Tokeniazation이라고 한다. 영어는 주로 띄어쓰기 기준으로 나누고, 한글은 단어 안의 형태소를 최소 의미 단위로 인식해 적용한다.
Reference
[개념] 토큰화
출처 : wikidocs.net/21667 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 1. 자연어 처리(natural language processing)란? 자연어(natural language)란 우리가 일상 생활에서 사용하는 언어이..
sw-data.tistory.com
위키독스
온라인 책을 제작 공유하는 플랫폼 서비스
wikidocs.net
반응형
'어려운 인공지능 공부' 카테고리의 다른 글
GPU가 AI 연구에 왜 중요할까? (0) | 2022.12.04 |
---|---|
자연어 처리(Natural Language Processing)란? (0) | 2021.06.27 |
알고리즘(algorithm)이란? (0) | 2021.03.14 |
인공지능(Artificial Intelligence)의 역사 (0) | 2021.03.07 |
인공지능(Artificial Intelligence)의 유형 (0) | 2021.03.07 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 이루다 AI
- 혼합현실
- AI의 단점
- 건물 재테크
- 인공지능의 장점
- 독후감
- AI의 장단점
- 책 추천
- 통계 관련 책
- 인공지능의 문제점
- 꼬마빌딩 재테크
- AI의 장점
- AI
- 구글 애널리틱스
- 숫자 관련 책
- 기초 코딩 지식
- ChatGPT
- 개발지식
- 인공지능의 단점
- 토지의 용도
- 건물의 가격을 올리는 방법
- 기초 개발 지식
- 인공지능의 장단점
- UX 디자인
- 인공지능
- AI의 문제점
- 코딩
- 이루다
- 개발 공부
- 꼬마빌딩 투자
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
글 보관함