-
Notifications
You must be signed in to change notification settings - Fork 0
Open
Labels
priority:1-core1순위 - LLM 핵심1순위 - LLM 핵심
Description
목표
토크나이저 동작 원리와 종류별 차이 이해
세부 항목
- Tokenization이 왜 필요한지
- BPE (Byte Pair Encoding) 알고리즘
- WordPiece
- SentencePiece (Unigram)
- 각 LLM별 토크나이저 (GPT, LLaMA, etc.)
- 토크나이저 학습 실습
면접 예상 질문
- BPE 알고리즘 설명해주세요
- 한국어 토크나이저의 문제점은?
- Vocab size 어떻게 정하나요?
- Unknown token 처리 방법은?
참고 자료
- Hugging Face Tokenizers 문서
- SentencePiece 논문
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
priority:1-core1순위 - LLM 핵심1순위 - LLM 핵심