Skip to content

Tokenizer (BPE, SentencePiece) 정리 #4

@workdd

Description

@workdd

목표

토크나이저 동작 원리와 종류별 차이 이해

세부 항목

  • Tokenization이 왜 필요한지
  • BPE (Byte Pair Encoding) 알고리즘
  • WordPiece
  • SentencePiece (Unigram)
  • 각 LLM별 토크나이저 (GPT, LLaMA, etc.)
  • 토크나이저 학습 실습

면접 예상 질문

  • BPE 알고리즘 설명해주세요
  • 한국어 토크나이저의 문제점은?
  • Vocab size 어떻게 정하나요?
  • Unknown token 처리 방법은?

참고 자료

  • Hugging Face Tokenizers 문서
  • SentencePiece 논문

Metadata

Metadata

Assignees

No one assigned

    Labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions