Skip to content

Transformer & Self-Attention 정리 #1

@workdd

Description

@workdd

목표

Transformer와 Self-Attention을 면접에서 설명할 수 있는 깊이로 정리

세부 항목

  • Self-Attention 수식 유도 & 직관적 이해
  • Multi-Head Attention
  • Positional Encoding (왜 필요한지, 수식)
  • 전체 아키텍처 (Encoder-Decoder)
  • Scratch 구현 (numpy/pytorch)

면접 예상 질문

  • Attention에서 Q, K, V가 각각 무엇인가요?
  • 왜 sqrt(d_k)로 나누나요?
  • Self-Attention vs Cross-Attention 차이?
  • Positional Encoding 왜 sin/cos 사용?

참고 자료

  • Attention Is All You Need 논문
  • The Illustrated Transformer

Metadata

Metadata

Assignees

No one assigned

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions