Gradient Descent & Optimizer 정리

## 목표
GD와 Optimizer들의 원리를 기본 수준으로 정리 (Adam 왜 쓰는지 설명 가능 수준)

## 세부 항목
- [ ] Gradient Descent 기본 원리
- [ ] SGD, Mini-batch GD
- [ ] Momentum
- [ ] Adam (왜 가장 많이 쓰이는지)
- [ ] Learning Rate Scheduling

## 면접 예상 질문
- Adam이 뭔가요? 왜 쓰나요?
- SGD vs Adam 차이?
- Learning rate 어떻게 정하나요?

## 참고 자료
- Adam 논문