Skip to content

L1,L2 regularization

BIBI edited this page Mar 15, 2020 · 2 revisions

본문을 읽기 전에 regularization을 읽고 오시면 좋습니다.


1. L1, L2 norm

1-1. Norm?

norm? 벡터의 크기(길이)를 측정하는 방법. 두 벡터 사이의 거리를 측정하는 방법

image

  • p : Norm 의 차수
    • p = 1 : L1 Norm
    • P = 2 : L2 Norm
  • n은 해당 벡터의 원소 수

(1) L1 norm

스크린샷 2020-03-15 오전 10 47 31
  • 벡터 p, q 의 각 원소들의 차이의 절대값의 합

vector p = (3,1,-3), q = (5,0,7)

p,q의 L1 norm : |3-5| + |1-0| + |-3 -7| = 2 + 1 + 10 = 13

(2) L2 norm

image

  • 벡터 p, q 의 유클리디안 거리(직선 거리)

  • q 가 원점일 경우 벡터 p, q의 L2 Norm : 벡터 p 의 원점으로부터의 직선거리를 의미

    • p = (x_1, x_2, ... , x_n), q = (0, 0, ... , 0)

(3) Difference btw L1, L2 norm

image

  • L1 Norm : 빨간색, 파란색, 노란색 선으로 표현 가능

  • L2 Norm : 초록색 선으로만 표현 가능

  • L1 Norm 은 여러가지 path 를 가지지만 L2 Norm 은 Unique shortest path 를 가진다

    • Ex.
      • p = (1, 0), q = (0, 0) 일 때 L1 Norm = 1, L2 Norm = 1 로 값은 같지만 여전히 Unique shortest path.

1-2. L1, L2 Loss

(1) L1 Loss

image

y_i : label

f(x_i) : output

L1 Loss : label과 output 사이의 오차 값의 절대값을 구한 후 그 오차들의 합

  • 동의어
    • Least absolute deviations(LAD)
    • Least absolute Errors(LAE)
    • Least absolute value(LAV)
    • Least absolute residual(LAR)
    • Sum of absolute deviations

(2) L2 Loss

image

L2 Loss : 오차의 제곱의 합

  • 동의어 : Least squares error(LSE)

(3) Difference btw L1 Loss, L2 Loss

  • L1 Loss의 단점 : 0인 지점에서 미분이 불가능하다
  • L2 Loss 는 직관적으로 오차의 제곱을 더하기 때문에 Outlier 에 더 큰 영향을 받는다.
    • L1 Loss 가 L2 Loss 에 비해 Outlier 에 대하여 더 Robust하다.
    • L1 Loss : Outlier 가 적당히 무시되길 원할 때 사용
    • L2 Loss : Outlier 의 등장에 신경써야 하는 경우

2. L1, L2 regularization

2-1. L1 regularization (Lasso)

(1) 수식

image

  • 실험 case에 따라 앞의 1/n/ 1/2가 달라지는 경우가 있다.
  • λ : 상수. 0에 가까울 수록 정규화의 효과는 없어진다

스크린샷 2020-03-15 오후 12 09 15
  • C_0 : 원래의 cost function

(2) 특징

  • cost function에 가중치의 절대값을 더해준다는 것이 중요

    • 가중치 w에 대해 편미분을 하면
    • 스크린샷 2020-03-15 오후 12 09 17
    • w값 자체를 줄이는 것이 아닌 w의 부호에 따라 상수값을 빼주는 방식으로 regularization 수행
  • 기존의 cost function 에 가중치의 크기가 포함되면서 가중치가 너무 크지 않은 방향으로 학습

  • L1 Regularization 을 사용하는 Regression model

    : Least Absolute Shrinkage and Selection Operater(Lasso) Regression

2-2. L2 regularization (Lidge)

(1) 수식

image

  • 실험 case에 따라 앞의 1/n/ 1/2가 달라지는 경우가 있다.
  • L : 기존의 cost function
  • n : train data의 수
  • λ : regularization 변수. 상수. 0에 가까울 수록 정규화의 효과는 없어진다
  • w : 가중치
스크린샷 2020-03-15 오후 12 08 25
  • C_0 : 원래의 cost function

(2) 특징

  • L(기존의 cost function)에 가중치를 포함하여 더함으로써

    • L이 작아지는 방향으로 학습
    • w이 작아지는 방향으로 학습
      • w에 대해 편미분하면 값이 작아지는 방향으로 진행하게 된다 : Weight decay
      • 스크린샷 2020-03-15 오후 12 07 45
      • weight decay에 의해 특정 가중치가 비이상적으로 커지고 학습에 큰 영향을 끼치는 것을 방지
  • L2 Regularization 을 사용하는 Regression model

    : Ridge Regression

2-3. Difference btw L1,L2 regularization

(1) Regularization

  • 가중치 w 가 작아지도록 학습한다는 것? Local noise 에 영향을 덜 받도록 하겠다는 것
  • Outlier 의 영향을 더 적게 받도록 하겠다는 것

(2) 예시

image

  • a,b에 대하여 L1 norm 계산시

image

  • a,b에 대하여 L2 norm 계산시

image

  • L1 Norm: 경우에 따라 특정 Feature(벡터의 요소) 없이도 같은 값을 낼 수 있다
  • L2 Norm : 각각의 벡터에 대해 항상 Unique 한 값을 낸다.

image

(3) 결론

  • L1 Norm 은 파란색 선 대신 빨간색 선을 사용하여 특정 Feature 를 0으로 처리하는 것이 가능하다.
  • L1 Norm 은 Feature selection 이 가능
    • 이 특징은 L1 Regularization 에 동일하게 적용 될 수 있다.
    • L1 은 Sparse model(coding) 에 적합
    • convex optimization 에 유용하게 쓰인다.

image

단, L1 Regularization 의 경우 위 그림처럼 미분 불가능한 점이 있기 때문에 Gradient-base learning 에는 주의가 필요하다.

reference

Clone this wiki locally