Norm,L1,L2

래훈
|2024. 8. 17. 16:39
728x90
반응형

Norm

크기의 일반화로 벡터의 크기를 측정하는 방법이다.
두 벡터사이의 거리를 측정하는 방법이기도 하다.

$\mathbf{x} = [x_{1}, x_{2}, \dots, x_{n}]$ 에 대한 p-norm은 아래의 수식으로 정의된다.

$$
\Vert\mathbf{x}\Vert_{p}:=\left(\sum_{i=1}^{n}|x_{i}|^{p}\right)^\frac{1}{p}
$$

  • $p$는 norm의 종류를 결정하는 파라미터, $p$의 값에 따라 다른 norm을 정의하게 된다.

L1-Norm

$$
\Vert\mathbf{x}\Vert_{1}:=\left(\sum_{i=1}^{n}|x_{i}|\right)
$$

  • vector의 각 성분에 대한 절대값의 합이다.
  • Manhattan Norm, Taxicab Norm이라고도 한다.

$$
\begin{align}
\mathbf{x} &= [3, -4] \\
\Vert\mathbf{x}\Vert_1 = \sum_{i=1}^{n} |x_{i}| &= |3| + |-4| = 3 + 4 = 7
\end{align}
$$

즉, 벡터 $\mathbf{x}$의 L1 norm은 7이다.

L2-Norm

$$
\Vert\mathbf{x}\Vert_{2}:=\left(\sum_{i=1}^{n}|x_{i}|^{2}\right)^\frac{1}{2}
$$

  • vector의 각 성분에 대한 제곱의 합의 제곱근이다.
  • Euclidean Norm이라고도 한다.
  • 두 점 사이의 직접적인 거리(최단거리)를 측정하는 방식

$$
\begin{align}\\
\mathbf{x} &= [3, -4] \\
\Vert\mathbf{x}\Vert_{2}=\sqrt{\sum_{i=1}^{n} x_{i}^{2}} &= \sqrt{3^{2} + (-4)^{2}} = \sqrt{9 + 16} = \sqrt{25} = 5
\end{align}
$$
즉, 벡터 $\mathbf{x}$의 L2 norm은 5이다.

L1-Norm과 L2-Norm의 차이

L1-Norm은 sparse한 데이터를 더 잘 반영한다.

  • sparse data는 많은 성분이 0이거나 매우 작은 값을 가지는 벡터를 의미한다.
  • L1-Norm은 각 성분의 절대값을 더하기 때문에, 소수의 큰 값들이 전체 Norm에 더 큰 영향을 미친다. 따라서 0인 값이 많더라도 큰 성분이 있다면 그 영향을 더 크게 반영할 수 있다.
  • Lasso regression, sparse coding 등 에서 사용되며, 모델의 단순화에 유리하다.

L2-Norm은 평균적인 크기를 더 잘 반영한다.

  • 벡터의 성분들이 상대적으로 균일하게 분포된 데이터에 적합하다.
  • 작은 성분들이 무시되지 않고, 모두 반영되기 때문에 전체적인 벡터의 크기를 부드럽게 측정한다.
  • 데이터의 전반적인 크기를 고려하여 최적화할 때 유리하다.
  • Ridge regression, SVM등 에서 사용되며, 과적합 방지나 모델의 안정성을 위해 사용된다.
728x90
반응형

'Deep Learning' 카테고리의 다른 글

Coupling Layer  (0) 2024.09.25
Softmax function derivative  (0) 2024.09.03
AUROC Random Detector  (0) 2024.08.09
Cross Entropy Loss and gradient  (0) 2024.08.08
Precision, Recall, TPR, FPR, AUROC, AUPR  (0) 2024.08.06