Norm
크기의 일반화로 벡터의 크기를 측정하는 방법이다.
두 벡터사이의 거리를 측정하는 방법이기도 하다.
$\mathbf{x} = [x_{1}, x_{2}, \dots, x_{n}]$ 에 대한 p-norm은 아래의 수식으로 정의된다.
$$
\Vert\mathbf{x}\Vert_{p}:=\left(\sum_{i=1}^{n}|x_{i}|^{p}\right)^\frac{1}{p}
$$
- $p$는 norm의 종류를 결정하는 파라미터, $p$의 값에 따라 다른 norm을 정의하게 된다.
L1-Norm
$$
\Vert\mathbf{x}\Vert_{1}:=\left(\sum_{i=1}^{n}|x_{i}|\right)
$$
- vector의 각 성분에 대한 절대값의 합이다.
- Manhattan Norm, Taxicab Norm이라고도 한다.
$$
\begin{align}
\mathbf{x} &= [3, -4] \\
\Vert\mathbf{x}\Vert_1 = \sum_{i=1}^{n} |x_{i}| &= |3| + |-4| = 3 + 4 = 7
\end{align}
$$
즉, 벡터 $\mathbf{x}$의 L1 norm은 7이다.
L2-Norm
$$
\Vert\mathbf{x}\Vert_{2}:=\left(\sum_{i=1}^{n}|x_{i}|^{2}\right)^\frac{1}{2}
$$
- vector의 각 성분에 대한 제곱의 합의 제곱근이다.
- Euclidean Norm이라고도 한다.
- 두 점 사이의 직접적인 거리(최단거리)를 측정하는 방식
$$
\begin{align}\\
\mathbf{x} &= [3, -4] \\
\Vert\mathbf{x}\Vert_{2}=\sqrt{\sum_{i=1}^{n} x_{i}^{2}} &= \sqrt{3^{2} + (-4)^{2}} = \sqrt{9 + 16} = \sqrt{25} = 5
\end{align}
$$
즉, 벡터 $\mathbf{x}$의 L2 norm은 5이다.
L1-Norm과 L2-Norm의 차이
L1-Norm은 sparse한 데이터를 더 잘 반영한다.
- sparse data는 많은 성분이 0이거나 매우 작은 값을 가지는 벡터를 의미한다.
- L1-Norm은 각 성분의 절대값을 더하기 때문에, 소수의 큰 값들이 전체 Norm에 더 큰 영향을 미친다. 따라서 0인 값이 많더라도 큰 성분이 있다면 그 영향을 더 크게 반영할 수 있다.
- Lasso regression, sparse coding 등 에서 사용되며, 모델의 단순화에 유리하다.
L2-Norm은 평균적인 크기를 더 잘 반영한다.
- 벡터의 성분들이 상대적으로 균일하게 분포된 데이터에 적합하다.
- 작은 성분들이 무시되지 않고, 모두 반영되기 때문에 전체적인 벡터의 크기를 부드럽게 측정한다.
- 데이터의 전반적인 크기를 고려하여 최적화할 때 유리하다.
- Ridge regression, SVM등 에서 사용되며, 과적합 방지나 모델의 안정성을 위해 사용된다.
'Deep Learning' 카테고리의 다른 글
Coupling Layer (0) | 2024.09.25 |
---|---|
Softmax function derivative (0) | 2024.09.03 |
AUROC Random Detector (0) | 2024.08.09 |
Cross Entropy Loss and gradient (0) | 2024.08.08 |
Precision, Recall, TPR, FPR, AUROC, AUPR (0) | 2024.08.06 |