no image
[Paper Review] WeiPer: OOD Detection using Weight Perturbations of Class Projections
논문 링크 : WeiPerWeiPer: OOD Detection using Weight Perturbations of Class Projections 논문 리뷰입니다.IntroductionOOD detection은 machine learning 연구분야에서 핵심 영역으로 자리잡고 있다. 이는 학습 분포와 크게 다른 입력을 식별하여, 딥러닝 모델이 한 번도 본적 없는 데이터에 대해 과도한 자신감을 갖고 잘못 예측하는 문제를 방지한다. "자율주행, 의료진단" 등 실제 시스템은 학습에 없던 데이터를 계속 마주하기 때문에, OOD detection없이는 위험이 커지게 된다.본 논문에서는 WeiPer라는 방법을 소개한다. 이는 어떤 pre-trained 모델, 어떤 training loss function에도 적..
2025.04.30
no image
[Paper Review] Learning with Mixture of Prototypes for Out-of-Distribution Detection
논문링크 : PALMLearning with Mixture of Prototypes for Out-of-Distribution Detection 논문 리뷰입니다.Introduction딥러닝은 자율주행, 의료진단, 사이버보안과 같은 real-world application에서 중요한 역할을 한다. 현실적인 open-world 시나리오에 in-distribution(ID)로 알려진 closed 가정을 따르는 데이터셋으로 학습된 Neural Network는 학습 분포에서 벗어난 out-of-distribution(OOD) 데이터를 직면했을 때 성능 저하를 겪는 경향이 있다. 신뢰할 수 있는 학습 시스템은 모든 입력을 단순히 ID로 가정하기 보다 OOD 샘플을 인지할 수 있어야한다.수년간 OOD와 ID inpu..
2025.03.23
no image
[Paper Review] GEN: Pushing the Limits of Softmax-Based Out-of-Distribution Detection
논문 링크 : GENGEN: Pushing the Limits of Softmax-Based Out-of-Distribution Detection (CVPR 2023)논문 리뷰입니다.Introduction딥러닝 방법을 실제 상황에서 더 안전하게 사용하려면, 테스트 시 ID Sample인지 아니면 이전에 본 적 없는 OOD Sample인지 구별하는 것이 중요하다. 따라서 deep neural network는 자신이 모르는 것을 인지할 수 있어야 한다.그러나 Network는 OOD Sample에 대해서도 overconfident하는 예측을 내놓는 경향이 있다. OOD Sample을 탐지하는 다양한 시나리오가 존재하는데 특히 본 논문에서는 Semantic Shift 시나리오에 초점을 맞추어 training s..
2025.02.11
no image
CNN 파헤치기 (feat. 혁펜하임의 <Easy! 딥러닝>)
혁펜하임의 Easy! 딥러닝 책 리뷰입니다.책 리뷰를 하려다보니 딥러닝을 처음 공부할때가 생각난다. 책을 찾아보기 보단 구글에 검색하면서 블로그를 많이 봤던 거 같다. 그때는 어떤 책이 좋은지, 어디서부터 시작을 해야할지 감도 못찾고 이것 저것 정보만 얻다가 어떻게 해야할지 막막했다. 지금 생각해보면 그런 시행착오가 있어서 더 성장했던 거 같다. 혁펜하임의 Easy! 딥러닝을 처음 보고, 지은이의 "딥러닝을 공부하고 싶다면, 그냥 딥러닝부터 시작하세요" 라는 말이 잘 어울린다고 생각했다. 결국엔 공부를 하다보면 "왜?"라는 의문으로 시작해 "그래서 어떻게?"로 이어져 그 원리와 동작 방식을 파고들게 된다. 이 책은 이 구조에대한 설명이 아주 잘 되어있다. 딥러닝 공부를 CNN(Convolutional N..
2025.02.06
no image
[Paper Review] Memorization Through the Lens of Curvature of Loss Function Around Samples
Memorization Through the Lens of Curvature of Loss Function Around Samples (ICML 2024)논문 리뷰 입니다.Introduction딥러닝은 여러 분야에서 큰 성공을 거두었고, 데이터와 컴퓨팅 자원의 가용성이 증가함에 따라 수십억 개의 파라미터를 가진 대규모 모델로 성장하고 있다. 이러한 overparameterization은 overfitting문제로 이어진다.overfitting의 극단적인 사례로 신경망이 완전히 무작위로 라벨이 지정된 데이터셋 조차 암기를 할 수 있다는 것이 입증되었다. 또한, 잘못된 예측을 할 때 overconfidence를 보이며 mislabeled data나 long-tail outliers를 포함한 샘플들도 암기하는..
2025.02.06
no image
[Paper Review] Extremely Simple Activation Shaping for Out-of-Distribution Detection
논문 링크 : ASHExtremely Simple Activation Shaping for Out-of-Distribution Detection 논문 리뷰입니다.Introduction머신 러닝은 반복을 통해 작동한다. 더 나은 학습 기술을 개발하고, 모델을 학습 시킨 후 배포 과정에서 발생하는 문제, 한계 등을 관찰하여 학습과정을 수정하거나 개선한다. 그러나 large model의 시대에 들어오면서, 확장(scaling) 발전에 크게 영향을 받고 있다. 그 결과, train-deployment loop를 여러번 하기 어려워지고 있어서 post-hoc 기법이 더 선호되고 있다. 특징 후 처리(feature post processing)와 같은 방법은 사후 작업을 활용하여 사전학습된 일반적이고, 유연한 모델..
2025.01.05
no image
Posterior collapse
Variational Autoencoder(VAE)와 같은 확률적 생성 모델에서 발생하는 문제로, 잠재 변수(latent variables)의 후방 분포(posterior distribution)가 사전 분포(prior distribution)로 '붕괴'되는 현상.잠재 변수들이 데이터의 중요한 정보를 전달하지 못하고, 모델은 단순히 오토인코더처럼 작동하여 잠재공간의 의미가 사라진다.원인KL 발산 : VAE는 reconstruction loss와 Kullback-Leibler(KL) 발산으로 구성된 손실 함수를 최소화 한다. KL 발산이 지나치게 크면 모델이 잠재 변수의 분포를 사전 분포에 맞추려는 경향이 강해진다.디코더 : 잠재 변수에 의존하지 않고도 데이터를 재구성할 수 있어 잠재 변수의 역할이 감소한..
2024.10.26
no image
Coupling Layer
Ref : NICE, RealNVPGeneral coupling layer$x \in \mathcal{X}$, $I_{1}, I_{2}$은 $[1, D]$의 분할로 $d=\vert I_{1} \vert$이고, $m$은 $\mathbb{R}^{d}$에서 정의된 함수이다.$$\begin{align}y_{I_{1}}&=x_{I_{1}}\\y_{I_{2}}&=g(x_{I_{2}};m(x_{I_{1}}))\end{align}$$$g:\mathbb{R}^{D-d}\times m(\mathbb{R}^{d})\rightarrow \mathbb{R}^{D-d}$ : coupling 법칙이며, 첫번째 인수에 대해 두번째 인수를 고려한 상태에서 역함수가 존재하는 변환$I_{1}=[1,d], I_{2}=[d, D]$를 고려한..
2024.09.25
no image
[Paper Review] Glow: Generative Flow with Invertible 1×1 Convolutions
논문 링크 : GlowGlow: Generative Flow with Invertible 1×1 Convolutions 논문 리뷰입니다.Introduction기계학습 분야에서 해결되지 않은 두 가지 주요 문제가 있다.data efficiency : 인간처럼 적은 데이터로부터 학습할 수 있는 능력generalization : task나 context가 변경되었을 때의 강건함AI system은 종종 학습데이터 분포와 다른 input이 주어지면 전혀 작동하지 않는 경우가 있는데, 생성 모델은 이러한 한계를 극복할 가능성을 가지고 있다.현실적인 세계 모델을 학습하여 에이전트가 실제 세계와 상호작용하기 전에 계획을 세울수 있다.Input의 유의미한 특징을 거의 또는 전혀 인간의 supervision이나 label..
2024.09.24