상세 컨텐츠

본문 제목

Regularization

머신러닝

by 후추리 2025. 4. 19. 19:52

본문

1. Heuristic Regularization

- overfitting을 막는 방법 중 하나

- Regularization은 너무 복잡한 곡선을 못 만들게 제약을 거는 것

- Weight decay는 가장 널리 쓰이는 정규화 방법 중 하나로, 모델 파라미터가 너무 커지지 않도록 제약을 줌

- 부드러운 기울기를 선호

- bias-variance decomposition을 볼 때, 정규화를 하면 편차가 줄어들어 테스트 성능이 향상

- 학습 알고리즘(w)를 제약하여 더 간단한 h를 선택

 

 

 

2. Mathematical Approach

- 정규화를 수학적으로 유도하여 접근 예정

정규화 전 문제

- 위의 식 loss가 최소가 되도록 하려면 미분값이 0이되는 w를 찾기

 

 

- 모델의 복잡도를 Constraining Weights으로 줄이기

1) Hard-order constraing : 고차 항의 가중치를 0으로 설정

- 모델의 복잡도를 구조적으로 제한

- 예를들어 복잡한 모델 집합 H10을 단순한 모델 집합인 H2로 바꾸기(weight 없애기)

hard-order constraint

 

2) Soft-order constraint : 가중치를 0으로 고정하지 않고, 전체 가중치의 제곱합이 일정 이하가 되도록 제한

- 모델 구조는 유지하되 파라미터에 제약을 가하는 방식

soft-order constraint

- C가 제약의 강도를 조절하는 하이퍼파라미터

- C가 작을수록 strong constraint

- 목표는 에러를 최소화(loss 최소화)하면서, 가중치 w들의 크기도 너무 크지 않게 유지하는 것

λ가 C랑 같은 역할

- 위의 식은 패널티 방식으로, λ가 커지면 오차로 간주하고 그 값을 줄이려고 하기 때문에 정규화에 크게 작용

- 따라서 C↑ ⇒ λ↓ 즉, C를 키우면 벌점 강도 λ는 줄어듬

Cost Function

- 위 식을 L2 정규화 또는 Weight Decay 또는 Ridge Regression 라 부름

- 위 식을 정리하여 미분해서 0이 되는 지점이 최적의 w임

- 기존 least squares와의 차이점은 정규화가 추가되어 λI가 붙음

 

 

 

3. L2 and L1 Regularizers

1) L2 regularization(Ridge, Weight Decay)

- 모든 weight들을 조금씩 줄임

 

2) L1 regularization(Lasso)

- 미분 불가능

- 일부 weight를 완전히 0으로 만들어버림

 

- MLE는 오차항이 가우시안이라고 가정하면 Least Squares와 동일한 해를 가짐

 

- Prior를 가정해서 MAP를 풀면 다음과 같음(w가 가우시안을 따른다는 사전 정보 반영)

 

- Prior를 Laplace 분포로 설정하면 L1정규화임

'머신러닝' 카테고리의 다른 글

Ensemble Methods  (1) 2025.04.20
SVM  (0) 2025.04.20
Generalization  (0) 2025.04.19
Regression(2)  (0) 2025.04.18
Regression  (0) 2025.04.18

관련글 더보기