1. Heuristic Regularization
- overfitting을 막는 방법 중 하나
- Regularization은 너무 복잡한 곡선을 못 만들게 제약을 거는 것
- Weight decay는 가장 널리 쓰이는 정규화 방법 중 하나로, 모델 파라미터가 너무 커지지 않도록 제약을 줌
- 부드러운 기울기를 선호
- bias-variance decomposition을 볼 때, 정규화를 하면 편차가 줄어들어 테스트 성능이 향상
- 학습 알고리즘(w)를 제약하여 더 간단한 h를 선택
2. Mathematical Approach
- 정규화를 수학적으로 유도하여 접근 예정
- 위의 식 loss가 최소가 되도록 하려면 미분값이 0이되는 w를 찾기
- 모델의 복잡도를 Constraining Weights으로 줄이기
1) Hard-order constraing : 고차 항의 가중치를 0으로 설정
- 모델의 복잡도를 구조적으로 제한
- 예를들어 복잡한 모델 집합 H10을 단순한 모델 집합인 H2로 바꾸기(weight 없애기)
2) Soft-order constraint : 가중치를 0으로 고정하지 않고, 전체 가중치의 제곱합이 일정 이하가 되도록 제한
- 모델 구조는 유지하되 파라미터에 제약을 가하는 방식
- C가 제약의 강도를 조절하는 하이퍼파라미터
- C가 작을수록 strong constraint
- 목표는 에러를 최소화(loss 최소화)하면서, 가중치 w들의 크기도 너무 크지 않게 유지하는 것
- 위의 식은 패널티 방식으로, λ가 커지면 오차로 간주하고 그 값을 줄이려고 하기 때문에 정규화에 크게 작용
- 따라서 C↑ ⇒ λ↓ 즉, C를 키우면 벌점 강도 λ는 줄어듬
- 위 식을 L2 정규화 또는 Weight Decay 또는 Ridge Regression 라 부름
- 위 식을 정리하여 미분해서 0이 되는 지점이 최적의 w임
- 기존 least squares와의 차이점은 정규화가 추가되어 λI가 붙음
3. L2 and L1 Regularizers
1) L2 regularization(Ridge, Weight Decay)
- 모든 weight들을 조금씩 줄임
2) L1 regularization(Lasso)
- 미분 불가능
- 일부 weight를 완전히 0으로 만들어버림
- MLE는 오차항이 가우시안이라고 가정하면 Least Squares와 동일한 해를 가짐
- Prior를 가정해서 MAP를 풀면 다음과 같음(w가 가우시안을 따른다는 사전 정보 반영)
- Prior를 Laplace 분포로 설정하면 L1정규화임
Ensemble Methods (1) | 2025.04.20 |
---|---|
SVM (0) | 2025.04.20 |
Generalization (0) | 2025.04.19 |
Regression(2) (0) | 2025.04.18 |
Regression (0) | 2025.04.18 |