1. Function Approximation
- 머신러닝의 목표는 훈련 데이터에 정확히 맞추는 것이 아니라, 새로운 데이터에도 잘 작동하는 일반적인 규칙을 학습하는 것
- 어떤 함수가 이 데이터를 생성했는지 모르지만, 우리는 그것을 근사하고자 함
- 녹색 곡선이 실제로 데이터를 생성한 함수(true function)
- 우리는 녹색 곡선을 모르지만, 그걸 근사하는 모델을 학습해서 새로운 x에 대해 t를 예측하고 싶음
- M = 0,1일 때 학습이 되지 않음(underfitting)
- M = 3일 때 적절하게 패턴을 따라감
- M = 9일 때에는 데이터에 과하게 맞춰짐(overfitting), 에러는 0이지만 true 함수랑 너무 달라서 일반화 불가
- 모델은 단순한 함수로 근사하는 것이 오히려 더 좋을 수 있음
- 노이즈가 클수록, 데이터가 적을수록 오버피팅 증가
- 복잡한 함수일수록 오버피팅 증가
2. Noise
1) Stochastic Noise: Data Error
- 우리가 관측하는 실제 데이터는 y = f(x) + stochastic noise
- 즉, 데이터에는 무작위적인 노이즈가 섞여 있음
- stochastic noise는 우리가 제어할 수 없는 측정 오차나 잡음으로, 모델로 설명할 수 없음
- 데이터에 우연히 섞인 랜덤한 잡음이기 때문에, 데이터를 다시 수집하면 다른 노이즈가 생김
2) Deterministic Noise: Model Error
- 모델 자체의 한계로 인해 오차가 생기는 경우
- 우리가 찾을 수 있는 최선의 함수가 h∗(x)라고 할 때, 실제 정답 함수 f(x)와는 차이가 있음
- 이 차이를 deterministic noise라고 부름
- f(x) = h∗(x) + deterministic noise
- 모델의 한계에서 오는 오차기 때문에 데이터를 다시 수집해도 동일한 구조의 오류가 생김
- 두 에러 다 overfitting을 유발함. 따라서 둘 다 일반화 성능을 떨어뜨리는 요소
- 현실에서는 노이즈의 종류가 뭔지 구분할 수 없음
3. Bias-Variance Analysis(편향-분산 분석)
- 측정 에러가 있는 경우, 타깃 함수는 다음과 같이 표현됨
- y = f(x) + ϵ(x), 여기서 ϵ(x)는 평균 0, 분산 σ^2인 측정 에러
- 전체 예측 오차의 기대값은 다음과 같음
- 위 식에서 마지막 두 항은 noise의 직접적인 영향을 반영
- σ^2: Stochastic Noise(데이터 자체의 측정 에러)
- Bias: Deterministic Noise(모델이 타겟 함수를 근사하지 못하는 한계)
- 첫 번째 항인 variance는 모델이 얼마나 노이즈에 민감하게 반응하는지를 보여줌(간접적인 노이즈 영향)
- h(D)(x)는 한 번 학습한 모델이 내놓은 예측값, hˉ(x)는 여러 번 학습한 모델의 예측 평균
4. Model Selection
- 얼마나 표현력이 높아야 하는지와 일반화 가능성 사이의 균형점을 찾는 일
- 교차검증을 사용해 모델 복잡도를 변화시켜 validation error와 training error를 비교
- 단일 validation set만을 사용할 경우 overfitting 될 가능성이 있음
- 따라서 여러 번 validation을 통해 평균 성능을 보는 k-fold 교차검증 필요
- k-fold Cross Validation:
1) 데이터를 k개의 폴드로 나누기
2) 각 반복에서 하나의 폴드는 validation set으로 사용, 나머지는 training set으로 사용
3) k번 반복
- Test Set은 최종 모델 성능을 평가하는 데만 사용!
5. Loss
1) Generalization Loss : 우리가 만든 가설 h가 모든 입력-출력쌍 (x,y)에 대해서 얼마나 잘 맞는지를 나타내는 손실의 기대값
- : 진짜 데이터 분포, : 가능한 모든 입력-출력 쌍의 집합
- 목적은 일반화 손실이 가장 적은 최적의 가설 h*을 찾기
2) Empirical Loss : 현실에서는 진짜 데이터 분포 P(x,y) 를 모르기 때문에, 샘플 데이터 E 를 사용해서 일반화 손실을 추정
- 따라서 경험 손실은 실제 샘플 평균으로 계산한 손실
SVM (0) | 2025.04.20 |
---|---|
Regularization (0) | 2025.04.19 |
Regression(2) (0) | 2025.04.18 |
Regression (0) | 2025.04.18 |
Classification(3) (0) | 2025.04.16 |