상세 컨텐츠

본문 제목

Generalization

머신러닝

by 후추리 2025. 4. 19. 14:36

본문

1. Function Approximation

- 머신러닝의 목표는 훈련 데이터에 정확히 맞추는 것이 아니라, 새로운 데이터에도 잘 작동하는 일반적인 규칙을 학습하는 것

- 어떤 함수가 이 데이터를 생성했는지 모르지만, 우리는 그것을 근사하고자 함

- 녹색 곡선이 실제로 데이터를 생성한 함수(true function)

- 우리는 녹색 곡선을 모르지만, 그걸 근사하는 모델을 학습해서 새로운 x에 대해 t를 예측하고 싶음

- M = 0,1일 때 학습이 되지 않음(underfitting)

- M = 3일 때 적절하게 패턴을 따라감

- M = 9일 때에는 데이터에 과하게 맞춰짐(overfitting), 에러는 0이지만 true 함수랑 너무 달라서 일반화 불가

- 모델은 단순한 함수로 근사하는 것이 오히려 더 좋을 수 있음

- 노이즈가 클수록, 데이터가 적을수록 오버피팅 증가

- 복잡한 함수일수록 오버피팅 증가

 

 

2. Noise

1) Stochastic Noise: Data Error

- 우리가 관측하는 실제 데이터는 y = f(x) + stochastic noise

- 즉, 데이터에는 무작위적인 노이즈가 섞여 있음

- stochastic noise는 우리가 제어할 수 없는 측정 오차나 잡음으로, 모델로 설명할 수 없음

- 데이터에 우연히 섞인 랜덤한 잡음이기 때문에, 데이터를 다시 수집하면 다른 노이즈가 생김

 

 

2) Deterministic Noise: Model Error

- 모델 자체의 한계로 인해 오차가 생기는 경우

- 우리가 찾을 수 있는 최선의 함수가 h∗(x)라고 할 때, 실제 정답 함수 f(x)와는 차이가 있음

- 이 차이를 deterministic noise라고 부름

- f(x) = h∗(x) + deterministic noise

- 모델의 한계에서 오는 오차기 때문에 데이터를 다시 수집해도 동일한 구조의 오류가 생김

 

- 두 에러 다 overfitting을 유발함. 따라서 둘 다 일반화 성능을 떨어뜨리는 요소

- 현실에서는 노이즈의 종류가 뭔지 구분할 수 없음

 

 

3. Bias-Variance Analysis(편향-분산 분석)

- 측정 에러가 있는 경우, 타깃 함수는 다음과 같이 표현됨

- y = f(x) + ϵ(x), 여기서 ϵ(x)는 평균 0, 분산 σ^2인 측정 에러

- 전체 예측 오차의 기대값은 다음과 같음

- 위 식에서 마지막 두 항은 noise의 직접적인 영향을 반영

- σ^2: Stochastic Noise(데이터 자체의 측정 에러)

- Bias: Deterministic Noise(모델이 타겟 함수를 근사하지 못하는 한계)

- 첫 번째 항인 variance는 모델이 얼마나 노이즈에 민감하게 반응하는지를 보여줌(간접적인 노이즈 영향)

- h(D)(x)는 한 번 학습한 모델이 내놓은 예측값, hˉ(x)는 여러 번 학습한 모델의 예측 평균

 

 

4. Model Selection

- 얼마나 표현력이 높아야 하는지와 일반화 가능성 사이의 균형점을 찾는 일

- 교차검증을 사용해 모델 복잡도를 변화시켜 validation error와 training error를 비교

- 단일 validation set만을 사용할 경우 overfitting 될 가능성이 있음

- 따라서 여러 번 validation을 통해 평균 성능을 보는 k-fold 교차검증 필요

- k-fold Cross Validation:

  1) 데이터를 k개의 폴드로 나누기

  2) 각 반복에서 하나의 폴드는 validation set으로 사용, 나머지는 training set으로 사용

  3) k번 반복

- Test Set은 최종 모델 성능을 평가하는 데만 사용!

 

 

 

5. Loss

1) Generalization Loss : 우리가 만든 가설 h가 모든 입력-출력쌍 (x,y)에 대해서 얼마나 잘 맞는지를 나타내는 손실의 기대값

- : 진짜 데이터 분포, : 가능한 모든 입력-출력 쌍의 집합

- 목적은 일반화 손실이 가장 적은 최적의 가설 h*을 찾기

 

 

2) Empirical Loss : 현실에서는 진짜 데이터 분포 P(x,y) 를 모르기 때문에, 샘플 데이터 E 를 사용해서 일반화 손실을 추정

- 따라서 경험 손실은 실제 샘플 평균으로 계산한 손실

 

'머신러닝' 카테고리의 다른 글

SVM  (0) 2025.04.20
Regularization  (0) 2025.04.19
Regression(2)  (0) 2025.04.18
Regression  (0) 2025.04.18
Classification(3)  (0) 2025.04.16

관련글 더보기