Generalization

머신러닝

by 후추리 2025. 4. 19. 14:36

1. Function Approximation

- 머신러닝의 목표는 훈련 데이터에 정확히 맞추는 것이 아니라, 새로운 데이터에도 잘 작동하는 일반적인 규칙을 학습하는 것

- 어떤 함수가 이 데이터를 생성했는지 모르지만, 우리는 그것을 근사하고자 함

- 녹색 곡선이 실제로 데이터를 생성한 함수(true function)

- 우리는 녹색 곡선을 모르지만, 그걸 근사하는 모델을 학습해서 새로운 x에 대해 t를 예측하고 싶음

- M = 0,1일 때 학습이 되지 않음(underfitting)

- M = 3일 때 적절하게 패턴을 따라감

- M = 9일 때에는 데이터에 과하게 맞춰짐(overfitting), 에러는 0이지만 true 함수랑 너무 달라서 일반화 불가

- 모델은 단순한 함수로 근사하는 것이 오히려 더 좋을 수 있음

- 노이즈가 클수록, 데이터가 적을수록 오버피팅 증가

- 복잡한 함수일수록 오버피팅 증가

2. Noise

1) Stochastic Noise: Data Error

- 우리가 관측하는 실제 데이터는 y = f(x) + stochastic noise

- 즉, 데이터에는 무작위적인 노이즈가 섞여 있음

- stochastic noise는 우리가 제어할 수 없는 측정 오차나 잡음으로, 모델로 설명할 수 없음

- 데이터에 우연히 섞인 랜덤한 잡음이기 때문에, 데이터를 다시 수집하면 다른 노이즈가 생김

2) Deterministic Noise: Model Error

- 모델 자체의 한계로 인해 오차가 생기는 경우

- 우리가 찾을 수 있는 최선의 함수가 h∗(x)라고 할 때, 실제 정답 함수 f(x)와는 차이가 있음

- 이 차이를 deterministic noise라고 부름

- f(x) = h∗(x) + deterministic noise

- 모델의 한계에서 오는 오차기 때문에 데이터를 다시 수집해도 동일한 구조의 오류가 생김

- 두 에러 다 overfitting을 유발함. 따라서 둘 다 일반화 성능을 떨어뜨리는 요소

- 현실에서는 노이즈의 종류가 뭔지 구분할 수 없음

3. Bias-Variance Analysis(편향-분산 분석)

- 측정 에러가 있는 경우, 타깃 함수는 다음과 같이 표현됨

- y = f(x) + ϵ(x), 여기서 ϵ(x)는 평균 0, 분산 σ^2인 측정 에러

- 전체 예측 오차의 기대값은 다음과 같음

- 위 식에서 마지막 두 항은 noise의 직접적인 영향을 반영

- σ^2: Stochastic Noise(데이터 자체의 측정 에러)

- Bias: Deterministic Noise(모델이 타겟 함수를 근사하지 못하는 한계)

- 첫 번째 항인 variance는 모델이 얼마나 노이즈에 민감하게 반응하는지를 보여줌(간접적인 노이즈 영향)

- h(D)(x)는 한 번 학습한 모델이 내놓은 예측값, hˉ(x)는 여러 번 학습한 모델의 예측 평균

4. Model Selection

- 얼마나 표현력이 높아야 하는지와 일반화 가능성 사이의 균형점을 찾는 일

- 교차검증을 사용해 모델 복잡도를 변화시켜 validation error와 training error를 비교

- 단일 validation set만을 사용할 경우 overfitting 될 가능성이 있음

- 따라서 여러 번 validation을 통해 평균 성능을 보는 k-fold 교차검증 필요

- k-fold Cross Validation:

1) 데이터를 k개의 폴드로 나누기

2) 각 반복에서 하나의 폴드는 validation set으로 사용, 나머지는 training set으로 사용

3) k번 반복

- Test Set은 최종 모델 성능을 평가하는 데만 사용!

5. Loss

1) Generalization Loss : 우리가 만든 가설 h가 모든 입력-출력쌍 (x,y)에 대해서 얼마나 잘 맞는지를 나타내는 손실의 기대값

- : 진짜 데이터 분포, : 가능한 모든 입력-출력 쌍의 집합

- 목적은 일반화 손실이 가장 적은 최적의 가설 h*을 찾기

2) Empirical Loss : 현실에서는 진짜 데이터 분포 P(x,y) 를 모르기 때문에, 샘플 데이터 E 를 사용해서 일반화 손실을 추정

- 따라서 경험 손실은 실제 샘플 평균으로 계산한 손실

'머신러닝' 카테고리의 다른 글

SVM (0)	2025.04.20
Regularization (0)	2025.04.19
Regression(2) (0)	2025.04.18
Regression (0)	2025.04.18
Classification(3) (0)	2025.04.16

후추의코딩일기

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

'머신러닝' 카테고리의 다른 글

관련글 더보기

추가 정보

인기글

최신글

티스토리툴바