1. Bayes Decision Rule
- 관측된 데이터 x가 주어졌을 때, 그것이 어떤 클래스 y = i에 속할 확률을 Bayes 정리로 계산해서,
확률이 가장 높은 클래스를 선택하면 최적 분류가 가능
2. Classification 해결 단계
1) 특징 변환(input 정의) : 이미지를 숫자 벡터나 특정 특징(예: 귀 모양, 털 색 등)으로 바꿈
2) 모델 정의 : 사용할 모델 선택
3) 모델 학습 : 정규화 필요
4) 특징 선택 : 가장 유의미한 특징들만 남김
3. Supervised Learning(지도 학습)
- 어떤 입력 데이터가 주어졌을 때, 정답(레이블)도 함께 제공되는 학습 방식
- classification은 지도 학습에서 가장 대표적인 문제 유형 중 하나
- 모델은 학습 과정에서 파라미터(가중치)들을 학습하게 됨(w1, w2,...)
4. Types of Classifiers
- Instance-based Classifiers : 학습 없이 기존 데이터를 그대로 저장하고, 새로운 데이터가 들어오면 유사한 예제를 찾는 방식 ex. K-NN
- Generative / Probabilistic Classifiers : 확률 모델을 먼저 학습 후 분류 ex. Naive Bayes, Bayesian networks
- Discriminative Classifiers : 데이터가 어떤 클래스에 속하는지를 직접적으로 예측함. 즉, decision boundary나 함수를 직접 학습
5. K-Nearest Neighbors (K-NN)
- 주변 이웃들 중 다수의 클래스를 따라 분류하는 방식(모델 학습x)
- 가장 가까운 k개의 데이터를 찾고, 그 중에서 가장 많이 등장한 클래스를 정답으로 선택
- 거리 함수 또는 유사도 측정 방법이 정의돼야 함
- 거리 측정 방법 : Euclidean Distance
- k가 커질수록 결정 경계(decision boundary)가 더 부드러워짐
- KNN은 사실상 Bayes 결정 규칙을 데이터의 일부에서 근사하는 알고리즘
- Bayes는 전체 데이터로 확률을 추정하고, KNN은 테스트 샘플 주변(로컬 영역)에서 확률을 추정
6. KNN에서의 확률 계산
- 목표 : 포인트 z가 클래스 y = i일 사후확률(Posterior)을 구하기 P(y=i∣z)
- 포인트 z가 지역 V 안에 있을 확률
- 클래스가 i일 때 z가 V에 있을 확률
- 클래스 i의 사전 확률
- Bayes 정리로 사후 확률 구하기(위 수식들을 대입)
→ KNN은 샘플 z에 대해 그 주변 K개의 이웃 중 클래스 i가 차지하는 비율을 계산
- 결론적으로 Posterior가 가장 높은 클래스를 선택
- ki/k가 가장 큰 i를 선택하는 것과 같음 → 즉, KNN의 다수결이 곧 Bayes 분류기임
Regression (0) | 2025.04.18 |
---|---|
Classification(3) (0) | 2025.04.16 |
Classification(2) (0) | 2025.04.15 |
확률이론(2) (2) | 2025.04.13 |
확률이론(1) (1) | 2025.04.13 |