상세 컨텐츠

본문 제목

Classification(1)

머신러닝

by 후추리 2025. 4. 15. 14:40

본문

1. Bayes Decision Rule

- 관측된 데이터 x가 주어졌을 때, 그것이 어떤 클래스 y = i에 속할 확률을 Bayes 정리로 계산해서,
확률이 가장 높은 클래스를 선택하면 최적 분류가 가능

 

 

2. Classification 해결 단계

  1) 특징 변환(input 정의) : 이미지를 숫자 벡터나 특정 특징(예: 귀 모양, 털 색 등)으로 바꿈

  2) 모델 정의 : 사용할 모델 선택

  3) 모델 학습 : 정규화 필요

  4) 특징 선택 : 가장 유의미한 특징들만 남김

 

 

3. Supervised Learning(지도 학습)

- 어떤 입력 데이터가 주어졌을 때, 정답(레이블)도 함께 제공되는 학습 방식

- classification은 지도 학습에서 가장 대표적인 문제 유형 중 하나

- 모델은 학습 과정에서 파라미터(가중치)들을 학습하게 됨(w1, w2,...)

 

 

4. Types of Classifiers

- Instance-based Classifiers : 학습 없이 기존 데이터를 그대로 저장하고, 새로운 데이터가 들어오면 유사한 예제를 찾는 방식  ex. K-NN

- Generative / Probabilistic Classifiers : 확률 모델을 먼저 학습 후 분류 ex. Naive Bayes, Bayesian networks

- Discriminative Classifiers : 데이터가 어떤 클래스에 속하는지를 직접적으로 예측함. 즉, decision boundary나 함수를 직접 학습

 

 

5. K-Nearest Neighbors (K-NN)

- 주변 이웃들 중 다수의 클래스를 따라 분류하는 방식(모델 학습x)

- 가장 가까운 k개의 데이터를 찾고, 그 중에서 가장 많이 등장한 클래스를 정답으로 선택

- 거리 함수 또는 유사도 측정 방법이 정의돼야 함

- 거리 측정 방법 : Euclidean Distance

Euclidean Distance

- k가 커질수록 결정 경계(decision boundary)가 더 부드러워짐

- KNN은 사실상 Bayes 결정 규칙데이터의 일부에근사하는 알고리즘

- Bayes는 전체 데이터로 확률을 추정하고, KNN은 테스트 샘플 주변(로컬 영역)에서 확률을 추정

 

 

6. KNN에서의 확률 계산

- 목표 : 포인트 z가 클래스 y = i일 사후확률(Posterior)을 구하기 P(y=iz)

- 포인트 z가 지역 V 안에 있을 확률 

 

 

- 클래스가 i일 때 z가 V에 있을 확률

Likelihood

- 클래스 i의 사전 확률

Prior

 

- Bayes 정리로 사후 확률 구하기(위 수식들을 대입)

 KNN은 샘플 z에 대해 그 주변 K개의 이웃 중 클래스 i가 차지하는 비율을 계산

- 결론적으로 Posterior가 가장 높은 클래스를 선택

- ki/k가 가장 큰 i를 선택하는 것과 같음 → 즉, KNN의 다수결이 곧 Bayes 분류기임

 

 

 

'머신러닝' 카테고리의 다른 글

Regression  (0) 2025.04.18
Classification(3)  (0) 2025.04.16
Classification(2)  (0) 2025.04.15
확률이론(2)  (2) 2025.04.13
확률이론(1)  (1) 2025.04.13

관련글 더보기