Classification(1)

머신러닝

by 후추리 2025. 4. 15. 14:40

1. Bayes Decision Rule

- 관측된 데이터 x가 주어졌을 때, 그것이 어떤 클래스 y = i에 속할 확률을 Bayes 정리로 계산해서,
확률이 가장 높은 클래스를 선택하면 최적 분류가 가능

2. Classification 해결 단계

1) 특징 변환(input 정의) : 이미지를 숫자 벡터나 특정 특징(예: 귀 모양, 털 색 등)으로 바꿈

2) 모델 정의 : 사용할 모델 선택

3) 모델 학습 : 정규화 필요

4) 특징 선택 : 가장 유의미한 특징들만 남김

3. Supervised Learning(지도 학습)

- 어떤 입력 데이터가 주어졌을 때, 정답(레이블)도 함께 제공되는 학습 방식

- classification은 지도 학습에서 가장 대표적인 문제 유형 중 하나

- 모델은 학습 과정에서 파라미터(가중치)들을 학습하게 됨(w1, w2,...)

4. Types of Classifiers

- Instance-based Classifiers : 학습 없이 기존 데이터를 그대로 저장하고, 새로운 데이터가 들어오면 유사한 예제를 찾는 방식 ex. K-NN

- Generative / Probabilistic Classifiers : 확률 모델을 먼저 학습 후 분류 ex. Naive Bayes, Bayesian networks

- Discriminative Classifiers : 데이터가 어떤 클래스에 속하는지를 직접적으로 예측함. 즉, decision boundary나 함수를 직접 학습

5. K-Nearest Neighbors (K-NN)

- 주변 이웃들 중 다수의 클래스를 따라 분류하는 방식(모델 학습x)

- 가장 가까운 k개의 데이터를 찾고, 그 중에서 가장 많이 등장한 클래스를 정답으로 선택

- 거리 함수 또는 유사도 측정 방법이 정의돼야 함

- 거리 측정 방법 : Euclidean Distance

- k가 커질수록 결정 경계(decision boundary)가 더 부드러워짐

- KNN은 사실상 Bayes 결정 규칙을 데이터의 일부에서 근사하는 알고리즘

- Bayes는 전체 데이터로 확률을 추정하고, KNN은 테스트 샘플 주변(로컬 영역)에서 확률을 추정

6. KNN에서의 확률 계산

- 목표 : 포인트 z가 클래스 y = i일 사후확률(Posterior)을 구하기 P(y=i∣z)

- 포인트 z가 지역 V 안에 있을 확률

- 클래스가 i일 때 z가 V에 있을 확률

- 클래스 i의 사전 확률

- Bayes 정리로 사후 확률 구하기(위 수식들을 대입)

→ KNN은 샘플 z에 대해 그 주변 K개의 이웃 중 클래스 i가 차지하는 비율을 계산

- 결론적으로 Posterior가 가장 높은 클래스를 선택

- ki/k가 가장 큰 i를 선택하는 것과 같음 → 즉, KNN의 다수결이 곧 Bayes 분류기임

'머신러닝' 카테고리의 다른 글

Regression (0)	2025.04.18
Classification(3) (0)	2025.04.16
Classification(2) (0)	2025.04.15
확률이론(2) (2)	2025.04.13
확률이론(1) (1)	2025.04.13

후추의코딩일기

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

'머신러닝' 카테고리의 다른 글

관련글 더보기

추가 정보

인기글

최신글

티스토리툴바