확률이론(2)

머신러닝

by 후추리 2025. 4. 13. 23:36

1. Estimating Probability(확률 추정)

- 불확실한 결과를 가진 함수를 학습하는 알고리즘을 설계(ex. 주가 예측)

- 학습 알고리즘에 사전 지식(prior)을 넣으면 더 똑똑하게 학습할 수 있음

- 확률 모델의 핵심은 랜덤 변수들을 정의하고, 이 변수들에 대해 joint distribution을 만드는 것

2. Joint Distribution

- 여러 개의 확률 변수들에 대해, 모든 조합이 동시에 일어날 확률을 정의

- 예를 들어, A, B, C가 Boolean 변수(0 또는 1)일 때:

가능한 조합: 2^3 = 가지 -> 각각의 조합에 확률을 부여한 게 바로 joint distribution

- Joint Distribution 구성법 :

1) 개의 Boolean 변수 → 2^M개의 조합 생성

2) 각 조합에 확률을 부여

3) 공리에 따르면 모든 확률의 합이 1이 되어야 함

- 어떤 입력 (C, H)에 대해 결과 W를 예측하는 함수 를 학습하고 싶다면

1) 전체 joint distribution P(C,H,W)를 데이터로부터 학습한 다음,

2) 조건부 확률 P(W∣C,H)를 계산하면 됨

- 이 아이디어는 classification과 연결됨 : 특정 입력 X가 주어졌을 때, 클래스 Y가 될 확률을 학습

3. Estimating the Bias of a Coin

- 어떤 동전을 여러번 던지는데, 앞면이 나올 확률이 θ (theta)로 편향되어 있음

- 목표: 실험을 통해 θ = P(X = 1), 즉 앞면이 나올 확률을 추정하고 싶음

- 확률 변수 X는 Bernoulli 분포를 따름(각 동전 던지기 결과는 Boolean 값)

P(X=1) = θ(앞면), P(X=0) = 1−θ(뒷면)

- Case1 : 충분한 데이터(100번 던짐)

- Case2 : 적은 데이터(3번 던짐)

4. Maximum Likelihood Estimation(최대 우도 추정)

- 실제로 관측된 데이터가 가장 일어날 법하게 만들어주는 파라미터를 선택

- 즉, 현재 관측된 데이터가 주어졌을 때 그 데이터가 나올 가능성(likelihood)을 최대로 만드는 θ를 찾기

- 데이터는 i.i.d를 가정 :

1) 독립(independent): 한 번의 결과는 다른 번에 영향을 주지 않음

2) 동일분포(identically distributed): 전부 같은 확률 분포(θ)를 따름

- "데이터 D가 나올 확률이 제일 높으려면 θ(확률)는 뭐여야 할까?"

- 목표 : 앞면이 나올 확률 θ\theta에 대해, 관측 데이터를 기반으로 가장 가능성 있는 추정값 θMLE 찾기

- Step 1 : Likelihood 정의

- Step 2 : 최대 우도를 구하는 문제로 표현

즉, 어떤 θ가 이 데이터를 가장 잘 설명하는가?

- Step 3 : 로그 취해서 간단하게 표현

- Step 4 : 미분해서 최대값 찾기 (극댓값 조건: 미분 = 0)

- Step 5 : θ에 대해 정리하면

5. Maximum a Posteriori Probability(MAP)

- MAP는 관측된 데이터 + 사전 지식을 함께 고려해서 가장 가능성 높은 θ를 고르는 방식

- Prior knowledge : 동전이 공정할 거라고 믿음

- 여기서 P(θ∣data)는 posterior(사후 확률)

- 데이터가 많아질수록 우도 쪽 영향이 커지고, 데이터가 적을 땐 사전 지식(prior)이 더 영향력 있음

- #hallucinatedH 사전 지식이 가정한 앞면 횟수(가짜 데이터)

- #hallucinatedT 사전 지식이 가정한 뒷면 횟수(가짜 데이터)

6. Principles of Estimating Probabilities(확률 추정의 원리)

- 샘플 수가 무한대로 커지면, prior의 영향은 사라짐

- 반면에 데이터 수가 적을 땐, prior가 결과에 큰 영향을 미침

- Prior는 전문가의 직관, 지식, 믿음을 수학적으로 표현한 것

- Uninformative prior : θ ∈ [0,1] 범위에서 모든 값이 똑같이 가능하다고 가정

- Conjugate prior : posterior와 같은 형태의 분포를 사전 분포로 선택

즉, P(θ)와 P(θ|D)가 같은 형태

7. Beta Prior를 사용한 MAP 추정

- θ가 Beta(βH, βT) 분포라고 가정할 때,

- posterior도 Beta분포 형태임

- 즉, Beta 분포는 Bernoulli분포의 conjugate prior

8. 주사위 문제의 MAP 추정

- Likelihood : θ = (θ1,θ2,...,θ6)

- Prior: Dirichlet Distribution(디리클레 분포)는 Beta의 고차원 확장 버전

- Posterior도 디리클레 분포로 나타나서 conjugate prior는 디리클레 분포

9. Continuous Random Variable(연속 확률 변수)

- 실수처럼 연속적인 값을 가질 수 있는 확률 변수

- Gaussian distribution : X ~ N(μ,σ)

- 관측 데이터 예시 : 수면시간 D(3~9시간 정도)

- 데이터는 i.i.d를 가정(모두 동일한 정규분포에서 나온 값이라 가정)

- 목표 : 평균 μ, 분산 σ^2를 데이터로부터 추정

- MLE를 사용하여 추정했을 때, 관측 데이터 D = {x1,x2,...,xN}

- 계산의 편의를 위해 로그를 취하면 다음과같음

- μ에 대해 미분해서 0으로 두면, 최적 μ(MLE)를 구할 수 있음 -> 데이터의 평균

- 도함수를 0으로 두고 σ²에 대해 풀면, 분산의 MLE를 구할 수 있음

- Bayesian Estimation for Gaussian : Conjugate Priors

평균은 가우시안 prior

분산은 Wishart 분포

'머신러닝' 카테고리의 다른 글

Regression (0)	2025.04.18
Classification(3) (0)	2025.04.16
Classification(2) (0)	2025.04.15
Classification(1) (0)	2025.04.15
확률이론(1) (1)	2025.04.13

후추의코딩일기

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

'머신러닝' 카테고리의 다른 글

관련글 더보기

추가 정보

인기글

최신글

티스토리툴바