상세 컨텐츠

본문 제목

확률이론(2)

머신러닝

by 후추리 2025. 4. 13. 23:36

본문

1. Estimating Probability(확률 추정)

- 불확실한 결과를 가진 함수를 학습하는 알고리즘을 설계(ex. 주가 예측)

- 학습 알고리즘에 사전 지식(prior)을 넣으면 더 똑똑하게 학습할 수 있음

- 확률 모델의 핵심은 랜덤 변수들을 정의하고, 이 변수들에 대해 joint distribution을 만드는 것

 

 

2. Joint Distribution

- 여러 개의 확률 변수들에 대해, 모든 조합이 동시에 일어날 확률을 정의

- 예를 들어, A, B, C가 Boolean 변수(0 또는 1)일 때:

  가능한 조합: 2^3 = 가지 -> 각각의 조합에 확률을 부여한 게 바로 joint distribution

- Joint Distribution 구성법 : 

  1) 개의 Boolean 변수 → 2^M개의 조합 생성

  2) 각 조합에 확률을 부여

  3) 공리에 따르면 모든 확률의 합이 1이 되어야 함

 

-  어떤 입력 (C, H)에 대해 결과 W를 예측하는 함수 를 학습하고 싶다면

   1) 전체 joint distribution P(C,H,W)를 데이터로부터 학습한 다음,

   2) 조건부 확률 P(W∣C,H)를 계산하면 됨

- 이 아이디어는 classification과 연결됨 : 특정 입력 X가 주어졌을 때, 클래스 Y가 될 확률을 학습

 

 

3. Estimating the Bias of a Coin

- 어떤 동전을 여러번 던지는데, 앞면이 나올 확률이 θ (theta)로 편향되어 있음

- 목표: 실험을 통해 θ = P(X = 1), 즉 앞면이 나올 확률을 추정하고 싶음

- 확률 변수 X는 Bernoulli 분포를 따름(각 동전 던지기 결과는 Boolean 값) 

  P(X=1) = θ(앞면), P(X=0) = 1θ(뒷면)

- Case1 : 충분한 데이터(100번 던짐)

- Case2 : 적은 데이터(3번 던짐)

 

 

4. Maximum Likelihood Estimation(최대 우도 추정)

- 실제로 관측된 데이터가 가장 일어날 법하게 만들어주는 파라미터를 선택

- 즉, 현재 관측된 데이터가 주어졌을 때 그 데이터가 나올 가능성(likelihood)을 최대로 만드는 θ를 찾기

- 데이터는 i.i.d를 가정 : 

  1) 독립(independent): 한 번의 결과는 다른 번에 영향을 주지 않음

  2) 동일분포(identically distributed): 전부 같은 확률 분포(θ)를 따름

- "데이터 D가 나올 확률이 제일 높으려면 θ(확률)는 뭐여야 할까?"

 

- 목표 : 앞면이 나올 확률 θ\theta에 대해, 관측 데이터를 기반으로 가장 가능성 있는 추정값 θMLE 찾기

- Step 1 :  Likelihood 정의

likelihood

 

 

- Step 2 : 최대 우도를 구하는 문제로 표현

  즉, 어떤 θ가 이 데이터를 가장 잘 설명하는가?

 

- Step 3 : 로그 취해서 간단하게 표현

 

- Step 4 : 미분해서 최대값 찾기 (극댓값 조건: 미분 = 0)

 

- Step 5 : θ에 대해 정리하면

 

 

5. Maximum a Posteriori Probability(MAP)

- MAP는 관측된 데이터 + 사전 지식을 함께 고려해서 가장 가능성 높은 θ를 고르는 방식

- Prior knowledge : 동전이 공정할 거라고 믿음

- 여기서 P(θ∣data)는 posterior(사후 확률)

 

- 데이터가 많아질수록 우도 쪽 영향이 커지고, 데이터가 적을 땐 사전 지식(prior)이 더 영향력 있음

- #hallucinatedH​ 사전 지식이 가정한 앞면 횟수(가짜 데이터)

- #hallucinatedT​ 사전 지식이 가정한 뒷면 횟수(가짜 데이터)

 

 

6. Principles of Estimating Probabilities(확률 추정의 원리)

- 샘플 수가 무한대로 커지면, prior의 영향은 사라짐

- 반면에 데이터 수가 적을 땐, prior가 결과에 큰 영향을 미침

- Prior는 전문가의 직관, 지식, 믿음을 수학적으로 표현한 것

- Uninformative prior : θ ∈ [0,1] 범위에서 모든 값이 똑같이 가능하다고 가정

- Conjugate prior : posterior와 같은 형태의 분포를 사전 분포로 선택

  즉, P(θ)와 P(θ|D)가 같은 형태

 

 

7. Beta Prior를 사용한 MAP 추정

- θ가 Beta(βH, βT) 분포라고 가정할 때,

베타분포의 PDF
Likelihood

- posterior도 Beta분포 형태임

- 즉, Beta 분포는 Bernoulli분포의 conjugate prior

 

 

8. 주사위 문제의 MAP 추정

- Likelihood : θ = (θ1,θ2,...,θ6)

 

- Prior: Dirichlet Distribution(디리클레 분포)는 Beta의 고차원 확장 버전

 

- Posterior도 디리클레 분포로 나타나서 conjugate prior는 디리클레 분포

 

 

9. Continuous Random Variable(연속 확률 변수)

- 실수처럼 연속적인 값을 가질 수 있는 확률 변수

- Gaussian distribution : X ~ N(μ,σ)

- 관측 데이터 예시 : 수면시간 D(3~9시간 정도)

- 데이터는 i.i.d를 가정(모두 동일한 정규분포에서 나온 값이라 가정)

- 목표 : 평균 μ, 분산 σ^2를 데이터로부터 추정

- MLE를 사용하여 추정했을 때, 관측 데이터 D = {x1,x2,...,xN}

Likelihood

- 계산의 편의를 위해 로그를 취하면 다음과같음

 

- μ에 대해 미분해서 0으로 두면, 최적 μ(MLE)를 구할 수 있음 -> 데이터의 평균

 

- 도함수를 0으로 두고 σ²에 대해 풀면, 분산의 MLE를 구할 수 있음

 

- Bayesian Estimation for Gaussian : Conjugate Priors

  평균은 가우시안 prior

  분산은 Wishart 분포

'머신러닝' 카테고리의 다른 글

Regression  (0) 2025.04.18
Classification(3)  (0) 2025.04.16
Classification(2)  (0) 2025.04.15
Classification(1)  (0) 2025.04.15
확률이론(1)  (1) 2025.04.13

관련글 더보기