1. Estimating Probability(확률 추정)
- 불확실한 결과를 가진 함수를 학습하는 알고리즘을 설계(ex. 주가 예측)
- 학습 알고리즘에 사전 지식(prior)을 넣으면 더 똑똑하게 학습할 수 있음
- 확률 모델의 핵심은 랜덤 변수들을 정의하고, 이 변수들에 대해 joint distribution을 만드는 것
2. Joint Distribution
- 여러 개의 확률 변수들에 대해, 모든 조합이 동시에 일어날 확률을 정의
- 예를 들어, A, B, C가 Boolean 변수(0 또는 1)일 때:
가능한 조합: 2^3 = 가지 -> 각각의 조합에 확률을 부여한 게 바로 joint distribution
- Joint Distribution 구성법 :
1) 개의 Boolean 변수 → 2^M개의 조합 생성
2) 각 조합에 확률을 부여
3) 공리에 따르면 모든 확률의 합이 1이 되어야 함
- 어떤 입력 (C, H)에 대해 결과 W를 예측하는 함수 를 학습하고 싶다면
1) 전체 joint distribution P(C,H,W)를 데이터로부터 학습한 다음,
2) 조건부 확률 P(W∣C,H)를 계산하면 됨
- 이 아이디어는 classification과 연결됨 : 특정 입력 X가 주어졌을 때, 클래스 Y가 될 확률을 학습
3. Estimating the Bias of a Coin
- 어떤 동전을 여러번 던지는데, 앞면이 나올 확률이 θ (theta)로 편향되어 있음
- 목표: 실험을 통해 θ = P(X = 1), 즉 앞면이 나올 확률을 추정하고 싶음
- 확률 변수 X는 Bernoulli 분포를 따름(각 동전 던지기 결과는 Boolean 값)
P(X=1) = θ(앞면), P(X=0) = 1−θ(뒷면)
- Case1 : 충분한 데이터(100번 던짐)
- Case2 : 적은 데이터(3번 던짐)
4. Maximum Likelihood Estimation(최대 우도 추정)
- 실제로 관측된 데이터가 가장 일어날 법하게 만들어주는 파라미터를 선택
- 즉, 현재 관측된 데이터가 주어졌을 때 그 데이터가 나올 가능성(likelihood)을 최대로 만드는 θ를 찾기
- 데이터는 i.i.d를 가정 :
1) 독립(independent): 한 번의 결과는 다른 번에 영향을 주지 않음
2) 동일분포(identically distributed): 전부 같은 확률 분포(θ)를 따름
- "데이터 D가 나올 확률이 제일 높으려면 θ(확률)는 뭐여야 할까?"
- 목표 : 앞면이 나올 확률 θ\theta에 대해, 관측 데이터를 기반으로 가장 가능성 있는 추정값 θMLE 찾기
- Step 1 : Likelihood 정의
- Step 2 : 최대 우도를 구하는 문제로 표현
즉, 어떤 θ가 이 데이터를 가장 잘 설명하는가?
- Step 3 : 로그 취해서 간단하게 표현
- Step 4 : 미분해서 최대값 찾기 (극댓값 조건: 미분 = 0)
- Step 5 : θ에 대해 정리하면
5. Maximum a Posteriori Probability(MAP)
- MAP는 관측된 데이터 + 사전 지식을 함께 고려해서 가장 가능성 높은 θ를 고르는 방식
- Prior knowledge : 동전이 공정할 거라고 믿음
- 여기서 P(θ∣data)는 posterior(사후 확률)
- 데이터가 많아질수록 우도 쪽 영향이 커지고, 데이터가 적을 땐 사전 지식(prior)이 더 영향력 있음
- #hallucinatedH 사전 지식이 가정한 앞면 횟수(가짜 데이터)
- #hallucinatedT 사전 지식이 가정한 뒷면 횟수(가짜 데이터)
6. Principles of Estimating Probabilities(확률 추정의 원리)
- 샘플 수가 무한대로 커지면, prior의 영향은 사라짐
- 반면에 데이터 수가 적을 땐, prior가 결과에 큰 영향을 미침
- Prior는 전문가의 직관, 지식, 믿음을 수학적으로 표현한 것
- Uninformative prior : θ ∈ [0,1] 범위에서 모든 값이 똑같이 가능하다고 가정
- Conjugate prior : posterior와 같은 형태의 분포를 사전 분포로 선택
즉, P(θ)와 P(θ|D)가 같은 형태
7. Beta Prior를 사용한 MAP 추정
- θ가 Beta(βH, βT) 분포라고 가정할 때,
- posterior도 Beta분포 형태임
- 즉, Beta 분포는 Bernoulli분포의 conjugate prior
8. 주사위 문제의 MAP 추정
- Likelihood : θ = (θ1,θ2,...,θ6)
- Prior: Dirichlet Distribution(디리클레 분포)는 Beta의 고차원 확장 버전
- Posterior도 디리클레 분포로 나타나서 conjugate prior는 디리클레 분포
9. Continuous Random Variable(연속 확률 변수)
- 실수처럼 연속적인 값을 가질 수 있는 확률 변수
- Gaussian distribution : X ~ N(μ,σ)
- 관측 데이터 예시 : 수면시간 D(3~9시간 정도)
- 데이터는 i.i.d를 가정(모두 동일한 정규분포에서 나온 값이라 가정)
- 목표 : 평균 μ, 분산 σ^2를 데이터로부터 추정
- MLE를 사용하여 추정했을 때, 관측 데이터 D = {x1,x2,...,xN}
- 계산의 편의를 위해 로그를 취하면 다음과같음
- μ에 대해 미분해서 0으로 두면, 최적 μ(MLE)를 구할 수 있음 -> 데이터의 평균
- 도함수를 0으로 두고 σ²에 대해 풀면, 분산의 MLE를 구할 수 있음
- Bayesian Estimation for Gaussian : Conjugate Priors
평균은 가우시안 prior
분산은 Wishart 분포
Regression (0) | 2025.04.18 |
---|---|
Classification(3) (0) | 2025.04.16 |
Classification(2) (0) | 2025.04.15 |
Classification(1) (0) | 2025.04.15 |
확률이론(1) (1) | 2025.04.13 |