* Input Data Normalization *
- 이미지의 feature들이 다 다른 scale을 가지고 있으면 불안정하게 학습이 될 수 있음
- 분포를 특정 바운더리 안에 있도록 하기 위함
- scale에 대한 sensitivity는 낮춰주고 수렴은 더 빠르게 됨
- 평균은 빼주고 표준편차로 나눠줌
* Feature Map Normalization *
- 활성화 함수 전에, convolution 이후에 normaliztion layer를 깔아줌
1. 각 미니배치에 대한 평균과 분산을 구해 normalization 해줌
2. 훈련 과정에서는 미니배치 단위의 평균과 분산만 사용
3. 테스트 시에는 전체 트레이닝 데이터셋을 대상으로 정규화해야 함
4. 이때 필요한 개념이 moving average(이동평균)
5. 이동평균 : 배치단위의 평균과 분산을 누적한 값
* Model Weight Normalization *
- model initialization은 좋은 시작점을 찾기위함
- Xavier initialization : input demension의 루트를 씌운 것 분의 1로 scaling 해주면 됨
- Xavier는 활성화함수를 tanh나 sigmoid로 가정함
* Deep Learning Hardware *
- CPU : 코어는 더 적지만 더 빠름, 연속적인 작업에서 사용
- GPU : 코어가 훨씬 많고 조금 더 느림, 병렬적인 작업에서 사용(동시 처리)
- GPU에서 Matrix multiplication이 가능
- Data Parallelism : 1개의 배치 속 이미지를 나눠서 GPU가 처리, iteration 1번당 GPU 싱크를 맞춰주기만 하면 됨
Attention and Transformer (2) | 2024.12.19 |
---|---|
Recurrent Neural Network (1) | 2024.12.19 |
Training Neural Network(1) (3) | 2024.12.18 |
Convolutional Neural Network (1) | 2024.12.18 |
인공지능 - Convolution (1) | 2024.10.24 |