Training Neural Network(2)

인공지능

by 후추리 2024. 12. 19. 01:24

* Input Data Normalization *

- 이미지의 feature들이 다 다른 scale을 가지고 있으면 불안정하게 학습이 될 수 있음

- 분포를 특정 바운더리 안에 있도록 하기 위함

- scale에 대한 sensitivity는 낮춰주고 수렴은 더 빠르게 됨

- 평균은 빼주고 표준편차로 나눠줌

* Feature Map Normalization *

- 활성화 함수 전에, convolution 이후에 normaliztion layer를 깔아줌

1. 각 미니배치에 대한 평균과 분산을 구해 normalization 해줌

2. 훈련 과정에서는 미니배치 단위의 평균과 분산만 사용

3. 테스트 시에는 전체 트레이닝 데이터셋을 대상으로 정규화해야 함

4. 이때 필요한 개념이 moving average(이동평균)

5. 이동평균 : 배치단위의 평균과 분산을 누적한 값

* Model Weight Normalization *

- model initialization은 좋은 시작점을 찾기위함

- Xavier initialization : input demension의 루트를 씌운 것 분의 1로 scaling 해주면 됨

- Xavier는 활성화함수를 tanh나 sigmoid로 가정함

* Deep Learning Hardware *

- CPU : 코어는 더 적지만 더 빠름, 연속적인 작업에서 사용

- GPU : 코어가 훨씬 많고 조금 더 느림, 병렬적인 작업에서 사용(동시 처리)

- GPU에서 Matrix multiplication이 가능

- Data Parallelism : 1개의 배치 속 이미지를 나눠서 GPU가 처리, iteration 1번당 GPU 싱크를 맞춰주기만 하면 됨

Attention and Transformer (2)	2024.12.19
Recurrent Neural Network (1)	2024.12.19
Training Neural Network(1) (3)	2024.12.18
Convolutional Neural Network (1)	2024.12.18
인공지능 - Convolution (1)	2024.10.24

후추의코딩일기