* Semantic Segmentation *
- 전체 이미지를 CNN에 한번만 통과시켜서 mask를 얻어내기
- Fully convolutional : convolution layer만 가지고 네트워크 디자인
1) 마지막 feature map의 크기는 CxHxW (C는 클래스의 개수)
2) 마지막 feature map에서 argmax함수 사용 (제일 높은 클래스 스코어)
- Fully convolutiond은 이미지의 resolution이 그대로라 연산이 매우 비쌈
- 따라서 downsampling 후 upsampling 해주는 과정을 추가
* Upsampling *
- Max Unpooling : 이전에 풀링되기 전의 위치를 기억해서 언풀링
- Transposed Convolution : 겹치는 부분은 더해줌. 필터를 통해 학습 가능
* Object Detection *
- Classification + Localization
- Localization : 마지막에 FC를 통과해 4dimension으로 결과예측(x, y, w, h)
- 이렇게 하면 single object에 대해서만 가능하다는 문제
- Selective Search : object가 있을 거 같은 후보군을 줌
* RCNN *
- object detection을 딥러닝 뉴럴 네트워크로 진행
1) Selective Search를 통해 ROI를 뽑음
2) 이미지 영역을 224x224로 와핑 시켜줌
3) 각 영역을 이미 학습이 된 CNN에 통과
4) 각 영역을 분류하고 Bbox regression도 진행
- 느리다는 문제점
* Fast RCNN *
1) FC를 통과하기 전에 feature map 형태로 바꾸기
2) feature map에 대해 ROI 뽑기
- 이미지에서 selective search를 돌린걸 feature map에 어떻게 적용하는가?
- Roi Align : 비율을 적용하여 나타내는데, 소수점이 나오는 애매한 값이 있을 수 있으므로 bilinear interpolation을 사용
- Roi Pooling : 와핑을 해주는 과정. 원하는 아웃풋의 크기로 대충 나눠준 후 max-pooling
* Faster RCNN *
- Fast RCNN이랑 다 똑같은데 selective search 사용 안함
- RPN : 한 픽셀에 대해 고정된 anchor box를 만듬
Attention and Transformer (2) | 2024.12.19 |
---|---|
Recurrent Neural Network (1) | 2024.12.19 |
Training Neural Network(2) (5) | 2024.12.19 |
Training Neural Network(1) (3) | 2024.12.18 |
Convolutional Neural Network (1) | 2024.12.18 |