2021. 11. 21. 16:14ㆍ[5분 SOTA 논문 컨트리뷰션 리뷰]
본 포스팅에서는 Very Deep Convolutional Networks for Large-Scale Image Recognition (ICLR 2015) 논문을 간단히 리뷰하였습니다.
모든 그림과 설명은 논문과 Stanford University CS231n Spring 2017 자료를 참고하였습니다.
원문 링크 :
https://arxiv.org/pdf/1409.1556.pdf
1. Motivation
본 논문은 ImageNet Large Scale Visual Recognition Challenge (ILSVRC'12)에서 우승한 AlexNet에서
Convolutional Network의 depth를 늘이게 된다면 정확도가 더 높아지지 않을까라는 생각에서 시작되었습니다.
2. Unique methodology
1) 3x3 filter
본 논문에서는 (3x3), (1x1) filter를 사용함으로써 parameter 감소와 비선형성을 증가시킬 수 있었다.
ex) 7x7 사용 시 parameter - 49
3x3 사용 시 parameter - 27 (3x3x3)
2) pre-initalisation
가장 얇은 구조인 A를 training 후에 학습된 첫 번째, 네 번째 Conv layer와 3개의 FC layer의 weight를 이용하여 다른 깊은 모델을 학습시킨 뒤 미리 weight가 설정되어 수렴하기까지의 비교적 적은 epoch을 사용할 수 있습니다.
3) data augmentation
- crop 된 image를 무작위로 수평 뒤집기
- RGB 값 변경
- image rescaling
- 입력 size를 [256,512] 범위로 resize 함으로 다양한 크기의 object를 학습함으로 training시 효과가 있다고 합니다.
3. Results
Table 2를 통해 알 수 있는 점은
- AlexNet에서 사용했던 LRN (Local Response Normalization)을 동일하게 사용했더니 오히려 top-1, top-5 error의 비율이 더 상승하였습니다.
Table 3를 통해 알 수 있는 점은
- 실험 결과 test image를 다양한 scale로 resize 했을 때, 단일 size보다 더 나은 성능을 보였습니다.
Table 4를 통해 알 수 있는 점은
- test 이미지를 다양하게 crop을 해주어 더 나은 성능을 얻었습니다.
Table 5를 통해 알 수 있는 점은
- 모델 7개를 앙상블 한 ILSVRC 제출물은 test set top-5 error가 7.5% 나왔으며, 모델 2개를 앙상블 하여 test set top-5 error를 6.8% 까지 낮추었습니다.