[5분 SOTA 논문 컨트리뷰션 리뷰 #6] ICLR 2015, VeryDeep Convolutional Networks for Large-Scale Image Recognition

2021. 11. 21. 16:14[5분 SOTA 논문 컨트리뷰션 리뷰]

본 포스팅에서는 Very Deep Convolutional Networks for Large-Scale Image Recognition (ICLR 2015) 논문을 간단히 리뷰하였습니다.       

모든 그림과 설명은 논문과 Stanford University CS231n Spring 2017 자료를 참고하였습니다.

 

원문 링크 : 

https://arxiv.org/pdf/1409.1556.pdf


 

1. Motivation

 

 

cs231n_2017_lecture9

 

본 논문은 ImageNet Large Scale Visual Recognition Challenge (ILSVRC'12)에서 우승한 AlexNet에서 

 

Convolutional Network의 depth를 늘이게 된다면 정확도가 더 높아지지 않을까라는 생각에서 시작되었습니다.

 

 

2. Unique methodology 

 

1) 3x3 filter

Figure 1: Difference between 7x7, 3x3 filter

 

 

Figure 2: 1x1 filter

 

 

본 논문에서는 (3x3), (1x1) filter를 사용함으로써 parameter 감소와 비선형성을 증가시킬 수 있었다.

 

ex) 7x7 사용 시 parameter - 49

      3x3 사용 시 parameter - 27 (3x3x3)

 

 

2) pre-initalisation 

 

가장 얇은 구조인 A를 training 후에 학습된 첫 번째, 네 번째 Conv layer와 3개의 FC layer의 weight를 이용하여 다른 깊은 모델을 학습시킨 뒤 미리 weight가 설정되어 수렴하기까지의 비교적 적은 epoch을 사용할 수 있습니다.

 

 

3) data augmentation

 

  • crop 된 image를 무작위로 수평 뒤집기 
  • RGB 값 변경 
  • image rescaling 
    • 입력 size를 [256,512] 범위로 resize 함으로 다양한 크기의 object를 학습함으로 training시 효과가 있다고 합니다.

 

 

3. Results

 

Table 1: ConvNet configurations convhreceptive

 

Table 2: ConvNet performance at a single test scale.

 

Table 3: ConvNet performance at multiple test scales.

 

Table 4: ConvNet evaluation techniques comparison. In all experiments the training scale S was sampled from [256; 512], and three test scales Q were considered: {256, 384, 512}.

 

Table 5: Multiple ConvNet fusion results.

 

Table 6: Comparison with the state of the art in ILSVRC classification. Our method is denoted as “VGG”. Only the results obtained without outside training data are reported.

 

Table 2를 통해 알 수 있는 점은

  • AlexNet에서 사용했던 LRN (Local Response Normalization)을 동일하게 사용했더니 오히려 top-1, top-5 error의 비율이 더 상승하였습니다.

 

Table 3를 통해 알 수 있는 점은

  •  실험 결과 test image를 다양한 scale로 resize 했을 때, 단일 size보다 더 나은 성능을 보였습니다.

 

Table 4를 통해 알 수 있는 점은

  •  test 이미지를 다양하게 crop을 해주어 더 나은 성능을 얻었습니다.

 

Table 5를 통해 알 수 있는 점은

  • 모델 7개를 앙상블 한 ILSVRC 제출물은 test set top-5 error가 7.5% 나왔으며, 모델 2개를 앙상블 하여 test set top-5 error를 6.8% 까지 낮추었습니다.