[5분 SOTA 논문 컨트리뷰션 리뷰 #4] NeurIPS 2012, ImageNet Classification with Deep Convolutional Neural Networks

2021. 11. 4. 21:16[5분 SOTA 논문 컨트리뷰션 리뷰]

본 포스팅에서는 ImageNet Classification with Deep ConvolutionalNeural Networks (NIPS 2012) 논문을 간단히 리뷰하였습니다.       

모든 그림과 설명은 논문과 Stanford University CS231n Spring 2017 자료를 참고하였습니다.

 

원문 링크 : 

https://papers.nips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-


1. Motivation

Figure 1: top-5 error

AlexNet 은 기존 SOTA 성능을 달성한 model과 달리 layer의 층을 깊게 하여 ImageNet test(Top-5)에서 기존 정확도를 대폭 증가시킨 model이다.

 

2. Unique methodology 

 

1) ReLU Nonlinearity 

 

input x의 함수 Neuron의 output을 모델링하는 standard 한 방법으로는

 

f(x) = tanh(x), f(x) = (1 + e-x)-1 (sigmoid)를 사용하는 것이다.

 

본 논문에서는 기존 tanh, sigmoid 함수와 같이 saturating nonlinearity 방식이 아닌 non-saturating 방식을 이용하는 ReLU 함수를 사용하였다.

 

ReLU 함수를 사용함으로써 error-rate 가 0.25에 도달하는데 Relu가 tanh에 비해 6배 정도 빠름을 알 수 있다. 

 

Figure 2: A four-layer convolutional neural network with ReLUs (solid line) reaches a 25% training error rate on CIFAR-10 six times faster than an equivalent network with tanh neurons (dashed line).

 

 

2) Training on Multiple GPUs

 

1개의 GTX 580 GPU는 memory가 3GB뿐이기 때문에 모델의 최대 사이즈는 정하는데 한정적이다.

 

1.2 million 개의 수많은 뉴런들을 1개의 GPU를 사용하여 학습하기 에는 감당이 되지 않아 본 논문에서는 2개의 GPU을 병렬로 구성하였다. 

 

이렇게 병렬적으로 GPU를 구성함으로써 top-1, top-5 error를 각각 1.7%, 1.2% 씩 줄일 수 있었다.

 

Figure 3: AlexNet Architecture

 

3) Local Response Normalization

 

본 논문에서는 ReLU 함수를 사용하기 때문에 ReLU 함수의 특징에 따라 양수의 방향으로는 입력값 그대로 사용하게 된다.

 

이렇게 되면 Conv나 Pooing 시 매우 높은 하나의 픽셀 값이 주변의 픽셀에 영향을 미치게 된다.

 

이러한 부분을 해결하고자 본 논문에서는 다른 Activation Map의 같은 위치에 있는 픽셀끼리 정규화를 하게 된다.

 

Figure 4: LRN formula 

 

 

3. Results

 

Table 1: Comparison of results on ILSVRC- 2010 test set. In italics are best results achieved by others

 

Table 2: Comparison of error rates on ILSVRC-2012 validation and test sets. In italics are best results achieved by others. Models with an asterisk* were “pre-trained” to classify the entire ImageNet 2011 Fall release. See Section 6 for details.

 

Table 1을 통해 알 수 있는 점은

 

  • ILSVRC-2010 test set 결과, top-1, top-5 error에서 SOTA 성능을 달성하였다.

 

Table 2을 통해 알 수 있는 점은

 

  • 본 논문에서 제안한 CNN 은 Top-5(val)에서 18.2% 라는 결과를 기록하였다.
  • CNN의 층을 깊게 쌓을수록 더 좋은 성능을 보여주고 있다.
  • ImageNet 2011 dataset으로 pre-trained 한 model 이 기존 모델보다 더 향상된 성능을 보여주고 있다.

 

ILSVRC(ImageNet Large Scale Visual Recognition Challenge)

: 대규모 영상에서 영상 분류와 객체 검출 알고리즘을 개발하기 위해서 시작된 대회다.