논문 리뷰

[CVPR 2022] The Majority Can Help the Minority: Context-rich Minority Oversampling for Long-tailed Classification

Yejin Kim 2024. 1. 20. 16:56

 

이 논문은 CVPR 2022에 출판된 논문이며, 저자는 Seulki Park*, Youngkyu Hong, Byeongho Heo, Sandoo Yun, Jin Young Choi이다.

Motivation

Class imbalance data setting에서는 minority class의 데이터가 부족하기 때문에 majority class에 쉽게 편향되고, 따라서 classifier의 generalization 성능이 떨어진다는 문제가 있다. 이를 해결하기 위해서 여러가지 방안들이 존재한다. (1) Re-weighting methods: training sample마다 중요도를 반영하여 가중치를 준다. (2) Re-sampling methods: imbalance의 정도를 완화하기 위해 training distribution을 조정한다. Majority class의 sample을 undersampling하거나 minority class의 sample을 oversampling 하는 방식 등이 이 방법에 포함된다. (3) Interpolating within the class: 클래스 내의 샘플 간의 병합을 통해 augmented image를 만들어 활용한다.

하지만 위의 방식들은 minority class의 적은 sample을 반복해서 학습시키는 등의 문제로 overfitting이 발생할 가능성이 있고, 여전히 context-limited image만을 형성한다는 한계점이 있다. 따라서 저자들은 context-rich oversampling method를 제안하고자 하였다.

Method

저자들은 context-rich oversampling을 진행하기 위해 majority의 풍부한 context를 minority sample에 이식하는 방식을 고안했다. augmentation의 기본 basline은 CutMix를 활용하였는데, 단순히 CutMix를 사용하게 되면 augmented image 또한 확률상 majority-centric하게 되기 때문에 background image와 foreground image를 서로 다른 분포로부터 추출하도록 하였다. 

 

 CutMix의 기본 setting은 다음과 같다.

여기서 \( \mathbf{M} \) 은 patch를 masking하는 mask라고 할 수 있다. 따라서 \( \tilde{x} \)는 background image와 foreground image patch를 잘라 붙여 만든 새로운 augmented image이다. 이 image에 대응되는 label \( \tilde{y} \) 또한 이미지 비율에 맞게 mix하여 만든다.

여기서 CMO가 추가한 것은, 이 background image와 foreground image를 sampling하는 분포를 다르게 한다는 점이다. CMO는 background image는 original data distribution \( P \)에서, foreground image는 minor-class-weighted distribution \( Q \)에서 sampling을 진행한다. 이렇게 함으로써 majority class의 다양한 context(background)와 함께 나타나는 minority class의 이미지들을 만들고자 하였다.

 

 

이렇게 만들어진 이미지들은 위의 Figure 2에서 확인할 수 있다.

 

Minority-class-weighted distribution \( Q \)는 여러 방식으로 구현될 수 있다. 흔히 사용되는 방식으로는 class frequency에 반비례하게 weight을 주는 방식, class frequency에 반비례 하되 좀 더 smooth하게 반영하는 방식, effective number를 사용하는 방식 등이 있다.

위의 식은 \( n_k^r \)에 반비례하게 sampling weight을 주는 방식을 나타낸 것이다. 여기서 k-th class를 의미하며 r은 class frequency를 반영할 때의 smoothness를 조절하는 hyperparamter라고 할 수 있다. 만약 r이 1이라면 정확히 class frequency를 역으로 취한 값을 반영하게 되고, r이 \( \frac{1}{2} \)라면 그 반영률을 smooth하게 만든다.

 

Effective number를 활용하는 경우는 위와 같은 식을 활용한다. 여기서 \( \beta \)는 \( \frac{N-1}{N} \) 이다.

 

CMO는 CIFAR-100에서의 각각의 sampling strategy를 실험해 보았고, 그 중 가장 좋은 결과를 보인 \( q(1, k) \)를 minor-class-weighted distribution \( Q \)로 채택하였다.

Experiments

이 논문에서는 CIFAR-100-LT, ImageNet-LT, iNaturalist 2018 데이터셋에 대해 실험을 진행했으며 top-1 accuracy로 성능을 평가하였다. 또한 Many-shot classes (more than 100 samples), medium-shot classes (20 to 100 samples), few-shot classes (under 20 samples)에 대한 accuracy도 함께 report하였다.

우선 CIFAR-100-LT에서 SOTA method들과 성능을 비교한 결과를 Table 2에서 확인할 수 있다. CMO를 기본 training 방식인 CE loss에 적용하기만 해도 복잡한 long-tail recognition method에 준하는 성능을 보였다. 또한 RIDE와 같은 SOTA method에 적용했을 때 더욱 눈에 띄게 성능이 향상되었으며, 특히 imbalance ratio가 50, 100과 같이 클 때 더욱 성능 향상 폭이 컸다.

 

또한 CMO는 Table 3에서 확인할 수 있듯이 다른 oversampling method 보다 long-tail recognition 문제에서 성능 향상에 도움이 된다. ROS와 같이 단순히 class distribution을 balancing하는 것은 오히려 성능 하락이 있었다. 저자들은 minority class에서 계속해서 re-sampling을 하면서 모델이 minority class의 generalized feature를 배운 것이 아니라 소수의 sample을 기억하여 test accuracy는 떨어지는 overfitting 문제가 발생한 것이라고 추측하였다. ReMix는 몇몇  메소드에 대해서는 성능 향상을 보였지만 RIDE에서는 그렇지 않았다. 저자들은 이 결과가 Remix의 단순한 labeling policy가 모델의 복잡도가 큰 메소드에서는 효과적이지 않다는 것을 보여준다고 주장한다.

더 큰 스케일의 데이터셋인 ImageNet-LT에서의 성능도 위와 같이 살펴보았다. CE에 CMO를 적용하면 CIFAR-100에서보다도 더 큰 성능 향상 폭이 있었다. 저자들은 큰 스케일의 데이터셋 덕분에 더 풍부한 majority class의 context 정보를 활용할 수 있었기 때문일 것이라고 주장하였다. 또한 CMO는 few-shot class에 대해서 다른 메소드들에 비해 좋은 성능을 보이고 있음을 표를 통해 확인할 수 있다.

 

ImageNet에서도 마찬가지로 다른 oversampling method와 비교하였는데, Remix는 두 sample을 같은 distribution으로부터 sampling하여 long-tail 문제를 충분히 극복하지 못한 반면 CMO는 두 이미지를 다른 이미지로부터 sampling하기 때문에 효과적으로 data augmentation을 진행할 수 있었다고 주장하였다.

 

마지막으로는 naturally-skewed dataset인 iNaturalist 2018에서 진행한 실험이다. 간단한 CE-DRW 에 CMO를 적용했을 때도 많은 SOTA 메소드를 능가하는 성능을 보였다. 또한 few-shot class의 큰 성능 향상이 있었다.

Analysis

Is the distribution for augmenting images important?

앞서 언급했듯이 CMO는 CutMix에서 sample을 추출하는 distribution만을 달리한 augmentation 방법이다. Table 9에서 CutMix가 CMO를 outperform하고 있는 것을 확인할 수 있고, 특히나 medium과 few-shot class에 대해서 큰 성능 향상이 있었다. 따라서 distribution이 중요하다고 볼 수 있다.

 

How to choose the appropriate probability distribution \( Q \)

Table 10에서 확인할 수 있듯이, \( q(1, k) \) 일 때 가장 well-balanced된 성능을 보였다. 저자들은 r이 2인 경우에 너무 minority class에 높은 sampling 확률을 부여하기 때문에 충분히 다양한 이미지들을 만들어내지 못해 전반적으로 성능이 떨어진 것이라고 추측하였다.

 

Why should we oversample only for the foreground samples?

(1) \( \text{CMO}_{minor} \)는 background image와 foreground image 모두 minor-class-weighted distribution으로부터 sampling을 하는 방식, (2) \( \text{CMO}_{back} \)은 background image의 경우 minor-class-weighted distribution에서, foreground image의 경우 original distribution에서 추출하는 방식이다.

 

\( \text{CMO}_{minor} \)는 큰 성능 하락을 보였다. 저자들은 majority sample의 풍부한 context를 전혀 활용하지 못했기 때문에 이러한 현상이 발생했다고 주장한다. 반면 \( \text{CMO}_{back} \)의 경우는 비교적 괜찮은 성능을 보였다. 하지만 original CMO에 비하면 
여전히 꽤 낮은 성능이다. 저자들은 CutMix를 활용할 때 주로 foreground image의 object가 background image를 덮어버리는 경우가 많기 때문에 background에 있는 minority class의 정보 손실이 생겨 성능 향상에 한계가 있었을 것이라고 추측한다. 

Comparison with other minority augmentations

다른 data augmentation 방식과도 비교를 진행하였다. Table 12에서 알 수 있듯이, pixel-level transformation은 minority sample이 풍부한 context를 가질 수 있도록 하는데 효과적이지 않았으며 Mixup은 두 sample 간의 역할이 구분되지 않기 때문에 마찬가지로 CutMix를 사용하는 것에 비해서는 성능이 좋지 않았다.

Conclusion

이 논문은 다음과 같은 contribution이 있다.

(1) 새로운 context-rich minority oversampling method인 CMO를 제안했으며

(2) 이 메소드는 아주 적은 양의 추가적인 계산 cost를 요하고, 쉽게 여러 알고리즘에 적용이 가능하다.

(3) 아주 큰 폭의 성능 향상을 보였으며 SOTA를 달성했고,

(4) 광범위한 실험과 ablation study를 통해 메소드의 효과성을 실험적으로 증명하였다.

 

하지만 여전히 이 메소드는 majority class에서 약간의 성능 하락을 보였다는 점에서 한계가 있다고 한다.

 


 

기존에 있는 CutMix라는 간단한 augmentation 기술에 data sampling distribution만을 변경하여 높은 성능 향상을 보이는 메소드를 제시했다는 점이 놀라운 점이라고 생각한다. 간단하면서도 효과적인 메소드를 만드는 것이 참 어렵다고 생각하는데, 이 메소드는 두 마리 토끼를 모두 잡았다고 생각한다.