Data Imbalance 3

[IEEE TMM] DCRP: Class-Aware Feature Diffusion Constraint and Reliable Pseudo-labeling for Imbalanced Semi-Supervised Learning

이 논문은 IEEE Transactions of Multimedia에 출판되었으며, 저자는 Xiaoyu Guo, Xiang Wei, Shunli Zhang, Wei Lu, Weiwei Xing이다. Motivation Imbalanced Semi-supervised Learning (ISSL) 에는 두 가지 큰 문제점이 있다. 1. 믿을만한 pseudo-label을 만들어 내는 것이 어렵다. 2. 각 class들에 대해 balanced 된 feature를 만들어내기가 어렵다. 이 논문은 위의 두 문제점을 해결하기 위한 새로운 프레임워크를 제안하고자 한다. Method 저자들이 제시한 DCRP의 모델의 overview이다. 하나씩 살펴보도록 하겠다. A. “K+1” for Outlier Eliminatio..

논문 리뷰 2024.03.17

[CVPR 2020] M2m: Imbalanced Classification via Major-to-minor Translation

이 논문은 CVPR 2020에 출판되었으며, 저자는 KAIST의 Jaehyung Kim*, Jongheon Jeong*, Jinwoo Shin으로 구성되어 있다. Motivation 기존의 long-tail learning 문제를 해결하기 위한 방법에는 re-weighting, re-sampling 기법이 있다. Reweighting은 loss function에 클래스별 sample 수를 역으로 한 값을 weight으로 반영하여 minority class의 loss를 강조하는 방식이며, resampling은 주어진 데이터셋에서 minority class를 over-sampling하거나 majority class를 under-sampling 하는 방식으로 balanced dataset으로 재구성하여 학습을..

논문 리뷰 2024.02.26

[ICCV 2023 workshop] SYNAuG: Exploiting Synthetic Data for Data Imbalance Problems

서론 우리는 쉽게 데이터 불균등 문제를 마주치게 된다. 데이터 불균등 문제에는 다음과 같은 것들이 있다. Class imbalance: 클래스 간의 데이터 양이 다름 (e.g. 개나 고양이의 데이터 양이 희귀 동물의 데이터 양보다 많음) Group imbalance: 그룹 간의 데이터 양이 다름 (e.g. 인간의 손 데이터를 수집할 때 피부색에 편향이 생길 수 있음) 이러한 데이터 편향 문제를 해결하지 않는다면 classifier는 majority class에 편향된 학습을 하게 된다. 이는 상당한 성능 저하를 일으킬 뿐더러 사회적, 도덕적 문제가 될 수 있기 때문에, 많은 연구자들이 이 문제를 해결하기 위해 많은 알고리즘들을 만들어 내고 있다. 이 논문은 알고리즘에 집중하기 보다는, 데이터에 집중하여 ..

논문 리뷰 2024.01.06