재현데이터는 원 데이터와 다르지만 원 데이터와 동일한 분포를 따르도록 통계적으로 정밀하게 생성한 자료임
실제 미국 인구조사국이 재현 데이터 기법을 활용해 인구의 거주 지역과 직장 지역 정보 등을 담고 있는 통근 데이터를 비식별 데이터로 활용함
KCB는 19년부터 통계적 방법론을 활용한 재현데이터 연구 사업을 확장, 다양한 데이터를 대상으로 재현데이터를 보다 편리하게 생산하는 오픈 소스 기반의 python 라이브러리를 개발
KCB는 통계방법론과 통계방법론과 ML모형을 결합한 재현데이터 모두 고도화된 자체 알고리즘 보유
LN_CNT, Score : 94.29%, 96.60%
CREDIT_SCORE, SCORE : 93.40%, 93.51%
1.원본 훈련 데이터로 재현 데이터 생성
2.원본 훈련 데이터로 모델 학습 (모델 1)
3.재현 데이터로 모델 학습 (모델 2)
4.원본 검증 데이터로 모델 1, 2 검증
구분 | 모델 1 | 모델 2 | 성능비 |
---|---|---|---|
정확도 | 0.8767 | 0.8577 | 97.8% |
AUC | 0.9327 | 0.9118 | 97.7% |
재현 데이터로 만든 모델은 원본 데이터로 만든 모델에 비해 약 98% 성능을 보임