KCB Tech재현데이터

01.재현데이터

재현데이터는 원 데이터와 다르지만 원 데이터와 동일한 분포를 따르도록 통계적으로 정밀하게 생성한 자료임
실제 미국 인구조사국이 재현 데이터 기법을 활용해 인구의 거주 지역과 직장 지역 정보 등을 담고 있는 통근 데이터를 비식별 데이터로 활용함

KCB는 19년부터 통계적 방법론을 활용한 재현데이터 연구 사업을 확장, 다양한 데이터를 대상으로 재현데이터를 보다 편리하게 생산하는 오픈 소스 기반의 python 라이브러리를 개발

02.라이브러리 구조

KCB는 통계방법론과 통계방법론과 ML모형을 결합한 재현데이터 모두 고도화된 자체 알고리즘 보유

  • Data Load
  • Data Load
  • 원본 데이터 불러오기
  • Preprocess
  • Preprocess
  • 전처리 : 날짜, 문자열,
    데이터 타입, 결측치,
    열순서
  • Generate Data
  • Generate Data
  • Synthpop 사용 데이터 생성 CART Method
  • Machine Learning
  • Machine Learning
  • LightGBM 원데이터와 생성데이터 구분 모델 훈련 5-Fold CV
  • Similarity Check
  • Similarity Check
  • 생성데이터와 원데이터 유사도 측정 유사 데이터 선별
  • Save Output
  • Save Output
  • 최종 결과물 저장

03.재현데이터 생성 결과

재현데이터 코드

LN_CNT, Score : 94.29%, 96.60%

LN_CNT_Score LN_CNT_Score
  • ori
  • gen
  • gen_mi

CREDIT_SCORE, SCORE : 93.40%, 93.51%

CREDIT_SCORE CREDIT_SCORE
  • ori
  • gen
  • gen_mi

04.재현데이터 모델링 성능

  1. 데이터
  2. 1994년 미국 인구 조사 소득 데이터셋https://archive.ics.uci.edu/ml/datasets/adult
  1. 문제
  2. 연령, 학력, 성별 등 데이터로 소득 예측 (5만 달러 이상 / 이하)
  1. 방법 및 결과
  2. 1.원본 훈련 데이터로 재현 데이터 생성

    2.원본 훈련 데이터로 모델 학습 (모델 1)

    3.재현 데이터로 모델 학습 (모델 2)

    4.원본 검증 데이터로 모델 1, 2 검증

    구분 모델 1 모델 2 성능비
    정확도 0.8767 0.8577 97.8%
    AUC 0.9327 0.9118 97.7%

재현 데이터로 만든 모델은 원본 데이터로 만든 모델에 비해 약 98% 성능을 보임