합성 데이터(Synthetic Data)의 정의와 실활용사례

2021.06.08

의료 데이터는 환자의 신상, 질병, 보험 정보 등 다양한 민감 정보를 담고 있어 활용이 쉽지 않습니다. 데이터 3법이 시행됨에 따라 가명정보를 활용할 수 있는 법적 근거가 마련됐지만, 활용 기관과 사유 등이 명확하지 않고 다양한 규제가 산재해 있어 현실적인 데이터 활용에 어려움을 겪고 있는 실정입니다.

이에 개인정보를 포함하는 실제 데이터를 기반으로, 통계적 모형에 의해 임의로 생성된 가상 데이터인 ‘합성 데이터’가 하나의 대안으로 떠오르고 있습니다.

이번 포스팅에서는 합성 데이터의 정의와 실 활용사례에 대해 이야기를 해보려고 합니다.

목차

1. 합성 데이터는 무엇일까?

2. 합성 데이터는 왜 필요할까?

3. 합성 데이터에는 어떤 종류가 있을까?

4. 합성 데이터를 생성하는 방법은?

5. 의료 분야에서 합성 데이터는 어떻게 활용되고 있나?

합성 데이터는 무엇일까?

합성 데이터는 실제로 측정된 데이터(Real Data)를 생성하는 모형이 존재한다고 가정하고, 통계적 방법이나 기계학습 방법 등을 이용해 추정된 모형에서 새롭게 생성한 모의데이터(Simulated Data)를 말합니다. 개인의 프라이버시를 보호하면서도 민감한 정보를 분석하고자 하는 연구자들에게 데이터를 제공할 수 있는 대안적 개인정보 비식별 조치 기법 중 하나입니다. 

그림1. 합성 의료데이터의 생성 및 활용 과정1)

합성 데이터는 왜 필요할까?

합성 데이터를 생성하는 목적은 데이터의 개인정보와 기밀성을 보호하고, 데이터를 양적-질적으로 고도화하기 위함입니다. 합성 데이터의 장점은 1) 소량의 원(original) 데이터로 필요한 만큼의 데이터를 빠르고 저렴하게 생성할 수 있고, 2) 데이터 라벨링(labeling) 작업을 위한 시간과 비용을 절감하면서도 정확하게 라벨링된 데이터셋을 확보할 수 있고, 3) 민감 정보를 포함하고 있는 실제 의료데이터를 대체할 수 있다는 점입니다.

합성 데이터에는 어떤 종류가 있을까?

합성 데이터는 데이터의 생성 방법에 따라, ▲완전 합성 데이터 ▲부분 합성 데이터 ▲복합 합성 데이터로 구분됩니다.

  • 완전 합성 데이터(Fully Synthetic Data)는 공개하려고 하는 데이터에 측정된 실제 데이터가 하나도 없이 모두 가상으로 생성된 데이터로만 이루어진 데이터를 의미하며, 정보 보호 측면에서 가장 강력한 보안성을 가집니다.
  • 부분 합성 데이터(Partially Synthetic Data)는 공개하려는 변수들 중 일부만을 선택하여 합성 데이터로 대체한 데이터를 의미하며, 보통 합성 데이터로 대치되는 변수들은 민감한 정보에 관한 변수들입니다.
  • 복합 합성 데이터(Hybrid Synthetic Data)는 일부 변수들의 값을 합성 데이터로 생성하고 생성된 합성 데이터와 실제 데이터를 모두 이용하여 또 다른 일부 변수들의 값을 다시 도출하는 방법으로 생성됩니다.

합성 데이터를 생성하는 방법은?

합성 데이터를 생성할 때 사용되는 알고리즘은 ▲전통적 통계 및 베이지안 방법 ▲기계학습 모형 방법 ▲차등정보보호에 의한 방법 등이 있습니다.

그림2. 합성 데이터 생성 기법2)

의료 분야에서 합성 데이터는 어떻게 활용되고 있나?

EHR을 이용한 합성 데이터 생성 및 재식별3)

원본의 EHR 데이터셋에서 각 변수들(필드)의 공통 분포에 유사한 합성 데이터를 생성하는 AI 모델(ADS-GAN)을 개발해 합성 데이터를 생성하고 재식별 가능성을 최소화하는 시도가 진행되고 있습니다.

ADS-GAN 모델은 기존의 GAN* 프레임워크를 수정하여 다양한 종류의 변수(실수, 정수, 이진수)로 이루어진 데이터를 생성할 수 있으며, 실제 환자 데이터를 최적화하여 조건화시킴으로써 합성 데이터의 품질을 개선하고 식별 가능성을 정량화하기 위한 수학적 정의도 제안해 개별 환자의 모든 데이터 조합에 의한 재식별 가능성을 최소화합니다.

*GAN(Generative Adversarial Networks)은 대표적인 합성 데이터 생성기술로, 대립하는 두 시스템이 서로 경쟁하는 방식입니다. 기존 딥러닝 알고리즘과 달리, 적대적 학습방식으로 스스로 학습이 가능하며 대량의 이미지와 음성 데이터를 생성합니다.

합성 의료데이터에 대한 임상적 유효성 검증4)

미국 George Mason 대학 연구팀은 오픈소스로 공개된 합성 데이터 생성기 Synthea*에서 생성한 120만명의 메사추세츠 환자 코호트를 대상으로 임상적 중요성이 높은 대장암 검진, 만성 폐쇄성 질환(COPD) 30일 사망률, 고관절 및 무릎 교체 후 합병증 발생률, 고혈압 관리 등 4가지에 대한 데이터 품질을 측정했습니다.

메사추세츠 환자를 대상으로 생성된 합성데이터와 미국의 실제 데이터를 기반으로 공개된 값을 비교한 결과, 의료 환경에서 제공되는 서비스의 통계 및 확률에 부합해 데이터의 신뢰성이 높은 것으로 확인됐습니다.

*Synthea는 미국 CMS(Center for Medicare and Medicaid Services)에서 합성 의료데이터를 자유롭게 활용할 수 있도록 EHR 데이터 기반의 AI 알고리즘(Synthea)으로, 합성 데이터의 주요 항목은 수명 주기, 인구 통계, 1차 진료기록, 응급실 진료기록, 증상 기록 등으로 구성돼 있습니다.

임상시험 데이터를 통한 합성 데이터 생성5)

스위스 제약회사 Roche는 데이터 익명화 전문회사 Statice와 함께 오픈소스로 공개된 Harvard Dataverse 데이터셋을 활용해 임상시험 데이터에서 합성 데이터를 생성하는 연구를 진행했습니다. 연구는 ▲현실성 있는 새 환자 데이터로 가능한 한 높은 유틸리티를 사용해 합성 데이터를 생성하고, ▲새로 생성된 데이터 지점에서 실제 환자를 식별할 수 없도록 하는 두 단계로 진행됐습니다.

그 결과, 합성 데이터는 원 데이터에 존재하는 통계 패턴을 대체로 보존했으며, 데이터의 상관 관계 또한 보존하는 것으로 나타났습니다. Harvard Dataverse 데이터셋은 실험실 측정과 상관관계를 보였으며, 합성 데이터가 원 데이터와 마찬가지로 데이터 분석에 유용하다는 점이 입증됐습니다. 또한 원 데이터와 합성 데이터 사이에 연결이 존재하지 않는다는 점에서, 특정 개인이 원 데이터 세트의 일부인지 여부도 알 수 없었습니다.

합성 데이터를 활용한 신약 후보 물질 탐색6)

합성 데이터 사례는 환자 데이터에 국한되지 않습니다. 다음의 사례는 환자 데이터가 아닌, 분자 데이터를 만든 사례입니다.

홍콩 생명공학회사 Insilico Medicine은 46일 이내에 새로운 신약 후보물질의 설계, 합성, 검증이 가능한 GENTRL을 개발했습니다. GENTRL 시스템을 통해 생성기(합성 데이터 생성기)는 항암 속성을 가진 새로운 분자들을 만들고, 판별기는 기존 치료법을 기반으로 새로 만든 분자가 적절한지를 판별하여 항암치료 후보물질 탐색의 속도와 성공률을 제고합니다. 실험 결과, 7,200만 가지 화학 물질에서 판별기를 통해 신약 후보 물질을 제시했고, 이 가운데 특허 받은 항암제가 60가지 포함되었음을 확인했습니다.

라인웍스에서는 헬스케어 데이터와 관련하여 연구 및 활용에 대한 기술 지원을 진행하고 있으며, 관련 뉴스를 지속적으로 공유드리도록 하겠습니다.

References

1. 한국보건산업진흥원 보건산업브리프 vol 315, 인공지능을 활용한 ‘합성 의료데이터’ (2020-11)

2. 한국신용정보원 CIS이슈리포트 2019-8호, 재현 데이터의 개념 및 활용 사례 (2019-08)

3. Jinsung Yoon et al. Anonymization through Data Synthetics using Generative Adversarial Networks(ADS-GAN), IEEE J Biomed Health Inform, 2020

4. J Chen et al. The validity of synthetic clinical data: a validation study of a leading synthetic data generator (Synthea) using clinical quality measures. 2019

5. Statice, Testing synthetical clinical data for innovation in healthcare with Roche, August 2020

6. Arur Kandurin A et al, The cornucopia of meaningful leads: Applying deep adversarial autoencoders for new molecule development in oncology, 2017

GaHyun Kim

Strategic Planning Group @Linewalks

GaHyun Kim