RWE 연구에서 인과추론

2021.02.02

‘FDA RWE 가이드라인 동향’ 편에서 RWE(Real World Evidence) 연구에서 편향(bias)의 완화를 강조했습니다. 
FDA RWE 가이드라인 동향 – 1편
FDA RWE 가이드라인 동향 – 2편

본 글에서는 RWE 연구에서 편향이 발생하는 이유와 왜 편향을 통제해야 하는지, 그리고 편향을 통제하는 방법을 소개합니다.

상관관계와 인과관계는 다르다!

“因果”

인과를 한자로 보면 인할 인, 실과 과로 원인과 결과로 풀이할 수 있습니다. 다시 말해 인과관계란 원인과 결과의 관계라고 할 수 있습니다.

상관관계는 둘 이상의 변인 간에 관련이 있는지를 나타냅니다. 예를 들어 한 변인이 증가할 때 나머지 변인이 따라서 증가하거나 감소하면 두 변인 간에 상관관계가 있다고 말하고 그 정도를 상관계수로 알 수 있습니다. 그러나 인과관계처럼 어느 한 변인이 원인 또는 결과가 되지는 않습니다.

인과추론을 하기 위해서 성립해야 할 조건이 3가지 있습니다.

  • 시간적 우선성: 원인이 결과보다 시간상으로 먼저 발생해야 함
  • 공변성(상관관계): 원인이 변화하면 결과도 항상 같이 변화해야 함
  • 통제성: 결과와 원인이 제 3의 변수(혼란변수, Confounder)에 의해 영향을 받으면 안 됨

위 조건 중에서 RWE 연구에서 만족할 수 없는 조건통제성입니다. 통제성을 만족하지 못한다면 ‘특정 처치가 어떤 결과의 원인이다’라는 인과추론적 결론을 도출할 수 없습니다. 그러나 연구자가 인과관계와 상관관계의 차이를 이해하지 못하고 혼용하여 잘못된 결론을 내리는 경우가 왕왕 발생합니다.

이에 다음 목차에서는 RCT(Randomized Controlled Trial, 무작위 대조실험)와 RWE(Real World Evidence, 실사용증거) 연구가 어떤 이유로 통제성에 차이를 보이는지와, 통제성 조건을 성립하도록 도와주는 통계방법 Propensity Score Matching(PSM, 성향점수매칭)과 Inverse Probability of Treatment Weighting(IPTW, 역확률가중치)를 설명합니다.

RCT vs. RWE

RCT와 RWE가 어떻게 다른 결론을 도출할 수밖에 없는지, 가상의 독감백신 연구를 도식화한 예제를 통해 살펴보겠습니다.

Icon made by Freepik from www.flaticon.com

그림 1) Randomized Controlled Trial(RCT, 무작위 대조실험)

위 그림 1)을 보면 백신과 독감 발생의 관계를 보기 위해서 모집단(왼쪽)에서 랜덤으로 백신군과 대조군에 10명씩 각각 할당합니다. 일정 연구 기간이 지난 후에 독감발생률을 살펴보았을 때, 백신군과 대조군의 독감발생률은 각각 0.2, 0.6입니다.

Icon made by Freepik from www.flaticon.com

그림 2) Real World Evidence(RWE, 실사용증거)

그림 2)는 관찰데이터로 후향적 연구를 진행한 것으로, 백신을 투여받았던 사람과 그렇지않은 대조군으로 나누고 각 군에서 독감이 발생했던 사람을 찾습니다.

RCT 연구에서는 각 군에서 독감 발생률이 0.4 차이가 났던 것에 비하면 RWE 연구에서는 0.12 정도밖에 차이가 나지 않습니다. 노령층과 영유아층에서 백신 투여율이 높아 군간 선택편의가 발생했기 때문입니다.

이렇게 RCT 연구에서는 대조군과 처치군이 무작위로 할당되기 때문에 혼란변수가 자연스럽게 통제되어 환자의 기본 특성에 대한 동등성을 사전에 확보할 수 있습니다. 그러나 RWE 연구에서는 대조군과 처치군이 무작위로 할당되지 않기 때문에 군간 기본 특성에 차이가 생기고 선택편의가 발생합니다.
위 그림 예제에서는 성별과 나이가 기본 특성이 될 것이며, 이는 혼란변수로 작용합니다.

어떻게 하면 혼란변수를 통제할 수 있을까?

그림 3) 인과추론에서의 혼란변수

연구대상자가 동시에 처치군과 대조군에 포함되면 완벽하게 혼란변수를 통제할 수 있습니다.

예를 들어 12월 15일 오후 4시에 백신을 맞은 김철수12월 15일 오후 4시에 백신을 맞지 않은 김철수를 한 달 뒤에 독감이 발생했는지 비교하는 것입니다. 그렇다면 날씨, 섭취한 음식물, 컨디션, 기저질환 모든 요소를 통제할 수 있고 오직 백신 투여의 여부만이 독감에 미치는 영향을 추론할 수 있겠지만 당연히 불가능합니다. 12월 15일 오후 4시의 김철수는 유일무이하기 때문입니다.

여기서 잠재적 결과(Potential outcome) 개념이 등장합니다.
잠재적결과는 가능한 모든 원인의 옵션에서 도출되는 결과입니다. 여기서는 옵션은 1) 백신을 맞았는가? 2) 안 맞았는가? 두 가지로 나눌 수 있습니다. 백신을 맞거나 그렇지 않은 두 옵션하에서 도출되는 결과(독감 발생 여부)가 잠재적 결과입니다.

인과효과를 추정해보자.

지금까지 인과와 상관의 차이, RWE 연구에서 인과추론을 방해하는 요소에 관해서 설명했으니, 인과효과를 추정하는 방법들을 소개하겠습니다.

평균인과효과는 인과효과를 추정하는 방법으로 연구 대상자가 처치를 받았을 때와 처치를 받지 않았을 때의 잠재적 결과의 차이입니다. 원인과 결과 이외의 모든 변인의 통제가 가정되기 때문에 잠재적 결과의 차이를 계산하는 것만으로 인과효과를 추론할 수 있습니다.

그림 4) 평균인과효과(Average Causal Effect, ACE)

평균인과효과는 크게 Average Treatment Effect(ATE)Average Treatment Effect in the Treated(ATT)로 나뉩니다. ATE는 “모집단 전체”에 대한 평균처치효과이고 ATT는 “처치군”에 대한 평균처치효과입니다. 위 그림과 같이 ATE는 모집단 전체가 처치를 받았을 때 잠재적결과와 그렇지 않았을 때의 평균 차이이며 ATT는 처치를 받은 군을 조건부로 한 잠재적결과 차이의 평균입니다.

Propensity score를 이용하여 matching을 하거나 가중을 주는 방법으로 평균인과효과를 추정 할 수 있습니다.

Propensity score
(Rosenbaum and Rubin, 1983)

Propensity score(PS, 성향점수)는 관찰된 공변량이 주어졌을 때 연구대상이 처치군에 포함될 확률로 0과 1 사이의 값을 가지며 일반적으로 logistic regression 방법으로 구합니다.

𝑃(𝑇𝑟𝑒𝑎𝑡𝑚𝑒𝑛𝑡=1|𝐶𝑜𝑣𝑎𝑟𝑖𝑎𝑡𝑒) = 𝑃𝑟𝑜𝑝𝑒𝑛𝑠𝑖𝑡𝑦 𝑆𝑐𝑜𝑟𝑒

Propensity score를 이용하여 혼란변수를 통제하고, 인과효과를 추론하는 다양한 방법이 있습니다. Matching을 하거나 층화 또는 가중치를 부여하는 방법들이 존재합니다.

Propensity score를 이용한 혼란변수 보정 방법

  • Propensity score‐adjusted Logistic Regression
  • Propensity score‐matched
  • propensity score‐stratified
  • Inverse-probability-Tx-weighted (IPTW) Estimator
  • Standardized mortality ratio (SMR) weighted Estimator

여기서는 가장 보편적으로 사용하는 Propensity Score Matching과 가중치방법 중의 하나인 Inverse Probability of Treatment Weighting를 소개하겠습니다.

Propensity Score Matching

그림 5) Propensity Score Matching, 성향점수매칭

ATT 추정방법에서는 일반적으로 PSM을 사용합니다. PSM은 처치군과 같거나 비슷한 Propensity score를 가진 대조군을 매칭하는 방법입니다.

그림을 보면 PSM을 하지 않고 통계분석을 진행한다면 파란 도형과 회색 도형 사이에 기본 특성이 달라 편향이 발생하게 됩니다. 여기서 혼란변수는 도형의 크기라고 볼 수 있습니다. 파란 도형은 대체로 크기가 크고 회색 도형은 대체적으로 크기가 작습니다. 같은 크기로의 매칭을 통해 편향이 조절됨을 알 수 있습니다. 때문에 두 군의 분포가 어느 정도 중복되어야 PSM을 수행할 수 있습니다.

Matching 단계

  1. 처치군에서 하나의 대상자를 선택합니다.
  2. 대조군에서 1. 대상자와 같거나 비슷한 PS를 가진 대상자를 찾습니다.
  3. 처치군에 남아 있는 사람이 없거나 일치하는 사람이 없을 때까지 이 프로세스를 반복합니다.
  4. Matching이 적절하게 이루어졌는지(각 군간에 공변량이 유사하게 분포하는지) 확인합니다. Love plot, Mean difference 또는 Standardized difference로 확인할 수 있습니다.

Inverse Probability of Treatment Weighting

IPTW는 Propensity score로 가중치를 부여하여 혼란변수의 영향을 최소화하는 방법입니다. 앞서 말씀드린 ATE 추정방법으로 모집단 전체를 사용하기 때문에 정보손실이 적은 것이 장점입니다.

처치군을 대상으로 하며, 처치군에는 1/ps 가중을 주고 대조군에는 1/(1-ps)의 가중을 주어 결측이었던 잠재적결과를 만듭니다. 이렇게 생성된 집단을 Pseudo-population(가상의 모집단)이라고 합니다.

아래 그림을 예로 보면 포유류이면서 하늘을 날 수 있는 확률(Propensity Score)이 1/6입니다. 처치군에 1/PS 가중을 주어 박쥐가 6마리가 됐습니다. 대조군도 역시 5/6 역수로 가중을 주어 혼종인 동물이 한 마리 생겨났습니다. 이처럼 IPTW는 가중을 주어 가상의 모집단을 생성하여 편향을 조절하는 방법입니다.

Icon made by Freepik from www.flaticon.com

그림 6) Inverse Probability of Treatment Weighting, 역확률가중치

그러나 성향점수는 0 < PS <1 구간을 가지므로 역수를 취했을 때 극한의 값을 가질 수 있는 문제가 있습니다. 이 때문에 가중치 10 이상의 값 또는 극단의 2.5%의 정도의 데이터를 제외하거나 Stabilized IPTW를 사용합니다.

Stabilized IPTW는 각 처치를 받을 확률을 곱해주어 모집단에서의 처치군과 대조군의 비율을 그대로 유지하면서 크거나 작은 가중치를 조정할 수 있습니다.

처치군의 가중치: P(Treatment=1) / PS
대조군의 가중치: P(Treatment=0) / (1-PS)

마치며

인과, 상관의 차이와 RWE 연구에서 인과추론 방법에 대해서 알아보았습니다. 

이 글을 읽으신 연구자분들께서 인과와 상관의 차이를 알고, 연구 목적에 따라서 다양한 보정방법을 적용하여 원하는 연구 결과를 얻으셨으면 좋겠습니다.

라인웍스는 건강보험심사평가원과 국민건강보험공단에서 제공하는 의료명세서 데이터를 이용한 의료통계분석 서비스 및 EMR 데이터 분석을 위한 분석 서비스를 제공하고 있습니다. 앞으로도 블로그를 통해서 다양한 의료통계분석방법을 공유하도록 하겠습니다.

감사합니다.

Reference

  1. Rosenbaum PR, Rubin DB. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika. 70:41–55.
  2. 이동규. (2016). Propensity score matching method 의 소개. Anesth Pain Med, 11(2), 130-148.
  3. Jessica M. Franklin, Wesley Eddings, Peter C. Comparing the performance of propensity score methods in healthcare database studies with rare outcomes. Stat Med. 2017 May 30;36(12):1946-1963. 
  4. Stürmer T, Rothman KJ, Glynn RJ. Insights into Different Results from Different Causal Contrasts in the Presence of Effect-Measure Modification. Pharmacoepidemiol Drug Saf. 2006 Oct; 15(10): 698–709.
  5. You SC., et al. Comparison of First-Line Dual Combination Treatments in Hypertension: Real-World Evidence from Multinational Heterogeneous Cohorts. Korean Circ J. 2020 Jan;50(1):52-68.
  6. Yuxi Tian, Martijn J. Schuemie, Marc A. Suchard. Evaluating large-scale propensity score performance through real-world and synthetic data experiments. International Journal of Epidemiology, 2018, 2005–2014.
  7. Elizabeth A. Stuart. Matching Methods for Causal Inference: A Review and a Look Forward. Statistical Science 2010, Vol. 25, No. 1, 1–21.
  8. 장현진, 민경석, 정혜경. (2019). 경향점수를 활용한 인과효과 추정 방법 비교: 대응, 가중, 층화, 이중경향점수 보정. , 22(2), 269-291.
  9. The ASA Biopharmaceutical Section Regulatory-Industry Statistics Workshop September 22, 2020: Causal Inference for Real-World Evidence. Hana Lee, Ph.D.