MDwalks(엠디웍스)는 헬스케어 비즈니스와 의료데이터 분석 서비스를 제공합니다.
라인웍스는 MDwalks를 다양하고 깊이 있는 의료데이터 분석 서비스로 발전시키기 위해 여러 가지 연구를 진행 중입니다. 최근에는 건강보험심사평가원에서 제공하는 의료명세서 데이터(Health Insurance Review & Assessment Service; 이하 HIRA 데이터)를 이용한 논문의 통계분석 방법론 동향 연구를 진행했습니다. 이 연구가 후향적 연구를 계획하고 있는 연구자에게 HIRA 데이터 활용의 길잡이가 될 것으로 기대합니다.
이번 글에서는 분석 진행 과정을 먼저 소개하고, HIRA 데이터 연구의 대표적인 분석 방법론을 3가지로 분류하여 소개하도록 하겠습니다.
이번 연구는 분석방법론 범주화와 군집화의 두 단계로 나누어 진행했습니다. 연구 대상이 된 HIRA 데이터 분석 논문은 총 82편입니다.
논문 리뷰를 통한 분석방법론 범주화
첫 단계에서는 약 두 달의 시간에 걸쳐 대상 논문 전체를 리뷰했습니다.
논문에서 사용된 모든 데이터 통계분석방법론을 검토한 결과 표 1)과 같이 19가지로 분석방법을 나눌 수 있었습니다.

검토한 결과를 살펴보면 HIRA 데이터 분석 논문 82편에서 대표적으로 사용한 분석방법은 사례보고였으며, 이 분석 방법은 대부분 논문에 사용되었습니다. 반면, 공분산 분석, Life table, Log-rank test, 진단능력평가, 의사결정나무과 같은 5가지 분석방법론은 82편의 논문에서 1번씩만 사용되었습니다.
통계분석방법론을 3가지로 군집화
두 번째 단계는 19가지 통계분석방법론을 Hierarchical clustering 알고리즘을 사용하여 군집화했습니다. 논문 82편의 군집화 과정에서 하나의 통계분석방법론만 사용한 논문은 제외하였고 남은 63편의 논문을 비슷한 것끼리 묶는 군집화를 진행하였습니다. 3~5개 군집으로 나누어 작업을 반복하였고, 군집 개수가 3개일 때 가장 설명하기 좋다고 판단하였습니다.

표 2)와 같이 논문 63편을 추세분석, 비교분석, 생존분석 3가지 군집으로 묶였습니다. 모든 군집에는 사례보고가 기본적으로 포함되었습니다.
각 군집에 대해 자세히 살펴보도록 하겠습니다.
- 군집 1: 사례보고 + 추세분석
- 논문 63편 중 29편이 군집 1에 속합니다.
- 통계적 모형을 사용하지 않고, 연도별 추세를 보는 연구가 대부분입니다.
- 군집 1 내 논문 29편은 아래와 같이 분류할 수 있습니다.
(1) 사례보고+추세
(2) 사례보고+시계열 분석(Joinpoint regression/Segmented linear regression)
(3) 사례보고+포아송 회귀분석
- 군집 2: 사례보고 + 비교분석(두 집단 혹은 세 집단, 연속형 혹은 범주형)
- 논문 63편 중 32편이 군집 2에 속합니다.사례보고와 함께 두 집단의 평균 혹은 빈도를 비교하는 경우가 많습니다.
- 군집 2 내 논문 32편은 아래와 같이 분류할 수 있습니다.
(1) 상관계수(두 변수의 관련성/연관성)
(2) 로지스틱 회귀분석(종속변수가 이분형 자료) - 연구 목적에 따라 추가 분석을 고려할 수 있습니니다.
- 군집 3: 사례보고 + 생존분석
- 논문 63편 중 2편이 군집 3에 속합니다
- 군집 3 내 논문 2편은 아래와 같이 분류할 수 있습니다.
(1) Cox’s proportional hazards model
(2) Kaplan-Meier method
맺음말
이번 연구를 통해 HIRA 데이터를 활용한 연구의 통계분석방법론 유형에 대해 파악할 수 있었습니다. HIRA 데이터 연구를 계획하고 계신 분들이 목적에 적합한 통계분석방법론을 찾아내는데 이 글이 도움되길 바랍니다.
긴 글 읽어주셔서 감사합니다.